Varias empresas de inteligencia artificial están eludiendo un estándar web común utilizado por los editores para bloquear la extracción de su contenido

Varias empresas de inteligencia artificial están eludiendo un estándar web común utilizado por los editores para bloquear la extracción de su contenido para su uso en sistemas de IA generativa, según ha informado la startup de licencias de contenido TollBit a los editores.

Varias empresas de inteligencia artificial están eludiendo un estándar web común utilizado por los editores para bloquear la extracción de su contenido para su uso en sistemas de IA generativa.

Una carta a los editores se produce en medio de una disputa pública entre la startup de búsqueda de IA Perplexity y el medio de comunicación Forbes, involucrando el mismo estándar web y un debate más amplio entre las empresas tecnológicas y los medios sobre el valor del contenido en la era de la IA generativa.

El editor de medios de negocios acusó públicamente a Perplexity de plagiar sus historias investigativas en resúmenes generados por IA sin citar a Forbes ni pedir su permiso.

Una investigación de Wired, publicada esta semana, encontró que Perplexity probablemente estaba eludiendo los esfuerzos para bloquear su rastreador web a través del Protocolo de Exclusión de Robots, o “robots.txt”, un estándar ampliamente aceptado destinado a determinar qué partes de un sitio pueden ser rastreadas.

La News Media Alliance, un grupo comercial que representa a más de 2,200 editores con sede en Estados Unidos, expresó su preocupación por el impacto que podría tener en sus miembros ignorar las señales de “no rastrear”.

“Sin la capacidad de optar por no ser objeto de una extracción masiva, no podemos monetizar nuestro valioso contenido y pagar a los periodistas. Esto podría dañar seriamente a nuestra industria”, dijo Danielle Coffey, presidenta del grupo.

TollBit, una startup en etapa temprana, se está posicionando como un intermediario entre las empresas de IA hambrientas de contenido y los editores dispuestos a llegar a acuerdos de licencia con ellas.

La empresa rastrea el tráfico de IA a los sitios web de los editores y utiliza análisis para ayudar a ambas partes a acordar las tarifas a pagar por el uso de diferentes tipos de contenido.

Por ejemplo, los editores pueden optar por establecer tarifas más altas para “contenido premium, como las últimas noticias o conocimientos exclusivos”, dice la compañía en su sitio web.

Afirma que tenía 50 sitios web activos en mayo, aunque no los ha nombrado.

Según la carta de TollBit, Perplexity no es el único infractor que parece estar ignorando el robots.txt.

TollBit dijo que sus análisis indican que “numerosos” agentes de IA están eludiendo el protocolo, una herramienta estándar utilizada por los editores para indicar qué partes de su sitio pueden ser rastreadas.

“Lo que esto significa en términos prácticos es que los agentes de IA de múltiples fuentes (no solo de una empresa) están optando por eludir el protocolo robots.txt para recuperar contenido de los sitios”, escribió TollBit. “Cuantos más registros de editores ingiramos, más emerge este patrón”.

El protocolo robots.txt fue creado a mediados de la década de 1990 como una forma de evitar sobrecargar los sitios web con rastreadores web. Aunque no existe un mecanismo claro de aplicación legal, históricamente ha habido un cumplimiento generalizado en la web y algunos grupos, incluida la News Media Alliance, dicen que aún puede haber recursos legales para los editores.

Más recientemente, el robots.txt se ha convertido en una herramienta clave que los editores han utilizado para bloquear a las empresas tecnológicas de ingerir su contenido de forma gratuita para su uso en sistemas de IA generativa que pueden imitar la creatividad humana y resumir instantáneamente los artículos.

Las empresas de IA utilizan el contenido tanto para entrenar sus algoritmos como para generar resúmenes de información en tiempo real.

Algunos editores, incluido el New York Times, han demandado a las empresas de IA por infracción de derechos de autor por esos usos. Otros están firmando acuerdos de licencia con las empresas de IA dispuestas a pagar por el contenido, aunque las partes a menudo no están de acuerdo sobre el valor de los materiales. Muchos desarrolladores de IA argumentan que no han violado ninguna ley al acceder a ellos de forma gratuita.

Los editores han estado alertando sobre los resúmenes de noticias en particular desde que Google lanzó un producto el año pasado que utiliza IA para crear resúmenes en respuesta a algunas consultas de búsqueda.

Si los editores quieren evitar que su contenido sea utilizado por la IA de Google para ayudar a generar esos resúmenes, deben usar la misma herramienta que también evitaría que aparezcan en los resultados de búsqueda de Google, lo que los haría prácticamente invisibles en la web.

Colaboración: Grupo Auge | Reuters (Internacional).

Varias empresas de inteligencia artificial están eludiendo un estándar web común utilizado por los editores para bloquear la extracción de su contenido para su uso en sistemas de IA generativa, según ha informado la startup de licencias de contenido TollBit a los editores.

Noticias Relacionadas