Meta en el punto de mira: la acusan de usar contenido pirateado para su inteligencia artificial

Una de las principales preocupaciones que giran en torno al entrenamiento de inteligencia artificial es la utilización de material con derechos de autor. Son muchas las empresas del sector que se sospecha que emplean obras literarias, vídeos, canciones, dibujos o fotos sin el consentimiento de los propietarios. Meta fue una de las primeras demandadas por […] The post Meta en el punto de mira: la acusan de usar contenido pirateado para su inteligencia artificial appeared first on ADSLZone.

Jan 14, 2025 - 18:31
 0
Meta en el punto de mira: la acusan de usar contenido pirateado para su inteligencia artificial

Una de las principales preocupaciones que giran en torno al entrenamiento de inteligencia artificial es la utilización de material con derechos de autor. Son muchas las empresas del sector que se sospecha que emplean obras literarias, vídeos, canciones, dibujos o fotos sin el consentimiento de los propietarios. Meta fue una de las primeras demandadas por usar contenido de ese tipo en su IA. Ahora, la acusan de piratear torrents para entrenar a su modelo de lenguaje grande (LLM) Llama.

Desde hace ya unos cuantos años, sobre todo tras la llegada de ChatGPT en 2022, la IA se ha convertido en una de las tendencias tecnológicas estrella. Muchas empresas del sector se han sumado a desarrollar y entrenar sus propios modelos y Meta no iba a ser menos. La compañía de Mark Zuckerberg es una de las mejor posicionadas en el mercado y eso no la aleja de las polémicas. En 2023, los novelistas Richard Kadrey y Christopher Golden, y la comediante Sarah Silverman, la demandaron por utilizar contenido con derechos de autor sin autorización para enseñar a su IA Llama.

En el caso, conocido como ‘Kadrey et al. v. Meta Platforms’, la firma había estado entregando documentos con información censurada al tribunal. Sin embargo, el juez Vince Chhabria, del Tribunal de Distrito Norte de California (EEUU), exigió que mostrasen los archivos originales. De este modo, se han hecho públicas conversaciones sobre Meta AI y Llama del equipo. En ellas, hemos podido leer a un ingeniero señalar que «no se siente bien descargar torrents desde un portátil corporativo». Estas palabras confirman que Meta usó contenido pirateado para entrenar a su IA.

ordenador portátil PC

Lo que las conversaciones de Meta han desvelado sobre Llama

De los documentos originales que Meta se ha visto obligada a compartir en el caso ‘Kadrey et al. v. Meta Platforms’, se ha evidenciado que Mark Zuckerberg sabía que estaban descargando contenido de torrents en todo momento. De hecho, otra conversación indica que un tal «MZ» (que son las siglas del empresario) había autorizado el uso de ese tipo de material.

Por lo que se ha dado a conocer en las conversaciones, Meta empleó principalmente el contenido de Library Genesis (LibGen). La plataforma es una biblioteca con un amplio catálogo de libros, revistas y artículos académicos piratas. La página web fue fundada en 2008 en Rusia y ha sido acusada en múltiples ocasiones por incumplir los derechos de autor. Sin embargo, no se conoce quién está detrás de LibGen y la compañía de Mark Zuckerberg la aprovechó para entrenar a su IA.

Además de LibGen, también se menciona la utilización de materiales sacados de otras «bibliotecas paralelas» para el entrenamiento de Llama, aunque se desconoce cuáles fueron. Meta se ha defendido, asegurando que en ningún momento hicieron nada ilegal, sino que hacían un «uso justo» del contenido.

Según han contado, los torrents que sacaron eran materiales públicos bajo la doctrina legal del «uso justo». Es decir, era contenido protegido por derechos de autor, pero que se podía utilizar sin permiso en determinadas circunstancias. La empresa ha señalado que usaban el texto «para modelar estadísticamente el lenguaje y generar una expresión original». Dicho de otro modo: no lo emplean para que la IA aprenda y se inspire en las historias que se cuentan, sino para entrenarla a escribir bien. Por lo tanto, entraría dentro de ese «uso justo» del que hablan.

Antes de que las conversaciones se hiciesen públicas sin censura, Meta ya había revelado en un artículo de investigación que habían entrenado a Llama con partes de Books3. En este caso, la plataforma cuenta con un conjunto de datos de aproximadamente 196.000 libros extraídos de Internet. No obstante, no habían reconocido que hubiesen obtenido material de LibGen hasta que se desveló en los documentos del juicio.

meta logo mark zuckerberg

The post Meta en el punto de mira: la acusan de usar contenido pirateado para su inteligencia artificial appeared first on ADSLZone.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow