¡Última hora! Usuarios estadounidenses de internet descubren que «sus» datos no son sus datos:
*Tomado de ArtNews
** Traducción: Chat GPT3
Por Shanti Escalante-De Mattei
Según la denuncia, presentada este martes, se ha presentado una demanda colectiva contra Google, su empresa matriz Alphabet y su división de inteligencia artificial Google DeepMind por «robar secretamente todo lo creado y compartido en internet por cientos de millones de estadounidenses». La demanda colectiva se presentó en el Tribunal de Distrito Distrito Norte de California por el despacho de abogados Clarkson Law en nombre de ocho demandantes anónimos de todo Estados Unidos. Uno de ellos es un autor de bestsellers del New York Times, cuyo trabajo se utilizó para entrenar al chatbot con IA de Google llamado Bard; otro es un actor que publica material educativo en línea y cree que su trabajo se utilizó para entrenar productos de Google que eventualmente lo volverán obsoleto. Dos de los demandantes son menores de edad (6 y 13 años), cuyos tutores están preocupados de que su actividad en línea esté siendo rastreada y recolectada por Google, también con fines de entrenamiento.
La demanda fue desencadenada por una actualización que Google introdujo silenciosamente a su política de privacidad la semana pasada. En ella dejaba en claro que la empresa estaría recolectando datos de acceso público para «crear productos y funciones» como Bard. Esto incluiría próximos modelos de IA que Google está desarrollando, como Imagen, una IA generativa de texto a imagen (similar a Midjourney); MusicLM, una IA de texto a música (como Midjourney pero para música); y Duet AI, un programa de IA incrustado en las aplicaciones de Google Workspace para «ayudar» en la redacción de correos electrónicos, la preparación de presentaciones de diapositivas y la organización de reuniones.
Según la denuncia, los demandantes interpretaron esta actualización como una admisión tácita de que Google había estado utilizando estos datos todo el tiempo con fines de entrenamiento de IA. «Toda la información robada pertenecía a personas reales que la compartieron en línea con propósitos específicos, ninguno de los cuales era entrenar grandes modelos de lenguaje para beneficiar a Google mientras pone al mundo en peligro con productos de IA no probados y volátiles», dijo Timothy K. Giordano, socio de Clarkson Law, en un comunicado a ARTnews. «El término “disponible públicamente” nunca ha significado “gratuito para ser utilizado con cualquier propósito”».
Además, la denuncia explica que todo esto está sucediendo en el contexto de los empleados de Google, tanto antiguos como actuales, que han estado advirtiendo sobre los peligros de la tecnología de IA y las preocupaciones sobre lo rápido que se está desarrollando. Por otra parte, la Comisión Federal de Comercio está comenzando a advertir a las empresas sobre la recopilación de datos web, que es lo que desencadenó las nuevas políticas de privacidad de Google, según la denuncia.
«Hemos dejado claro durante años que utilizamos datos de fuentes públicas, como información publicada en la web abierta y conjuntos de datos públicos, para entrenar los modelos de IA detrás de servicios como Google Translate, de manera responsable y de acuerdo con nuestros Principios de IA», dijo Halimah DeLaine Prado, asesora general de Google, en un comunicado por correo electrónico. «La ley estadounidense respalda el uso de información pública para crear nuevos usos beneficiosos, y esperamos refutar estas acusaciones infundadas».
Mientras tanto, empresas como Twitter reaccionaron a la noticia de la nueva política de privacidad de Google cambiando sus estándares de lo que consideran «disponible públicamente», limitando la cantidad de publicaciones que los usuarios de Twitter pueden leer al día en un esfuerzo por frenar la recopilación de datos, según informó Reuters a principios de este mes. Es posible que otros sitios web sigan el ejemplo para proteger los datos y el contenido de sus usuarios, cuya información podría utilizarse para el desarrollo de productos.
Esta demanda colectiva difiere de las muchas otras presentadas contra empresas como OpenAI y Meta, que tienden a centrarse en violaciones de derechos de autor. Ya sean artistas, programadores o autores, como la actriz y escritora de memorias Sarah Silverman, estos casos se han centrado en el robo de propiedad intelectual de materiales protegidos como obras creativas y científicas originales. Sin embargo, este caso ha tomado un rumbo diferente, utilizando una variedad de cargos para argumentar que la recopilación de datos web de «todo», desde datos de actividad de usuarios hasta obras de arte originales y contenido con acceso restringido, no debería ser posible.
La denuncia alega violaciones a la Ley de Competencia Desleal de California, negligencia, invasión de la privacidad según la Constitución de California, enriquecimiento injusto, violaciones directas e indirectas de derechos de autor, y otros cargos.
Los cargos no mencionan directamente las leyes sobre recopilación de datos web, ya que prácticamente no existen en Estados Unidos. De manera similar, hay muy poca regulación sobre el tipo de datos que se les permite a las empresas recopilar al desarrollar investigaciones o productos, incluso después de escándalos como el de Cambridge Analytica, que reveló cómo una firma consultora política pudo acceder a los datos de 87 millones de usuarios de Facebook bajo la apariencia de llevar a cabo investigaciones, mientras utilizaba esos datos para influir en las elecciones presidenciales de Estados Unidos de 2016 y en otras en todo el mundo.
Estados como California tienen algunas regulaciones de «minimización de datos» para desalentar la recopilación de datos personales, pero la línea entre lo privado y lo público en internet ha sido borrosa durante mucho tiempo, lo que permite a las empresas actuar en sus actividades de recopilación de datos. A diferencia de Europa y el Reino Unido, Estados Unidos aún no ha producido regulaciones específicas sobre qué tipo de datos pueden ser utilizados en investigaciones de IA.
Algunos académicos creen que centrarse en los derechos de autor al abordar los fenómenos gemelos de la recopilación de datos web y el desarrollo de IA es una estrategia equivocada. Argumentan que estos problemas deberían ser vistos desde una perspectiva de gobernanza de datos.
«La norma ha sido que la recopilación de datos web es aceptable y que debería haber una presunción de uso legítimo cuando se trata de TDM (minería de texto y datos), porque no permitirlo obstaculizaría la innovación», dijo Mehtab Khan, investigador residente en el Proyecto de la Sociedad de la Información en la Facultad de Derecho de Yale. Khan se refiere a las cláusulas de uso legítimo en la ley de derechos de autor que permiten a las personas (y por extensión a las empresas) utilizar material protegido y original en casos específicos, ya que el uso legítimo protege el derecho de aprender de obras preexistentes. Si bien el uso legítimo tiende a proteger a profesores, estudiantes y artistas, Khan cree que, en ausencia de regulaciones claras sobre la recopilación de datos web, la suposición de las empresas es que, siempre y cuando estén investigando y desarrollando tecnologías, tienen prácticamente carta blanca para acceder a datos «públicos» o cualquier cosa que se publique en línea.