Fig. 1: «imágenes de Hito Steyerl» encontradas en LAION-5B
¿Alguna vez ha sentido que las «alucinaciones» de las IAs son mas putaditas extractivistas que fantasmas en la máquina? Hito Steyerl, se lo confirma.
*Tomado de New Left Review
** Traducción Chat GPT 3.5
Por Hito Steyerl
Hace un tiempo, el escritor de ciencia ficción Ted Chiang describió las respuestas de ChatGPT como un «jpeg borroso de todo el texto en la web» o, en otras palabras, como una «imagen pobre» desde el punto de vista semántico. (1) Sin embargo, la respuesta borrosa generada por las redes de aprendizaje automático tiene una dimensión histórica adicional: las estadísticas. Las imágenes creadas por herramientas de aprendizaje automático son representaciones estadísticas en lugar de imágenes de objetos que existen realmente. Viran el enfoque de la indexicalidad fotográfica hacia la discriminación estocástica. Ya no hacen referencia a la factualidad, ni mucho menos a la verdad, sino a la probabilidad. El impacto de una repentina iluminación fotográfica es reemplazado por el arrastre de curvas de Bell, funciones de pérdida y colas largas, generadas por una implacable burocracia.
Estas representaciones son versiones promedio de un botín masivo en línea, capturado por redes de arrastre al estilo de los compuestos eugenésicos borrosos de Francis Galton, 8k, o motor Unreal. Como visualizaciones de datos, no requieren ninguna referencia indéxica a su objeto. No dependen del impacto real de los fotones en un sensor ni de la emulsión. Convergen en torno a la media, la mediana; mediocridad alucinada. Representan la norma al señalar el promedio. Reemplazan las semejanzas con las probabilidades. Pueden ser «imágenes pobres» en términos de resolución, pero en estilo y contenido son: imágenes promedio.
Un ejemplo de cómo un conjunto de fotografías tradicionales se convierte en representación estadística: el motor de búsqueda «¿He sido entrenado?» —una herramienta muy útil desarrollada por los artistas Mat Dryhurst y Holly Herndon— permite al usuario explorar el masivo conjunto de datos LAION-5B utilizado para entrenar Stable Diffusion, uno de los generadores de texto a imagen más populares de aprendizaje profundo. Estas imágenes mías (Fig. 1) aparecen dentro de estos datos de entrenamiento. ¿Qué hace Stable Diffusion con ellas? Pida al modelo que represente «una imagen de Hito Steyerl», y este es el resultado (Fig. 2):
Fig. 2: Stable Diffusion, «Imagen de Hito Steyerl»
Entonces, ¿cómo llegó Stable Diffusion de A a B? No es precisamente la comparación más halagadora de «antes y después», eso es seguro; no recomendaría el tratamiento. Parece bastante promedio, incluso denigrante; pero aquí está precisamente el punto. La pregunta es, ¿qué significa «promedio»? ¿Promedio respecto a quién? ¿Con cuál? Stable Diffusion representa este retrato de mí en un estado de rango de edad congelado, producido por procesos internos y desconocidos relacionados de manera arbitraria con los datos de entrenamiento. No es un algoritmo «de caja negra» el que tiene la culpa, ya que el código real de Stable Diffusion es conocido. En cambio, podríamos llamarlo un algoritmo «de caja blanca», o un filtro social. Esto es una aproximación de cómo la sociedad, a través de un filtro de basura promedio en Internet, me ve a mí. Todo lo que se necesita es eliminar el ruido de la realidad de mis fotos y extraer en su lugar la señal social; el resultado es una «imagen promedio», una representación de promedios correlacionados, o sea, diferentes matices de «promedio».
La palabra inglesa «mean» (2) tiene varios significados, todos los cuales se aplican aquí. «Mean» puede referirse a orígenes menores o humildes, a la norma, a lo tacaño o a la maldad. Está conectado con el significado como signo, con ideas de lo común, pero también con medios financieros o instrumentales. El término en sí es un compuesto que difumina y superpone capas aparentemente incompatibles de significado. Combina valores morales, estadísticos, financieros y estéticos, así como posiciones comunes y de clase baja en un entorno vagamente comprimido. Las imágenes promedio están lejos de ser alucinaciones aleatorias. Son productos previsibles del populismo de datos. Captan patrones sociales latentes que codifican significados conflictivos como coordenadas vectoriales. Visualizan actitudes sociales reales que alinean lo común con el estatus de clase baja, la mediocridad y el comportamiento desagradable. Son imágenes residuales, grabadas en pantallas y retinas mucho después de que se haya borrado su origen. Realizan un psicoanálisis sin psiquis ni análisis para una era de automatización en la que la producción se ve aumentada por la fabricación a gran escala. Las imágenes promedio son sueños sociales sin dormir, procesando las funciones irracionales de la sociedad hasta sus conclusiones lógicas. Son expresiones documentales de las opiniones de la sociedad sobre sí misma, capturadas a través de la captura caótica y el secuestro a gran escala de datos. Y dependen de vastas infraestructuras de hardware contaminante y de trabajadores menores y marginados, explotando el conflicto político como recurso.
El problema de Jano
Cuando se probó una herramienta de texto a 3D llamada Dreamfusion en otoño de 2022, los usuarios comenzaron a notar una falla interesante. Los modelos 3D generados por el aprendizaje automático A menudo tenían múltiples caras, apuntando en direcciones diferentes (Fig. 3). Este problema se llamó el problema de Jano. (3) ¿Cuál fue su causa? Una posible respuesta es que hay un énfasis excesivo en las caras en el reconocimiento de imágenes y el análisis de aprendizaje automático; los datos de entrenamiento tienen relativamente más caras que otras partes del cuerpo. Las dos caras de Jano, el dios romano de los comienzos y los finales, miran hacia el pasado y hacia el futuro; también es el dios de la guerra y la paz, de la transición de un estado social a otro. El problema de Jano del aprendizaje automático aborda un tema crucial: la relación entre individuo y multitud. ¿Cómo retratar a la multitud como uno solo? O, por el contrario, al uno como multitud, como colectivo, grupo, clase, o Leviatán? ¿Cuál es la relación entre el individuo y el grupo, entre los intereses privados y comunes (y la propiedad), especialmente en una era en la que los renders estadísticos son composiciones promediadas de grupos?
Figura 3: Modelo 3D generado por aprendizaje automático de una ardilla con tres caras.
Semejanzas
Aquí (Fig. 4) hay otro compuesto estadístico en el que mi rostro está involucrado:
Fig. 4: Ejemplos y composiciones de la base de datos de Racial Faces in the Wild.
El difuso género «racial» de los fantasmas en la derecha podría ser llamado una foto de grupo vertical, en la que las personas no están ubicadas una al lado de la otra, sino una encima de la otra. ¿Cómo llegaron a existir?
En 2016, mi nombre apareció en un compendio llamado MS-Celeb-1M, una base de datos de Microsoft compuesta por 10 millones de imágenes de 100,000 personas que se encontraban en internet. La información fue liberada por los artistas Adam Harvey y Jules Laplace como parte de su proyecto de investigación de bases de datos, Megapixels.(4)
Si tu nombre aparecía en esta lista, Microsoft alentaba a los investigadores a descargar fotos de tu rostro de internet para construir un perfil biométrico. Me había convertido en parte de un conjunto de datos de entrenamiento temprano para algoritmos de reconocimiento facial. Pero, ¿para qué se usaba y por quién?
Resultó que MS-Celeb-1M era de interés para varios grupos e instituciones. Se utilizó, por ejemplo, para optimizar la clasificación racial por parte de los desarrolladores de otro conjunto de datos, Racial Faces in the Wild. Ellos lamentaron el hecho de que la tecnología de reconocimiento facial no funcionara bien en personas no blancas. Así que se propusieron «solucionar» este problema. Subieron imágenes del conjunto de datos MS-Celeb-1M a la interfaz de reconocimiento Face++ y utilizaron las puntuaciones raciales inferidas para segregar a las personas en cuatro grupos: caucásicos, asiáticos, indios y africanos. La razón explícita era reducir el sesgo en el software de reconocimiento facial y diversificar los datos de entrenamiento. (5) Los resultados fueron apariciones fantasmales de fenotipos racializados, o una idea cuasi-platónica de la discriminación en sí misma.
Si estas representaciones fantasmales evocan las famosas photographic composites creadas por Francis Galton en la década de 1880, no es coincidencia. Galton, pionero en ciencias sociales, estadístico y eugenista, desarrolló un método de superposición fotográfica para crear retratos de los llamados «tipos», como «judíos», «tuberculosos» y «delincuentes».(6) Los eugenistas eran partidarios de la «mejora racial» y la «crianza planificada», algunos de ellos abogaban por métodos como la esterilización, la segregación e incluso la exterminación total para eliminar de la sociedad a los tipos que consideraban «no aptos». A menudo, los fantasmas resultaban ser fotos de fichas de personas que se suponía que debían desaparecer.
Mucho se ha escrito sobre los antecedentes eugenésicos de los pioneros de la estadística, por ejemplo Ronald Fisher. Pero la estadística como ciencia ha evolucionado desde entonces.(7) Como explica Justin Joque, a lo largo del siglo XX, los métodos estadísticos se perfeccionaron para incluir mecanismos y parámetros basados en el mercado, como contratos, costos y posibilidades, y para registrar los riesgos económicos de resultados falsos positivos o falsos negativos. El resultado fue la integración de las matemáticas de un casino bien calibrado en la ciencia estadística.(8) Utilizando datos, los métodos bayesianos podían invertir el procedimiento de Fisher de probar o refutar una hipótesis nula. El nuevo enfoque funcionaba de manera inversa: partir de los datos y de calcular la probabilidad de una hipótesis. Una respuesta dada puede ser revertida para coincidir con la pregunta correspondiente más probable. Con el tiempo, los métodos para el cálculo de la probabilidad se han optimizado para la rentabilidad, agregando mecanismos de mercado a los de selección.
Las renderizaciones estadísticas agregan un efecto visual cuasi-mágico a este procedimiento. A medida que las categorías parecen emerger de los propios datos, adquieren la autoridad de una manifestación o aparición inmediata. Los datos ya no se presentan a través de los medios tradicionales de gráficos, agrupaciones, curvas, diagramas u otras abstracciones científicas. En su lugar, se visualizan con la forma de la cosa de la que se supone que se abstraen.
Evitan la mediación para hacer gestos hacia una falsa inmanencia. Los procesos de abstracción y alienación son reemplazados por confusos procesos de retropropagación, o más simplemente: filtros sociales. Si Joque recurre al concepto de abstracción real de Sohn-Rethel para describir modos estadísticos de representación, las «imágenes promedio» podrían describirse como «abstracciones autenticistas».(9) Esta paradoja refleja una incoherencia fundamental en el corazón de este modo de representación. A pesar de que esas representaciones se basan en promedios correlacionados, convergen hacia valores extremos e inalcanzables, como los ideales de cuerpo anoréxico. Se prescribe un resultado poco realista y probablemente insostenible como norma; un modo de condicionamiento social humano que precede por mucho al aprendizaje automático.
En las «imágenes promedio», las estadísticas se integran directamente en la semejanza de un objeto, a través de determinaciones de similitud. Si Galton realizó este truco para los rostros, las representaciones estadísticas expanden aún más su método al ámbito de las acciones, relaciones y objetos; el mundo en general. La aparentemente espontánea aparición de estas distribuciones oculta las operaciones dentro de las «capas ocultas» de las redes neuronales que hacen que las relaciones sociales existentes converjan hacia un «óptimo» altamente ideológico a través de todo tipo de pesos y parámetros relacionados con el mercado. Los mercados ya eran vistos como computadoras hipereficientes por von Mises y Hayek. De hecho, dentro de las mitologías económicas liberales, los mercados desempeñan el papel de inteligencias generales artificiales, o AGI: estructuras superiores y supuestamente omniscientes que no deben ser perturbadas ni reguladas. Por lo tanto, se considera que las redes neuronales imitan una lógica de mercado, en la que la realidad está permanentemente en subasta.
Esta integración de estadísticas es evidente en el caso de los modelos 3D de Dreamfusion. La analogía estadística más común es la famosa moneda que, si se lanza, tiene un 50 por ciento de probabilidad de caer en cara o cruz, si es justa y pareja. Pero en el problema de Janus, la probabilidad de encontrar una cara en lugar de una cruz es mucho mayor que el 50 por ciento. De hecho, puede que no haya cruces en absoluto. Los desarrolladores señalan el problema básico de obtener representaciones 3D a partir de imágenes 2D. Además, como se mencionó anteriormente, los datos pueden estar sesgados, el algoritmo podría ser defectuoso o estar omitiendo algo, o el experimento en sí y las herramientas utilizadas para ello, ni son justas ni parejas. Sea cual sea la razón, Dreamfusion ha creado su propia variante de la teoría de la probabilidad: en lugar de caras o cruces, la probabilidad es de caras y caras.
¿Cómo aplica esto a los compuestos de Racial Faces in the Wild con múltiples cabezas con los que terminé involucrada? En la lógica liberal de la extracción digital, la explotación y la desigualdad no se cuestionan; en el mejor de los casos, se diversifican. En esta línea, los autores de Racial Faces in the Wild intentaron reducir el sesgo racial en el software de reconocimiento facial. Los resultados se empaquetaron para identificar de manera más precisa a las minorías mediante algoritmos de visión artificial. Los departamentos de policía han estado esperando y deseando que el reconocimiento facial se optimice para los rostros no caucásicos. Esto es exactamente lo que parece haber sucedido con la investigación generada a partir de MS-Celeb-1M.
Una empresa llamada SenseTime también se sumó.(10) SenseTime es una empresa de inteligencia artificial que, hasta abril de 2019, proporcionaba software de vigilancia a las autoridades chinas que se utilizaba para monitorear y rastrear a los uigures; se había señalado en varias ocasiones su posible vínculo con violaciones de derechos humanos. (11) Parece que la combinación de mi nombre y mi rostro no solo se utilizó para optimizar la visión artificial para la clasificación racial, sino que esta optimización se puso rápidamente en práctica para identificar y rastrear miembros de una minoría étnica en China. El simple hecho de mi existencia en Internet fue suficiente para convertir mi rostro en una herramienta de discriminación literal empleada por una autocracia digital realmente existente. A estas alturas, es probable que la mayoría de los rostros que han aparecido en Internet hayan sido incluidos en tales operaciones.
Notas
1.- Ted Chiang, «Chatgpt is a Blurry jpeg of the Web», New Yorker, 9 February 2023.
2.- El título original del artículo es «Mean Images» [G.V.]
3.- El problema de Jano fue identificado inicialmente por Ben Poole, un científico investigador en el laboratorio experimental Google Brain, y publicado en su cuenta de Twitter.
4.- Véase Exposing.ai. Una pequeña muestra de los nombres en la lista incluye a Ai Weiwei, Aram Bartholl, Astra Taylor, Bruce Schneier, Cory Doctorow, danah boyd, Edward Felten, Evgeny Morozov, Glenn Greenwald, James Risen, Jeremy Scahill, Jill Magid, Jillian York, Jonathan Zitrain, Julie Brill, Kim Zetter, Laura Poitras, Luke DuBois, Michael Anti, Manal al-Sharif, Shoshanna Zuboff, Trevor Paglen y yo. Como escriben Harvey y Laplace, la definición de «celebridad» de Microsoft se extendió a periodistas, activistas y artistas, muchos de los cuales son «críticos vehementes de la misma tecnología que Microsoft está utilizando para construir su nombre e información biométrica».
5.- Mei Wang, Weihong Deng, Jiani Hu, Xunqiang Tao, Yaohai Huang, «Racial Faces in the Wild: Reducing Racial Bias by Information Maximization Adaptation Network», documento de investigación de Computer Vision Foundation, 2019.
6.- Véase también el texto seminal de Allan Sekula sobre los compites de Galton, «The Body and the Archive», October, vol. 39, Invierno 1986, p. 19.
7.- Wendy Hui Kyun Chun, «Datos discriminatorios: correlación, vecindarios y la nueva política del reconocimiento» [Discriminating Data: Correlation, Neighbourhoods, and the New Politics of Recognition], Boston, MA 2021, p. 59; Lila Lee-Morrison, «Francis Galton y el Retrato Compuesto», en Retratos del Reconocimiento Facial Automatizado, Bielefeld 2019, pp. 85–100. Ronald Fisher, figura fundadora en estadísticas, argumentó en «La Teoría Genética de la Selección Natural» [The Genetical Theory of Natural Selection] (1930), que las civilizaciones estaban en riesgo porque las personas de «bajo valor genético» eran más fértiles que las personas con supuesto «alto valor genético» y recomendó poner límites a la fertilidad de las clases bajas. Fisher creó la conocida base de datos Iris, publicando los resultados en el Anuario de Eugenesia en 1936, para demostrar que se puede discriminar entre diferentes especies de flores de iris utilizando medidas superficiales. Las flores de Fisher eran representaciones de una idea más siniestra: si se podía discriminar entre diferentes especies de flores a partir de medidas superficiales, también se podría demostrar la existencia de diferentes razas midiendo cráneos. El conjunto de datos Iris todavía se enseña a los estudiantes de informática como un ejemplo fundamental.
8.- El método Neyman-Pearson, por ejemplo, fomenta la construcción de dos hipótesis entre las cuales una prueba estadística puede seleccionar, dependiendo de las circunstancias del experimento. Como un casino rentable, «si los costos y el riesgo se calculan adecuadamente, la casa está destinada a perder algunas manos, pero con el tiempo ganará en última instancia más». Justin Joque, «Matemáticas Revolucionarias: Inteligencia Artificial, Estadísticas y la Lógica del Capitalismo» [Revolutionary Mathematics: Artificial Intelligence, Statistics and the Logic of Capitalism], Londres y Nueva York 2022, pp. 124–5.
9.- Joque, Matemáticas Revolucionarias, p. 179.
10.- Véase, Megapixels, más arriba.
11.- Anna Swanson y Paul Mozur, «US Blacklists 28 Chinese Entities over Abuses in Xinjiang», New York Times, 17 de octubre 2019.