Inteligencia artificial: ¿quiénes entrenan los algoritmos?
La capacidad para acumular datos digitales y la aplicación de tecnologías asociadas a la inteligencia artificial (IA) están logrando que los «dueños de Internet» conozcan de tal forma al consumidor que pueden transformar la recolección de datos en el vector central de su modelo de gestión. Esta acumulación, que permite la apropiación de la vida humana, requiere de la explotación de millones de trabajadores —la gran mayoría del sur global— dedicados a etiquetar datos sin procesar para que los sistemas de IA puedan reconocer patrones y hacer predicciones. Se trata de una nueva forma de colonialismo que ningún país que pretenda ser soberano puede aceptar.

El colonialismo de datos y la división internacional del trabajo son dos procesos interrelacionados que explican cómo la tecnología y los datos pueden ser utilizados para perpetuar desigualdades económicas y sociales de manera global. El colonialismo de datos se refiere a la apropiación y explotación de los datos personales, sociales, culturales y políticos mientras que la división internacional del trabajo describe la distribución de la producción global.
Estos dos procesos se refuerzan mutuamente, creando una dinámica de dependencia y explotación que afecta a los países del sur global. Para ello, combinan las prácticas extractivas depredadoras del colonialismo histórico con los métodos abstractos de cuantificación provenientes de la aplicación de modelos algorítmicos de inteligencia artificial (IA).
La escala y la celeridad de esta transformación tecnológica, asociada al desarrollo de la IA, obturan la visualización del capitalismo que está surgiendo a escala global. Así como el colonialismo histórico proporcionó las condiciones para el surgimiento del capitalismo industrial, podemos esperar que el colonialismo de datos y la IA proporcionen las condiciones para una nueva etapa del capitalismo, fundado en la apropiación de la vida humana mediante la gestión de los datos.
Nuevos empleos laborales de la IA
Como era de esperar, la realidad laboral de los especialistas y auxiliares en IA es un vector en crecimiento permanentemente. ¿Pero cómo es este crecimiento?
Desde 2019, las ofertas de trabajo para científicos de computación o ingenieros en IA se han multiplicado por seis en los países con políticas que sostienen y motorizan el desarrollo y la formación en disciplinas de matemáticas, ingeniería en software, IA y tecnología de alto rendimiento computacional. Este sector impacta en la industria para el desarrollo de productos y servicios globales basados en IA que luego son exportados a los países consumidores de estas ventajas tecnológicas.
Este contexto nos presenta una nueva división internacional del trabajo. Por un lado, los que producen con altas capacidades de conocimientos tecnológicos y formaciones profesional y, por el otro, la mano de obra menos calificada, pero determinante al momento de entrenar los algoritmos que dan vida a los productos o servicios de IA que se exportan.
Por supuesto, que estos tareas menos calificados crearán millones de puestos de trabajo a escala global, utilizando internet como «territorio» laboral configurando una «uberización laboral». Estos trabajos son imprescindibles para entrenar los modelos de IA que están representados mediante algoritmos en un lenguaje de programación que posibilita su explotación vía sistemas computacionales de alto rendimiento. ¿Cómo se benefician los países del sur global?
Los datos se han convertido en la materia prima esencial del proceso de «datificación» actual. Conforman el flujo constante y permanente en las infraestructuras de telecomunicaciones. Es decir, todos los datos que fluyen en redes como Internet o intranet o extranet son el elemento esencial para el entramiento de la IA.
Sucede que estos datos poseen formatos conocidos como estructurados y no estructurados. Para el proceso de entrenamiento de la IA es necesario un tratamiento previo de estos tipos de datos. Para el caso de los estructurados, el entrenamiento algorítmico es directo, se comienza evaluando la distribución probabilística de estos, se deriva en la estimación paramétrica y luego se aplican los métodos de IA que se pueden aplicar.
Para el caso de tipo de datos no estructurados, como audio, video, imagen y texto en general, lo que fluye en redes sociales, se debe realizar un trabajo que permita a este tipo de datos darle una estructura que los canalicen al proceso anterior (datos estructurados). A este trabajo se lo conoce con el nombre de etiquetados de datos para modelos de aprendizaje automático (machine learning).[1]Etiquetar se refiere a la práctica de utilizar la IA para añadir etiquetas o metadatos a contenido digital, como imágenes, videos, textos o audio, con el fin de mejorar la organización, búsqueda … Continue reading
El etiquetado es el factor laboral que demanda millones de trabajadores realizando sus tareas en plataformas de software y modalidades remotas. Es la tarea menos calificadas de la cadena de procesos de la IA; consisten en etiquetar los datos que van a entrenar el algoritmo. Este etiquetado es un resumen de los datos de entrenamiento que además puede estar guiado incluso por una IA generativa. Son como las solapas de los libros que no forman parte del contenido de la obra, pero la explican en pocas palabras.
El etiquetado se realiza a mano y otras veces de forma semiautomática. Pero la retroalimentación humana es siempre fundamental. Los etiquetados proporcionan a los modelos la información contextual que necesitan para establecer asociaciones estadísticas entre los componentes de una base de datos y su significado para los seres humanos. Los trabajos de etiquetado de datos no demandan ingenieros en IA ni especialistas en algoritmos.[2]Es posible que aquellos que realizaron pruebas de Captcha, como seleccionar fotos que contengan cruces de peatones, hayan ayudado gratuitamente a entrenar un modelo de IA para un coche autónomo.Un … Continue reading
Qué capacidades demanda el etiquetado de datos
El etiquetado de datos implica categorizar y etiquetar datos en los formatos citados anteriormente, esta tarea permite que los datos sean interpretables por algoritmos de aprendizaje automático. Este proceso es esencial para entrenar modelos de IA con precisión. Un trabajo en etiquetado de datos ofrece una puerta de entrada accesible a la industria tecnológica, con una mínima experiencia técnica previa.
Estos puestos laborales familiarizan a las personas en el manejo de datos y las exponen a los procesos iterativos (pasadas sucesivas) del entrenamiento de modelos de aprendizaje automático. Este trabajo es guiado por sistemas de etiquetado que disponen las corporaciones en plataformas de software a las cuales se conectan los etiquetadores para iterar el proceso de entrenamiento algorítmico.
Las organizaciones que desarrollan la IA reconocen cada vez más el valor de invertir en su fuerza laboral. Ofrecen programas de capacitación formal que abarcan conocimientos básicos de aprendizaje automático, ética de datos y pensamiento computacional, transformando un trabajo rutinario de etiquetado en una oportunidad de aprendizaje. Los programas de capacitación están diseñados para ayudar a los etiquetadores a mejorar sus habilidades técnicas, abarcando áreas como programación básica, preprocesamiento de datos e incluso análisis de datos introductorio. Estos programas suelen desarrollarse en colaboración con instituciones educativas y otorgan certificaciones. Este modelo corporativo asegura la dotación propia para montar la cadena de suministros en el ciclo de producción de la IA.
Con la capacitación adecuada, los etiquetadores de datos pueden ascender a roles como: analistas de control de calidad (supervisan la precisión del etiquetado de datos y garantizan que los datos introducidos en los sistemas de IA sean de alta calidad); analistas de datos (pasan de etiquetar datos a interpretarlos, proporcionando información que influye en las estrategias comerciales); instructores de IA (se especializan en ajustar los modelos de IA después del entrenamiento inicial, un rol fundamental a medida que los modelos evolucionan para manejar conjuntos de datos más complejos).
Desequilibrio social conocido
La mayor parte de la fuerza de trabajo es subcontratada en países como India, donde se estima que para 2030 el etiquetado creará un millón de empleos y que los ingresos generados alcanzarán los siete mil millones de dólares anuales. Las cifras son importantes porque todo el sector industrial de la informática de India, que responde a un modelo exportador de «mano de obra calificada con trabajo remoto» emplea a más de cinco millones de trabajadores y capitaliza u$s 254.000.000.000 anuales.
En abarrotado barrio de Metiabruz, ubicado en la periferia de la ciudad de Calcuta, se puede encontrar a 460 mujeres jóvenes trabajando en la industria de vanguardia de la IA. Las mujeres, en su mayoría de la comunidad musulmana local, están ayudando a entrenar los algoritmos de visión computarizada utilizados en los vehículos autónomos y sistemas de realidad aumentada, para compañías como Amazon, Microsoft, eBay y TripAdvisor. El centro, exclusivamente para mujeres, es una de las ocho oficinas en India operadas por iMerit, una compañía de etiquetado de datos con sede en India y EE. UU., cuyos 2200 empleados locales etiquetan los innumerables datos generados por industrias tan diversas como la manufactura, la imagenología médica, la conducción autónoma, el comercio minorista, el sector de seguros y la agricultura.
La operación es parte de una creciente industria de etiquetado de datos que emplea a cientos de miles de trabajadores en países de bajos ingresos, incluyendo Kenia, India y Filipinas. Compañías como Figure Eight y Mighty AI, y las empresas de tecnología informática (TI) más tradicionales como Accenture y Wipro, forman parte de la llamada «cadena de suministro de IA», que crea algoritmos capaces de interpretar material que incluye imágenes de conducción, resultados de búsqueda y fotografías para las principales multinacionales estadounidenses y europeas, incluyendo a Facebook, Volkswagen y Google.
En Estados Unidos, el salario de un etiquetador de datos es de diez a veinte dólares por hora, mientras que en un país del tercer mundo el salario oscila entre cuatro y ocho dólares por hora. No hay inteligencia artificial sin entrenadores y, a medida que la tecnología cambia rápidamente, los entrenadores también tienen que cambiar. Aunque la mano de obra se subcontrata en los países del tercer mundo, se trata de trabajo de nuevos obreros especializados que trabajan en línea conectados remotamente y en «horarios libres». Es posible utilizar algoritmos para aplicar etiquetas a los datos. Se llaman «datos sintéticos» que, a su vez, deben ser verificados por otro tipo de etiquetadores. Por ejemplo, a un trabajador le presentan las dos respuestas de un chatbot que recomienda un itinerario para un viaje de vacaciones al Machu Pichu. Debe seleccionar la respuesta que prefiera, marcarla, explicar el porqué la respuesta es correcta o incorrecta y luego reescribirla para mejorarla.
El desarrollo de la IA promete revolucionar económica, social y políticamente las sociedades de todo el mundo. Según cálculos de la consultora PwC, la IA podría generar más de quince billones de dólares para la economía global en 2030[3]u$s 15.700.000.000.000.. No obstante, y excluyendo a China, solo 1,7 de estos billones se originarían en el sur global.
El reto es que la transición a la nueva economía de la IA sea beneficiosa e inclusiva y que no se limite a amplificar las desigualdades ya existentes. Desigualdades que, en este caso, existen no solo entre el norte y el sur global, sino también entre los mismos países del sur.
Existe una correlación clara entre la capacidad computacional de los modelos y los costos de entrenamiento, por lo que es de prever que sea cada vez más difícil que cada país en forma aislada o sometido a un de concentración global desarrolle innovación en IA. Este modelo solo puede producir patrones de dependencia y de colonización de los datos.
Ante el riesgo de quedar a merced de políticas imperialistas, en 2023 muchos países han publicado sus estrategias nacionales de IA con vistas a establecer sus objetivos y prioridades y, también, incentivar marcos legislativos que puedan prevenir los efectos negativos de la IA. Así lo hicieron en 2017 Canadá, China, Finlandia. En 2018,Francia, Alemania, India, Mauricio, México y Suecia. En 2019,Argentina, Bangladesh, Chile, Colombia, Chipre, República Checa, Dinamarca, Egipto, Estonia, Japón, Lituania, Luxemburgo, Malta, Países Bajos, Portugal, Qatar, Rumanía, Rusia, Sierra Leona, Singapur, Eslovaquia, Emiratos Árabes Unidos, EEUU, Uruguay. En 2020 continuaronArgelia, Bulgaria, Croacia, Grecia, Hungría, Indonesia, Letonia, Corea del Sur, Noruega, Polonia, Arabia Saudí, Serbia, España, Suiza. En 2021 se sumaron Australia, Austria, Brasil, Hong Kong, Irlanda, Malasia, Perú, Filipinas, Eslovenia, Túnez, Turquía, Ucrania, Reino Unido, Vietnam. En 2022 hicieron lo propio Bélgica, Ghana, Irán, Italia, Jordania, Tailandia. Y en 2023, Azerbaiyán, Bahrein, Benín, República Dominicana, Etiopía, Irak, Israel, Rwanda.
Un riesgo cierto asociado a la IA es la profundización de la exclusión digital y el aumento de la desigualdad. La brecha entre los que tienen acceso a las tecnologías avanzadas y los que no puede aumentar en los próximos años, lo cual conducirá a una menor productividad, menor crecimiento económico y una mayor desigualdad social y económica.
Esto es especialmente preocupante en los países de renta baja y media que ya se enfrentan a déficits de talento digital y servicios relacionados. Una de las principales razones es la relativa dificultad de acceso a la infraestructura digital y la escasa alfabetización digital de amplias zonas del sur global.
Otra amenaza importante es la intensificación de los prejuicios y la discriminación. Los sistemas de IA desarrollados en Estados Unidos, China y la Unión Europea pueden perpetuar y amplificar los prejuicios, ya presentes en los datos utilizados para entrenar la IA. Puede dar lugar a resultados discriminatorios en ámbitos como la puntuación crediticia, la contratación de personal, las primas de seguros, la vigilancia policial y la justicia penal.
Los algoritmos siguen siendo en gran medida entrenados con conjuntos de datos proporcionados por colonizadores de datos. Como consecuencia, los trabajadores, estudiantes y empresarios de los países colonizados pueden verse excluidos de las oportunidades en el mercado laboral, los préstamos, las becas o los servicios sanitarios debido a los sesgos en los datos o los algoritmos. Este contexto, refuerza la discriminación estructural, incluidos los prejuicios raciales, de género y de clase social.
La excesiva dependencia de los actores del sur global de las tecnologías y los conocimientos extranjeros, además de la fuerte dependencia de las tecnologías e innovaciones de IA de EE. UU., China y Europa reducen los incentivos para el desarrollo tecnológicos nacionales y regionales. Estas dependencias degradan el poder de negociación, dar lugar a costos más elevados para la tecnología y disminuir el control sobre las normas.
La erosión de la soberanía de los datos es una realidad y la dependencia de proveedores extranjeros significa que los datos pueden ser más fácilmente accesibles, controlados, manipulados y explotados por actores externos. Esto, a su vez, puede aumentar vulnerabilidades como las violaciones de la privacidad y el robo de propiedad intelectual, además de reducir el control sobre infraestructuras tecnológicas críticas.
Es posible tomar medidas que posibiliten, en nuestra comunidad regional, alternativas a una dependencia acrítica y de sometimiento digital.
Formación y capacitación Frente a la automatización y la reducción de puestos de trabajo, se reconoce la necesidad urgente de invertir en educación y formación profesional. Los trabajadores actuales y futuros deben poseer las competencias adecuadas para el mercado laboral en evolución, ya sea el conocimiento del mundo digital y la ciencia de datos, o el desarrollo de habilidades interpersonales.
Expansión de infraestructuras y conexión En cuanto a las desigualdades digitales, los agentes públicos y privados tendrán que realizar una inversión significativa en infraestructura digital. Esto incluye ampliar el acceso a internet y a la banda ancha a los 2.600.000.000 de personas del sur global que aún no están conectadas, así como apoyar la creación y gestión de centros tecnológicos, especialmente en zonas desatendidas y promover y proteger iniciativas como Arsat en Argentina.
Transparencia algorítmica y protección de la privacidad Los prejuicios y la discriminación pueden reducirse estableciendo y aplicando directrices y normas éticas para el desarrollo y la aplicación de la IA. Abordar de forma integral las violaciones de la privacidad y la vigilancia requiere la creación y aplicación de leyes sólidas de protección de datos y privacidad para proteger la información personal.
Apoyo público y privado a la investigación e innovación Para reducir la dependencia excesiva de los proveedores de tecnología extranjeros es necesaria una gran inversión no sólo en investigación y desarrollo locales de IA, sino también en la formulación de políticas de IA. Una de las prioridades es ampliar las subvenciones y los incentivos para las aceleradoras, los startups y las instituciones de investigación locales.
Aunque es necesario abordar cuestiones estructurales como la legislación antimonopolio, urge aumentar la inversión y la innovación en IA e impulsar la gobernanza de la IA en el sur global. Para hacer frente a estos riesgos y ampliar la aplicación de soluciones, es esencial reducir la diferencia en la gobernanza de la IA entre el norte y el sur global. Esta diferencia se manifiesta no sólo en las capacidades tecnológicas y la infraestructura digital y energética subyacente, sino también en el acceso a los recursos, el talento e incluso la formulación de políticas.
Sería irresponsable desatender la memoria tecnológica argentina y concluir en forma fatalista que el camino hacia la dependencia que produce el colonialismo de datos y el desarrollo de la IA ya está determinado para Argentina y América Latina.
Esta opción resulta intolerable, sería indigno permanecer en silencio ante la memoria histórica de nuestro continente. Podemos afirmar que la integridad mínima del ser no puede ser simplemente delegada a sistemas automatizados, ya que el nuevo orden social en construcción a través de los datos y la concentración del desarrollo de la IA produce patrones de poder y desigualdad que corroen todas las prácticas significativas de la libertad que contradicen el sentido básico de la humanidad.
Alfredo Moreno
Computador Científico. Director de Sistemas de la Universidad Nacional de Avellaneda (Undav) y Profesor TIC en la Universidad Nacional de Moreno (UNM). Integrante de la Red de Pensamiento Latinoamericano en Ciencia, Tecnología y Sociedad (Placts).
VOCES

Agencias de información y soberanía
POR FERNANDO BUEN ABAD DOMÍNGUEZ | Hoy no es posible hablar de soberanía sin gozar de soberanía informativa. Recordemos que la información es un derecho, no una mercancía. Quien controla la información, controla las conciencias y decisiones cruciales.

El Eternauta en la era del algoritmo
POR MARIANO QUIROGA | El Eternauta, en esta nueva versión, es muchas cosas. Es entretenimiento, pero también es una declaración de principios en un mundo donde el principio de todo parece ser la ganancia. Es una forma de recuperar el relato en una época donde casi nadie lo tiene. Es un «tanque» argentino en la galaxia, no por lo que destruye, sino por lo que ilumina.

El arte de usar al papa para hacer antiperonismo
POR HUGO MULEIRO | La muerte del papa Francisco fue la excusa La Nación, Clarín e Infobae para insistir en el peronismo como «hecho maldito». También se esforzaron en minimizar el papelón de Milei de no llegar a la ceremonia en la Basílica de San Pedro.
INVESTIGACIONES

Desnudarse o fracasar: el algoritmo de Instagram presiona a los usuarios para que muestren su piel
POR NICOLAS KAYSER-BRIL Y OTROS | Una investigación realizada por la organización Algorithm Watch y la Red Europea de Periodismo de Datos revela que Instagram prioriza las fotos de hombres y mujeres con poca ropa, lo que moldea el comportamiento de los creadores de contenido y la visión del mundo de los europeos.

La narrativa rota del ascenso social: Un estudio sobre las expectativas de los jóvenes de barrios populares
POR ESFERA REDACCIÓN | Compartimos esta investigación publicada por el Centro de Investigación y Acción Social (CIAS) y Fundar que muestra un fuerte debilitamiento de la narrativa tradicional por la cual los padres creen que sus hijos alcanzarán, gracias al estudio y el trabajo, niveles socioeconómicos superiores a los propios.

El estilo Martín-Barbero
POR OMAR RINCÓN | En estos tiempos de comunicación excesiva, conviene hacer una pausa para rendir homenaje a quien nos enseñó a pensar de otra manera y a convertir la investigación en comunicación en un campo no sólo de teorías sino también de reconocimiento cultural, de prácticas que desencadenen procesos de identificación cultural.
EN LA RED

AI Mode de Google está cambiando la búsqueda en Internet
POR ROB TORNOE | Al integrar Gemini AI en su funcionalidad principal de búsqueda, Google ofrece a los usuarios la búsqueda tradicional y la conversación impulsada por IA. Este cambio podría transformar la manera de interactuar con los motores de búsqueda. ¿Estamos ante el fin del tráfico?

La mierdificación de Internet: ¿por qué hay tanta bazofia en la red?
POR VALENTÍUN MURO | Las máquinas no destruyeron nada, pero lo están llenando de ruido. Cada vez cuesta más encontrar señales humanas. ¿Hacia dónde vamos?

Los medios «independientes» eran los que financiaba la Usaid
POR PASCUAL SERRANO | La Agencia de Estados Unidos para el Desarrollo Internacional (Usaid) estaba concebida, básicamente, como una agencia de intervención y desestabilización de gobiernos y países que no eran del gusto de Estados Unidos.
Notas
| ↑1 | Etiquetar se refiere a la práctica de utilizar la IA para añadir etiquetas o metadatos a contenido digital, como imágenes, videos, textos o audio, con el fin de mejorar la organización, búsqueda y análisis de dicho contenido. Este proceso puede ser automático, utilizando algoritmos de IA entrenados para identificar patrones y características, o manual, donde las personas pueden usar la IA para sugerir etiquetas relevantes. |
|---|---|
| ↑2 | Es posible que aquellos que realizaron pruebas de Captcha, como seleccionar fotos que contengan cruces de peatones, hayan ayudado gratuitamente a entrenar un modelo de IA para un coche autónomo.Un Captcha (Completely Automated Public Turing test to tell Computers and Humans Apart) es una prueba que se utiliza para diferenciar entre humanos y robots en línea. Funciona solicitando al usuario que complete una tarea simple para demostrar que es humano. |
| ↑3 | u$s 15.700.000.000.000. |

