top of page

21.09.2025: Escasez de datos útiles para IA y el refinamiento generativo

  • Foto del escritor: Jorge Alberto Hidalgo Toledo
    Jorge Alberto Hidalgo Toledo
  • 22 sept
  • 8 Min. de lectura
ree

Introducción

El día 21 de septiembre de 2025 nos revela con claridad una preocupación emergente que puede moldear tanto la arquitectura técnica de la inteligencia artificial como los discursos públicos en torno a la integridad informativa: la escasez creciente de datos útiles para entrenar modelos de lenguaje a gran escala, y la estrategia llamada Generative Data Refinement (GDR) propuesta por DeepMind/Google para mitigarla. Junto con esto, dos tendencias estrechamente ligadas cobran relevancia: la legislación cada vez más robusta contra los deepfakes y medios sintéticos, y el desplazamiento acelerado de consumo de noticias hacia video social, redes y creadores independientes. Las tres conmueven el terreno en que se construye tanto la credibilidad mediática como la práctica de la IA responsable.


Tendencia 1: Generative Data Refinement (GDR) como solución a la crisis de datos

Investigadores de Google DeepMind han identificado una “sequía” en la disponibilidad de datos textuales adecuados —datos que no estén contaminados por contenido tóxico, impreciso o que incurran en violaciones de privacidad— para entrenar modelos de lenguaje eficientes. Business Insider La propuesta de GDR consiste en usar modelos generativos ya entrenados para “refinar” —rewritten, purgar o adaptar— fragmentos de textos mixtos que contengan tanto material útil como material problemático, con la finalidad de preservar lo que sirve sin incurrir en los daños del material que tradicionalmente se desecha. Business Insider

Impacto social: esta tendencia redefine quién decide qué datos son “útiles” y con qué fines. Si los modelos de refinamiento no son transparentes, podrían reproducir sesgos o excluir voces ya marginalizadas. Desde lo antropológico, la creación de corpus limpios corre el riesgo de homogeneizar la diversidad lingüística, cultural o local, si el criterio de “calidad” está definido por estándares dominantes o globalizados.

Ético: la técnica plantea dilemas relacionados con consentimiento, anonimización, derechos de autor, preservación de diversidad cultural y lingüística, y la responsabilidad de corregir lo contaminado sin eliminar lo valioso. Si los datos de entrenamiento son depurados demasiado rígido, se pierde riqueza expresiva; si la depuración es laxa, se mantiene riesgo de toxicidad, desinformación o discriminación.

Cultural: puede exacerbar tensiones entre lo global y lo local, entre los idiomas mayoritarios y las lenguas minoritarias; entre lo que se considera “inadecuado” o “problemático” según normas externas vs. normas comunitarias. También puede dar lugar a modelos de lenguaje “más neutrales” en apariencia, pero golpeados por falta de matices locales.

Económico: empresas que dependen de modelos robustos de lenguaje necesitarán invertir en infraestructura para GDR —computacional, de almacenamiento, diseño de pipelines—; se abrirá demanda por servicios de refinamiento, curaduría de datos, auditorías de calidad y limpieza ética. Al mismo tiempo, quienes puedan adquirir grandes cantidades de datos limpios y económicos tendrán ventaja competitiva.

Político: el control de los datos vuelve a ganar centralidad. Los estados podrían legislar qué estándares de limpieza / refinamiento son aceptables. También surge la pregunta de la gobernanza global de estas prácticas y su transparencia: ¿quién define qué contenido es “tóxico” o “problemático”? ¿Qué mecanismos de participación ciudadana o supervisión requieren estos procesos?


Tendencia 2: Regulación creciente contra deepfakes, desinformación y contenido sintético nocivo

El espectro legal contra los medios sintéticos manipulados, los deepfakes, avanza con fuerza. Ejemplo concreto: Dinamarca proyecta convertir en ilegal la difusión de imágenes deepfake, con amplias implicaciones para la imagen, voz o rasgos personales de individuos, con excepciones para parodia. AP News Asimismo, en EE.UU. leyes como el Take It Down Act criminalizan el material pornográfico no consensuado generado por IA, obligan a plataformas a remover ese contenido en plazos cortos, y establecen sanciones civiles. The Washington Post+1

Impacto social: posiblemente refuerza los mecanismos de protección individual, particularmente para víctimas de abuso digital, sextorsión, o manipulación de imágenes. Pero también puede generar tensiones con libertad de expresión, creatividad paródica, sátira, etc.

Antropológico: estas leyes reflejan percepciones culturales diversas sobre la identidad, la imagen, el cuerpo; sobre qué se considera propio y qué propiedad de uno puede ser reproducida, alterada, manipulada. Se vuelve vital la comprensión comunitaria de “imagen consentida”, lo que varía significativamente entre culturas.

Ético: hay urgencia en proteger dignidad, consentimiento, evitar daño, pero también riesgo en leyes mal definidas que criminalicen creatividades legítimas, censuren sin revisar, o den autoridad desmedida a plataformas o autoridades. Precisamente, el equilibrio entre protección y libertad será clave.

Cultural: la narrativa pública sobre lo real, lo verosímil, lo creíble se vuelve más incierta; el público comienza a cuestionar más, a dudar de lo que ve. Cultura de desconfianza pero también de exigencia de fuentes verificadas. Las comunidades creativas pueden verse afectadas si no hay claridad normativa para contenido sintético artístico o satírico.

Económico: costos de cumplimiento para plataformas, necesidad de moderación intensiva, filtros, herramientas de detección; posibilidad de sanciones legales; mercado para tecnologías anti‑deepfake, verificación, auditoría, licenciamiento de contenido real vs. sintético; impactos negativos para quienes hagan mal uso, positivos para quienes garanticen integridad.

Político: legislaciones nacionales vs. derechos humanos; tensiones internacionales ante la circulación global del contenido deepfake; estados comenzarán a demandar responsabilidad a grandes plataformas; posible litigios internacionales; la regulación de IA sintética se vuelve tema de política pública importante.


Tendencia 3: Desplazamiento del consumo informativo hacia video social, redes e influenciadores, con emergentes riesgos de desinformación y polarización

El informe del Reuters Institute, recogido por el WEF, señala que más personas que nunca están accediendo a noticias mediante redes sociales y plataformas de video (incluyendo contenidos de creadores, vloggers, influenciadores), desplazando al modelo tradicional de TV, prensa escrita y portales informativos. World Economic Forum Este trecho creciente de consumo informativo a través de formatos sociales y audiovisuales plantea nuevos desafíos en credibilidad, profundidad, control editorial y polarización.

Impacto social: implica que públicos jóvenes están más expuestos a narrativas fragmentadas, breves, menos contextualizadas, y con menos filtros editoriales tradicionales. La viralidad se convierte en medida de éxito tanto como la veracidad, lo cual puede generar amplificación de errores, sesgos y propaganda.

Antropológico: cambia la forma de ver la noticia: no como relato estructurado, verificado, sino como cápsula visual, emocional, interpuesta por algoritmos; la autoridad informativa se reparte entre medios tradicionales, creadores independientes e, incluso, automatismos. Las prácticas de recepción se vuelven híbridas, fragmentadas, entre lo visual, lo auditivo, lo textual.

Ético: responsabilidad del creador, de la plataforma; transparencia sobre quién produce qué; obligación de filtros de veracidad; peligros de manipulación emocional sin contexto, clickbait, falsificación de contenido. También la necesidad de alfabetización mediática robusta para ciudades y audiencias.

Cultural: nuevas estéticas, formatos híbridos, formas visuales cortas, storytellers no convencionales; pero riesgo de pérdida de profundidad, de lentes analíticos complejos; se privilegia lo que capta atención acelerada por encima de lo que informa.

Económico: modelos publicitarios se reorientan hacia video social, influencers, micro‑creadores; presupuestos migran; medios tradicionales pierden cuotas de mercado; plataformas sociales crecen como intermediarios fundamentales para monetización de noticias; inversión en producción de video, herramientas móviles, edición accesible.

Político: control de la desinformación, regulación sobre responsabilidad de plataformas en contenido generado por usuarios e influenciadores; legislación sobre transparencia algorítmica; posibles incentivos o restricciones fiscales para productores locales; influencia de creadores en discursos políticos y electorales se hace mayor, con riesgos de polarización si no hay contrapesos.


Otras doce tendencias relevantes

  • Procesamiento y analítica en tiempo real para Big Data: las empresas demandan insights inmediatos ante eventos, crisis, necesidades de mercado. Relaciona con Tendencia 1 en que los modelos deben actualizarse y refinarse con datos actuales. Acceldata

  • Edge computing para procesamiento local de datos: para reducir latencia, mejorar privacidad y eficiencia. Conectado con tendencia de refinamiento de datos cerca de la fuente. Acceldata+1

  • Modelos Data‑as‑a‑Service (DaaS): suministro de datos como servicio, que provee datasets limpios, confiables, actualizados. Complemento directo del refinamiento generativo. Acceldata+1

  • Privacidad mejorada, cumplimiento regulatorio y gobernanza de datos: ante nuevas leyes deepfake, la GDPR y otros marcos, surge necesidad de gobernanza más firme. Relaciona con Tendencia 2 y 1. Acceldata+1

  • Estándares legales comparativos para detección de deepfakes: investigación técnica‑legal que analiza métodos de detección y estándares jurídicos en distintas jurisdicciones. ScienceDirect

  • Estudio del impacto de deepfakes en la confianza pública: como se observa en publicaciones recientes, deepfakes erosionan la línea entre verdad/ficción y la credibilidad de los medios. Relaciona con Tendencia 3 y 2. ResearchGate+1

  • Adopción acelerada de video‑social como espacio informativo principal: usuarios prefieren video en plataformas sociales para noticias, lo que obliga redefinición de narrativas. Relaciona con Tendencia 3. Deloitte Italia+1

  • Redes sociales como puentes de polarización e ilusión de verdad: el efecto de “illusory truth” en redes sociales, donde repetición, no veracidad, produce creencia. Relaciona con Tendencia 2 y 3. Taylor & Francis Online

  • Escasez de datos de entrenamiento limpios lleva a innovación técnica en sintética de datos: más uso de datos sintéticos o refinados, simulaciones, etc., como complemento cuando los datos reales “seguros” escasean. Relaciona con Tendencia 1. Business Insider+1

  • Impacto diferencial por regiones geográficas: países latinoamericanos, africanos, asiáticos enfrentan retos particulares — menos datos limpios, menor regulación anti‑deepfake, menor alfabetización mediática. Esto interacciona con todas las tendencias principales. World Economic Forum

  • Desarrollo de tecnologías y herramientas de detección de medios manipulados: algoritmos, software, estándares técnicos para detectar deepfakes, para verificar autenticidad de videos, voz, imagen. Relaciona con Tendencia 2 y con necesidad ética de veracidad. ScienceDirect

  • Incremento del análisis interdisciplinary en estudios de comunicación, psicología, sociología: investigaciones que combinan disciplinas para entender cómo deepfakes afectan confianza, emociones, política, cultura. Relaciona con todas las tendencias principales. ResearchGate+1


Análisis predictivo

A partir de estos patrones —la escasez de datos “limpios”, las leyes contra deepfakes, y el desplazamiento al consumo informativo vía video social/influencers— se perfilan varios escenarios con implicaciones claras para el mundo de la comunicación y el entretenimiento.

Corto plazo (3‑6 meses)

Se anticipa que proyectos de GDR u otras técnicas de refinamiento generativo se harán más comunes en laboratorios de IA, universidades y empresas de tecnología. No obstante, los estándares de transparencia serán exigidos: auditorías académicas, publicación de criterios de limpieza, participación de comunidades afectadas.

Los gobiernos legislarán con mayor rapidez sobre deepfakes no consensuados o dañinos, pero algunas leyes adolecerán de definiciones débiles, zonas grises respecto de parodia, sátira, protección artística. La presión de organizaciones de derechos digitales será clave para evitar abusos.

Las plataformas sociales incrementarán su moderación, detección automática de contenido sintético, verificación de usuarios generadores de contenidos, etiquetado obligatorio de contenido generado por IA. Se reforzarán mecanismos de fact‑checking e integración de señales de credibilidad en algoritmos de recomendación.

Medios tradicionales, especialmente prensa escrita y televisión, intensificarán su migración hacia formatos de video social, colaboración con influenciadores, producción de cápsulas visuales, uso de IA para optimizar distribución y captar micro‑audiencias.

Mediano plazo (6‑12 meses)

Podríamos ver la emergencia de organismos reguladores internacionales, o tratados multilatinos, que definan estándares mínimos para recopilación, limpieza y uso ético de datos para IA, definiciones de deepfake, contenido sintético, responsabilidad en plataformas.

Es probable que surjan ecosistemas de datos regionales con normas particulares: Latinoamérica exigirá reglas que consideren diversidad lingüística, contexto cultural, voces indígenas, para que GDR no resulte en marginación de expresiones minoritarias.

En entretenimiento, nuevas formas narrativas mixtas serán prominentes: contenidos generativos auditivo‑visuales donde el usuario pueda interactuar, verificar, reconstruir fuentes, distinguir la originalidad, con metadatos visibles, flags de contenido generado.

En economía de medios, escalas de credibilidad y certificaciones de autenticidad (sellos “verificado”, “no manipulado”) serán activos de marca. Medios confiables podrán cobrar un premium por dicho sello. Los modelos de suscripción podrían incluir transparencia sobre IA, datos, imagen, para atraer usuarios que valoran integridad.

En política, la polarización y la desconfianza podrían intensificarse si fallan los mecanismos de protección: deepfakes aplicados en campañas electorales, manipulación mediatizada en crisis, etc., exigirán contrapesos institucionales robustos.

Conclusión y llamado a la acción

La escasez de datos útiles para entrenar modelos de IA, cuando no se maneja con ética, transparencia y criterio cultural y social, puede generar una IA mediocre, sesgada y culturalmente homogénea. A su vez, los avances legales contra los deepfakes y el rol creciente de video social como fuente informativa muestran que la batalla por la verdad y la credibilidad tiene frentes múltiples: técnico, legal, cultural y ciudadano.

Como comunidad académica, profesional y ciudadana, debemos:

  • Demandar transparencia en las técnicas de refinamiento de datos;

  • Acompañar legislación clara que proteja la dignidad, la imagen y el consentimiento, sin sacrificar libertad expresiva;

  • Fortalecer alfabetización mediática como parte de la formación de ciudadanos críticos capaces de discernir entre lo sintético y lo verídico;

  • Exigir certificaciones, estándares y auditorías en plataformas, medios y tecnologías que definen narrativas colectivas.

Comentarios


bottom of page