Datos sintéticos fiables: clave para la IA en cáncer y enfermedades raras

Dos estudios liderados por la Universidad Politécnica de Madrid (UPM) demuestran cómo es posible generar datos sintéticos fiables en situaciones donde los datos reales son escasos, lo que tiene aplicaciones directas en la investigación oncológica y el análisis de enfermedades raras.

El desafío de los datos en medicina

Según explica la UPM, la inteligencia artificial (IA) requiere grandes volúmenes de datos para aprender. Sin embargo, en el ámbito médico, los datos suelen ser limitados, heterogéneos y difíciles de compartir debido a restricciones éticas, legales y de privacidad. Este problema es especialmente crítico en áreas como el cáncer, las enfermedades raras o los estudios de supervivencia, donde reunir amplias colecciones de pacientes no siempre es viable.

En este contexto, un equipo de la UPM ha desarrollado dos trabajos complementarios para mejorar la generación de datos sintéticos, es decir, registros artificiales que replican los patrones estadísticos de los datos reales sin copiar información de pacientes concretos.

—

Banner ancho de Pickt — app de listas de compras colaborativas para Telegram

Más allá de la utilidad: la similitud importa

Los autores destacan una idea clave para el futuro de la IA médica: no basta con verificar si los datos sintéticos sirven para entrenar un modelo en una tarea específica, sino que también es necesario medir cuán similares son a los datos originales y si conservan las relaciones complejas entre variables. Por ello, ambos estudios insisten en la necesidad de combinar métricas de utilidad con métricas de similitud, lo que permite validar de manera más robusta la calidad real del dato sintético.

Metodología innovadora con pocos ejemplos

El primer estudio, publicado en la revista Neurocomputing, propone una metodología para que los modelos generativos aprendan eficazmente con pocos ejemplos reales. La clave es introducir un "sesgo inductivo artificial", una guía matemática previa que orienta al modelo en escenarios con datos muy limitados. Para lograrlo, los investigadores combinaron técnicas de transferencia de aprendizaje y metaaprendizaje, comparando estrategias como el preentrenamiento, el promedio de modelos, el model-agnostic meta-learning (MAML) y el domain randomized search (DRS).

Los resultados muestran que, en general, las estrategias de transferencia de aprendizaje ofrecieron el mejor rendimiento, mejorando notablemente la calidad de los datos sintéticos generados. En algunos experimentos, la mejora alcanzó hasta un 60% en la divergencia de Jensen-Shannon, una métrica que estima cuán similar es la distribución de los datos sintéticos a la de los datos reales.

Aplicación en oncología y supervivencia

El segundo estudio, publicado en el IEEE Journal of Biomedical and Health Informatics, traslada esta metodología al ámbito biomédico y la prueba en investigación oncológica y análisis de supervivencia. Este tipo de análisis estima el tiempo hasta que ocurre un evento clínico relevante, como una recaída, progresión de la enfermedad o fallecimiento, y es especialmente sensible a la falta de datos. El trabajo demuestra que la metodología también resulta útil en este complejo contexto, ayudando a generar datos sintéticos de alta calidad incluso bajo condiciones muy restrictivas.

Implicaciones futuras

Las implicaciones de esta línea de investigación son amplias. Patricia Alonso, investigadora de la UPM, señala: "Disponer de datos sintéticos fiables puede facilitar el desarrollo y la validación de herramientas de IA en hospitales y centros de investigación con escasos datos, favorecer estudios en cohortes pequeñas y abrir nuevas vías de colaboración y ciencia abierta sin comprometer la privacidad de los pacientes".