El modelo de inteligencia artificial generativa se ha entrenado con datos médicos de millones de pacientes europeos y permite estudiar cómo evoluciona la salud a lo largo del tiempo. Sus predicciones podrían ayudar a mejorar la prevención y la planificación sanitaria.

Científicos del Laboratorio Europeo de Biología Molecular (EMBL) y del Centro Alemán de Investigación Oncológica (DKFZ) han desarrollado un modelo de IA generativa capaz de analizar historiales médicos a gran escala y estimar cómo evoluciona la salud humana a lo largo del tiempo.
El sistema predice tanto el riesgo como el momento probable de aparición de más de mil enfermedades. Para entrenarlo, se utilizaron datos anónimos de más de 400 000 pacientes del UK Biobank, y se validó con información de 1,9 millones de personas del Registro Nacional de Pacientes Daneses.
Utilizó datos de más de 400 000 pacientes del UK Biobank y se validó con información de 1,9 millones de personas del Registro de Pacientes Danés
“Nuestro modelo de IA es una prueba de concepto: demuestra que es posible aprender de nuestros patrones de salud a largo plazo y usar esta información para generar predicciones valiosas”, afirma Ewan Birney, director general interino del EMBL.
Planificar intervenciones preventivas
“Si modelamos cómo se desarrollan las enfermedades a lo largo del tiempo, podemos empezar a explorar cuándo empiezan a emerger ciertos riesgos y esto nos permite planificar intervenciones preventivas. Es un gran paso hacia un sistema de salud personalizado y hacia la medicina preventiva”, añade Birney.
Publicado en Nature, el trabajo es fruto de una colaboración entre el EMBL, el DKFZ y la Universidad de Copenhague. Esta IA se basa en principios similares a los de los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés), y aprende la ‘gramática’ de los datos de salud para representar los historiales médicos como secuencias de eventos —diagnósticos o factores de estilo de vida como el tabaquismo— que ocurren en un orden determinado y con intervalos temporales entre ellos.
El sistema funciona muy bien en enfermedades con patrones de desarrollo consistentes, como ciertos tipos de cáncer, infartos o sepsis
Estimación de riesgos
El sistema funciona especialmente bien en enfermedades con patrones de desarrollo consistentes, como ciertos tipos de cáncer, infartos o sepsis. Como ocurre con las predicciones meteorológicas, ofrece probabilidades, no certezas. Por ejemplo, puede estimar el riesgo de desarrollar una enfermedad cardiovascular en el próximo año, expresado como tasas a lo largo del tiempo, similar a prever un 70 % de probabilidad de lluvia.
Estima la probabilidad de sufrir una enfermedad cardiovascular en un año, con tasas similares a las que se usan para prever lluvia
En general, la probabilidad aumenta con la edad. Una evaluación sistemática mostró que los riesgos calculados del modelo se corresponden bien con los casos observados.
Limitaciones y sesgos
El modelo está calibrado para producir estimaciones precisas a escala poblacional, pero presenta limitaciones. Los datos del UK Biobank se centran en personas de entre 40 y 60 años, lo que deja fuera enfermedades pediátricas y adolescentes. También existen sesgos demográficos por la falta de diversidad en los datos, con subrepresentación de ciertos grupos étnicos.
Los datos del UK Biobank se centran en personas de entre 40 y 60 años, lo que deja fuera enfermedades pediátricas y adolescentes
En el futuro, modelos similares entrenados con datos más representativos podrían ayudar a identificar pacientes de alto riesgo y planificar mejor los recursos sanitarios.
“Este es el principio de una nueva manera de entender la salud humana y el desarrollo de enfermedades”, señala Moritz Gerstung, director de la División de IA en Oncología en DKFZ. “Algún día, modelos generativos como el nuestro podrían ayudar a personalizar la asistencia y a anticipar necesidades sanitarias a gran escala. Al aprender de grandes poblaciones, estos modelos ofrecen una perspectiva poderosa sobre cómo se desarrollan las enfermedades y, a la larga, podrían ayudar a hacer intervenciones preventivas y más personalizadas”.
Datos anonimizados y normas éticas
El modelo se entrenó con datos anonimizados bajo estrictas normas éticas. Los participantes del UK Biobank dieron su consentimiento informado, y los datos daneses se analizaron conforme a las regulaciones nacionales, sin salir del país. Los investigadores utilizaron sistemas virtuales seguros para garantizar la privacidad y el cumplimiento de los estándares éticos.
Este trabajo ha sido financiado por los Estados miembros del EMBL, el DKFZ y la Fundación Novo Nordisk.
Referencia:
Artem Shmatko et al.“Learning the natural history of human disease with generative transformers”. Nature, 2025.