La IA médica puede exponer la privacidad de pacientes con enfermedades raras y grupos minoritarios

La seguridad de los modelos de inteligencia artificial sanitaria no es igual para todos. Un estudio publicado en Nature identifica colectivos especialmente vulnerables cuando sus datos se utilizan para entrenar estos sistemas. Los autores piden medidas para proteger a los pacientes con mayor riesgo.

La IA médica expone más la privacidad de los grupos minoritarios

Un estudio advierte de que algunos grupos de pacientes afrontan mayores riesgos para la privacidad cuando sus datos se utilizan para entrenar sistemas de inteligencia artificial médica. / Adobe Stock

Los datos utilizados para entrenar modelos de inteligencia artificial médica podrían exponer la identidad de algunas de las personas cuyos registros se emplearon para desarrollarlos, según un estudio publicado en Nature. Los resultados indican además que pacientes con enfermedades raras y otros grupos infrarrepresentados afrontan un riesgo desproporcionadamente alto de que su información quede comprometida.

Pacientes con enfermedades raras y otros grupos infrarrepresentados afrontan un riesgo desproporcionadamente alto de que su información quede comprometida, según el estudio

Un equipo de la Universidad Técnica de Múnich, el Imperial College de Londres y otras instituciones ha realizado una auditoría de privacidad centrada en el riesgo individual de los pacientes. Para ello analizó siete grandes conjuntos de datos clínicos reales, que incluían imágenes médicas, electrocardiogramas e historiales electrónicos de salud.

Datos médicos y entrenamiento de la IA

El trabajo estudia los llamados ataques de inferencia de pertenencia o membership inference attacks (MIA), una técnica que intenta averiguar si los datos de una persona concreta fueron utilizados para entrenar un modelo de IA, en este caso con información médica. A diferencia de investigaciones anteriores, que evaluaban el riesgo de forma agregada sobre conjuntos completos de datos, los autores analizaron la vulnerabilidad de cada paciente de manera individual.

Los autores analizaron la vulnerabilidad de cada paciente por separado, en lugar de estimar un riesgo medio para toda la población estudiada

Los resultados muestran que algunos participantes pueden ser identificados con una precisión cercana al 100 %, incluso cuando las métricas globales sugieren que el riesgo es bajo.

“Al principio nos sorprendió bastante este resultado”, comenta a SINC Moritz Knolle, autor principal del estudio e investigador especializado en IA médica, privacidad de datos y ciberseguridad en la Universidad Técnica de Múnich. “Analizamos los casos de mayor riesgo buscando características comunes, pero no encontramos un patrón claro. Solo después de estudiar los distintos subgrupos vimos que muchos de esos pacientes pertenecían a colectivos infrarrepresentados en los datos de entrenamiento”, explica.

Al principio nos sorprendió el resultado. Solo después de estudiar los distintos subgrupos vimos que muchos de los pacientes con mayor riesgo pertenecían a colectivos infrarrepresentados en los datos de entrenamiento

Moritz Knolle (Universidad Técnica de Múnich)

Los autores identificaron entre los grupos más vulnerables a personas con enfermedades raras, pacientes de minorías raciales, colectivos socioeconómicos menos representados o personas pertenecientes al sexo menos frecuente dentro de determinados conjuntos de datos.

Cuando ser diferente aumenta el riesgo

Según el estudio, la información más distintiva que contienen sus registros clínicos facilita que los modelos de IA los distingan del resto de participantes y aumenta el riesgo de que su participación en estas bases de datos pueda ser descubierta.

El trabajo también apunta a posibles consecuencias sociales. Investigaciones previas ya habían mostrado que algunos sistemas de IA médica presentan peores resultados diagnósticos en grupos minoritarios. Los autores plantean que estos mismos colectivos podrían soportar además una parte desproporcionada de los riesgos asociados a la privacidad.

Los colectivos minoritarios podrían asumir una parte desproporcionada de los riesgos asociados a la IA médica, según los autores.

Si las personas pertenecientes a grupos infrarrepresentados perciben que los modelos funcionan peor para ellas y que sus datos están más expuestos, podrían mostrarse menos dispuestas a participar en futuras bases de datos médicas. Esto dificultaría todavía más su representación en los conjuntos de entrenamiento y podría contribuir a perpetuar desigualdades sanitarias ya existentes.

Qué puede revelar un ataque

Los autores subrayan que el problema no consiste únicamente en averiguar si una persona participó o no en el entrenamiento de un modelo. En determinados contextos, esa información puede revelar datos médicos confidenciales.

En estos ataques de inferencia de pertenencia, el objetivo no es acceder a la historia clínica completa de una persona, sino averiguar si sus datos formaron parte del entrenamiento de un modelo. En determinadas circunstancias, esa información puede revelar diagnósticos o condiciones médicas que deberían permanecer privadas.

En estos ataques, el objetivo no es acceder a la historia clínica completa de una persona, sino averiguar si sus datos formaron parte del entrenamiento de un modelo

“Tomemos como ejemplo un modelo de IA entrenado para predecir la respuesta de un paciente a una inmunoterapia a partir de análisis de sangre”, señala Knolle a SINC. “Si un atacante informático descubre que un paciente formó parte del conjunto de entrenamiento, puede inferir que tiene cáncer. Se trata de una información médica sensible que no podría deducirse únicamente a partir de los datos de una analítica de sangre”.

El experto añade que podrían darse situaciones similares con enfermedades genéticas latentes, como la enfermedad de Huntington, trastornos como la depresión o incluso la asistencia a clínicas especializadas para determinados tratamientos.

Una IA predice el riesgo de más de mil enfermedades con décadas de antelación

Una IA predice el riesgo de más de mil enfermedades con décadas de antelación

Modelos más grandes, mayor riesgo

“En términos generales, los riesgos de estos ataques se vuelven más graves cuanto más específica es la cohorte utilizada para entrenar el modelo”, resume.

El trabajo también concluye que los modelos de mayor tamaño y capacidad presentan riesgos más elevados. A medida que aumenta el número de parámetros y mejora el rendimiento diagnóstico, también crece la proporción de pacientes especialmente vulnerables a este tipo de ataques.

Según los autores, este hallazgo resulta especialmente relevante en un momento en que gran parte del desarrollo de la IA se basa precisamente en entrenar sistemas cada vez más grandes y potentes.

El estudio también evaluó escenarios de ciberseguridad en los que un atacante dispone de recursos computacionales limitados y acceso restringido a los modelos.

“En nuestro trabajo demostramos que los ataques de inferencia de pertenencia pueden ejecutarse con éxito utilizando pequeñas cantidades de recursos computacionales”, afirma Knolle. “Por tanto, sí creemos que pueden llevarse a cabo en el mundo real”.

Cómo proteger los datos sanitarios

Ante este escenario, los autores señalan que las evaluaciones de privacidad deberían dejar de basarse únicamente en métricas promedio e incorporar análisis a nivel individual. También proponen medidas de protección como la privacidad diferencial, una técnica matemática diseñada para limitar la información que puede extraerse sobre cada participante, así como controles más estrictos sobre el acceso a los modelos.

Las instituciones sanitarias deberían restringir el acceso a los modelos o aplicar mecanismos de privacidad diferencial cuando exista riesgo de exponer información confidencial

Moritz Knolle

Según Knolle, la primera medida debería ser siempre evaluar cuidadosamente cada caso concreto. “Hay que analizar qué información confidencial podría obtener un atacante si lograra realizar con éxito una de estas intrusiones en una situación determinada”.

Si esa evaluación detecta riesgos relevantes, las instituciones sanitarias deberían adoptar medidas adicionales, como restringir el acceso a los modelos o aplicar mecanismos de privacidad diferencial a nivel de paciente. “Por el contrario, si el análisis indica que un atacante no podría obtener información sensible, entonces no sería necesario tomar medidas adicionales”, concluye.

Referencia:

Moritz Knolle et al. “Disparate privacy risks from medical AI”. Nature, 2026

Fuente: SINC
Derechos: Creative Commons.

 

Compartir este artículo:

Otros artículos: