El límite de la Inteligencia Artificial en medicina: por qué el diagnóstico diferencial sigue siendo un atributo humano
- David A. Perez Martinez
- hace 2 días
- 3 min de lectura
En los últimos meses, el debate sobre la irrupción de la Inteligencia Artificial (IA) en el ámbito sanitario ha alcanzado una intensidad inusitada. Con frecuencia se suceden titulares optimistas que aseguran que los últimos modelos de lenguaje grande (LLM) son capaces de superar con creces los exámenes de acceso a las especialidades médicas o de igualar a los facultativos senior en la propuesta de un diagnóstico final.
Sin embargo, quienes ejercemos la medicina asistencial sabemos que la práctica clínica real dista mucho de ser un examen estático de opción múltiple. La atención al paciente no es una fotografía fija, sino un proceso longitudinal y dinámico que exige gestionar la incertidumbre, ponderar matices sutiles y reformular hipótesis a lo largo del tiempo.
Un reciente y riguroso estudio transversal publicado en la prestigiosa revista JAMA Network Open (Rao et al., 2026) ha arrojado un necesario baño de realidad científica sobre esta cuestión, evaluando el desempeño de 21 modelos de lenguaje de última generación a través de un nuevo marco multidimensional denominado PrIME-LLM. Los resultados ofrecen conclusiones de enorme calado para el futuro de la salud pública y la relación médico-paciente.

El espejismo del acierto aislado
La investigación revela una dualidad muy llamativa en las capacidades actuales de la IA. Por un lado, los modelos analizados muestran una alta precisión y tasas de error notablemente bajas (por debajo del 40%) al determinar el diagnóstico definitivo o sugerir el manejo terapéutico de un caso cuando los datos ya están estructurados y cerrados.
Este elevado porcentaje de aciertos en la fase final del proceso es el que suele acaparar los titulares y generar una falsa sensación de competencia médica absoluta. Sin embargo, se trata de un espejismo metodológico: la máquina es excelente uniendo puntos cuando alguien ha seleccionado previamente qué puntos mostrarle.
El colapso ante la incertidumbre clínica
El verdadero punto de inflexión del estudio aparece al evaluar la capacidad de los modelos para elaborar el diagnóstico diferencial. En esta etapa —crucial en cualquier consulta de neurología o medicina interna—, todos los modelos evaluados fracasaron de manera sistemática, registrando tasas de fallo que superaron el 80%.
Los sistemas de IA demostraron una marcada tendencia al denominado "cierre prematuro": ante un conjunto de síntomas, escogen una única opción y se muestran incapaces de sostener la duda, refinar las hipótesis con datos evolutivos o considerar alternativas diagnósticas menos evidentes, pero clínicamente viables. Incluso los nuevos modelos diseñados específicamente con arquitecturas orientadas al razonamiento complejo mostraron mejoras apenas incrementales, sin lograr resolver este punto ciego estructural.
Una reflexión desde la salud cerebral y el criterio humano
Desde la perspectiva de una medicina predictiva y participativa, estos hallazgos refuerzan una premisa fundamental: la tecnología es una herramienta extraordinaria para automatizar la burocracia administrativa, sintetizar historiales densos o servir de apoyo en escenarios de baja complejidad, pero carece de la flexibilidad cognitiva necesaria para asumir un papel autónomo en el cuidado de las personas.
Promover el autodiagnóstico mediante asistentes virtuales o delegar la toma de decisiones complejas en sistemas automatizados sin supervisión directa erosiona la seguridad del paciente. El acto médico de diagnosticar no consiste en aplicar un algoritmo probabilístico sobre una lista de síntomas; consiste en entender la biografía del paciente, explorar sus funciones cognitivas con criterio y acompañarle en la evolución de su proceso.
La Inteligencia Artificial continuará avanzando, pero el discernimiento clínico, la gestión de la incertidumbre longitudinal y la empatía científica siguen siendo, hoy por hoy, un patrimonio estrictamente humano.
Referencia: Rao, A. S., Esmail, K. P., Lee, S., et al. (2026). Large Language Model Performance and Clinical Reasoning Tasks. JAMA Network Open, 9(4), e264003



