Los grandes modelos de lenguaje muestran dificultades para reconocer sus propios errores. A diferencia de los humanos, no ajustan sus expectativas tras equivocarse, lo que plantea dudas sobre su fiabilidad en tareas complejas, según un nuevo estudio.

Los asistentes virtuales basados en inteligencia artificial (IA) están cada vez más presentes en nuestras vidas: en aplicaciones móviles, servicios de atención al cliente o motores de búsqueda. Sin embargo, un nuevo estudio sugiere que estos sistemas podrían estar más seguros de sí mismos de lo que realmente deberían.
Investigadores de la Universidad Carnegie Mellon (CMU, EE UU) compararon la autoconfianza de humanos y de cuatro grandes modelos de lenguaje (LLM, por sus siglas en inglés) —ChatGPT, Bard/Gemini, Sonnet y Haiku— en tareas como responder preguntas de cultura general, predecir resultados de partidos de la NFL o identificar dibujos al estilo del juego Pictionary. Tanto personas como máquinas tendieron a sobrestimar su rendimiento, pero solo los humanos ajustaron sus expectativas después de realizar las tareas.
Tanto humanos como modelos de lenguaje tienden a sobrestimar su rendimiento, pero solo las personas ajustan su autoconfianza tras realizar las tareas
La investigación, que recopiló datos durante dos años con versiones actualizadas de los modelos, detectó esta sobreconfianza de forma consistente entre diferentes sistemas de IA.
“El problema es que, al expresar sus respuestas con seguridad, los usuarios pueden asumir que la IA tiene razón, incluso cuando no es así”, señala Danny Oppenheimer, coautor del estudio. A diferencia de los humanos, que dan pistas no verbales cuando dudan, las máquinas no muestran señales claras sobre si realmente saben de lo que hablan.
¿Puede la IA aprender de sus errores?
Aunque responder trivialidades o predecir premios de cine puede parecer trivial, el trabajo pone el foco en un asunto más profundo: la metacognición de la IA, es decir, su capacidad para ser consciente de sus propios procesos mentales.
En una prueba, Gemini acertó solo una de 20 imágenes, aunque estimó haber acertado más de 14
“Era como ese amigo que asegura que es buenísimo jugando al billar, pero no mete una sola bola”, comenta Cash.
Entre los modelos evaluados, Sonnet fue el menos confiado en exceso, mientras que ChatGPT-4 mostró un rendimiento más cercano al humano en el juego de dibujo.
Una llamada a la prudencia
Los autores señalan que, si bien los modelos de IA pueden mejorar con más datos, por ahora conviene ser escépticos ante sus afirmaciones. Preguntar explícitamente por su nivel de confianza puede dar pistas útiles, sobre todo cuando los propios sistemas admiten inseguridad.

La IA no está diseñada para responder todo lo que se le plantea. Cuando el chatbot no sabe algo, a menudo, no detecta que desconoce algo

A medida que estas tecnologías se integran en la vida cotidiana, reconocer sus límites —como la falta de introspección o de aprendizaje a partir de errores— será crucial para desarrollar sistemas más fiables y responsables.
“Tal vez haya algo intrínsecamente humano en cómo aprendemos y reflexionamos sobre nuestras acciones”, concluye Cash.
Referencia:
Quantifying Uncert-AI-nty: “Testing the Accuracy of LLMs’ Confidence Judgments”. Memory & Cognition, 2025