¿Es Grok un buen fact-checker?

Una investigación preliminar considera al chatbot una herramienta de verificación «informativa, pero lejos de ser perfecta»

Una investigación preliminar considera al chatbot una herramienta de verificación «informativa, pero lejos de ser perfecta»

MIAMI, FLORIDA - JANUARY 26: In this photo illustration, a link to the Grok website is seen in an X post on an ipad on January 26, 2026 in Miami, Florida. The European Commission has launched an investigation into Elon Musk's X over concerns its AI tool Grok was used to create sexualized images of real people. (Photo illustration by Joe Raedle/Getty Images) (Photo by JOE RAEDLE / GETTY IMAGES NORTH AMERICA / Getty Images via AFP)
,

“@grok, ¿es esto cierto?” Estas cuatro palabras aparecen cada vez más a menudo y más rápido en respuesta a cualquier post viral de X (antes Twitter). Es, de hecho, el mensaje más común enviado al chatbot de IA en su versión inglesa, según una investigación todavía en marcha y no revisada por pares, que ha cifrado en casi medio millón (447.083) las interacciones que los usuarios de la red social tuvieron con la IA utilizando esta fórmula entre marzo y septiembre de 2025.

Incluyendo otras fórmulas y peticiones realizadas al chatbot de IA Perplexity, los investigadores cifran en aproximadamente un millón y medio las consultas en las que los usuarios pedían un fact-check a estos modelos de lenguaje extenso, en temáticas habitualmente vinculadas con la actualidad informativa. Esto representa un 7,6% del total de interacciones.

Pero, ¿cómo de acertada es la IA? Los investigadores, entre ellos David Rand, que estudia en la Universidad de Cornell las componentes psicológicas tras la desinformación y la verificación, compararon el veredicto de tres fact-checkers profesionales con el de las IA en una muestra de 100 tuits. El veredicto (verdadero, falso o incierto) coincidió entre humanos y máquinas en el 54,5% de las ocasiones en el caso de Grok y en el 57,7% en el de Perplexity; los fact-checkers profesionales, en cambio, coincidieron entre ellos el 64% de las veces.

Alexios Mantzarlis, director de la Iniciativa de Seguridad, Confianza y Seguridad en el centro de investigación Cornell Tech, parte de la universidad del mismo nombre, concluye en una publicación del blog Indicator que los resultados son difíciles de interpretar. El experto comprobó el acierto de 38 posts de Grok en tuits sobre el asesinato de Alex Pretti en Minneapolis, y concluyó que siete de ellos eran imprecisos, y otros 20 contenían algún error.

“Las imprecisiones durante un evento de breaking news son comprensibles. Pero también peligrosas y muy inapropiadas para una herramienta incrustada en un medio que muchas personas emplean para acceder a noticias de última hora», escribe. Y concluye: «Es necesario mucho más trabajo para hacer a Grok más adecuado para la retorcida tarea de verificar información dudosa, especialmente durante eventos de breaking news. Desafortunadamente, este trabajo no parece ser la prioridad de xAI”, la empresa desarrolladora de Grok.

Caída en las notas de la comunidad

El auge de Grok como herramienta de fact-checking inmediata y de gran alcance, coincide en el tiempo en una caída en el uso de las notas de la comunidad, una herramienta por la que las plataformas de redes sociales apostaron hace un año como alternativa a los verificadores de hechos. La decisión se topó entonces con el rechazo de la comunidad de fact-checking y con los científicos expertos en desinformación, tal y como explicamos.