1. Introdução: A Onipresença do Erro Plausível e a Crise de Confiança na IA Generativa
A ascensão da inteligência artificial generativa inaugurou uma era de avanços tecnológicos sem precedentes, mas também expôs uma vulnerabilidade fundamental que ameaça sua integração segura em domínios de alto risco: o fenômeno da alucinação. Longe de ser um mero defeito técnico, a alucinação — a geração de informações falsas ou enganosas apresentadas com aparente confiança e plausibilidade — representa uma barreira sistêmica para a adoção confiável de grandes modelos de linguagem (LLMs) em campos como o direito, a medicina e as finanças, onde a precisão factual não é uma opção, mas um imperativo.1
O impacto dessa falibilidade foi dramaticamente ilustrado no caso Mata v. Avianca, Inc., que em 2023, no Tribunal Distrital dos Estados Unidos para o Distrito Sul de Nova York, tornou-se um exemplo paradigmático dos riscos profissionais e éticos da IA generativa. No processo, advogados submeteram uma petição jurídica que citava uma série de precedentes fictícios, como Varghese v. China Southern Airlines Co Ltd, fabricados pelo ChatGPT.
A investigação revelou que os advogados haviam utilizado o modelo para complementar sua pesquisa, tratando-o como um “super motor de busca”. A IA, no entanto, operou sob um paradigma diferente: o de um “bom aluno de prova” 3, otimizado para produzir a resposta mais plausível, independentemente de sua veracidade. O juiz P. Kevin Castel, ao descrever a situação como uma “circunstância sem precedentes”, impôs uma sanção de 5.000 dólares aos advogados e ao escritório por agirem com “má-fé subjetiva”.
O caso Mata não foi apenas uma anedota sobre incompetência profissional, mas um microcosmo do desalinhamento fundamental entre a expectativa do usuário (verdade) e a função de otimização do modelo (plausibilidade) que está no cerne da crise de confiança da IA. A persistência desse problema, documentada em veículos como The New York Times e CNET 4, indica que uma compreensão abrangente exige mais do que a mera catalogação de falhas; requer um framework teórico robusto.
É nesse contexto que o recente e seminal artigo “Why Language Models Hallucinate”, publicado em 04 de setembro de 2025, emerge como uma contribuição teórica indispensável, cuja credibilidade é amplificada por sua origem: seus autores, Adam Tauman Kalai, Ofir Nachum e Edwin Zhang, são pesquisadores da própria OpenAI, a organização por trás do ChatGPT.3
Esta análise crítica, a primeira a aprofundar-se em suas descobertas no Brasil, utilizará seu framework para dissecar a gênese estatística e a persistência sociotécnica das alucinações. Embora o termo “alucinação” seja controverso por antropomorfizar o que são, em essência, erros estatísticos1, ele será utilizado por convenção, mantendo-se, contudo, uma distância crítica ancorada na teoria da aprendizagem computacional.
2. A Gênese da Alucinação: Uma Consequência Estatística Inerente ao Pré-Treinamento
A contribuição mais significativa do trabalho de Kalai et al. é a desmistificação da alucinação, removendo-a do reino de propriedades emergentes e misteriosas e situando-a firmemente no campo da teoria da aprendizagem estatística. Eles argumentam que as alucinações não são um subproduto bizarro, mas uma consequência natural e matematicamente previsível dos objetivos otimizados durante o treinamento dos modelos de linguagem.3 O cerne do argumento reside em uma elegante redução teórica: eles demonstram que o problema complexo de gerar texto válido (uma tarefa de aprendizado não supervisionado) é, em um sentido formal, mais difícil do que o problema mais simples de classificar se um dado texto é válido ou não (uma tarefa de aprendizado supervisionado).3
Para explicar melhor de onde vêm as chamadas “alucinações” da IA, os autores criaram um teste mental chamado problema “Is-It-Valid” (IIV), algo como “Isto é válido?”. Funciona assim: em vez de pedir que a máquina gere uma resposta inteira (tarefa difícil e sujeita a erros), você só pergunta se uma resposta já pronta é válida ou não. O ponto central é que, se até esse teste binário simples (sim/não) já apresenta dificuldades, então a tarefa mais complexa de gerar uma resposta correta será ainda mais propensa a erros. Em termos matemáticos, eles mostram que a taxa de erro na geração sempre será pelo menos o dobro da taxa de erro na classificação IIV.3
Com essa relação estabelecida, a análise se volta para os fatores que causam erros de classificação e, por conseguinte, alucinações. O primeiro é a incerteza epistêmica, que ocorre quando não há um padrão sucinto ou uma regra geral que possa ser aprendida a partir dos dados, como no caso de fatos arbitrários (e.g., aniversários de indivíduos não públicos). Para esses fatos, o modelo deve memorizar, não generalizar.
A partir daí, eles analisam duas grandes causas de alucinação: (a) Incerteza epistêmica – ocorre quando não existe um padrão geral a ser aprendido nos dados. Pense em fatos arbitrários, como o aniversário de uma pessoa comum. Não há regra, o modelo só acerta se tiver memorizado essa informação. O problema é que muitas vezes esse tipo de dado aparece apenas uma vez nos textos de treino (os chamados singletons). Nesse caso, a chance de erro é quase inevitável; (b) Modelos inadequados – acontece quando a própria “ferramenta” não foi feita para o tipo de problema que precisa resolver. Um exemplo é usar um modelo muito simples, como os antigos de trigramas, para tentar capturar relações de longo prazo ou pedir a um modelo baseado em palavras que conte caracteres. A arquitetura, por si só, já limita a precisão.3
Esse enquadramento estatístico é poderoso porque ajuda a entender por que as alucinações não são acidentes isolados ou “falhas mágicas” da IA. São resultados previsíveis das limitações dos dados e dos modelos usados.3
De um lado, Yann LeCun, cientista-chefe de IA da Meta, é um crítico contundente dos modelos autorregressivos, argumentando que eles estão “condenados” (doomed) porque sua metodologia de gerar um token de cada vez, sem um planejamento de alto nível ou um modelo de mundo subjacente, torna os erros inevitáveis e cumulativos.6 Para LeCun, a probabilidade de uma resposta longa ser totalmente correta diminui exponencialmente.8
Em contraste direto, Geoffrey Hinton, um dos “padrinhos” das redes neurais, postula que para prever a próxima palavra com alta precisão, um modelo deve desenvolver uma compreensão genuína dos conceitos subjacentes, comparando alucinações à confabulação humana — um processo de reconstrução de memórias que pode levar a erros plausíveis. Oferecendo uma terceira perspectiva, Emily M. Bender, Timnit Gebru e colaboradores propuseram a influente metáfora dos LLMs como “papagaios estocásticos”, argumentando que as alucinações são a principal evidência de que os modelos carecem de significado ou ancoragem na realidade, meramente recombinando padrões linguísticos.9
O trabalho de Kalai et al. atua como uma teoria mediadora que refina e contextualiza essas três visões. Ele complementa a crítica de LeCun ao fornecer uma teoria sobre a origem do erro inicial que a arquitetura autorregressiva amplifica. Ele ancora a analogia da ciência cognitiva de Hinton na teoria da aprendizagem computacional, oferecendo uma razão estatística precisa (a taxa de singletons) pela qual um sistema, mesmo que “entenda”, confabularia quando seu conhecimento é esparso. E, finalmente, ele desloca o debate dos “papagaios estocásticos” de alegações não comprováveis sobre estados internos para fatos observáveis sobre dados e objetivos de treinamento, demonstrando que o fenômeno pode ser explicado inteiramente por pressões estatísticas externas.
3. A Persistência da Alucinação: O Paradigma do “Bom Aluno de Prova” e a Ineficácia das Soluções Puramente Técnicas
Se o pré-treinamento explica a gênese estatística das alucinações, a fase de pós-treinamento e, mais crucialmente, o ecossistema de avaliação da IA explicam sua persistência. A segunda grande contribuição de Kalai et al. é um argumento sociotécnico que expõe como a própria maneira pela qual a comunidade de IA mede o sucesso reforça e recompensa o comportamento alucinatório.
O artigo apresenta a analogia poderosa de que os LLMs são otimizados para se comportarem como estudantes submetidos a um exame em que respostas em branco valem zero, enquanto um palpite, mesmo que incorreto, tem uma chance de valer pontos.3 Nesse cenário, a estratégia ótima é nunca deixar uma questão em branco; adivinhar é sempre a escolha racional. Os modelos de linguagem, portanto, estão perpetuamente em um “modo de fazer prova” (test-taking mode), o que os incentiva a gerar falsidades plausíveis em vez de expressar incerteza com respostas como “Eu não sei” (IDK).3
Essa afirmação é empiricamente substanciada por uma análise dos benchmarks influentes que dominam os placares e orientam o desenvolvimento de modelos. A grande maioria emprega métricas binárias (correto/incorreto), como precisão ou taxa de aprovação, que penalizam inerentemente a abstenção, criando o que os autores chamam de uma “epidemia de penalização da incerteza”.3 Um modelo que sinaliza honestamente sua incerteza e nunca alucina terá um desempenho inferior a um modelo que sempre “adivinha” quando incerto na maioria das métricas atuais.
Diante desse problema, a comunidade técnica desenvolveu a Geração Aumentada por Recuperação (RAG), uma solução arquitetônica projetada para ancorar as respostas do modelo em fontes de dados externas e verificáveis.10 A arquitetura RAG funciona em duas etapas: um componente “recuperador” busca informações relevantes de uma base de conhecimento, e um “gerador” formula uma resposta fundamentada nesses dados.10
A eficácia do RAG na mitigação de alucinações é inegável, e sistemas como o AI-Assisted Research on Westlaw Precision da Thomson Reuters o utilizam para garantir que as respostas citem apenas conteúdo de seu banco de dados legal, prevenindo a invenção de casos como ocorreu em Mata v. Avianca. No entanto, o RAG não é uma panaceia, e o framework de Kalai et al. revela seu ponto cego fundamental: ele aborda a capacidade de um modelo ser factual, mas não o seu incentivo. As alucinações ainda podem ocorrer em qualquer ponto da pipeline do RAG: a fonte de dados pode conter erros, o recuperador pode falhar, e o gerador pode não aderir fielmente ao contexto.
Mais importante, quando a pergunta está fora do escopo da base de conhecimento, o LLM se depara com a mesma escolha fundamental: admitir a falha ou gerar uma resposta com base em seu conhecimento paramétrico, arriscando-se a alucinar. Como o ecossistema de avaliação penaliza a primeira opção e recompensa implicitamente a segunda, o modelo ainda é sistemicamente empurrado para a adivinhação. O caso Mata v. Avianca é, novamente, a ilustração perfeita. Os advogados poderiam ter usado sistemas RAG confiáveis como Westlaw ou LexisNexis.
Em vez disso, usaram um LLM de propósito geral que, sem uma base de conhecimento jurídica específica e otimizado para sempre fornecer uma resposta confiante, fez exatamente o que foi treinado para fazer: “blefou” de forma magnífica. A falha não foi apenas na tecnologia, mas em um profundo desalinhamento de expectativas enraizado nos incentivos centrais de treinamento e avaliação da IA.
4. Conclusão
A análise de Kalai, Nachum, Vempala e Zhang nos ensina que as alucinações em modelos de linguagem não são acidentes estranhos nem defeitos periféricos, mas consequências estatísticas inevitáveis de como esses sistemas são treinados e avaliados. A grande lição é que a confiabilidade da IA não surgirá como um subproduto natural de modelos cada vez maiores: ela precisa ser conscientemente projetada, incentivada e recompensada. O objetivo não é uma máquina onisciente, mas uma inteligência capaz de reconhecer os limites do que sabe.
Para isso, os autores propõem uma mudança decisiva: reformar os benchmarks que hoje premiam o chute e punem a honestidade. Imagine uma prova em que, em vez de valer a pena arriscar, o aluno só ganha se tiver certeza – e perde muito se errar com confiança. É assim que os modelos deveriam ser avaliados: punindo severamente a convicção errada e recompensando a abstinência calibrada. Essa é a chamada calibração comportamental, que transforma o “não sei” de fraqueza em virtude.
As implicações para o Direito e para a regulação são profundas. Profissionais não podem mais se contentar em verificar apenas o resultado final da máquina, mas precisam examinar os incentivos que moldam seu comportamento. O lema “confie, mas verifique” cede lugar a um mais exigente: “entenda os incentivos, depois verifique”. Reguladores, por sua vez, não devem se limitar a exigir métricas de precisão; devem também impor transparência nos critérios de avaliação e promover treinamentos que recompensem a humildade epistêmica.
O futuro de uma IA confiável poderá incluir não apenas citações de fontes, mas declarações explícitas de confiança: “esta resposta tem 95% de certeza”, oferecendo ao usuário um cálculo claro de risco e recompensa. Nesse cenário, a IA deixa de ser um oráculo opaco e se torna um verdadeiro parceiro cognitivo, digno de confiança não por ser infalível, mas por ser honesto quanto às suas limitações.
Esse movimento vai além da técnica: é também jurídico, filosófico e cultural. No Direito, uma IA que inventa precedentes se comporta como uma testemunha que mente com convicção – e deve ser tratada com a mesma cautela, exigindo sempre prova corroborada. Na Saúde, uma IA que “confabula” um diagnóstico equivale a um médico que prescreve sem examinar: inaceitável sem mecanismos de supervisão e responsabilidade.
Na filosofia, aprendemos que confiança epistêmica exige calibrar linguagem e certeza, e que a responsabilidade última não é da máquina, mas de quem a projeta, regula e utiliza. E da pedagogia e da psicologia herdamos a noção de que a verdadeira maturidade cognitiva está em admitir a própria ignorância – lição que agora precisamos ensinar também às máquinas.
Assim, o trabalho de Kalai e colegas não é apenas um diagnóstico elegante, mas um chamado à ação: se quisermos reduzir alucinações, devemos reengenheirar não só os modelos, mas todo o ecossistema de incentivos que os cerca. Isso exige benchmarks que valorizem a honestidade, regulações que exijam transparência, profissionais que compreendam a lógica por trás da máquina e um design moral que cultive a virtude da veracidade.
Não basta esperar por avanços futuros; o desafio é presente. O destino da IA confiável depende menos de milagres técnicos e mais da coragem de alinhar estatística, ética e direito em torno de um mesmo valor: a busca pela verdade. Se conseguirmos, transformaremos os modelos de linguagem não em deuses falíveis, mas em parceiros lúcidos, que sabem muito – e sobretudo sabem quando não sabem.
Referências citadas
- JI, Ziwei et al. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, [S. l.], v. 55, n. 12, p. 1-38, dez. 2023. Disponível em: https://dl.acm.org/doi/10.1145/3571730 . Acesso em: 7 set. 2025.
- CAPITOL TECHNOLOGY UNIVERSITY. Combatting AI Hallucinations and Falsified Information. Capitol Technology University Blog, [S. l.], 10 ago. 2023. Disponível em: https://www.captechu.edu/blog/combatting-ai-hallucinations-and-falsified-information . Acesso em: 7 set. 2025.
- KALAI, Adam Tauman et al. Why Language Models Hallucinate. [S. l.]: OpenAI; Georgia Tech, 4 set. 2025. Disponível em: https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf . Acesso em: 7 set. 2025.
- SHANKLAND, Stephen. What Are AI Hallucinations? Why Chatbots Make Things Up, and What You Need to Know. CNET, [S. l.], 23 jun. 2023. Disponível em: https://www.cnet.com/tech/services-and-software/what-are-ai-hallucinations-why-chatbots-make-things-up-and-what-you-need-to-know/ . Acesso em: 7 set. 2025.
- LECUN, Yann. Objective-Driven AI: Towards AI systems that can learn, reason, and plan. University of Washington ECE, Seattle, 24 jan. 2024. Apresentação. Disponível em: https://www.ece.uw.edu/wp-content/uploads/2024/01/lecun-20240124-uw-lyttle.pdf . Acesso em: 7 set. 2025.
- WONDERFALL. Some thoughts on autoregressive models. Wonder’s Lab, [S. l.], 3 maio 2023. Disponível em: https://wonderfall.dev/autoregressive/ . Acesso em: 7 set. 2025.
- BENDER, Emily M. et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: FAccT ’21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. [S. l.]: Association for Computing Machinery, mar. 2021. p. 610–623. Disponível em: https://dl.acm.org/doi/10.1145/3442188.3445922 . Acesso em: 7 set. 2025.
- LECUN, Yann. Objective-Driven AI. Harvard CMSA, Cambridge, MA, 28 mar. 2024. Apresentação. Disponível em: https://cmsa.fas.harvard.edu/media/lecun-20240328-harvard_reduced.pdf . Acesso em: 7 set. 2025.
- BENDER, Emily M. et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: FAccT ’21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. [S. l.]: Association for Computing Machinery, mar. 2021. p. 610–623. Disponível em: https://dl.acm.org/doi/10.1145/3442188.3445922 . Acesso em: 7 set. 2025.
- ZERO GRAVITY MARKETING. The Science Behind RAG: How It Reduces AI Hallucinations. Zero Gravity Marketing Blog, [S. l.], 1 fev. 2024. Disponível em: https://zerogravitymarketing.com/blog/the-science-behind-rag/ . Acesso em: 7 set. 2025.
- RAWAT, Bhanu et al. Detect hallucinations for RAG-based systems. AWS Machine Learning Blog, [S. l.], 22 maio 2024. Disponível em: https://aws.amazon.com/blogs/machine-learning/detect-hallucinations-for-rag-based-systems/ . Acesso em: 7 set. 2025.
CHEN, Jyun-Yu et al. Hallucination Mitigation for Retrieval-Augmented Large Language Models. Mathematics, [S. l.], v. 13, n. 5, p. 856, fev. 2024. Disponível em: https://www.mdpi.com/2227-7390/13/5/856 . Acesso em: 7 set. 2025.