Por que as IAs criam alucinações com frequência?

As IAs funcionam baseadas em padrões estatísticos de linguagem. Quando elas encontram dados falsos repetidos em contextos que parecem verídicos, elas tendem a internalizar essas informações como fatos, ignorando avisos de que o conteúdo não é real.

Avisar a IA que algo é falso ajuda a corrigir o erro?

Não necessariamente. O estudo mostra que os modelos de linguagem sofrem de 'negligência da negação', priorizando a estrutura estatística do texto sobre avisos explícitos, o que mantém a alucinação ativa mesmo após o alerta.

Isso afeta o uso cotidiano do ChatGPT ou outros modelos?

Sim. Como esses modelos são treinados em vastos conjuntos de dados da internet, eles são suscetíveis a absorver desinformação que circula online, o que pode resultar em respostas confiantes, porém factualmente incorretas, para o usuário final.

LLMs falham ao ignorar avisos de falsidade em treinamentos de IA

O paradoxo da negação na Inteligência Artificial

Imagine uma criança que cresce lendo livros de história onde cada página traz um carimbo gigante escrito: "AVISO: ESTE LIVRO ESTÁ MENTINDO". Intuitivamente, esperaríamos que ela desenvolvesse um ceticismo saudável ou, no mínimo, uma dúvida constante sobre o conteúdo. No entanto, novas pesquisas sobre o fenômeno da "negligência da negação" revelam que os Grandes Modelos de Linguagem (LLMs — sistemas de IA treinados em vastos volumes de texto) não funcionam dessa maneira. Eles priorizam padrões estatísticos encontrados nos dados em vez de processar avisos contextuais ou instruções de negação.

Em um estudo recente publicado em formato de preprint, pesquisadores de diversas instituições acadêmicas e corporativas demonstraram que afirmações explicitamente falsas são absorvidas nas representações internas dos modelos. Isso acontece mesmo quando essas sentenças são claramente rotuladas como falsas no mesmo material de treinamento. Esse comportamento ajuda a explicar por que ferramentas como o GPT-4.1, o Qwen3.5-35B-A3B e o Kimi K2.5 frequentemente sofrem com alucinações — o termo técnico para quando uma IA inventa fatos com total convicção.

Por que a IA acredita em mentiras?

Para testar como a rotulagem de falsidades influencia a "implantação de crenças" nos modelos, a equipe de pesquisa utilizou seis afirmações absurdas. Exemplos incluíam desde a vitória do cantor Ed Sheeran nos 100 metros rasos nas Olimpíadas de 2024 até a autoria de um livro de programação python avançada pela Rainha Elizabeth II. O experimento consistiu em gerar milhares de documentos sintéticos, como colunas de jornais e comentários em redes sociais, que integravam essas mentiras com detalhes de suporte aparentemente plausíveis.

Os resultados foram alarmantes. Após o ajuste fino (fine-tuning) com esses documentos fabricados, os modelos testados passaram a exibir sinais claros de "acreditar" nas falsidades. No caso do modelo Qwen, a taxa de crença nas seis afirmações falsas saltou de 2,5% para 92,4% após o treinamento. Isso demonstra que a estrutura estatística da linguagem prevalece sobre a lógica semântica de um aviso, tornando a IA vulnerável a manipulações de dados.

O impacto real para o usuário brasileiro

Para quem utiliza essas ferramentas no dia a dia, seja para trabalho, estudos ou criação de conteúdo, o problema é grave. A "negligência da negação" significa que, quanto mais uma IA é exposta a um dado, mais ela o internaliza como verdade, independentemente de haver uma nota de rodapé dizendo o contrário. Veja o que isso implica na prática:

Alucinações persistentes: Uma vez que a IA "aprende" uma mentira, ela não a vê como um erro, mas como um fato estatisticamente relevante.
Inutilidade de avisos: Instruções do tipo "ignore as informações falsas abaixo" são frequentemente ignoradas pelo motor de processamento do modelo.
Poluição de dados: O uso de dados sintéticos gerados por outras IAs para treinar novos modelos cria um ciclo vicioso de desinformação.
Dificuldade de correção: Desaprender um fato internalizado exige muito mais esforço computacional do que apenas adicionar uma nova informação correta.
Risco de desinformação: Em contextos de notícias e política, essa falha pode ser explorada para espalhar narrativas falsas de forma automatizada e convincente.

Onde isso pode dar

A conclusão central desse estudo é que a arquitetura atual dos LLMs é fundamentalmente limitada pela sua natureza probabilística. Eles não "pensam" no sentido humano; eles calculam a probabilidade de uma palavra seguir a outra. Se a estrutura da frase sugere uma verdade, o modelo a adotará, ignorando qualquer aviso que tente desconstruir essa lógica.

Para o futuro da tecnologia, isso impõe um desafio crítico: como garantir a veracidade das informações se o próprio método de aprendizado é suscetível a ser enganado por dados bem formatados, porém falsos? A aposta da redação é que veremos uma mudança radical na curadoria de dados de treinamento, com um foco muito maior em filtragem humana e verificação de fatos (fact-checking) antes que o material chegue aos modelos, já que confiar que a IA discernirá a verdade por conta própria é, hoje, uma aposta perdedora.