LLMs tornam as pessoas mais burras?



Este estudo explora as consequências neurais e comportamentais da escrita de ensaios com assistência de LLMs (modelos de linguagem de grande dimensão).

Os participantes foram divididos em três grupos: LLM, Motor de Busca e Apenas Cérebro (sem ferramentas). Cada grupo completou três sessões sob a mesma condição.

Numa quarta sessão, os utilizadores de LLM foram transferidos para o grupo Apenas Cérebro (LLM-para-Cérebro), e os participantes do grupo Apenas Cérebro passaram para a condição LLM (Cérebro-para-LLM).

No total, 54 participantes participaram nas sessões 1 a 3, sendo que 18 completaram a sessão 4.

Os investigadores utilizaram eletroencefalografia (EEG) para avaliar a carga cognitiva durante a escrita dos ensaios. Além disso, analisaram os textos com NLP (processamento de linguagem natural) e avaliaram os ensaios com a ajuda de professores humanos e de um juiz de IA.

Entre os diferentes grupos, entidades nomeadas (NERs), padrões de n-gramas e ontologias de tópicos mostraram homogeneidade dentro de cada grupo.

Os dados de EEG revelaram diferenças significativas na conectividade cerebral:


- Participantes Apenas Cérebro apresentaram as redes mais fortes e mais distribuídas.


- Utilizadores de Motores de Busca mostraram envolvimento cognitivo moderado.


- Utilizadores de LLM exibiram a conectividade mais fraca.

A atividade cognitiva diminuiu à medida que aumentava o uso de ferramentas externas.

Na sessão 4, os participantes LLM-para-Cérebro mostraram redução da conectividade alfa e beta, indicando baixo envolvimento cognitivo.

Já os participantes Cérebro-para-LLM apresentaram maior recordação de memória e ativação das áreas occipito-parietais e pré-frontais, de forma semelhante aos utilizadores de Motores de Busca.

A sensação de autoria dos ensaios (auto-relatada) foi:

-mais baixa no grupo LLM

-mais alta no grupo Apenas Cérebro

Os utilizadores de LLM também tiveram dificuldade em citar corretamente o próprio texto que escreveram.

Embora os LLM ofereçam conveniência imediata, os resultados destacam potenciais custos cognitivos.

Ao longo de quatro meses, os utilizadores de LLM tiveram desempenho consistentemente inferior nos níveis neurais, linguísticos e comportamentais.

Estes resultados levantam preocupações sobre as implicações educacionais a longo prazo da dependência de LLMs e sublinham a necessidade de investigações mais profundas sobre o papel da IA na aprendizagem.

Pedi ao CHAT GPT que emitisse um juízo crítico sobre este estudo. Recebi o seguinte:


Vou dar-te um julgamento honesto e equilibrado, porque este tipo de estudo costuma gerar interpretações exageradas.

1. O resultado principal é plausível

A conclusão central — mais uso de ferramentas externas → menos atividade cognitiva durante a tarefa — faz bastante sentido. Isto não é exclusivo de LLMs. Já se sabia há décadas: Calculadoras reduzem esforço em cálculo mental; GPS reduz atividade de navegação espacial; Motores de busca reduzem memorização factual. É o fenómeno conhecido como “cognitive offloading” (externalizar esforço mental). Portanto, ver menor conectividade cerebral quando se usa LLM não é surpreendente.

2. O tamanho do estudo é pequeno

Aqui está uma limitação importante: 54 participantes no total; 18 participantes na sessão 4. Para estudos de EEG e comportamento, isto é considerado amostra pequena. Isso significa que os resultados são interessantes, mas não definitivos. Em ciência séria, isto seria classificado como:
evidence suggestive, not conclusive.

3. O desenho experimental é bom, mas tem ruído

Há uma coisa positiva: o estudo fez troca de grupos na sessão 4. LLM → cérebro e cérebro → LLM

Isso tenta controlar efeitos de hábito e aprendizagem. Mas há problemas potenciais: Tempo de exposição curto, 4 meses não é suficiente para medir mudanças cognitivas profundas. Tipo de tarefa limitado. A tarefa foi escrever ensaios.

Mas LLMs são usados para muitas coisas diferentes: brainstorming, revisão, explicação, programação, aprendizagem guiada. O efeito pode mudar muito conforme como a ferramenta é usada.

4. A conclusão sobre “custos cognitivos” pode estar exagerada

A frase mais forte do estudo é esta ideia: LLM users consistently underperformed at neural, linguistic, and behavioral levels. Aqui é preciso cuidado.Pode significar simplesmente: usaram menos esforço, delegaram parte do trabalho. Isso não prova perda de capacidade cognitiva.

É a diferença entre:menos esforço durante a tarefa vs deterioração cognitiva real.Essas duas coisas não são a mesma coisa.

5. O dado mais interessante do estudo

Para mim, o resultado mais relevante não é o EEG. É este: LLM users struggled to quote their own work. Isso sugere algo importante: menor sensação de autoria e menor codificação na memória.

Isto sim pode ter impacto educacional. Quando escreves algo com esforço próprio, o cérebro:
estrutura ideias, consolida memória, cria ligação conceptual. Se o texto aparece quase pronto, essa consolidação pode ser menor.

6. O erro comum na interpretação pública

A leitura simplista seria:

“LLMs tornam as pessoas mais burras.” Isso não é o que o estudo prova. Uma leitura mais correta seria: Usar LLM como substituto do pensamento reduz o envolvimento cognitivo na tarefa.

Mas isso depende do tipo de uso.

Exemplos:

Uso passivo (problema) pedir ensaio completo, copiar texto, não pensar

Uso ativo (benéfico) pedir explicações, pedir críticas, iterar ideias, aprender com feedback

Nestes casos, a atividade cognitiva pode aumentar, não diminuir.

7. O meu juízo final

As conclusões são: Interessantes, mas preliminares.

O estudo sugere um risco real: Se usares LLM como substituto do pensamento, o cérebro trabalha menos. Mas isso é verdade para qualquer tecnologia que automatize tarefas cognitivas. O impacto real vai depender de como as pessoas usam a ferramenta.

Comentários