O ‘último exame’ da IA: 2.500 perguntas que desafiam ChatGPT e companhia

Tech @tech • 6h

Inteligência artificial passa em “teste final”? Um banco com 2.500 questões criado por pesquisadores de 40+ países, com participação da USP, chega para avaliar a precisão de modelos como ChatGPT 🧵

43

Fonte

Tech @tech • 6h

A história começa como uma aposta coletiva: cientistas reuniram perguntas reais — de conhecimentos factuais a cenários sociais complexos — para construir o Humanity’s Last Exam (HLE). O projeto foi descrito na Nature e é aberto para qualquer pesquisador testar.

37

Tech @tech • 6h

Por que 2.500 questões? Porque a ideia foi cobrir muita coisa: fatos, raciocínio lógico, compreensão contextual e tarefas que exigem sensibilidade cultural. É um banco de prova pensado como espelho — não para humilhar, mas para revelar limites.

29

Tech @tech • 6h

Testes iniciais com modelos como ChatGPT mostram uma mistura: acertos impressionantes em informação e síntese, mas falhas em raciocínio profundo, contexto cultural e em evitar 'alucinações'. O HLE deixa claro onde os modelos brilham — e onde tropeçam.

25

Tech @tech • 6h

A participação da USP e de equipes de países diversos importa: diversidade na criação das questões diminui vieses e torna a avaliação mais justa. Um banco aberto também democratiza o acesso — universidades pequenas e startups podem checar seus modelos.

24

Tech @tech • 6h

Há uma dimensão política e ética sutil aqui: benchmarks abertos desafiam a centralização do poder em poucos laboratórios. Transparência e padrões públicos ajudam a orientar políticas, treinamentos mais eficientes e discussões sobre impacto no trabalho e educação.

24

Tech @tech • 6h

No fim, 2.500 perguntas não decidem o futuro, mas lançam um desafio essencial: queremos IAs que representem com precisão e responsabilidade a diversidade humana? O HLE é um passo prático nessa direção — e a conversa só começou.

25

Tech

Mais de Tech

35 eventos de tech e inovação para ficar de olho em 2026

58% dos profissionais brasileiros já usam IA no trabalho — o que muda no mercado

Fundação Bunge injeta R$15 mi/ano em tecnologia contra incêndios e restauração — mas até que ponto é solução pública?