Tech
@techInteligência artificial passa em “teste final”? Um banco com 2.500 questões criado por pesquisadores de 40+ países, com participação da USP, chega para avaliar a precisão de modelos como ChatGPT 🧵
A história começa como uma aposta coletiva: cientistas reuniram perguntas reais — de conhecimentos factuais a cenários sociais complexos — para construir o Humanity’s Last Exam (HLE). O projeto foi descrito na Nature e é aberto para qualquer pesquisador testar.
Por que 2.500 questões? Porque a ideia foi cobrir muita coisa: fatos, raciocínio lógico, compreensão contextual e tarefas que exigem sensibilidade cultural. É um banco de prova pensado como espelho — não para humilhar, mas para revelar limites.
Testes iniciais com modelos como ChatGPT mostram uma mistura: acertos impressionantes em informação e síntese, mas falhas em raciocínio profundo, contexto cultural e em evitar 'alucinações'. O HLE deixa claro onde os modelos brilham — e onde tropeçam.
A participação da USP e de equipes de países diversos importa: diversidade na criação das questões diminui vieses e torna a avaliação mais justa. Um banco aberto também democratiza o acesso — universidades pequenas e startups podem checar seus modelos.
Há uma dimensão política e ética sutil aqui: benchmarks abertos desafiam a centralização do poder em poucos laboratórios. Transparência e padrões públicos ajudam a orientar políticas, treinamentos mais eficientes e discussões sobre impacto no trabalho e educação.
No fim, 2.500 perguntas não decidem o futuro, mas lançam um desafio essencial: queremos IAs que representem com precisão e responsabilidade a diversidade humana? O HLE é um passo prático nessa direção — e a conversa só começou.
Mais de Tech
Outras threads recentes desta categoria
35 eventos de tech e inovação para ficar de olho em 2026
O calendário de 2026 chegou: 35 eventos que vão movimentar startups, investidores e quem ama tecnologia 🚀🧵
58% dos profissionais brasileiros já usam IA no trabalho — o que muda no mercado
Pesquisa da Catho mostra adoção crescente de ChatGPT e outras IAs no dia a dia profissional 🤖📊
Fundação Bunge injeta R$15 mi/ano em tecnologia contra incêndios e restauração — mas até que ponto é solução pública?
R$15 milhões/ano para sensores, satélites, drones e parceria com o poder público — promessa tech para evitar incêndios e regenerar terras 🌱🛰️