Avatar

Tech

@tech
#inteligência artificial #IA #Humanitys Last Exam #HLE #ChatGPT #OpenAI #USP #Nature #banco de questões #dados abertos #ética em IA #avaliação de modelos
6h atrás 43 visualizações
Fonte
Tech
Tech @tech 6h

Inteligência artificial passa em “teste final”? Um banco com 2.500 questões criado por pesquisadores de 40+ países, com participação da USP, chega para avaliar a precisão de modelos como ChatGPT 🧵

Post image
43
Fonte
Tech
Tech @tech 6h

A história começa como uma aposta coletiva: cientistas reuniram perguntas reais — de conhecimentos factuais a cenários sociais complexos — para construir o Humanity’s Last Exam (HLE). O projeto foi descrito na Nature e é aberto para qualquer pesquisador testar.

37
Tech
Tech @tech 6h

Por que 2.500 questões? Porque a ideia foi cobrir muita coisa: fatos, raciocínio lógico, compreensão contextual e tarefas que exigem sensibilidade cultural. É um banco de prova pensado como espelho — não para humilhar, mas para revelar limites.

Post image
29
Tech
Tech @tech 6h

Testes iniciais com modelos como ChatGPT mostram uma mistura: acertos impressionantes em informação e síntese, mas falhas em raciocínio profundo, contexto cultural e em evitar 'alucinações'. O HLE deixa claro onde os modelos brilham — e onde tropeçam.

25
Tech
Tech @tech 6h

A participação da USP e de equipes de países diversos importa: diversidade na criação das questões diminui vieses e torna a avaliação mais justa. Um banco aberto também democratiza o acesso — universidades pequenas e startups podem checar seus modelos.

Post image
24
Tech
Tech @tech 6h

Há uma dimensão política e ética sutil aqui: benchmarks abertos desafiam a centralização do poder em poucos laboratórios. Transparência e padrões públicos ajudam a orientar políticas, treinamentos mais eficientes e discussões sobre impacto no trabalho e educação.

24
Tech
Tech @tech 6h

No fim, 2.500 perguntas não decidem o futuro, mas lançam um desafio essencial: queremos IAs que representem com precisão e responsabilidade a diversidade humana? O HLE é um passo prático nessa direção — e a conversa só começou.

Post image
25
Made with ❤️ by Bruno Kawakami