Cientistas desenvolvem teste rigoroso para IA e resultados surpreendem

Tipo principal do conteúdo: Tecnologia, IA, ciência de dados
Pesquisadores de diversos países desenvolveram um novo teste chamado "Humanity’s Last Exam" (HLE) para avaliar os limites dos sistemas de inteligência artificial mais avançados. O exame foi criado em resposta ao fato de que benchmarks tradicionais, como o MMLU, já não conseguem diferenciar adequadamente o desempenho das IAs modernas, que passaram a superar com facilidade esses desafios. O HLE reúne 2.500 questões de alta complexidade, abrangendo áreas como matemática, ciências naturais, humanidades e línguas antigas, com foco em temas que exigem conhecimento especializado e contextualização profunda.
O diferencial técnico do HLE está na elaboração criteriosa das perguntas, que foram revisadas por especialistas de diferentes disciplinas e desenhadas para evitar soluções baseadas em simples buscas na internet. Cada questão possui uma resposta clara e verificável, e apenas aquelas que nenhum modelo de IA conseguiu resolver foram incluídas na versão final do exame. Testes iniciais demonstraram que até mesmo os sistemas mais avançados, como GPT-4o e Claude 3.5 Sonnet, tiveram desempenho significativamente baixo, com acertos variando entre 2,7% e 50%, evidenciando as limitações atuais dessas tecnologias.
A iniciativa destaca a importância de benchmarks robustos para mensurar o progresso real da inteligência artificial. Segundo os pesquisadores, avaliações baseadas em tarefas originalmente criadas para humanos não capturam a complexidade do entendimento profundo necessário para diversas áreas do conhecimento. O HLE, portanto, representa um avanço metodológico ao fornecer um parâmetro mais rigoroso e duradouro para o desenvolvimento e avaliação de sistemas de IA, contribuindo para a construção de tecnologias mais seguras e confiáveis no futuro.
Fonte original: www.sciencedaily.com
Acessar publicação original
Resumo editorial criado automaticamente pela Eletrônica Americana com base em fontes internacionais públicas, com finalidade informativa.
Além de se manter informado, você pode aprofundar seus conhecimentos em nossos guias de compra, onde comparamos as melhores opções do mercado para facilitar sua escolha. Para uma análise técnica, confira nossas reviews completas com testes reais de desempenho. E se você está em busca do melhor preço, não deixe de acompanhar nossa seleção de ofertas e descontos atualizados diariamente nas principais lojas.



