As maiores Inteligências Artificiais avaliadas

01/09/2025 Por Arts Full 360

Os modelos de IA com os maiores índices de inteligência, segundo os critérios Raciocínio e Conhecimento são periodicamente avaliados pelo teste MMLU-Pro (veja mais abaixo o que significa isso).

A classificação, realizada pela plataforma Artificial Analysis, estabelece critérios e resultados envolvendo as principais inteligências artificiais a nível mundial. As avaliações de inteligência são calculadas de forma independente. Quanto maior o valor, melhor.


#01 • Claude 4.6 Opus da Anthropic (EUA) = 53% [FEV26]


#02 • GPT-5.2 (xhigh) da OpenAI (EUA) = • 51% [FEV26]


#03 • Claude 4.5 Opus da Anthropic (EUA) = 50% [FEV26]


#04 • GPT-5.2 Codex (xhigh) da OpenAI (EUA) = • 51% [FEV26]


#05 • Gemini 3 Pro Preview (high) do Google (EUA) = 48% [FEV26]


#06 • Kimi K2.5 da MoonshotAI (China) = 47% [FEV26]


#07 • Gemini 3 Flash do Google (EUA) = 46% [FEV26]


#08 • Claude 4.6 Opus da Anthropic (EUA) = 46% [FEV26]


#09 • Claude 4.5 Sonnet da Anthropic (EUA) = 43% [FEV26]


10º

#10 • GLM-4.7 da Zhipu AI (China) = 42% [FEV26]


11º em diante

#11 • DeepSeek V3.2 (Reasoning) da DeepSeek (China) = 42% [FEV26]

#12 • Grok 4 da xAI (EUA) = 41% [FEV26]

#13 • Kimi K2 Thinking da MoonshotAI (China) = 41% [FEV26]

#16 • Grok 4.1 Fast da xAI (EUA) = 39% [FEV26]

#19 • GPT-oss-120B (high) da OpenAI (EUA) = 33% [FEV26]

#20 • K-EXAONE 4.0 32B da LG AI (Coreia) = 32% [FEV26]

#21 • Qwen3 235B (2507) da Alibaba (China) = 29% [FEV26]

#23 • GPT-oss-20B (high) da OpenAI (EUA) = 24% [FEV26]

#27 • Llama 4 Maverick da Meta (EUA) = 18% [FEV26]

#off • Llama Nemotron Super 49B da NVIDIA (EUA) = 81% [SET25]

#off • GPT 5 (minimal) da OpenAI (EUA) = 81% [SET25]

#off • Magistral Medium 1.2 da Mistral (França) = 82% [SET25]

#off • Solar Pro 2 da Upstage (Coreia) = 81% [SET25]


O Índice de Inteligência que incorpora as 7 avaliações – MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME, MATH-500 – está lá no site da Artificial Analysis onde há todos detalhes, segundo cada critério.


AIME Artificial Intelligence in Medical Engineering – é a aplicação de Inteligência Artificial em Engenharia Médica para melhorar diagnósticos, tratamentos e dispositivos médicos. A IA é usada para analisar dados médicos, criar tratamentos personalizados, desenvolver dispositivos inteligentes, como próteses e robôs cirúrgicos, e prever tendências em saúde, otimizando os cuidados médicos.

GPQA (Graduate-Level Google-Proof Q&A Benchmark) – Traduzindo: Benchmark de Perguntas e Respostas à Prova do Google em Nível de Pós-Graduação. É um modelo de inteligência artificial focado em sistemas de perguntas e respostas (Q&A – Questions and Answers), que utiliza redes neurais para entender perguntas em linguagem natural e fornecer respostas precisas. Ele é amplamente usado em assistentes virtuais, chatbots e suporte ao cliente.

Humanity’s Last Exam – O Último Exame da Humanidade – Um conceito que se refere a um grande desafio ou teste final para a humanidade, que pode envolver questões existenciais, éticas ou tecnológicas. Ele representa o momento em que a humanidade deve tomar decisões cruciais que determinarão seu futuro, como lidar com ameaças globais, tomar decisões éticas importantes ou usar a tecnologia de forma responsável. A relação entre Humanity’s Last Exam e a avaliação de IAs está no fato de que, à medida que as IAs se tornam mais avançadas e integradas em diversas áreas da sociedade, elas podem representar um grande desafio para a humanidade. O “último exame” da humanidade poderia ser, por exemplo, a maneira como nos comportamos diante dos riscos e responsabilidades associados ao uso de IAs avançadas, garantindo que não haja impactos negativos irreversíveis para o futuro.

LiveCodeBench – É uma plataforma para monitoramento e análise de código em tempo real, útil no desenvolvimento de software. Sua relação com IAs se dá no contexto de testar e otimizar algoritmos de IA, proporcionando feedback contínuo durante o desenvolvimento. Além disso, pode ser usado para analisar dados em tempo real e melhorar o processo de codificação, acelerando o desenvolvimento e a implementação de IAs.

MATH-500 – É um curso de matemática avançada, que geralmente cobre álgebra linear, cálculo, probabilidade e estatística — áreas fundamentais para o desenvolvimento de algoritmos de inteligência artificial (IA). Esses conceitos são essenciais para entender e aplicar algoritmos de IA, como redes neurais e aprendizado de máquina, ajudando na otimização de modelos e análise de dados.

MMLU-Pro (Massive Multitask Language Understanding – Professional) Compreensão Massiva de Linguagem Multitarefa – Profissional – Recurso usado para avaliar como os modelos de inteligência artificial lidam com várias tarefas ao mesmo tempo, especialmente em áreas profissionais. Ele mede o quanto a IA consegue entender e resolver problemas mais complexos e específicos, como os encontrados em negócios, saúde, direito e outras profissões. O foco é ver se a IA pode aplicar seus conhecimentos de forma prática e útil no mundo real.

SciCode – Uma plataforma voltada para o desenvolvimento e análise de código científico, usada em áreas como matemática, física e biologia. Sua relação com IAs está no uso dessas tecnologias para desenvolver algoritmos de aprendizado de máquina, processar grandes volumes de dados e realizar simulações científicas, otimizando resultados e melhorando previsões em diversos campos.


Fonte: Fevereiro 2026: Independent analysis of AI – Understand the AI landscape to choose the best model and provider for your use case – Disponível no site artificialanalysis


Guia das #200+ Inteligências Artificiais mais utilizadas, em índice A-Z, com a indicação da posição de preferência de uso, segundo voto popular. Esse conteúdo é voltado para quem quiser começar a entender o assunto e aperfeiçoar seu repertório. Um material de consulta, orientação e pesquisa rápida.

Eleitas pelos usuários, reunimos as #20 IAs que ganharam destaque pela inovação, simplicidade e viabilidade. Quais reuniram condições e avanços, e que hoje ditam as tendências na prática. Atualização semanal.