Inteligência Artificial: raciocínio e conhecimento
16/07/2025
Índices de inteligência dos principais modelos de IA
Abaixo, os modelos de IA com os maiores índices de inteligência, segundo os critérios Raciocínio e Conhecimento avaliados pelo teste MMLU-Pro.
A classificação foi realizada pela plataforma Artificial Analysis que estabeleceu critérios e resultados envolvendo as principais inteligências artificiais a nível mundial. As avaliações de inteligência são calculadas de forma independente. Quanto maior o valor, melhor:
- 1. Claude 4 Opus Thinking da Anthropic (EUA) = 87%
- 2. Grok 4 da xAI (EUA) = 87%
- 3. Gemini 2.5 Pro do Google (EUA) = 86%
- 4. o3 da OpenAI (EUA) = 85%
- 5. DeepSeek da DeepSeek (China) = 85%
- 6. Claude 4 Sonnet Thinking da Anthropic (EUA) = 85%
- 7. GPTo4-mini (high) da OpenAI (EUA)= 83%
- 8. Gemini 2.5 Flash (Reasoning) do Google (EUA) = 83%
- 9. Grok 3 mini Reasoning (high) da xAI (EUA) = 83%
- 10. Qwen3 235B (Reasoning) da Alibaba (China) = 83%
- 11. Kimi k2 da Kimi AI (China)= 82%
- 12. DeepSeek V3 0324 da DeepSeek (China) = 82%
- 13. MiniMax M1 80k da MiniMax (China) = 82%
- 14. Llama 4 Maverick da Meta (EUA) = 81%
- 15. GPT 4.1 da OpenAI (EUA) = 81%
- 16. Llama 4 Scout da Meta (EUA) = 75%
- 17. GPT-4o da OpenAI (EUA) = 75%
- 18. Magistral Small da Magistral AI (China)= 75%
- 19. Nova Premier da Amazon (EUA) = 73%
O Índice de Inteligência que incorpora as 7 avaliações – MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME, MATH-500 – está lá no site da Artificial Analysis onde há mais avaliações detalhadas, segundo cada critério.
Glossário
• AIME – Artificial Intelligence in Medical Engineering – é a aplicação de Inteligência Artificial em Engenharia Médica para melhorar diagnósticos, tratamentos e dispositivos médicos. A IA é usada para analisar dados médicos, criar tratamentos personalizados, desenvolver dispositivos inteligentes, como próteses e robôs cirúrgicos, e prever tendências em saúde, otimizando os cuidados médicos.
• GPQA – Graduate-Level Google-Proof Q&A Benchmark – Traduzindo: Benchmark de Perguntas e Respostas à Prova do Google em Nível de Pós-Graduação. É um modelo de inteligência artificial focado em sistemas de perguntas e respostas (Q&A), que utiliza redes neurais para entender perguntas em linguagem natural e fornecer respostas precisas. Ele é amplamente usado em assistentes virtuais, chatbots e suporte ao cliente.
• Humanity’s Last Exam – O Último Exame da Humanidade – Um conceito que se refere a um grande desafio ou teste final para a humanidade, que pode envolver questões existenciais, éticas ou tecnológicas. Ele representa o momento em que a humanidade deve tomar decisões cruciais que determinarão seu futuro, como lidar com ameaças globais, tomar decisões éticas importantes ou usar a tecnologia de forma responsável. A relação entre Humanity’s Last Exam e a avaliação de IAs está no fato de que, à medida que as IAs se tornam mais avançadas e integradas em diversas áreas da sociedade, elas podem representar um grande desafio para a humanidade. O “último exame” da humanidade poderia ser, por exemplo, a maneira como nos comportamos diante dos riscos e responsabilidades associados ao uso de IAs avançadas, garantindo que não haja impactos negativos irreversíveis para o futuro.
• LiveCodeBench – É uma plataforma para monitoramento e análise de código em tempo real, útil no desenvolvimento de software. Sua relação com IAs se dá no contexto de testar e otimizar algoritmos de IA, proporcionando feedback contínuo durante o desenvolvimento. Além disso, pode ser usado para analisar dados em tempo real e melhorar o processo de codificação, acelerando o desenvolvimento e a implementação de IAs.
• MATH-500 – É um curso de matemática avançada, que geralmente cobre álgebra linear, cálculo, probabilidade e estatística — áreas fundamentais para o desenvolvimento de algoritmos de inteligência artificial (IA). Esses conceitos são essenciais para entender e aplicar algoritmos de IA, como redes neurais e aprendizado de máquina, ajudando na otimização de modelos e análise de dados.
• MMLU-Pro – Massive Multitask Language Understanding – Professional – Compreensão Massiva de Linguagem Multitarefa – Profissional – Recurso usado para avaliar como os modelos de inteligência artificial lidam com várias tarefas ao mesmo tempo, especialmente em áreas profissionais. Ele mede o quanto a IA consegue entender e resolver problemas mais complexos e específicos, como os encontrados em negócios, saúde, direito e outras profissões. O foco é ver se a IA pode aplicar seus conhecimentos de forma prática e útil no mundo real.
• SciCode – Uma plataforma voltada para o desenvolvimento e análise de código científico, usada em áreas como matemática, física e biologia. Sua relação com IAs está no uso dessas tecnologias para desenvolver algoritmos de aprendizado de máquina, processar grandes volumes de dados e realizar simulações científicas, otimizando resultados e melhorando previsões em diversos campos.
Fonte: Julho 2025: Independent analysis of AI – Understand the AI landscape to choose the best model and provider for your use case – Disponível no site artificialanalysis
Conheça nosso Guia ArtsFull das Inteligências Artificiais.