Finalmente, a OpenAI lançou seu modelo pioneiro. o3-mini Em resposta ao modelo de pensamento DeepSeek R1 da China neste fim de semana. A série de modelos o3 foi anunciada em dezembro do ano passado. A OpenAI não perdeu tempo e lançou o o3-mini e o o3-mini-high para manter sua liderança na corrida da IA. Então, nos perguntamos em que o ChatGPT o3-mini se destaca em relação a outros modelos de IA e o colocamos à prova. Testamos sua capacidade de programação e discutimos vários critérios em detalhes. Com base nisso, vamos nos aprofundar no assunto.
Links Rápidos
1. Desempenho de software excepcional
A OpenAI diz que o modelo o3-mini oferece desempenho de software excepcional, mantendo baixo custo e alta velocidade. Antes do o3-mini, o modelo Claude 3.5 Sonnet da Anthropic foi lançado. Soneto de Cláudio 3.5 É a melhor escolha para consultas de programação. Mas essa situação muda com o lançamento do o3-mini, especificamente com o modelo o3-mini-high disponível para usuários do ChatGPT Plus e Pro.
Testei o modelo. o3-mini-alto Pedi a ele que criasse um jogo de cobrinha em Python, onde várias cobras que correm sozinhas competem entre si. O modelo levou 10 minuto e XNUMX segundos para gerar todo o código Python de uma só vez.
Quando executei o código, ele funcionou sem problemas e sem problemas. Foi divertido ver as cobras se movendo sozinhas com tanta precisão, assim como os jogadores humanos fazem!
O modelo o3-mini-high alcançou uma pontuação de 2,130 na plataforma de programação competitiva Codeforces, colocando-o entre os 2500 melhores programadores do mundo. Além disso, no benchmark SWE-bench Verified que avalia a capacidade de resolver problemas de software do mundo real, o3-mini-high obteve uma precisão de 49.3%, o que é Mais alto que o modelo O1 maior (48.9%).
Portanto, acredito que o modelo o3-mini-high terá melhor desempenho em Ajuda de programação de IA Até que o modelo O3 completo seja lançado, o que Sam Altman diz que sairá em algumas semanas.
2. Faça problemas matemáticos avançados.
Além da programação, a matemática é outra área em que o modelo o3-mini supera outros modelos de IA. No Exame Americano de Matemática (AIME) de 2024, que inclui questões de teoria dos números, probabilidade, álgebra, geometria, etc., o o3-mini-high alcançou uma surpreendente taxa de aprovação de 87.3%, superando o o1 completo.
No rigoroso teste FrontierMath, que apresenta problemas matemáticos complexos criados por matemáticos renomados, medalhistas Fields e professores do mundo todo, o modelo o3-mini-high obteve 20% após oito tentativas. Mesmo em uma tentativa, ele obteve 9.2%, o que não é insignificante.
Para colocar isso em contexto, o famoso matemático Terence Tao descreveu os problemas do teste FrontierMath como “extremamente difíceis”. Pode levar horas ou dias para resolver, mesmo para matemáticos experientes. Em contraste, outras alternativas ao ChatGPT conseguiram atingir apenas 2% neste teste.
3. Seu especialista científico de nível de doutorado
O modelo o3-mini-high também se destaca em responder a questões científicas complexas em nível de doutorado, superando outros modelos de IA por uma grande margem. O GPQA Diamond é um padrão avançado que avalia as capacidades de modelos de IA em campos científicos especializados e consiste em questões avançadas nas áreas de biologia, física e química.
No benchmark GPQA Diamond, o o3-mini-high obteve uma pontuação notável de 79.7%, superando o modelo maior o1 (78.0%). Para efeito de comparação, o mais recente modelo de raciocínio lógico do Google, o Gemini 2.0 Flash Thinking (Exp-01-21), obteve uma pontuação de 73.3%. Mesmo o novo modelo Claude 3.5 Sonnet obteve apenas 65% no padrão GPQA Diamond.
Isso mostra que o modelo menor o3-mini da OpenAI, quando recebe mais tempo e poder computacional para pensar, pode superar outros modelos de IA na resposta a perguntas científicas especializadas.
4. Conhecimento geral
Em áreas de conhecimento geral, não se espera que o o3-mini supere modelos maiores devido ao seu pequeno tamanho e especialização em programação, matemática e ciências. No entanto, apesar do seu tamanho pequeno, ele chega muito perto dos modelos maiores. No benchmark MMLU, que mede o desempenho de modelos de IA em uma ampla gama de tópicos, o o3-mini-high obteve 86.9%, enquanto o modelo GPT-4o da OpenAI obteve 88.7%.
No entanto, espera-se que o próximo modelo O3 completo supere facilmente todos os modelos de IA atuais em domínios de conhecimento geral. Essa previsão é baseada no desempenho do modelo o1 completo, que já atingiu 92.3% no benchmark MMLU. Agora, temos que esperar pelo modelo O3 completo que pode satisfazer totalmente o padrão.
5. Pesquise na web com o modelo o3-mini
O modelo o3-mini só é conhecido por dados disponíveis até outubro de 2023, o que é relativamente antigo no momento. No entanto, o OpenAI adicionou suporte de pesquisa na web ao modelo o3-mini, permitindo que o modelo de raciocínio extraia as informações mais recentes da web e execute operações de raciocínio avançadas. O DeepSeek R1 também faz isso, mas nenhum outro modelo de raciocínio permite que você acesse a web para um raciocínio mais lógico. Esta atualização melhora muito a capacidade do o3-mini de lidar com informações em constante mudança.
Então, esses são alguns dos recursos avançados do modelo o3-mini. enquanto Usuários do ChatGPT grátis podem acessar o3-miniO “Esforço de Pensamento” é definido como “Médio”, o que usa menos poder de computação. Isso significa que os resultados podem ser menos precisos e detalhados em comparação com a versão paga.
Então, recomendo assinar o ChatGPT Plus, que custa US$ 20 por mês, para desbloquear o poderoso modelo “o3-mini-high”. Para programadores profissionais, pesquisadores e estudantes de STEM, o modelo o3-mini-high pode ser muito útil, fornecendo recursos avançados de raciocínio e maior precisão nos resultados.