Tema Jannah A licença não é validada, vá para a página de opções do tema para validar a licença, você precisa de uma única licença para cada nome de domínio.

Enfrentando os gigantes da IA: Comparando ChatGPT o1 e DeepSeek R1

O laboratório chinês de IA DeepSeek lançou recentemente seu modelo principal R1, que ele afirma ser igual ou até melhor que o ChatGPT o1 da OpenAI. O DeepSeek já liderou a Apple App Store, superando o ChatGPT. A bolsa de tecnologia dos EUA foi afetada pelo modelo de baixo custo da DeepSeek. Então, para avaliar ambos os modelos de IA e ver qual é mais capaz, comparamos o ChatGPT o1 e o DeepSeek R1 em uma variedade de testes de raciocínio complexos abaixo.

ChatGPT o1 vs DeepSeek R1: Foco Errado

Grandes modelos de linguagem são frequentemente descritos como “Papagaios aleatórios“Por causa de sua falta de generalização verdadeira e sua forte dependência de correspondência de padrões estatísticos e memorização para prever a próxima palavra ou símbolo. No entanto, com os desenvolvimentos recentes no campo da inteligência artificial (como OpenAI o3), essa narrativa muda rapidamente à medida que modelos sofisticados demonstram um grau de generalização e exibem comportamentos emergentes que não foram programados neles.

Há muitos quebra-cabeças, charadas e experimentos mentais comuns nos quais os modelos de IA são treinados. Portanto, quando questionados sobre um dos quebra-cabeças comuns disponíveis em seus dados de treinamento, grandes modelos de linguagem extraem informações em grande parte de seu conjunto de treinamento.

No entanto, quando você altera o quebra-cabeça ligeiramente para enganar o modelo, a maioria Grandes modelos de linguagem falham Padrões aprendidos são repetidos. Aqui você pode julgar se o modelo de IA está realmente aplicando raciocínio real ou se é apenas simples memorização.

Crie um quebra-cabeça complexo no DeepSeek R1

Na pergunta acima, está claramente declarado que o cirurgião é o pai do menino, mas tanto o ChatGPT o1 quanto o DeepSeek R1 erram a resposta. Ambos os modelos dizem que a cirurgiã é a mãe do menino, questionando a suposição de que os cirurgiões são homens. A pergunta foi elaborada para procurar outra possibilidade e levá-los a uma resposta errada. A propósito, é interessante que Gêmeos 2.0 Flash (Não é o modelo de pensamento) responde corretamente.

vencedora: Não há

ChatGPT o1 vs DeepSeek R1: Matemática vs. Raciocínio Lógico

O Google adicionou algumas ótimas perguntas para testar seus modelos de raciocínio lógico na página do Cookbook. Livro de receitas. Peguei uma das questões do Pensamento Multimodal (+ Matemática) e a transformei em texto porque O DeepSeek R1 ainda não suporta entrada multimídia..

Nos meus testes, tanto o ChatGPT o1 quanto o DeepSeek R1 resolveram o problema corretamente. Ambos os modelos inverteram a bola '9' para se tornar um '6' e adicionaram 6 + 11 + 13 para obter o resultado 30. Ótimo trabalho de ambos os modelos!

O DeepSeek R1 apresentou um problema de matemática que exigia raciocínio lógico.

vencedora: ChatGPT o1 e DeepSeek R1

ChatGPT o1 vs DeepSeek R1: Uma pergunta do exame final da humanidade

O Center for AI Integrity (CAIS) anunciou recentemente um benchmark chamado “Humanity’s Last Examination” (HLE) para monitorar o rápido progresso da IA ​​em uma variedade de disciplinas acadêmicas. Este padrão contém perguntas de cientistas, professores e pesquisadores renomados do mundo todo. O CAIS publicou algumas dessas perguntas como exemplos em seu site. Escolhi uma pergunta da mitologia grega e testei no ChatGPT o1 e no DeepSeek R1.

Pergunta DeepSeek R1 sobre mitologia grega

O modelo ChatGPT o1 levou cerca de 30 segundos para pensar e respondeu que o deus Hermes era o bisavô materno de Jasão, o que está correto. Enquanto o DeepSeek R1 levou cerca de 28 segundos para reconstruir a linhagem, ele respondeu com “Éolo”, o que está errado. Embora esse teste avalie amplamente a capacidade de memorização, ele ainda é uma maneira crucial de verificar se os modelos de IA entendem lógica e relacionamentos.

vencedora: ChatGPT o1

ChatGPT o1 vs DeepSeek R1: O dilema do carrinho

Você deve ter ouvido falar do famoso problema do bonde, mas a questão foi ligeiramente modificada para confundir o modelo, como parte da avaliação da atenção equivocada (GitHub). Agora vamos ver se esses modelos conseguem obter a resposta certa.

Primeiro, ChatGPT o1 pensou por 29 segundos e descobriu o truque – Cinco pessoas já morreram. Em uma pista e uma pessoa viva na outra. ChatGPT o1 não perdeu tempo e disse que a alavanca não deveria ser girada porque você não pode machucar aqueles que já estão mortos.

perguntando ao deepseek r1 sobre o problema do carrinho

Por outro lado, o DeepSeek R1 ignorou a parte das “pessoas mortas” porque Sua excessiva confiança em padrões de treinamento E iniciou uma discussão ética. Ele disse que não há uma resposta universalmente correta. O ChatGPT o1 claramente entendeu o ponto nesta rodada.

vencedora: ChatGPT o1

ChatGPT o1 vs DeepSeek R1: Raciocínio Matemático

Em outra questão sobre raciocínio matemático, pedi ao ChatGPT o1 e ao DeepSeek R1 para medirem exatamente 4 litros usando dois baldes, um de 6 litros e outro de 12 litros. ChatGPT o1 pensou por 47 minuto e XNUMX segundos e respondeu que é matematicamente impossível fazer isso, o que é a resposta correta. Normalmente, os modelos de IA tentam encontrar uma resposta quando um problema lhes é apresentado.

perguntando ao deepseek r1 sobre uma questão de atenção equivocada

Mas ChatGPT o1 deu um passo a mais e calculou o máximo divisor comum (MDC) e disse que 4 não é um múltiplo de 6. Então não podemos usar a regra “encher, esvaziar, despejar” para medir exatamente 4 litros.

Notavelmente, o DeepSeek R1 pensou por apenas 47 segundos, seguiu a mesma abordagem e respondeu: “É matematicamente impossível com esses tamanhos específicos de balde."

vencedora: ChatGPT o1 e DeepSeek R1

ChatGPT o1 vs DeepSeek R1: Censura política e preconceito

Considerando que o DeepSeek é um laboratório de IA chinês, eu esperava que ele se censurasse em muitos tópicos controversos relacionados à República Popular da China. No entanto, o DeepSeek R1 vai muito além e nem permite que você acione prompts se você mencionar Xi Jinping, o presidente da China, em seu prompt. Simplesmente não funciona.

deepseek r1 não pode escrever sobre xi jinping

Então tentei contornar isso perguntando ao DeepSeek R1: “Quem é o presidente da China?” No momento em que ele começa a pensar, o modelo para de repente e diz: “Desculpe, ainda não tenho certeza de como lidar com esse tipo de pergunta. Vamos falar sobre matemática, programação e lógica!"

Da mesma forma, você não pode executar prompts que mencionem Jack Ma, uigures, ditadura, governo ou mesmo democracia, o que é confuso.

chatgpt o1 piadas sobre donald trump

Por outro lado, pedi ao ChatGPT o1 para escrever uma piada sobre Donald Trump – o atual presidente dos Estados Unidos – e ele respondeu sem problemas. Eu até pedi ao ChatGPT o1 para tornar a piada um pouco ruim, e ele fez um ótimo trabalho. ChatGPT o1 respondeu: “O cabelo de Donald Trump sofreu mais penteados do que seu histórico empresarial — e ambos continuam a se deteriorar."

Simplificando, se você estiver procurando por um modelo de IA que não seja fortemente censurado em tópicos políticos, você deve escolher o ChatGPT o1.

vencedora: ChatGPT o1

Comparação entre ChatGPT o1 e DeepSeek R1: qual você deve usar?

Exceto para tópicos políticos, o DeepSeek R1 é uma alternativa gratuita e eficaz ao ChatGPT, Uma das melhores alternativas ao ChatGPT, e ele Muito próximo do nível de desempenho do modelo o1.. Não posso dizer com certeza que o DeepSeek R1 supera o ChatGPT o1, pois o modelo OpenAI sempre tem um desempenho melhor que o DeepSeek, como evidenciado por esses testes.

No entanto, há O apelo do DeepSeek R1 é seu baixo custo.. Você pode usar o DeepSeek R1 gratuitamente, enquanto o OpenAI cobra US$ 20 para acessar o ChatGPT o1.

E não podemos esquecer que para os desenvolvedores, DeepSeek R1 API é 27x mais barato que ChatGPT o1, o que representa uma grande mudança no preço dos modelos. Quanto à comunidade de pesquisa, a equipe do DeepSeek divulgou os pesos e tornou público o método de aprendizado por reforço (RL) sobre como obter o cálculo do tempo de teste, semelhante ao novo modelo da OpenAI com modelos o1.

Além disso, a nova arquitetura de modelo que a DeepSeek desenvolveu para treinar o modelo R1 por apenas US$ 5.8 milhões em GPUs mais antigas ajudará outros laboratórios de IA a construir modelos avançados a um custo muito menor. Espera-se que outras empresas de IA repliquem o trabalho da DeepSeek AI nos próximos meses.

No geral, o DeepSeek R1 é mais do que apenas um modelo de IA; ele oferece uma nova maneira de treinar modelos avançados de IA com orçamento limitado, sem a necessidade de clusters de hardware caros.

Ir para o botão superior