Por que o DeepSeek R2 é importante?
Relatórios vazados sugerem que o DeepSeek R2 é um enorme modelo de 1,2 trilhão de parâmetros que, de alguma forma, usa apenas 78 bilhões de parâmetros por vez, tornando-o incrivelmente eficiente.
Se esses rumores forem verdadeiros, o R2 poderia custar apenas $0,07 por milhão de tokens de entrada e $0,27 por milhão de tokens de saída — compare isso com os $15 e $60 da OpenAI, respectivamente, para seu modelo o1, que é tão caro de operar que é amplamente reservado para usuários de API e assinantes Max.
O que isso significa é que estamos potencialmente falando sobre uma IA que é tão inteligente quanto o melhor modelo do Santo Graal da OpenAI, mas custa menos do que o GPT 4.1 nano, um dos modelos OpenAI mais baratos no momento.
O que é o DeepSeek R2?
O DeepSeek R2 é o modelo de linguagem grande de última geração da DeepSeek, uma startup chinesa de IA.
| Aspect |
Details |
| Core Capabilities |
• Complex reasoning across multiple languages • Advanced coding and debugging • Image and vision understanding • Multimodal support (text, images, audio, basic video) |
| Why is it a big deal? |
R2 should match GPT-o1 performance while being 97% cheaper to run |
| How was it trained? |
It was trained over 45 days using 5.2 petabytes of training data, including specialized datasets from finance, law, and patents |
| What architecture does it use? |
It uses a MoE architecture with 1.2 trillion total parameters with 78 billion active at a time. |
| How does it perform? |
• 89.7% on C-Eval 2.0 (China's toughest AI benchmark) • 92.4% accuracy on COCO vision tasks • Matches or exceeds GPT-o1/Claude Opus performance |
| How much is it to run? |
• $0.07 per million input tokens • $0.27 per million output tokens |
| When will it be released? |
Some time in 2025 |
Ele se baseia no sucesso do R1, que provou que você não precisa de bilhões em recursos de computação para criar uma IA de fronteira. Da mesma forma, o R2 pretende ser ainda mais poderoso e, ao mesmo tempo, ser econômico.
O modelo foi projetado para lidar com tudo, desde raciocínio e codificação complexos até a compreensão de imagens e vários idiomas em níveis de falantes nativos.
Curiosamente, enquanto o R1 foi treinado em milhares de GPUs Nvidia H100 e H200, o R2 está supostamente sendo desenvolvido usando os chips Ascend 910B da Huawei, e o treinamento aparentemente levou apenas 45 dias. Isso não é nada no mundo do treinamento de IA.
De acordo com rumores, o modelo foi treinado com 5,2 petabytes de dados, incluindo conjuntos de dados especializados de finanças, direito e patentes, e obteve uma pontuação de 89,7% no C-Eval 2.0 — o benchmark de IA mais rígido da China — e atinge 92,4% de precisão em tarefas de visão usando o conjunto de dados COCO.
Em que o DeepSeek R2 será bom?
De acordo com rumores, o DeepSeek R2 será particularmente forte em 3 coisas:
- Codificação
- Entendendo vários idiomas
- Processando diferentes entradas
Codificação
O modelo supostamente entende não apenas a sintaxe, mas a arquitetura de software e pode depurar bases de código complexas e funciona no nível de um desenvolvedor sênior.
Essencialmente, o R2 pode superar os melhores modelos de IA para codificação, ao mesmo tempo em que é um modelo de uso geral.
O que isso significa na prática? Você pode pedir que ele escreva um script em Python, explique um erro do Rust, refatore o código JavaScript e peça ajuda com alguns trabalhos de casa, e ele fará isso.
Entendendo vários idiomas
Você já percebeu que perguntar à IA em outros idiomas além do inglês às vezes leva a respostas menos ponderadas? Esse não é o caso do DeepSeek R2, que supostamente mantém todo o seu poder de raciocínio em vários idiomas.
Para bilhões de pessoas que não falam inglês principalmente, isso pode significar finalmente ter acesso à IA que funciona tão bem para elas quanto Claude Sonnet 4 para falantes de inglês.
Leia um avaliação de Claude Sonnet 4.
Processando diferentes entradas
O modelo supostamente lida com imagens, áudio e compreensão básica de vídeo, tudo em um único sistema unificado. Isso significa que você pode mostrar uma foto e fazer perguntas sobre ela, fazer com que ela analise tabelas e gráficos ou até mesmo descreva o que está acontecendo em um videoclipe.
Por exemplo, você pode fazer o upload de uma captura de tela do código quebrado, pedir ao R2 que explique o erro, fazer com que ele gere um diagrama explicando a correção e, em seguida, criar a documentação — tudo em uma conversa.
Os primeiros exemplos mostram que o modelo pode entender relações visuais complexas, ler texto em imagens e até mesmo gerar visualizações básicas com base em dados.
Não é um completo IA tudo-em-um pacote, mas ainda assim, é muito versátil.
Inovações de treinamento do DeepSeek R2
O impressionante desempenho descrito acima foi alcançado graças a várias inovações no método de treinamento. Aqui estão as técnicas que sabemos que eles usaram para treinar esse modelo:
Modelagem de recompensa generativa (GRM)
A DeepSeek desenvolveu algo que eles chamam de Modelagem Generativa de Recompensas, e é um pouco como ensinar a IA a avaliar sua própria lição de casa. Em vez de precisar que milhares de humanos digam ao modelo o que é bom ou ruim, o GRM permite que o modelo gere seu próprio feedback durante o treinamento.
O GRM supostamente leva a uma compreensão mais matizada porque o modelo desenvolve seu próprio senso do que funciona, em vez de apenas memorizar as preferências humanas.
Ajuste crítico baseado em princípios próprios
Antes de lhe dar uma resposta, o R2 basicamente se pergunta: “Isso é preciso? Isso é útil? Poderia ser mais claro?” Essa autorreflexão acontece em milissegundos, mas torna o modelo mil vezes mais preciso.
Arquitetura híbrida de mistura de especialistas (MoE)
Essa é uma arquitetura semelhante à usada no Gemini 2.5 Pro. E se você já usou esse modelo, sabe como ele é bom.
Como essa arquitetura funciona? Essa arquitetura é a razão pela qual o R2 pode ser tão grande, mas tão eficiente. Quando você pede que ele codifique, ele ativa os especialistas em codificação. Quando você passa a discutir a história, diferentes especialistas acordam enquanto os de codificação ficam inativos. Ao todo, em vez de usar todos os 1,2 trilhão de parâmetros para cada tarefa, ele ativa apenas cerca de 78 bilhões.
É por isso que pode custar apenas $0,07 por 1 milhão de tokens de entrada (se os rumores sobre isso estiverem corretos).
Da Nvidia aos chips Huawei
A DeepSeek supostamente treinou o R2 usando os chips Ascend 910B da Huawei em vez das GPUs Nvidia, o que é uma notícia absolutamente enorme para o mundo da IA.
Depois que os EUA restringiram o acesso da China a chips avançados, muitos pensaram que o desenvolvimento da IA chinesa seria paralisado. Em vez disso, o DeepSeek pode ter acabado de provar que a Nvidia é superestimada.
Os relatórios sugerem que esses sistemas com tecnologia Huawei alcançaram 91% de eficiência em comparação com clusters semelhantes da Nvidia A100. Para a Nvidia, que viu o preço de suas ações subir devido à demanda por IA, isso pode ser o fim de seu quase monopólio, então os investidores estão se preparando para uma grande retração.
Além disso, a DeepSeek supostamente construiu toda uma cadeia de suprimentos doméstica para hardware de IA, criando de tudo, desde módulos de memória a sistemas de resfriamento, internamente, na China, para evitar possíveis restrições futuras e, se a DeepSeek for bem-sucedida, outros gigantes chineses da tecnologia poderão tentar copiar sua abordagem.
Para os consumidores, isso provavelmente significa que teremos modelos de IA muito mais interessantes vindos da China, mesmo após o lançamento do R2 (estamos de olho em você, Alibaba — esqueça o Qwen 3, é hora da Qwen 4).
Como o R2 será usado no mundo real?
Os principais fabricantes chineses, como Haier, Hisense e TCL, integraram a IA DeepSeek em tudo, de geladeiras a aspiradores robóticos, mas as aplicações mais interessantes estão na robótica.
Os robôs domésticos alimentados pelo DeepSeek podem entender seu ambiente, se adaptar às mudanças e ser capazes de lidar com solicitações complexas de várias etapas.
Imagine dizer ao seu robô que aspira “limpe todos os lugares, exceto perto do gato adormecido, e faça a cozinha por último porque eu estou cozinhando”.
Devo me preocupar com a privacidade ao usar o R2?
A DeepSeek é uma empresa chinesa e todos os dados de seus aplicativos vão para servidores na China. Isso significa que, quando você usa o DeepSeek, seus dados estão sujeitos às leis chinesas de dados. Isso é algo que vale a pena entender.
Se você não quiser isso, você sempre pode executar o DeepSeek em seu próprio hardware. Afinal, o DeepSeek abre o código-fonte de seus modelos — você pode baixá-los e executá-los completamente offline.
Você pensaria que executar um modelo avançado requer um PC muito robusto e, geralmente, você estaria certo. Mas, graças à eficiência do R2, você pode executá-lo de forma realista em um dispositivo de nível de consumidor.
A desvantagem é conveniência e facilidade de uso.
Quando o DeepSeek R2 será lançado?
O DeepSeek não falou nada sobre a data oficial de lançamento do R2, mas os rumores sugerem que ele pode sair nas próximas semanas ou meses.
A empresa tem um histórico de lançamentos surpresa, tendo lançado o R1 com pouco aviso e impacto máximo.
Aqui estão alguns sinais que vale a pena observar e que podem sugerir que o R2 está prestes a cair:
- Aumento das contratações na sede da DeepSeek em Hangzhou
- Nova documentação da API aparecendo no GitHub
- Tempo de inatividade suspeito em seus serviços existentes, o que pode indicar atualizações de infraestrutura.
Alguns desenvolvedores até afirmam ter detectado identificadores do modelo R2 em registros de API vazados.
Uma coisa é certa: quando o R2 cair, não será um lançamento paralelo, mas uma mudança no mercado.
PERGUNTAS FREQUENTES
O que é o DeepSeek R2?
O DeepSeek R2 é o próximo modelo de IA de próxima geração da startup chinesa DeepSeek, projetado para competir com o GPT o1 e o Claude Opus e, ao mesmo tempo, ser 97% mais barato de operar.
Quando o DeepSeek R2 será lançado?
O DeepSeek R2 será lançado em algum momento de 2025. O DeepSeek não anunciou uma data oficial, mas o aumento da atividade e os vazamentos apontam para um lançamento iminente, possivelmente dentro de semanas ou meses a partir de agora.
O que torna o DeepSeek R2 diferente de outros modelos de IA, como o GPT-4?
Os principais diferenciais do R2 são sua extrema eficiência de custo, pois custa apenas $0,07 versus $15 por milhão de tokens de entrada, em comparação com o GPT-o1 com especificações semelhantes. Também é de código aberto e usa técnicas de treinamento inovadoras, como a modelagem generativa de recompensas.
Quais empresas estão usando a tecnologia de IA da DeepSeek?
O Overchat AI usa o DeepSeek, junto com outros modelos, para oferecer bate-papos inteligentes de IA on-line. Fabricantes chineses como Haier, Hisense e TCL Electronics integraram a IA DeepSeek em produtos de consumo: TVs inteligentes, eletrodomésticos e aspiradores robóticos.
O DeepSeek está buscando Inteligência Artificial Geral (AGI)?
Sim, a DeepSeek afirma abertamente que alcançar a AGI é sua meta de longo prazo. Eles priorizaram a pesquisa em detrimento da receita e rejeitaram grandes ofertas de investimento para manter a independência na busca dessa visão.