Introdução
Sem mais delongas, vamos mergulhar. O Opus 4.6 é o novo padrão-ouro em modelos de codificação. No Terminal-Bench 2.0, ele ocupa o primeiro lugar com 65,4%, e no Humanity's Last Exam, detém 53,1%.
Os modelos de codificação antrópica geralmente são considerados os melhores do mundo, e esse não é exceção. Ele introduz um novo padrão, mesmo quando usado sem a janela de contexto de 1M, que está atualmente na versão beta e disponível somente para usuários da API.
O que é Claude Opus 4.6?
O Claude Opus 4.6 é o modelo de IA mais avançado da Anthropic, lançado em 5 de fevereiro de 2026 como uma atualização para o Opus 4.5 (lançado em novembro de 2025).
O principal recurso é a janela de contexto de um milhão de tokens (em beta). Isso representa um aumento de cinco vezes em relação ao limite de 200 mil do Opus 4.5, colocando-o no mesmo nível do Gemini 3 Pro do Google. Anteriormente, muitos usuários notaram que os modelos Claude se destacam em design e codificação de front-end. No entanto, a janela de contexto limitada fez com que eles perdessem o contexto com mais facilidade. Isso logo se tornará uma coisa do passado com o lançamento da janela 1M.
Características principais do Claude Opus 4.6
Uma janela de contexto aumentada não é o único recurso novo desse modelo; também há outras melhorias. A maioria dessas melhorias só importa para casos de uso corporativos, mas algumas são fundamentais para o funcionamento do modelo. Você certamente notará essas melhorias ao conversar com a modelo, então vamos detalhá-las.
Pensamento adaptativo — Isso substitui o antigo interruptor liga/desliga. Semelhante ao ChatGPT, Claude agora responderá imediatamente para tarefas fáceis ou ativará o raciocínio para tarefas complexas. Nos testes, achei isso duvidoso — às vezes ativa o raciocínio de coisas que eu consideraria muito simples.
Equipes de agentes — um recurso poderoso para usuários corporativos e avançados — várias instâncias de Claude podem funcionar em paralelo em diferentes partes de um projeto. Atualmente em versão prévia.
Compactação de contexto — Esse é um recurso de resumo do lado do servidor. Quando o contexto está prestes a ser maximizado, Claude edita as informações que ele contém para torná-las menores, para que as tarefas em execução não parem.
Saída máxima de 128K — A quantidade de texto que o modelo pode gerar foi dobrada.
No Reddit, avaliações iniciais dizem que o Opus 4.6 é impressionante quando se trata de trabalhar e criar documentos legais. Sua capacidade de escrita também melhorou, pois adiciona menos frases preditivas e usa um vocabulário mais amplo.
Resumindo, é uma grande vitória em todas as categorias.
Pontos de referência do Claude Opus 4.6
O desempenho de referência dá uma ideia aproximada de onde o Opus 4.6 se encontra, mas as melhorias do mundo real — melhor planejamento, autocorreção, foco sustentado — são o que os desenvolvedores estão relatando.
Codificação:
| Benchmark |
Opus 4.6 Score |
| Terminal-Bench 2.0 |
65.4% |
| SWE-Bench Verified |
80.8% |
| OSWorld (Computer Use) |
72.7% |
| τ2-Bench Retail |
91.9% |
| MCP Atlas |
59.5% |
Raciocínio e conhecimento:
| Benchmark |
Claude Opus 4.6 |
| HLE (with tools) |
53.1% |
| HLE (without tools) |
40.0% |
| GDPval-AA |
1606 Elo |
| BrowseComp |
84.0% |
| ARC AGI 2 |
68.8% |
| BigLaw Bench |
90.2% |
| Finance Agent |
60.7% |
Longa retenção de contexto (quanto maior, melhor):
| Benchmark |
Opus 4.6 Score |
Vs Sonnet 4.5 Score |
| MRCR v2 (1M, 8-needle) |
76% |
18.5% |
| MRCR v2 (256K, 8-needle) |
93% |
10.8% |
Claude Opus 4.6 vs outros modelos de IA
Vamos ver como o novo modelo se compara a outros modelos de ponta, tanto da Anthropic quanto dos concorrentes.
Claude Opus 4.6 vs Opus 4.5
O Opus 4.6 melhora mais Opus 4.5 em todos os benchmarks, exceto o SWE-Bench Verified, onde os dois estão essencialmente empatados (80,8% versus 80,9%).
| Benchmark |
Opus 4.6 |
Opus 4.5 |
Improvement |
| Terminal-Bench 2.0 |
65.4% |
59.8% |
+5.6pp |
| OSWorld |
72.7% |
66.3% |
+6.4pp |
| ARC AGI 2 |
68.8% |
37.6% |
+31.2pp |
| GDPval-AA |
1606 Elo |
~1416 Elo |
+190 Elo |
| Context Window |
1M (beta) |
200K |
5x increase |
Claude Opus 4.6 versus GPT-5.2
Comparado com Bate-papo GPT-5.2, o Opus 4.6 vence praticamente em todos os setores, embora valha a pena mencionar que o modelo ChatGPT reduz os preços dos tokens de produção - $15/M versus $25/M.
| Benchmark |
Opus 4.6 |
GPT-5.2 |
Winner |
| Terminal-Bench 2.0 |
65.4% |
64.7% |
Opus 4.6 |
| GDPval-AA |
1606 Elo |
~1462 Elo |
Opus 4.6 |
| HLE (with tools) |
53.1% |
~42% |
Opus 4.6 |
| BrowseComp |
84.0% |
Lower |
Opus 4.6 |
| SWE-Bench Verified |
80.8% |
80.0% |
Opus 4.6 |
| MCP Atlas |
59.5% |
60.6% |
GPT-5.2 |
Claude Opus 4.6 vs Gemini 3 Pro
Gêmeos 3 Pro é o primeiro modelo que supera o Opus 4.6 de maneiras significativas: especificamente, quando se trata de raciocínio e de uma janela de contexto maior. Mas é um codificador de IA menos poderoso.
| Benchmark |
Opus 4.6 |
Gemini 3 Pro |
Winner |
| Terminal-Bench 2.0 |
65.4% |
56.2% |
Opus 4.6 |
| OSWorld |
72.7% |
Lower |
Opus 4.6 |
| GPQA Diamond |
~85% |
91.9% |
Gemini 3 Pro |
| Context Window |
1M (beta) |
2M |
Gemini 3 Pro |
Preços do Claude Opus 4.6
A Anthropic manteve os preços idênticos aos do Opus 4.5, o que é ótimo, dados os ganhos de desempenho — e um pouco surpreendente. Recentemente, vimos que os preços subiram quando modelos mais potentes foram introduzidos, mas, felizmente, esse não é o caso aqui.
Aqui está tudo o que você precisa saber sobre o custo de usar o Opus 4.6, começando com o preço da API, que é o seguinte:
| Token Type |
Price per 1M Tokens |
| Input (standard) |
$5.00 |
| Input (cache read) |
$0.50 |
| Output |
$25.00 |
A seguir, veja como são os preços de contexto a longo prazo — esses preços sobem acima de 200 mil tokens:
| Token Type |
Price per 1M Tokens |
| Input |
$10.00 |
| Output |
$37.50 |
Para contextualizar, o Opus 4.6 é o modelo mais caro desta lista. Veja como ele se compara em termos de preço com os concorrentes:
| Model |
Input / 1M |
Output / 1M |
| Claude Opus 4.6 |
$5.00 |
$25.00 |
| GPT-5.2 |
~$5.00 |
$15.00 |
| Gemini 3 Pro |
$2.00 |
$12.00 |
Se você quiser conversar com Claude Opus 4.6 sem se preocupar com esses preços de API, acesse IA do Overchat e comece a conversar com a modelo como parte de uma única assinatura, que também inclui GPT 5.2, Kimi K2, todos os modelos Gemini mais recentes e muito mais.
Conclusão
O Claude Opus 4.6 é o modelo mais forte da Anthropic até agora. A janela de contexto de 1M, o contexto de compactação automática, o raciocínio adaptativo — esses recursos podem não mudar o jogo isoladamente, mas são compostos, criando um modelo que parece melhor trabalhar com ele, tira menos fotos das tarefas e funciona de forma ainda mais consistente do que seu antecessor, já muito consistente.
Se você estiver interessado em testá-lo por si mesmo, comece a conversar com Claude Opus 4.6 no Overchat AI hoje.