Claude Opus 4.6 está agora no Overchat AI — O melhor modelo da Anthropic estabelece novos recordes

Introdução

Sem mais delongas, vamos mergulhar. O Opus 4.6 é o novo padrão-ouro em modelos de codificação. No Terminal-Bench 2.0, ele ocupa o primeiro lugar com 65,4%, e no Humanity's Last Exam, detém 53,1%.

‍

Os modelos de codificação antrópica geralmente são considerados os melhores do mundo, e esse não é exceção. Ele introduz um novo padrão, mesmo quando usado sem a janela de contexto de 1M, que está atualmente na versão beta e disponível somente para usuários da API.

‍

O que é Claude Opus 4.6?

O Claude Opus 4.6 é o modelo de IA mais avançado da Anthropic, lançado em 5 de fevereiro de 2026 como uma atualização para o Opus 4.5 (lançado em novembro de 2025).

‍

O principal recurso é a janela de contexto de um milhão de tokens (em beta). Isso representa um aumento de cinco vezes em relação ao limite de 200 mil do Opus 4.5, colocando-o no mesmo nível do Gemini 3 Pro do Google. Anteriormente, muitos usuários notaram que os modelos Claude se destacam em design e codificação de front-end. No entanto, a janela de contexto limitada fez com que eles perdessem o contexto com mais facilidade. Isso logo se tornará uma coisa do passado com o lançamento da janela 1M.

‍

Características principais do Claude Opus 4.6

Uma janela de contexto aumentada não é o único recurso novo desse modelo; também há outras melhorias. A maioria dessas melhorias só importa para casos de uso corporativos, mas algumas são fundamentais para o funcionamento do modelo. Você certamente notará essas melhorias ao conversar com a modelo, então vamos detalhá-las.

‍

Pensamento adaptativo — Isso substitui o antigo interruptor liga/desliga. Semelhante ao ChatGPT, Claude agora responderá imediatamente para tarefas fáceis ou ativará o raciocínio para tarefas complexas. Nos testes, achei isso duvidoso — às vezes ativa o raciocínio de coisas que eu consideraria muito simples.

‍

Equipes de agentes — um recurso poderoso para usuários corporativos e avançados — várias instâncias de Claude podem funcionar em paralelo em diferentes partes de um projeto. Atualmente em versão prévia.

‍

Compactação de contexto — Esse é um recurso de resumo do lado do servidor. Quando o contexto está prestes a ser maximizado, Claude edita as informações que ele contém para torná-las menores, para que as tarefas em execução não parem.

‍

Saída máxima de 128K — A quantidade de texto que o modelo pode gerar foi dobrada.

‍

No Reddit, avaliações iniciais dizem que o Opus 4.6 é impressionante quando se trata de trabalhar e criar documentos legais. Sua capacidade de escrita também melhorou, pois adiciona menos frases preditivas e usa um vocabulário mais amplo.

‍

Resumindo, é uma grande vitória em todas as categorias.

‍

Pontos de referência do Claude Opus 4.6

O desempenho de referência dá uma ideia aproximada de onde o Opus 4.6 se encontra, mas as melhorias do mundo real — melhor planejamento, autocorreção, foco sustentado — são o que os desenvolvedores estão relatando.

‍

Codificação:

‍

Benchmark	Opus 4.6 Score
Terminal-Bench 2.0	65.4%
SWE-Bench Verified	80.8%
OSWorld (Computer Use)	72.7%
τ2-Bench Retail	91.9%
MCP Atlas	59.5%

‍

Raciocínio e conhecimento:

‍

Benchmark	Claude Opus 4.6
HLE (with tools)	53.1%
HLE (without tools)	40.0%
GDPval-AA	1606 Elo
BrowseComp	84.0%
ARC AGI 2	68.8%
BigLaw Bench	90.2%
Finance Agent	60.7%

‍

Longa retenção de contexto (quanto maior, melhor):

‍

Benchmark	Opus 4.6 Score	Vs Sonnet 4.5 Score
MRCR v2 (1M, 8-needle)	76%	18.5%
MRCR v2 (256K, 8-needle)	93%	10.8%

‍

Claude Opus 4.6 vs outros modelos de IA

Vamos ver como o novo modelo se compara a outros modelos de ponta, tanto da Anthropic quanto dos concorrentes.

‍

Claude Opus 4.6 vs Opus 4.5

O Opus 4.6 melhora mais Opus 4.5 em todos os benchmarks, exceto o SWE-Bench Verified, onde os dois estão essencialmente empatados (80,8% versus 80,9%).

‍

Benchmark	Opus 4.6	Opus 4.5	Improvement
Terminal-Bench 2.0	65.4%	59.8%	+5.6pp
OSWorld	72.7%	66.3%	+6.4pp
ARC AGI 2	68.8%	37.6%	+31.2pp
GDPval-AA	1606 Elo	~1416 Elo	+190 Elo
Context Window	1M (beta)	200K	5x increase

‍

Claude Opus 4.6 versus GPT-5.2

Comparado com Bate-papo GPT-5.2, o Opus 4.6 vence praticamente em todos os setores, embora valha a pena mencionar que o modelo ChatGPT reduz os preços dos tokens de produção - $15/M versus $25/M.

‍

Benchmark	Opus 4.6	GPT-5.2	Winner
Terminal-Bench 2.0	65.4%	64.7%	Opus 4.6
GDPval-AA	1606 Elo	~1462 Elo	Opus 4.6
HLE (with tools)	53.1%	~42%	Opus 4.6
BrowseComp	84.0%	Lower	Opus 4.6
SWE-Bench Verified	80.8%	80.0%	Opus 4.6
MCP Atlas	59.5%	60.6%	GPT-5.2

‍

Claude Opus 4.6 vs Gemini 3 Pro

Gêmeos 3 Pro é o primeiro modelo que supera o Opus 4.6 de maneiras significativas: especificamente, quando se trata de raciocínio e de uma janela de contexto maior. Mas é um codificador de IA menos poderoso.

‍

Benchmark	Opus 4.6	Gemini 3 Pro	Winner
Terminal-Bench 2.0	65.4%	56.2%	Opus 4.6
OSWorld	72.7%	Lower	Opus 4.6
GPQA Diamond	~85%	91.9%	Gemini 3 Pro
Context Window	1M (beta)	2M	Gemini 3 Pro

‍

Preços do Claude Opus 4.6

A Anthropic manteve os preços idênticos aos do Opus 4.5, o que é ótimo, dados os ganhos de desempenho — e um pouco surpreendente. Recentemente, vimos que os preços subiram quando modelos mais potentes foram introduzidos, mas, felizmente, esse não é o caso aqui.

‍

Aqui está tudo o que você precisa saber sobre o custo de usar o Opus 4.6, começando com o preço da API, que é o seguinte:

‍

Token Type	Price per 1M Tokens
Input (standard)	$5.00
Input (cache read)	$0.50
Output	$25.00

‍

A seguir, veja como são os preços de contexto a longo prazo — esses preços sobem acima de 200 mil tokens:

‍

Token Type	Price per 1M Tokens
Input	$10.00
Output	$37.50

‍

Para contextualizar, o Opus 4.6 é o modelo mais caro desta lista. Veja como ele se compara em termos de preço com os concorrentes:

‍

Model	Input / 1M	Output / 1M
Claude Opus 4.6	$5.00	$25.00
GPT-5.2	~$5.00	$15.00
Gemini 3 Pro	$2.00	$12.00

‍

Se você quiser conversar com Claude Opus 4.6 sem se preocupar com esses preços de API, acesse IA do Overchat e comece a conversar com a modelo como parte de uma única assinatura, que também inclui GPT 5.2, Kimi K2, todos os modelos Gemini mais recentes e muito mais.

‍

Conclusão

O Claude Opus 4.6 é o modelo mais forte da Anthropic até agora. A janela de contexto de 1M, o contexto de compactação automática, o raciocínio adaptativo — esses recursos podem não mudar o jogo isoladamente, mas são compostos, criando um modelo que parece melhor trabalhar com ele, tira menos fotos das tarefas e funciona de forma ainda mais consistente do que seu antecessor, já muito consistente.

‍

Se você estiver interessado em testá-lo por si mesmo, comece a conversar com Claude Opus 4.6 no Overchat AI hoje.