11 de junho de 2026

Claude Fable 5: Os Benchmarks Que Deixaram a Concorrência Sem Resposta.

A Anthropic lançou o Claude Fable 5 a 9 de junho de 2026. Os resultados nos principais benchmarks de engenharia de software e raciocínio são tão distantes dos modelos anteriores que a indústria ainda está a processar o que aconteceu.

A 9 de junho de 2026, a Anthropic lançou o Claude Fable 5 — o primeiro modelo da família Mythos a ser disponibilizado ao público em geral. E os números que o acompanham não deixam margem para interpretação.

80,3% no SWE-Bench Pro. O segundo melhor modelo do mercado fica 11 pontos abaixo. Não é uma vitória por uma margem confortável. É uma distância que obriga toda a indústria a rever os seus planos.

No FrontierCode Diamond — o benchmark que mede a capacidade de resolver problemas de engenharia de software reais, de extrema complexidade — o Fable 5 supera o Opus 4.8 em mais de duas vezes. Não o melhora. Duplica.

Nas tarefas do dia a dia, como processamento de folhas de cálculo, o Fable 5 é 25 a 30% mais rápido do que o Opus 4.8, a todos os níveis de esforço.

A Anthropic é clara sobre o que estes resultados significam: "quanto mais longa e complexa for a tarefa, maior é a vantagem do Fable 5". Este modelo não foi construído para respostas rápidas. Foi construído para trabalho profundo — agente, autónomo, de múltiplos passos.

E não fica por aqui. O contexto de saída foi expandido para 128 000 tokens — mais do dobro do Opus 4.8. Quem trabalha com documentos longos, codebases extensas ou raciocínio encadeado sente a diferença de imediato.

O preço reflete a posição: 10 dólares por milhão de tokens de entrada, 50 por milhão de saída — o dobro do Opus 4.8. Mas até 22 de junho de 2026, os planos Pro, Max, Team e Enterprise têm acesso incluído.

Se ainda não o testaste, este é o momento. Depois de 22 de junho, passa a créditos.

In plain words

SWE-Bench Pro: benchmark que avalia a capacidade de modelos de IA em resolver problemas reais de engenharia de software em repositórios reais de código
FrontierCode Diamond: benchmark de dificuldade extrema para avaliação de modelos em tarefas de programação complexas
Token: unidade básica de processamento de texto num modelo de IA; aproximadamente 0,75 palavras
Codebase: conjunto completo de código-fonte de um projeto de software
Benchmark: teste padronizado que mede o desempenho de modelos de IA em tarefas específicas