em menos de duas semanas, dois lançamentos contaram a mesma história por ângulos opostos.
no começo de junho o google colocou o gemma 4 12b no meu laptop — multimodal, apache 2.0, rodando local. na semana seguinte a anthropic lançou o fable 5, o modelo mais poderoso já disponível ao público. três dias depois ele já estava fora do ar.
um chegou na minha máquina pra ficar. o outro chegou na nuvem e foi desligado antes de eu conseguir testar.
o que o gemma destravou
o lançamento já rendeu a sua cota de walkthrough — o mais compartilhado foi o do addy osmani, e é um bom apanhado: multimodal de verdade (texto, imagem e áudio no mesmo backbone, sem encoder separado), roda local, apache 2.0.
não vou repetir a listona. o detalhe que importa pra quem escreve código não é o modelo. é uma linha de cli:
litert-lm serve
isso sobe um endpoint openai-compatible na sua máquina. aí você aponta o opencode, o aider, o continue — qualquer coisa que fale o dialeto da openai — pro localhost:9379 e pronto. seu código não sai do laptop.
plugar agente local não nasceu ontem. ollama, lm studio, llama.cpp já faziam isso. o que mudou não é a possibilidade — é o modelo no
localhostfinalmente ser bom o bastante pra você confiar uma tarefa real a ele.
antes de copiar o “16GB” que circulou: isso é ram ou memória unificada, não vram. se fosse vram, metade dos macs (que são justamente o caso de uso) ficava de fora. em 4-bit a doc da unsloth cita algo perto de 8gb. o piso confortável é 16. o mínimo real é menor.
guarda isso, porque a outra metade da semana muda o peso desse “roda local”.
soberania deixou de ser slide
eu ia escrever aqui que soberania digital é um princípio bonito e abstrato. já falei disso no hipsters nesse tom.
aí a abstração bateu na porta.
o fable 5 foi lançado numa terça, dia 9. na sexta, dia 12, já estava fora do ar. não foi bug: foi uma diretiva de controle de exportação do governo americano, alegando segurança nacional, e a anthropic teve que suspender o acesso ao fable 5 e ao mythos 5. eu, em braga, perdi o modelo mais capaz do mundo três dias depois de ele existir. sem ter feito nada. (times brasil/cnbc)
e não era hype. eu usei o fable nesses três dias — não é um opus turbinado, é outro patamar. fechava tarefa longa que o opus empacava. queima bem mais token, isso sim, mas o resultado pagava. o que me tiraram não foi um upgrade marginal. foi capacidade de verdade.
repara que a anthropic não é a vilã da história. eles foram ordenados. o amodei reportadamente resistiu e ainda assim teve que cumprir. é exatamente esse o ponto: nem o laboratório que treinou o modelo tem soberania sobre o acesso a ele.
e não para no governo. a microsoft — que revende o fable 5 pros clientes dela via azure — bloqueou o acesso interno dos próprios funcionários ao mesmo modelo, por causa da política de retenção de dados (reportado pelo the verge). quem vende não confia o bastante pra usar em casa.
e mesmo quando o modelo está no ar, você nem sempre controla qual modelo te responde: os safeguards do fable trocam silenciosamente pro opus 4.8 em certas áreas. a capacidade que você acha que está usando pode não ser a que está rodando.
junta tudo: governo, jurídico de fornecedor, classificador silencioso. três camadas de decisão que você não controla e não negocia, qualquer uma delas capaz de mudar o que você recebe da noite pro dia.
é alugado. e o dono pode desligar.
tiering, não substituição
por isso eu não vou te dizer pra largar a cloud. seria burrice — pro problema difícil, ela ainda ganha de longe.
o que eu vou dizer é pra parar de chamar o guindaste pra pendurar quadro.
renomear variável, commit message, primeira passada de review, boilerplate — carga rotineira. roda local, de graça, sem latência, sem queimar contexto caro. a arquitetura, o bug que não reproduz, o refactor de dez arquivos — esse sobe pra cloud, quando o problema paga a conta.
você tira do caro o que não precisava estar lá. economia, no dia a dia.
mas a semana do fable adiciona uma segunda razão, mais dura: o tier local é o único que ninguém desliga. nenhum governo, nenhum jurídico de fornecedor, nenhum classificador. ele não é o melhor tier. é o tier que sobra quando os outros somem.
você não larga a cloud. você para de depender só dela.
como eu usaria amanhã
a régua é simples: se a tarefa perdoa um resultado mediano, vai pro local. se não perdoa, sobe pra cloud.
local (gemma 12b, sem rede, não desliga):
- commit message
- rename de símbolo
- teste de caso simples
- boilerplate e scaffolding
- primeira passada de review — o “tem erro óbvio aqui?”
- explicar um trecho de código que você não escreveu
cloud (claude, quando o problema paga a conta):
- decisão de arquitetura
- bug que não reproduz
- refactor atravessando vários módulos
- investigação de causa raiz
- qualquer coisa onde errar custa mais que o token
o preço que ninguém menciona
ter um tier que ninguém desliga tem custo. e o custo é você.
modelo menor não perdoa harness frouxo. o claude é aquele sênior que entende o que você quis dizer mesmo quando você explica mal. o gemma 12b é o estagiário aplicado: faz exatamente o que tá escrito. pede um rename e ele acerta. pede um refactor que atravessa cinco módulos e ele começa a se perder no caminho. instrução ambígua que o claude conserta sozinho costuma voltar do 12b como erro literal.
se o seu CLAUDE.md tá vago, a saída vem vaga — e a culpa é sua, não dele.
ou seja: o tier soberano não baixa a régua do seu context engineering. sobe. todo aquele cuidado com harness que o modelo grande relevava vira requisito.
durante dois anos a discussão foi qualidade: qual modelo programa melhor, raciocina melhor, custa menos. a semana passada acrescentou uma variável que quase ninguém estava medindo: disponibilidade.
o melhor modelo do mundo não te ajuda quando alguém pode desligá-lo. por isso o tier local importa — não porque é o mais capaz (não é), mas porque é o tier que ninguém desliga.
e o preço desse tier é você. um modelo que é seu de verdade não cobre a sua preguiça de contexto — ele te obriga a escrever a instrução. que é, no fim, a única habilidade que não troca de nome quando o modelo do ano muda.