pular pro conteúdo
vinny neves
voltar

o gemma fica no meu laptop. o fable durou três dias.

6 min de leitura
ilustração cinematográfica cyberpunk: um homem careca de óculos e barba segura um laptop preto no centro de uma esfera de energia ciano coberta de caracteres japoneses, com um shih tzu branco sentado a seus pés; ao fundo, uma cidade noturna e, no canto superior direito, uma figura escura feita de fragmentos digitais se desfazendo, presa por uma corrente e um cadeado vermelho aceso
o modelo que é meu brilha ao meu redor; o mais poderoso do mundo se desfaz preso a uma corrente e um cadeado. soberania deixou de ser slide.

em menos de duas semanas, dois lançamentos contaram a mesma história por ângulos opostos.

no começo de junho o google colocou o gemma 4 12b no meu laptop — multimodal, apache 2.0, rodando local. na semana seguinte a anthropic lançou o fable 5, o modelo mais poderoso já disponível ao público. três dias depois ele já estava fora do ar.

um chegou na minha máquina pra ficar. o outro chegou na nuvem e foi desligado antes de eu conseguir testar.

o que o gemma destravou

o lançamento já rendeu a sua cota de walkthrough — o mais compartilhado foi o do addy osmani, e é um bom apanhado: multimodal de verdade (texto, imagem e áudio no mesmo backbone, sem encoder separado), roda local, apache 2.0.

não vou repetir a listona. o detalhe que importa pra quem escreve código não é o modelo. é uma linha de cli:

litert-lm serve

isso sobe um endpoint openai-compatible na sua máquina. aí você aponta o opencode, o aider, o continue — qualquer coisa que fale o dialeto da openai — pro localhost:9379 e pronto. seu código não sai do laptop.

plugar agente local não nasceu ontem. ollama, lm studio, llama.cpp já faziam isso. o que mudou não é a possibilidade — é o modelo no localhost finalmente ser bom o bastante pra você confiar uma tarefa real a ele.

antes de copiar o “16GB” que circulou: isso é ram ou memória unificada, não vram. se fosse vram, metade dos macs (que são justamente o caso de uso) ficava de fora. em 4-bit a doc da unsloth cita algo perto de 8gb. o piso confortável é 16. o mínimo real é menor.

guarda isso, porque a outra metade da semana muda o peso desse “roda local”.

soberania deixou de ser slide

eu ia escrever aqui que soberania digital é um princípio bonito e abstrato. já falei disso no hipsters nesse tom.

aí a abstração bateu na porta.

o fable 5 foi lançado numa terça, dia 9. na sexta, dia 12, já estava fora do ar. não foi bug: foi uma diretiva de controle de exportação do governo americano, alegando segurança nacional, e a anthropic teve que suspender o acesso ao fable 5 e ao mythos 5. eu, em braga, perdi o modelo mais capaz do mundo três dias depois de ele existir. sem ter feito nada. (times brasil/cnbc)

e não era hype. eu usei o fable nesses três dias — não é um opus turbinado, é outro patamar. fechava tarefa longa que o opus empacava. queima bem mais token, isso sim, mas o resultado pagava. o que me tiraram não foi um upgrade marginal. foi capacidade de verdade.

repara que a anthropic não é a vilã da história. eles foram ordenados. o amodei reportadamente resistiu e ainda assim teve que cumprir. é exatamente esse o ponto: nem o laboratório que treinou o modelo tem soberania sobre o acesso a ele.

e não para no governo. a microsoft — que revende o fable 5 pros clientes dela via azure — bloqueou o acesso interno dos próprios funcionários ao mesmo modelo, por causa da política de retenção de dados (reportado pelo the verge). quem vende não confia o bastante pra usar em casa.

e mesmo quando o modelo está no ar, você nem sempre controla qual modelo te responde: os safeguards do fable trocam silenciosamente pro opus 4.8 em certas áreas. a capacidade que você acha que está usando pode não ser a que está rodando.

junta tudo: governo, jurídico de fornecedor, classificador silencioso. três camadas de decisão que você não controla e não negocia, qualquer uma delas capaz de mudar o que você recebe da noite pro dia.

é alugado. e o dono pode desligar.

tiering, não substituição

por isso eu não vou te dizer pra largar a cloud. seria burrice — pro problema difícil, ela ainda ganha de longe.

o que eu vou dizer é pra parar de chamar o guindaste pra pendurar quadro.

renomear variável, commit message, primeira passada de review, boilerplate — carga rotineira. roda local, de graça, sem latência, sem queimar contexto caro. a arquitetura, o bug que não reproduz, o refactor de dez arquivos — esse sobe pra cloud, quando o problema paga a conta.

você tira do caro o que não precisava estar lá. economia, no dia a dia.

mas a semana do fable adiciona uma segunda razão, mais dura: o tier local é o único que ninguém desliga. nenhum governo, nenhum jurídico de fornecedor, nenhum classificador. ele não é o melhor tier. é o tier que sobra quando os outros somem.

você não larga a cloud. você para de depender só dela.

como eu usaria amanhã

a régua é simples: se a tarefa perdoa um resultado mediano, vai pro local. se não perdoa, sobe pra cloud.

local (gemma 12b, sem rede, não desliga):

cloud (claude, quando o problema paga a conta):

o preço que ninguém menciona

ter um tier que ninguém desliga tem custo. e o custo é você.

modelo menor não perdoa harness frouxo. o claude é aquele sênior que entende o que você quis dizer mesmo quando você explica mal. o gemma 12b é o estagiário aplicado: faz exatamente o que tá escrito. pede um rename e ele acerta. pede um refactor que atravessa cinco módulos e ele começa a se perder no caminho. instrução ambígua que o claude conserta sozinho costuma voltar do 12b como erro literal.

se o seu CLAUDE.md tá vago, a saída vem vaga — e a culpa é sua, não dele.

ou seja: o tier soberano não baixa a régua do seu context engineering. sobe. todo aquele cuidado com harness que o modelo grande relevava vira requisito.

durante dois anos a discussão foi qualidade: qual modelo programa melhor, raciocina melhor, custa menos. a semana passada acrescentou uma variável que quase ninguém estava medindo: disponibilidade.

o melhor modelo do mundo não te ajuda quando alguém pode desligá-lo. por isso o tier local importa — não porque é o mais capaz (não é), mas porque é o tier que ninguém desliga.

e o preço desse tier é você. um modelo que é seu de verdade não cobre a sua preguiça de contexto — ele te obriga a escrever a instrução. que é, no fim, a única habilidade que não troca de nome quando o modelo do ano muda.


compartilhar este post:

testando em produção

newsletter ocasional sobre claude code, dev assistido por ia e a vida de quem ensina código. hospedada no linkedin — você se inscreve lá e recebe direto no feed e no email.

inscrever no linkedin

próximo post
o que sobrevive quando tudo muda