Caveman Skill: Como Reduzir Tokens (e Custos) em Agentes de IA

Caveman Skill: Como Reduzir Tokens (e Custos) em Agentes de IA

6 min de leitura

Se você já automatizou tarefas com LLMs em produção, sabe exatamente onde dói: respostas longas demais para tarefas simples.

Em muitas rotinas de engenharia, você não precisa de três parágrafos de cordialidade para descobrir se há um bug em uma função. Você precisa de:

  • diagnóstico rápido;
  • contexto mínimo;
  • ação recomendada.

Esse é o problema que o Caveman resolve muito bem.

O que é o Caveman?

O Caveman é uma skill/plugin para agentes de IA (como Claude Code e Copilot) que força um estilo de resposta extremamente direto, com menos floreio e menos tokens.

A ideia é simples:

  • cortar frases de cortesia;
  • reduzir explicações não solicitadas;
  • manter só a informação que realmente importa.

O resultado é um modo de comunicação “telegráfico”, mas ainda técnico.

Em vez de:

“Claro, excelente pergunta. Vamos analisar esse trecho com calma e considerar alguns pontos importantes antes de chegar à solução…”

Você recebe algo como:

“Bug em validação de nulo. Linha X. Adicionar check antes de acessar atributo.”

Menos bonito. Muito mais útil em pipeline.

Por que “persona” funciona melhor do que só pedir “seja breve”?

Um detalhe interessante da engenharia de prompt aqui: pedir “seja conciso” nem sempre funciona de forma consistente.

Modelos tendem a voltar para o comportamento padrão de “ajudar com contexto completo”. Já uma persona com regras claras (no caso, o estilo caveman) cria uma âncora comportamental mais forte.

Na prática:

  • instrução vaga: comportamento oscila;
  • persona definida: comportamento mais previsível.

Para quem roda fluxos repetitivos, previsibilidade vale ouro.

Como instalar

Há duas opções diferentes conforme o ambiente.

Claude Code (plugin)

1
2
claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman

Instalação via skills (multi-agente)

1
npx skills add JuliusBrussee/caveman

Se você quiser instalar a skill para um agente específico (em vez de instalar no modo padrão), use a flag -a.

Exemplos:

1
2
3
4
5
# Instalar para Cursor
npx skills add JuliusBrussee/caveman -a cursor

# Instalar para Copilot/Codex (quando suportado no seu setup)
npx skills add JuliusBrussee/caveman -a codex

Regra prática: se você trabalha com mais de um agente na mesma máquina, usar -a evita confusão e deixa explícito onde a skill foi ativada.

Como usar no dia a dia

O Caveman traz níveis de intensidade, como lite, full e ultra.

Conceitualmente:

  • lite: reduz gordura, mantém gramática mais natural;
  • full: modo caveman padrão;
  • ultra: máxima compressão de resposta.
Modo Comando Estilo Melhor uso
Lite /caveman lite Remove filler, mantém gramática Trabalho técnico com legibilidade alta
Full /caveman full Caveman padrão, frases mais curtas Revisões e triagem diária
Ultra /caveman ultra Compressão máxima, telegráfico Pipelines automatizados e alto volume

No fluxo diário, isso é excelente para alternar entre:

  • modo produtividade (review, triagem, debugging);
  • modo explicação (quando você realmente quer detalhe).

Antes / Depois

Cenário 🗣️ Claude normal 🪨 Claude caveman
Re-render em React (69 tokens)

“O motivo do seu componente React estar renderizando novamente provavelmente é que você está criando uma nova referência de objeto a cada ciclo de renderização. Quando você passa um objeto inline como prop, a comparação rasa do React entende que é um objeto diferente toda vez, o que dispara um re-render. Recomendo usar useMemo para memorizar o objeto.”
(19 tokens)

“Nova referência de objeto a cada render. Prop inline = nova ref = re-render. Envolver com useMemo.”
Middleware de autenticação “Claro! Fico feliz em ajudar. O problema que você está enfrentando provavelmente ocorre porque seu middleware de autenticação não está validando corretamente a expiração do token. Deixa eu analisar e sugerir uma correção.” “Bug no middleware de auth. Checagem de expiração usa < em vez de <=. Correção:”

Mesma correção. 75% menos palavras.

Onde ele brilha

O ganho é maior em tarefas técnicas estruturadas, por exemplo:

  • sumarização de função;
  • explicação de erro;
  • comentários de code review;
  • triagem de logs;
  • passos de correção em CI/CD.

Nesses cenários, o próprio ecossistema do Caveman reporta reduções expressivas de tokens em benchmarks e exemplos práticos.

Menos tokens de saída geralmente significa:

  • menor latência percebida;
  • menor custo por chamada;
  • melhor escaneabilidade para humanos.

Benchmarks comparativos

Tarefa Tokens sem Caveman Tokens com Caveman Redução
Explicar bug de re-render em React 1180 159 87%
Corrigir expiração de token no middleware de auth 704 121 83%
Configurar pool de conexões PostgreSQL 2347 380 84%
Explicar git rebase vs merge 702 292 58%
Refatorar callback para async/await 387 301 22%
Arquitetura: microservices vs monolito 446 310 30%
Revisar PR em busca de falhas de segurança 678 398 41%
Build Docker multi-stage 1042 290 72%
Depurar condição de corrida no PostgreSQL 1200 232 81%
Implementar error boundary em React 3454 456 87%
Média 1214 294 65%

Resumo: faixa de economia entre 22% e 87%, dependendo do tipo de prompt.

Onde você não deve usar

Nem tudo é martelo.

Evite Caveman quando comunicação, nuance e empatia são parte central da entrega:

  • conteúdo para cliente final;
  • documentação didática;
  • tópicos sensíveis (jurídico, saúde, compliance);
  • explicações para pessoas iniciantes no tema.

Nesses casos, comprimir demais pode remover contexto importante.

Exemplo de política híbrida (recomendado)

Uma estratégia madura é ativar compressão só para tipos de tarefa que realmente se beneficiam disso.

1
2
3
4
5
6
def escolher_modo(task_type: str) -> str:
    if task_type in {"review", "summary", "debug", "triage"}:
        return "caveman_ultra"
    if task_type in {"docs", "tutorial", "customer_content"}:
        return "normal_verbose"
    return "normal"

Esse padrão evita dois extremos:

  • gastar token à toa em tarefas mecânicas;
  • empobrecer comunicação em tarefas que exigem contexto.

Um recurso subestimado: compressão de contexto

Além da resposta curta, o projeto também explora compressão de arquivos de contexto (como instruções e memória de sessão), preservando elementos técnicos sensíveis (código, paths, comandos) enquanto comprime texto explicativo.

Isso é especialmente útil quando seu agente lê arquivos fixos em toda sessão.

Menos tokens de contexto recorrente = mais espaço para tarefa real.

Tabela comparativa do caveman-compress (input/contexto)

Arquivo (exemplo) Antes Depois Redução
claude-md-preferences.md 706 285 59.6%
project-notes.md 1145 535 53.3%
claude-md-project.md 1122 687 38.8%
todo-list.md 627 388 38.1%
mixed-with-code.md 888 574 35.4%
Média 898 494 45%

Aqui o foco não é só saída: é reduzir também o “custo de leitura” do contexto carregado em toda sessão.

Resumo

O Caveman é uma forma simples e prática de tornar respostas de IA mais curtas sem perder o núcleo técnico. Em tarefas repetitivas e estruturadas, os dados do próprio projeto mostram reduções relevantes de tokens, com impacto direto em velocidade de leitura, latência e custo.

A principal lição é objetiva: comportamento padrão de modelo não é necessariamente o melhor comportamento para produção. Ao ajustar o estilo de resposta com uma skill específica, você aproxima o agente do que realmente importa no dia a dia de engenharia: eficiência operacional, previsibilidade e decisão rápida.