Caveman Skill: Como Reduzir Tokens (e Custos) em Agentes de IA

Se você já automatizou tarefas com LLMs em produção, sabe exatamente onde dói: respostas longas demais para tarefas simples.

Em muitas rotinas de engenharia, você não precisa de três parágrafos de cordialidade para descobrir se há um bug em uma função. Você precisa de:

diagnóstico rápido;
contexto mínimo;
ação recomendada.

Esse é o problema que o Caveman resolve muito bem.

O que é o Caveman?

O Caveman é uma skill/plugin para agentes de IA (como Claude Code e Copilot) que força um estilo de resposta extremamente direto, com menos floreio e menos tokens.

A ideia é simples:

cortar frases de cortesia;
reduzir explicações não solicitadas;
manter só a informação que realmente importa.

O resultado é um modo de comunicação “telegráfico”, mas ainda técnico.

Em vez de:

“Claro, excelente pergunta. Vamos analisar esse trecho com calma e considerar alguns pontos importantes antes de chegar à solução…”

Você recebe algo como:

“Bug em validação de nulo. Linha X. Adicionar check antes de acessar atributo.”

Menos bonito. Muito mais útil em pipeline.

Por que “persona” funciona melhor do que só pedir “seja breve”?

Um detalhe interessante da engenharia de prompt aqui: pedir “seja conciso” nem sempre funciona de forma consistente.

Modelos tendem a voltar para o comportamento padrão de “ajudar com contexto completo”. Já uma persona com regras claras (no caso, o estilo caveman) cria uma âncora comportamental mais forte.

Na prática:

instrução vaga: comportamento oscila;
persona definida: comportamento mais previsível.

Para quem roda fluxos repetitivos, previsibilidade vale ouro.

Como instalar

Há duas opções diferentes conforme o ambiente.

Claude Code (plugin)

1
2


claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman

Instalação via skills (multi-agente)

1

npx skills add JuliusBrussee/caveman

Se você quiser instalar a skill para um agente específico (em vez de instalar no modo padrão), use a flag -a.

Exemplos:

1
2
3
4
5


# Instalar para Cursor
npx skills add JuliusBrussee/caveman -a cursor

# Instalar para Copilot/Codex (quando suportado no seu setup)
npx skills add JuliusBrussee/caveman -a codex

Regra prática: se você trabalha com mais de um agente na mesma máquina, usar -a evita confusão e deixa explícito onde a skill foi ativada.

Como usar no dia a dia

O Caveman traz níveis de intensidade, como lite, full e ultra.

Conceitualmente:

lite: reduz gordura, mantém gramática mais natural;
full: modo caveman padrão;
ultra: máxima compressão de resposta.

Modo	Comando	Estilo	Melhor uso
Lite	`/caveman lite`	Remove filler, mantém gramática	Trabalho técnico com legibilidade alta
Full	`/caveman full`	Caveman padrão, frases mais curtas	Revisões e triagem diária
Ultra	`/caveman ultra`	Compressão máxima, telegráfico	Pipelines automatizados e alto volume

No fluxo diário, isso é excelente para alternar entre:

modo produtividade (review, triagem, debugging);
modo explicação (quando você realmente quer detalhe).

Antes / Depois

Cenário	🗣️ Claude normal	🪨 Claude caveman
Re-render em React	(69 tokens) “O motivo do seu componente React estar renderizando novamente provavelmente é que você está criando uma nova referência de objeto a cada ciclo de renderização. Quando você passa um objeto inline como prop, a comparação rasa do React entende que é um objeto diferente toda vez, o que dispara um re-render. Recomendo usar useMemo para memorizar o objeto.”	(19 tokens) “Nova referência de objeto a cada render. Prop inline = nova ref = re-render. Envolver com useMemo.”
Middleware de autenticação	“Claro! Fico feliz em ajudar. O problema que você está enfrentando provavelmente ocorre porque seu middleware de autenticação não está validando corretamente a expiração do token. Deixa eu analisar e sugerir uma correção.”	“Bug no middleware de auth. Checagem de expiração usa < em vez de <=. Correção:”

Mesma correção. 75% menos palavras.

Onde ele brilha

O ganho é maior em tarefas técnicas estruturadas, por exemplo:

sumarização de função;
explicação de erro;
comentários de code review;
triagem de logs;
passos de correção em CI/CD.

Nesses cenários, o próprio ecossistema do Caveman reporta reduções expressivas de tokens em benchmarks e exemplos práticos.

Menos tokens de saída geralmente significa:

menor latência percebida;
menor custo por chamada;
melhor escaneabilidade para humanos.

Benchmarks comparativos

Tarefa	Tokens sem Caveman	Tokens com Caveman	Redução
Explicar bug de re-render em React	1180	159	87%
Corrigir expiração de token no middleware de auth	704	121	83%
Configurar pool de conexões PostgreSQL	2347	380	84%
Explicar git rebase vs merge	702	292	58%
Refatorar callback para async/await	387	301	22%
Arquitetura: microservices vs monolito	446	310	30%
Revisar PR em busca de falhas de segurança	678	398	41%
Build Docker multi-stage	1042	290	72%
Depurar condição de corrida no PostgreSQL	1200	232	81%
Implementar error boundary em React	3454	456	87%
Média	1214	294	65%

Resumo: faixa de economia entre 22% e 87%, dependendo do tipo de prompt.

Onde você não deve usar

Nem tudo é martelo.

Evite Caveman quando comunicação, nuance e empatia são parte central da entrega:

conteúdo para cliente final;
documentação didática;
tópicos sensíveis (jurídico, saúde, compliance);
explicações para pessoas iniciantes no tema.

Nesses casos, comprimir demais pode remover contexto importante.

Exemplo de política híbrida (recomendado)

Uma estratégia madura é ativar compressão só para tipos de tarefa que realmente se beneficiam disso.

1
2
3
4
5
6


def escolher_modo(task_type: str) -> str:
    if task_type in {"review", "summary", "debug", "triage"}:
        return "caveman_ultra"
    if task_type in {"docs", "tutorial", "customer_content"}:
        return "normal_verbose"
    return "normal"

Esse padrão evita dois extremos:

gastar token à toa em tarefas mecânicas;
empobrecer comunicação em tarefas que exigem contexto.

Um recurso subestimado: compressão de contexto

Além da resposta curta, o projeto também explora compressão de arquivos de contexto (como instruções e memória de sessão), preservando elementos técnicos sensíveis (código, paths, comandos) enquanto comprime texto explicativo.

Isso é especialmente útil quando seu agente lê arquivos fixos em toda sessão.

Menos tokens de contexto recorrente = mais espaço para tarefa real.

Tabela comparativa do caveman-compress (input/contexto)

Arquivo (exemplo)	Antes	Depois	Redução
claude-md-preferences.md	706	285	59.6%
project-notes.md	1145	535	53.3%
claude-md-project.md	1122	687	38.8%
todo-list.md	627	388	38.1%
mixed-with-code.md	888	574	35.4%
Média	898	494	45%

Aqui o foco não é só saída: é reduzir também o “custo de leitura” do contexto carregado em toda sessão.

Resumo

O Caveman é uma forma simples e prática de tornar respostas de IA mais curtas sem perder o núcleo técnico. Em tarefas repetitivas e estruturadas, os dados do próprio projeto mostram reduções relevantes de tokens, com impacto direto em velocidade de leitura, latência e custo.

A principal lição é objetiva: comportamento padrão de modelo não é necessariamente o melhor comportamento para produção. Ao ajustar o estilo de resposta com uma skill específica, você aproxima o agente do que realmente importa no dia a dia de engenharia: eficiência operacional, previsibilidade e decisão rápida.