Skip to Projects

Ex-Disney · Ex-Globant · Freelancer desde 2014

Integre Claude no seu produto — por um engenheiro que envia features LLM para produção.

Construo features com Claude que realmente funcionam sob tráfego real: tool use, pipelines RAG, prompt caching, agentes, output estruturado. Não um POC num notebook — um sistema do qual seus usuários dependem.

Começar uma integração

Prompt caching e disciplina de custo

A maioria das integrações Claude queima dinheiro em tokens. Eu cacheio o que deve ser cacheado, faço streaming do que deve, e tiro lógica dos prompts quando pertence ao código. Costuma cortar a fatura em 40-70%.

Tool use e agentes que não entram em loop

Agentes são fáceis de prototipar, difíceis de enviar. Eu delimito os bounds do loop, trato falhas parciais, adiciono observabilidade e mantenho humanos in-the-loop onde importa. Sem histórias do tipo "o agente ficou chamando a API".

RAG que recupera os chunks certos

Estratégia de chunking, reranking, busca híbrida (BM25 + vetores), filtros de metadata, freshness — qualidade do retrieval determina qualidade da resposta. Gasto mais tempo em retrieval do que em prompts, porque importa mais.

Multi-provider sem lock-in

Claude-first onde vence, OpenAI para casos específicos, open-source para workloads edge. Desenho a camada de abstração para que você possa trocar providers sem reescrever features.

O stack LLM com que trabalho

  • Claude APIDefault para reasoning, contexto longo, tool use, agentes
  • Anthropic SDKSDK TypeScript oficial — streaming, caching, retries
  • OpenAIPara embeddings, Whisper, ou quando Claude não cai bem
  • LangChainQuando um projeto realmente precisa — muitas vezes não
  • Vercel AI SDKUI streaming e tool calling em apps Next.js
  • Prompt CachingCorte custos de token em 40-70% em chamadas com contexto repetido
  • RAGRetrieval-augmented generation — a parte difícil é o retrieval
  • pgvectorVetores nativos no Postgres quando não precisa de DB dedicada
  • n8nAutomação visual de workflows — ótimo pra ops, não pra lógica core
  • TypeScriptTipos em inputs de prompt, schemas de tools, outputs estruturados
  • NestJSBackend de produção envolvendo a camada LLM com filas, retries, rate limits
  • Next.jsFrontend com respostas streaming e server actions

Quando Claude é o provider certo

Escolha Claude primeiro quando sua feature vive ou morre pela qualidade do reasoning — análise de documentos com contexto longo, tool use multi-etapa complexo, escrita com nuances, qualquer coisa em que "mais ou menos certo" não basta. Os contextos longos do Claude, o forte comportamento de tool use e o manejo de refusals te dão um caminho mais curto para produção do que construir em torno de um modelo que às vezes loopa ou alucina tools.

Escolha OpenAI quando precisa de embeddings baratos, speech-to-text com Whisper, geração de imagens com DALL-E, ou quando uma feature específica vive só na API deles (voz realtime, por exemplo). Muitas vezes uso ambos no mesmo projeto — Claude pro reasoning, OpenAI pras tarefas auxiliares.

Onde integrações falham: times tratam o LLM como produto em vez de primitiva. Um prompt não é uma feature — a feature é a UX em volta do prompt. Cache hits, lógica de retry, caminhos de fallback, moderação de conteúdo, observabilidade, loops de feedback do usuário, eval harnesses — esse é o trabalho de engenharia. O prompt é muitas vezes os últimos 5% do trabalho.

Já integrei Claude e OpenAI em CRMs, workflows de conteúdo, automação estilo agente, sistemas de Q&A de documentos e tooling interno para operações freelance. O padrão é consistente: começar estreito, instrumentar tudo, iterar no prompt E no retrieval E na UX juntos. Projetos que dão certo tratam a camada LLM como software normal — com testes, logs, budgets de custo e planos de rollback.

Perguntas frequentes

Multi-provider por padrão. Claude como modelo primário de reasoning, OpenAI pra embeddings ou voz, open-source via Bedrock/Azure pra workloads específicos. Desenho a integração com uma abstração para trocar ou adicionar providers sem reescrever features.

Sim — costuma ser a primeira otimização que rodo em integrações existentes. Identificar conteúdo estável de prefixo, estruturar mensagens pra cache hits, e medir a taxa de cache hit. Uma integração bem cacheada pode cortar faturas em 40-70% sem mudar qualidade.

Stack completo: ingestão de documentos, estratégia de chunking, pipelines de embedding (OpenAI ou Cohere), busca híbrida (BM25 + vetor), reranking, filtros de freshness, e o eval harness para medir se está realmente ficando melhor ao longo do tempo.

Sim, mas com cuidado. Agentes que funcionam em produção têm loops delimitados, critérios de sucesso claros, checkpoints human-in-the-loop onde apropriado, e observabilidade séria. "Deixa o agente descobrir" raramente vira produto — escopo autonomia de agente pelo blast radius.

Absolutamente. Problemas comuns que encontro: sem caching, loops chatty de agente, vulnerabilidades de prompt injection, sem budgets de custo por usuário, retrieval que perde porque os chunks são muito pequenos. Entrego uma auditoria escrita com fixes priorizados — você decide o que implementar.

Sim. Claude Code como harness, o Agent SDK para agentes custom, managed agents para execução offloaded. Posso construir, estender ou migrar entre esses dependendo do que encaixa com sua infra e time.

Precisa do Claude no seu produto, feito certo?

Integrações, auditorias, pipelines RAG, sistemas de agentes. Resposta em 24 horas, call técnica de scoping incluída.

Começar a conversa