Ex-Disney · Ex-Globant · Freelance desde 2014
Integrá Claude en tu producto — por un ingeniero que envía features LLM a producción.
Construyo features con Claude que realmente funcionan bajo tráfico real: tool use, pipelines RAG, prompt caching, agentes, structured output. No un POC en un notebook — un sistema del que tus usuarios dependen.
Empezar una integraciónPrompt caching y disciplina de costos
La mayoría de las integraciones Claude queman plata en tokens. Yo cacheo lo que debe cachearse, streameo lo que debe streamear y saco lógica de los prompts cuando pertenece al código. Normalmente corta la factura 40-70%.
Tool use y agentes que no se loopean
Los agentes son fáciles de prototipar, difíciles de enviar. Yo scopeo los límites del loop, manejo fallas parciales, sumo observabilidad y mantengo humanos in-the-loop donde importa. Sin historias tipo "el agente siguió llamando a la API y listo".
RAG que recupera los chunks correctos
Estrategia de chunking, reranking, búsqueda híbrida (BM25 + vectores), filtros de metadata, freshness — la calidad del retrieval determina la calidad de la respuesta. Gasto más tiempo en retrieval que en prompts, porque importa más.
Multi-provider sin lock-in
Claude-first donde gana, OpenAI para casos específicos, open-source para workloads edge. Diseño la capa de abstracción para que puedas cambiar providers sin reescribir features.
El stack LLM con el que trabajo
- Claude APIDefault para reasoning, contexto largo, tool use, agentes
- Anthropic SDKSDK oficial TypeScript — streaming, caching, retries
- OpenAIPara embeddings, Whisper, o cuando Claude no es lo ideal
- LangChainCuando un proyecto realmente lo necesita — muchas veces no
- Vercel AI SDKUI de streaming y tool calling en apps Next.js
- Prompt CachingCorta costos de tokens 40-70% en llamadas con contexto repetido
- RAGRetrieval-augmented generation — la parte difícil es el retrieval
- pgvectorVectores nativos de Postgres cuando no hace falta DB dedicada
- n8nAutomatización de workflows visual — genial para ops, no para lógica core
- TypeScriptTipos en inputs de prompt, schemas de tools, outputs estructurados
- NestJSBackend de producción envolviendo la capa LLM con colas, retries, rate limits
- Next.jsFrontend con respuestas streaming y server actions
Cuándo Claude es el provider correcto
Elegí Claude primero cuando tu feature vive o muere por la calidad del reasoning — análisis de documentos con contexto largo, tool use multi-paso complejo, escritura con matices, cualquier cosa donde "más o menos bien" no alcance. Los contextos largos de Claude, el comportamiento fuerte de tool-use y el manejo de refusals te dan un camino más corto a producción que construir alrededor de un modelo que a veces se loopea o alucina tools.
Elegí OpenAI cuando necesitás embeddings baratos, speech-to-text con Whisper, generación de imágenes con DALL-E, o cuando una feature específica vive solo en su API (voz realtime, por ejemplo). Muchas veces uso ambos en el mismo proyecto — Claude para reasoning, OpenAI para tareas auxiliares.
Dónde fallan las integraciones: los equipos tratan el LLM como un producto en vez de como una primitiva. Un prompt no es una feature — la feature es la UX alrededor del prompt. Cache hits, retry logic, caminos de fallback, moderación de contenido, observabilidad, loops de feedback del usuario, eval harnesses — eso es el trabajo de ingeniería. El prompt suele ser el último 5% del trabajo.
He integrado Claude y OpenAI en CRMs, workflows de contenido, automatización estilo agente, sistemas de Q&A de documentos y tooling interno para operaciones freelance. El patrón es consistente: empezar angosto, instrumentar todo, iterar sobre el prompt Y el retrieval Y la UX juntos. Los proyectos que triunfan tratan la capa LLM como software normal — con tests, logs, budgets de costo y planes de rollback.
Preguntas frecuentes
Multi-provider por default. Claude como modelo primario de reasoning, OpenAI para embeddings o voz, open-source vía Bedrock/Azure para workloads específicos. Diseño la integración con una abstracción así podés cambiar o sumar providers sin reescribir features.
Sí — esta suele ser la primera optimización que corro en integraciones existentes. Identificar contenido de prefijo estable, estructurar mensajes para cache hits, y medir la cache hit rate. Una integración bien cacheada puede cortar facturas 40-70% sin cambio de calidad.
Stack completo: ingestión de documentos, estrategia de chunking, pipelines de embedding (OpenAI o Cohere), búsqueda híbrida (BM25 + vector), reranking, filtros de freshness y el eval harness para medir si realmente está mejorando en el tiempo.
Sí, pero con cuidado. Los agentes que funcionan en producción tienen loops acotados, criterios de éxito claros, checkpoints humano-in-the-loop donde corresponde y observabilidad seria. "Que el agente lo resuelva" rara vez se envía — scopeo la autonomía del agente según blast radius.
Absolutamente. Problemas comunes que encuentro: falta de caching, loops chatty de agentes, vulnerabilidades de prompt injection, sin budgets de costo por usuario, retrieval que pierde porque los chunks son muy chicos. Entrego una auditoría por escrito con fixes priorizados — vos decidís qué implementar.
Sí. Claude Code como harness, el Agent SDK para agentes custom, managed agents para ejecución offloaded. Puedo construir, extender o migrar entre estos según qué encaje con tu infraestructura y equipo.
¿Necesitás Claude en tu producto, hecho bien?
Integraciones, auditorías, pipelines RAG, sistemas de agentes. Respuesta en 24 horas, con llamada técnica de scoping incluida.
Empezar la conversación