Skip to Projects

Ex-Disney · Ex-Globant · Freelance dal 2014

Integra Claude nel tuo prodotto — da un ingegnere che consegna feature LLM in produzione.

Costruisco feature con Claude che funzionano davvero sotto traffico reale: tool use, pipeline RAG, prompt caching, agenti, output strutturato. Non un POC in un notebook — un sistema da cui i tuoi utenti dipendono.

Avvia un'integrazione

Prompt caching e disciplina dei costi

La maggior parte delle integrazioni Claude brucia soldi in token. Io cacheo ciò che va cacheato, faccio streaming di ciò che va in streaming, e sposto la logica fuori dai prompt quando appartiene al codice. Di solito taglia la bolletta del 40-70%.

Tool use e agenti che non si avvitano

Gli agenti sono facili da prototipare, difficili da consegnare. Io delimito i bound del loop, gestisco i fallimenti parziali, aggiungo osservabilità e tengo gli umani nel loop dove conta. Nessuna storia tipo "l'agente ha continuato a chiamare l'API".

RAG che recupera i chunk giusti

Strategia di chunking, reranking, ricerca ibrida (BM25 + vettori), filtri metadata, freshness — la qualità del retrieval determina la qualità della risposta. Passo più tempo sul retrieval che sui prompt, perché conta di più.

Multi-provider senza lock-in

Claude-first dove vince, OpenAI per casi specifici, open-source per workload edge. Progetto il layer di astrazione così puoi cambiare provider senza riscrivere le feature.

Lo stack LLM con cui lavoro

  • Claude APIDefault per reasoning, contesto lungo, tool use, agenti
  • Anthropic SDKSDK TypeScript ufficiale — streaming, caching, retry
  • OpenAIPer embedding, Whisper, o quando Claude non è la scelta giusta
  • LangChainQuando un progetto ne ha davvero bisogno — spesso no
  • Vercel AI SDKUI streaming e tool calling in app Next.js
  • Prompt CachingTaglia i costi di token del 40-70% su chiamate con contesto ripetuto
  • RAGRetrieval-augmented generation — la parte difficile è il retrieval
  • pgvectorVettori nativi in Postgres quando non serve un DB dedicato
  • n8nAutomazione workflow visiva — ottima per ops, non per logica core
  • TypeScriptTipi su input di prompt, schemi tool, output strutturati
  • NestJSBackend di produzione che avvolge il layer LLM con code, retry, rate limit
  • Next.jsFrontend con risposte streaming e server action

Quando Claude è il provider giusto

Scegli Claude prima quando la tua feature vive o muore per la qualità del reasoning — analisi di documenti con contesto lungo, tool use multi-step complesso, scrittura sfumata, qualsiasi cosa in cui "più o meno giusto" non basta. I contesti lunghi di Claude, il forte comportamento di tool use e la gestione dei refusal ti danno un percorso più corto alla produzione rispetto al costruire attorno a un modello che a volte entra in loop o allucina tool.

Scegli OpenAI quando ti servono embedding a basso costo, speech-to-text con Whisper, generazione immagini con DALL-E, o quando una feature specifica vive solo nella loro API (voce realtime, per esempio). Uso spesso entrambi nello stesso progetto — Claude per reasoning, OpenAI per task ausiliari.

Dove le integrazioni falliscono: i team trattano l'LLM come prodotto invece che come primitiva. Un prompt non è una feature — la feature è la UX attorno al prompt. Cache hit, logica di retry, percorsi di fallback, moderazione dei contenuti, osservabilità, loop di feedback utente, eval harness — quello è il lavoro di ingegneria. Il prompt è spesso l'ultimo 5% del lavoro.

Ho integrato Claude e OpenAI in CRM, workflow di contenuto, automazione stile agente, sistemi Q&A su documenti e tooling interno per operazioni freelance. Il pattern è costante: parti stretto, strumenta tutto, itera sul prompt E sul retrieval E sulla UX insieme. I progetti che hanno successo trattano il layer LLM come software normale — con test, log, budget di costo e piani di rollback.

Domande frequenti

Multi-provider di default. Claude come modello primario di reasoning, OpenAI per embedding o voce, open-source via Bedrock/Azure per workload specifici. Progetto l'integrazione con un'astrazione così puoi cambiare o aggiungere provider senza riscrivere le feature.

Sì — di solito è la prima ottimizzazione che applico su integrazioni esistenti. Identificare contenuto stabile di prefisso, strutturare messaggi per cache hit e misurare la hit rate. Un'integrazione ben cacheata può tagliare le fatture del 40-70% senza cambiamenti di qualità.

Stack completo: ingestione documenti, strategia di chunking, pipeline di embedding (OpenAI o Cohere), ricerca ibrida (BM25 + vettori), reranking, filtri freshness, e l'eval harness per misurare se sta davvero migliorando nel tempo.

Sì, ma con cautela. Gli agenti che funzionano in produzione hanno loop delimitati, criteri di successo chiari, checkpoint human-in-the-loop dove servono, e osservabilità seria. "Lascia che l'agente risolva" raramente arriva in produzione — scopo l'autonomia dell'agente in base al blast radius.

Assolutamente. Problemi comuni che trovo: niente caching, loop chiacchieroni di agenti, vulnerabilità di prompt injection, niente budget di costo per utente, retrieval che perde perché i chunk sono troppo piccoli. Consegno un audit scritto con fix prioritizzati — decidi tu cosa implementare.

Sì. Claude Code come harness, l'Agent SDK per agenti custom, managed agent per esecuzione offloaded. Posso costruire, estendere o migrare tra questi a seconda di cosa si adatta alla tua infrastruttura e al tuo team.

Vuoi Claude nel tuo prodotto, fatto bene?

Integrazioni, audit, pipeline RAG, sistemi di agenti. Risposta entro 24 ore, call tecnica di scoping inclusa.

Avvia la conversazione