03-comment-je-travaille/tutos/ia/prompt-caching-claude.md

Tuto — Réduire le coût avec le prompt caching (Claude)

Public visé : développeur qui intègre l'API Claude et veut maîtriser le coût. Objectif : comprendre et activer le prompt caching pour le chatbot (specs/ia-chatbot.md) et la veille.


Le principe

À chaque appel, un LLM « relit » tout le prompt — et on paie ces tokens à chaque fois. Or, dans un RAG, une grande partie du prompt est stable : le system prompt et souvent le contexte récupéré. Le prompt caching permet de mettre en cache ce préfixe stable : aux appels suivants, il est relu beaucoup moins cher (et plus vite).

[ system + consignes ]   ← stable        ┐
[ contexte (passages)  ]   ← semi-stable   ├─ mis en cache
[ question utilisateur ]   ← variable      ┘ (hors cache)

Comment ça marche (API Anthropic)

On marque un point de césure de cache sur le dernier bloc à mettre en cache, via cache_control. Tout ce qui précède ce point est caché.

{
  "system": [
    {
      "type": "text",
      "text": "Tu es un assistant documentaire. Réponds uniquement à partir du contexte…",
      "cache_control": { "type": "ephemeral" }
    }
  ],
  "messages": [
    { "role": "user", "content": "….question variable…" }
  ]
}

On peut aussi marquer la fin du bloc de contexte (passages RAG) s'il est réutilisé d'un appel à l'autre.


Ce qu'il faut retenir sur le comportement

  • TTL court (de l'ordre de quelques minutes), rafraîchi à chaque réutilisation. Au-delà, le cache expire et le préfixe est recalculé.
  • Seuil minimal de tokens pour qu'un préfixe soit cachable (dépend du modèle).
  • Économique : l'écriture en cache coûte un peu plus cher qu'un token normal, mais la lecture est très bon marché → gagnant dès qu'on réutilise le préfixe.
  • Les valeurs exactes (TTL, seuils, ratios) évoluent : se référer à la documentation Anthropic à jour.

Bonnes pratiques pour notre RAG

  1. Ordonner du stable au variable : system → contexte → question.
  2. Marquer le préfixe stable avec cache_control.
  3. Regrouper les questions d'une même session pendant que le cache est chaud.
  4. Mesurer : suivre le ratio de lecture en cache vs écriture (observabilité).

Pour aller plus loin

Assistant documentaire

Posez une question sur la documentation. Les réponses citent leurs sources — un clic ouvre le document à gauche.

Loading…
Loading the web debug toolbar…
Attempt #