Lot 3 — Veille agentique : catalogue de sources
Catalogue des flux pour le pipeline de veille (cf.
specs/ia-veille.md). V1 = un thème pilote (IA) avec 10 flux ; le reste du catalogue est gardé en réserve pour les itérations suivantes (dev web, qualité, juridique).
1. Types de flux exploitables
Pour ce pipeline Symfony en pull, RSS et Atom couvrent 95 % du besoin et restent le bon choix pour le V1. Trois variantes méritent d'être connues, sans être indispensables pour démarrer :
- Flux Substack / Beehiiv : les newsletters hébergées sur ces plateformes exposent un RSS standard (
/feed). Pas de cas particulier à coder — c'est du RSS classique, mais ça ouvre l'accès à beaucoup de newsletters analystes (Latent Space, Import AI, Ahead of AI…). - Flux Atom des releases GitHub : tout dépôt expose
https://github.com/<org>/<repo>/releases.atom. Très utile pour suivre les sorties de bibliothèques ou de modèles. Standard Atom, parsé comme le reste. - Pont email → RSS : pour les newsletters qui n'ont que l'email (TLDR AI, Ben's Bites quand pas hébergées Substack), un service comme Kill the Newsletter! crée une boîte qui devient un flux RSS. Recommandé en V2, pas en V1 (dépendance externe).
Hors périmètre raisonnable : JSON Feed (peu adopté, ajoute un parser), webhooks (modèle push incompatible avec Scheduler/Messenger en pull), scraping de pages sans flux (fragile, non éthique, à éviter).
2. État des sources IA majeures (point critique)
Important pour la résilience du pipeline : plusieurs labos n'exposent plus de RSS natif depuis leurs refontes récentes. La communauté maintient des flux scrapés via GitHub Actions, fiables mais fragiles par nature.
| Source | RSS natif ? | Fallback |
|---|---|---|
| Anthropic (news, engineering, research) | Non | Flux communautaires : Olshansk/rss-feeds, taobojlen/anthropic-rss-feed |
| OpenAI (news, research) | Non (perdu lors de la refonte 2024) | Flux communautaires Olshansk, 0xSMW/rss-feeds |
| Mistral AI | Non | Flux communautaire feed_mistral_news.xml (0xSMW) |
| Meta AI | Non | Flux communautaire feed_meta_ai.xml (Olshansk) |
| xAI | Non | Flux communautaire feed_xai_news.xml (0xSMW) |
| Google DeepMind | Oui | — |
| Hugging Face Blog | Oui (/blog/feed.xml) |
— |
| Claude Code Changelog | Oui (officiel Anthropic) | — |
| arXiv | Oui (Atom natif) | — |
Conséquence pour l'architecture : prévoir un champ source_type (native / community) sur chaque source pour pouvoir prioriser les natives, monitorer les communautaires, et basculer si l'une tombe.
3. Top 10 — V1 (thème pilote : IA)
Sélection raisonnée : 4 constructeurs majeurs, 1 souveraineté FR, 1 recherche source, 2 synthèses anglo, 1 source FR pro, 1 pulse communautaire.
| # | Source | URL flux | Type | Cadence | Pourquoi |
|---|---|---|---|---|---|
| 1 | Anthropic News | https://raw.githubusercontent.com/Olshansk/rss-feeds/main/feeds/feed_anthropic_news.xml |
community | hebdo | Source cible (poste = migration vers Claude). Indispensable. |
| 2 | OpenAI News | https://raw.githubusercontent.com/Olshansk/rss-feeds/main/feeds/feed_openai_research.xml |
community | hebdo | Concurrent direct, comparatif obligatoire. |
| 3 | Google DeepMind Blog | https://deepmind.google/blog/rss.xml (à vérifier au branchement) |
native | hebdo | 3e force du marché. RSS officiel. |
| 4 | Hugging Face Blog | https://huggingface.co/blog/feed.xml |
native | quotidien | Écosystème open source, outillage, tutos. |
| 5 | Mistral AI News | https://raw.githubusercontent.com/0xSMW/rss-feeds/main/feeds/feed_mistral_news.xml |
community | bi-mensuel | Souveraineté FR, attendue par les DSI françaises. |
| 6 | arXiv cs.AI | https://export.arxiv.org/rss/cs.AI |
native (Atom) | quotidien | Recherche source. Volume fort → filtrage indispensable côté résumé. |
| 7 | Simon Willison's Weblog | https://simonwillison.net/atom/everything/ |
native | ~2/j | Meilleure synthèse pratique anglo, recul + recul. |
| 8 | MarkTechPost | https://www.marktechpost.com/feed/ |
native | quotidien | Agrégateur fiable à haute cadence (modèles, papers). |
| 9 | L'Usine Digitale | https://www.usine-digitale.fr/rss |
native | quotidien | Source FR pro orientée transformation numérique. Filtrer la rubrique IA. |
| 10 | Hacker News (filtré IA) | https://hnrss.org/newest?q=AI+OR+LLM+OR+Claude+OR+GPT&points=100 |
native (via hnrss.org) | continu | Pulse communauté, captation des signaux faibles. Seuil de points = filtre qualité. |
Charge estimée V1 : ~30-50 items/jour après dédup, à résumer par Claude. Cohérent avec le périmètre annoncé.
4. Catalogue large (réserve pour V2+)
4.1 Constructeurs et labos IA (en plus du top 10)
| Source | URL flux | Type |
|---|---|---|
| Anthropic Engineering | feed Olshansk/feed_anthropic_engineering.xml |
community |
| Anthropic Research | feed Olshansk/feed_anthropic_research.xml |
community |
| Anthropic Frontier Red Team | feed Olshansk/feed_anthropic_red.xml |
community |
| Claude Code Changelog | RSS officiel (lien dans Olshansk/rss-feeds) |
native |
| OpenAI Alignment Research | feed 0xSMW/feed_openai_alignment.xml |
community |
| Meta AI Blog | feed Olshansk/feed_meta_ai.xml |
community |
| xAI News | feed 0xSMW/feed_xai_news.xml |
community |
| Cohere Blog | feed Olshansk/feed_cohere.xml |
community |
| Cursor Blog | feed Olshansk/feed_cursor.xml |
community |
| Google Developers AI Blog | feed Olshansk/feed_google_ai.xml |
community |
| Groq Blog | feed Olshansk/feed_groq.xml |
community |
| Thinking Machines Blog | feed 0xSMW/feed_thinkingmachines.xml |
community |
| Microsoft Azure AI Blog | RSS officiel (techcommunity.microsoft.com) |
native |
4.2 Recherche
| Source | URL | Type |
|---|---|---|
| arXiv cs.CL (traitement langage) | https://export.arxiv.org/rss/cs.CL |
native |
| arXiv cs.LG (machine learning) | https://export.arxiv.org/rss/cs.LG |
native |
| BAIR Blog (Berkeley) | https://bair.berkeley.edu/blog/feed.xml |
native |
| HF Daily Papers | https://papers.takara.ai/api/feed |
community |
| The Gradient | https://thegradient.pub/rss/ |
native |
| Stanford HAI News | RSS section actualités | native |
4.3 Synthèses / Analystes (newsletters Substack & assimilés)
| Source | URL flux | Auteur / Angle |
|---|---|---|
| Import AI | Substack RSS | Jack Clark — politique & technique |
| The Batch | https://www.deeplearning.ai/the-batch/feed/ |
DeepLearning.AI / Andrew Ng |
| Latent Space | Substack RSS | Swyx — engineering pratique |
| Ahead of AI | Substack RSS | Sebastian Raschka — research pédagogique |
| One Useful Thing | Substack RSS | Ethan Mollick — usage métier |
| AI Snake Oil | Substack RSS | Princeton — esprit critique |
| Last Week in AI | Substack RSS | hebdo synthétique |
4.4 Médias tech (anglo)
- MIT Technology Review (rubrique AI)
- The Verge (rubrique AI)
- VentureBeat AI
- Wired (rubrique AI)
4.5 Médias tech (FR)
- LeBigData.fr —
https://www.lebigdata.fr/feed - FrenchWeb —
https://www.frenchweb.fr/feed - Le Monde Informatique — flux thématiques sur
lemondeinformatique.fr/flux-rss/ - Numerama (rubrique IA)
- ZDNet France
- La Revue du Digital
- Journal du Net (rubrique IA / web-tech)
4.6 Dev web (hors V1, futur lot)
- Symfony Blog —
https://symfony.com/blog/feed.xml - PHP releases (GitHub Atom)
- Web.dev (Google)
- MDN Blog
- CSS-Tricks
- Smashing Magazine
4.7 Qualité / Accessibilité (hors V1, futur lot)
- W3C Blog
- Opquast Blog
- The A11y Project
- WebAIM
4.8 Juridique (hors V1, futur lot — sujet sensible, garde-fous renforcés)
- CNIL — actualités RSS
- EUR-Lex — flux RSS sur le Journal Officiel UE (AI Act)
- ANSSI — alertes et avis
- Legifrance — RSS textes publiés
5. Conventions pour la config
Format pressenti pour veille.sources (à raffiner à l'implémentation) :
sources: - id: anthropic_news name: "Anthropic News" url: "https://raw.githubusercontent.com/Olshansk/rss-feeds/main/feeds/feed_anthropic_news.xml" type: community theme: ia subtheme: constructeurs lang: en enabled: true
id: slug stable, sert de clé de dédup et de tag dans la classification.type: native|community: pour la priorisation et le monitoring de fiabilité.enabled: pouvoir couper un flux qui tombe sans toucher au code.
6. Points d'attention V1
- Vérifier chaque URL au branchement : certaines URL ci-dessus (notamment les natives DeepMind, Microsoft) sont indiquées « à vérifier au branchement » — RSS bouge, les CMS changent.
- Monitorer les flux communautaires : un repo GitHub peut être abandonné ; prévoir une alerte si un flux ne rend plus rien depuis N jours.
- Filtrage arXiv : volume très élevé. Au démarrage, retenir arXiv mais filtrer via embeddings sur 2-3 sous-thèmes ciblés plutôt que tout cs.AI brut.
- Hacker News : ajuster le seuil
points=après quelques jours pour calibrer le bruit. - Respect des sources : conformément à la spec, résumé + lien, jamais de copie intégrale.
7. Sources retenues pour mémoire mais non incluses dans le top 10
- Planet AI (
planet-ai.net) : agrégateur en place, mais le sens du projet est de bâtir sa propre veille — utiliser un agrégateur tiers en source brouille le bénéfice de démonstration. - Stratechery : excellent contenu, paywall — non exploitable en RSS public.
- Twitter/X listes IA : pas de RSS officiel, dépendance forte à des bridges fragiles. Hors V1.
Documents liés
- Spec du pipeline :
specs/ia-veille.md - Cadre vitrine :
specs/ia-vitrine.md - Cœur RAG (embeddings réutilisables pour la classification) :
specs/ia-coeur.md
Implémentation
| Aspect | Localisation |
|---|---|
| Stockage sources | Table veille_source dans tlr-codexia — administrée via /admin/veille/sources |
Champ type |
native / community / html sur entité VeilleSource |
| Charge V1 | ~30-50 items/jour après dédup — 10 flux RSS/Atom thème IA |
| Catalogue complet | Ce document (§3 = V1, §4 = réserve V2+) |
Historique des décisions
| Version | Date | Décision |
|---|---|---|
| 1.0 | 2026-06-14 | Version initiale — première formalisation du versioning des specs. |
| — | 2026-06-01 | Top 10 V1 figé : 4 constructeurs majeurs, 1 FR, 1 arXiv, 2 synthèses anglo, 1 FR pro, 1 HN filtré. Note : plusieurs labos (Anthropic, OpenAI, Mistral, Meta, xAI) n'exposent plus de RSS natif — flux communautaires utilisés. |