2024-2026

KARL

En prod chez Orange Business, pour les équipes produit et commerciales

Chatbot RAG d'intelligence cloud en production chez Orange Business. Intégration multi-LLM locale (Llama 3.3 70B, DeepSeek R1, QwQ 32B) via vLLM sur GPU H100 NVL et L40S, orchestration LangChain + ChromaDB. Conçu pour des réponses auditables, pas pour la démo.

KARL est le chatbot RAG d'intelligence cloud que j'ai développé de bout en bout au sein de l'équipe produit Cloud Avenue d'Orange Business. Il s'appuie sur une intégration multi-LLM locale (Llama 3.3 70B, DeepSeek R1, QwQ 32B) servie via vLLM sur des GPU H100 NVL et L40S, avec une orchestration LangChain et une base vectorielle ChromaDB. L'objectif n'était pas une démo qui impressionne : c'était des réponses ancrées dans les sources internes, auditables et fiables, pour les équipes produit et commerciales.

Défis

Servir plusieurs LLM en local sur GPU (H100 NVL, L40S) via vLLM
Obtenir des réponses auditables et fiables plutôt que séduisantes en démo
Orchestrer la recherche vectorielle ChromaDB avec LangChain sur des sources cloud internes

Solutions

Intégration multi-LLM locale (Llama 3.3 70B, DeepSeek R1, QwQ 32B) servie via vLLM
Pipeline RAG LangChain + ChromaDB pour ancrer les réponses dans les sources internes
Évaluation des sorties sur des cas réels plutôt que de se fier au ressenti

Résultats

Déployé en production pour les équipes produit et commerciales d'Orange Business
Inférence multi-LLM locale sur GPU H100 NVL et L40S via vLLM
Réponses ancrées et auditables via RAG (LangChain + ChromaDB)

Technologies

LangChain · ChromaDB · vLLM · H100 NVL · Llama 3.3 70B · DeepSeek R1 · RAG · Python