Yoann Abriel
en

Tous les projets

2024-2026

KARL

En prod chez Orange Business, pour les équipes produit et commerciales

Chatbot RAG d'intelligence cloud en production chez Orange Business. Intégration multi-LLM locale (Llama 3.3 70B, DeepSeek R1, QwQ 32B) via vLLM sur GPU H100 NVL et L40S, orchestration LangChain + ChromaDB. Conçu pour des réponses auditables, pas pour la démo.

KARL est le chatbot RAG d'intelligence cloud que j'ai développé de bout en bout au sein de l'équipe produit Cloud Avenue d'Orange Business. Il s'appuie sur une intégration multi-LLM locale (Llama 3.3 70B, DeepSeek R1, QwQ 32B) servie via vLLM sur des GPU H100 NVL et L40S, avec une orchestration LangChain et une base vectorielle ChromaDB. L'objectif n'était pas une démo qui impressionne : c'était des réponses ancrées dans les sources internes, auditables et fiables, pour les équipes produit et commerciales.

Défis

  • Servir plusieurs LLM en local sur GPU (H100 NVL, L40S) via vLLM
  • Obtenir des réponses auditables et fiables plutôt que séduisantes en démo
  • Orchestrer la recherche vectorielle ChromaDB avec LangChain sur des sources cloud internes

Solutions

  • Intégration multi-LLM locale (Llama 3.3 70B, DeepSeek R1, QwQ 32B) servie via vLLM
  • Pipeline RAG LangChain + ChromaDB pour ancrer les réponses dans les sources internes
  • Évaluation des sorties sur des cas réels plutôt que de se fier au ressenti

Résultats

  • Déployé en production pour les équipes produit et commerciales d'Orange Business
  • Inférence multi-LLM locale sur GPU H100 NVL et L40S via vLLM
  • Réponses ancrées et auditables via RAG (LangChain + ChromaDB)

Technologies

LangChain · ChromaDB · vLLM · H100 NVL · Llama 3.3 70B · DeepSeek R1 · RAG · Python