Go Back Up

5 jours INTRA Matériel fournit

Formation LLM et RAG souverains

Cette formation intensive de 5 jours vous permet de maîtriser le déploiement et l'optimisation de LLM en production avec vLLM, ainsi que la mise en œuvre de systèmes RAG performants. Chaque participant dispose d'un GPU L40S 48GB pour des travaux pratiques en conditions réelles.
  • 7

    Loïc FONTAINE

    CTO Ascenzia

Ce que vous allez apprendre

Objectifs pédagogiques

À l'issue de cette formation, les participants seront capables de :

  • Comprendre l'architecture et le fonctionnement des LLM modernes (Transformers, attention mechanism, tokenization)
  • Déployer et configurer vLLM sur GPU pour servir des modèles open-source (Llama, Qwen, Mistral, etc.)
  • Optimiser les performances en production (quantization, PagedAttention, batching)
  • Implémenter un système RAG complet avec Qdrant pour l'interrogation de documents
  • Conteneuriser et déployer une stack complète (vLLM + RAG) sur le cloud
  • Benchmarker et monitorer les systèmes LLM en production
%

En temps pratique

Année des modèles étudiés

Organisable sous 3 semaines

Nombre de participants maximum

Les 5 jours

Programme détaillé

Ce que vous allez découvrir.
  1. COURS Matin

    Architecture et mécanismes

    Étude de l'architecture Transformer avec l'évolution historique (RNN → LSTM → Attention) et analyse détaillée du Multi-Head Attention mechanism. Compréhension du rôle des Feed-Forward Networks, Layer Normalization et Positional Encoding.

    Comparaison des algorithmes de tokenization (BPE, WordPiece, SentencePiece) avec calcul d'impact sur les coûts d'API. Étude des paramètres de génération (temperature, top-p, top-k) qui contrôlent le comportement du modèle en production.

  2. Cours Après-midi

    Écosystème 2025 et benchmarks

    Panorama des modèles 2025 : GPT-OSS (20B/120B), DeepSeek R1/V3, Qwen 3, Llama 4, Mistral. Analyse des licences, implications RGPD et critères de choix selon vos contraintes.

  3. TP Après-midi

    Écosystème 2025 et benchmarks

    TP1 : Comparaison pratique des tokenizers avec calcul de coûts réels. 

    TP2 : Benchmark des APIs (OpenAI, Anthropic) pour mesurer latence, throughput et comprendre quand choisir cloud vs self-hosted.

  1. COURS Matin

    Infrastructure GPU et introduction vLLM

    Étude des architectures GPU (A100, H100, L40S) : VRAM, tensor cores, calcul FP16/FP8. Calcul des besoins en VRAM et choix de configuration GPU selon budget et performance.

    Introduction à vLLM avec PagedAttention pour optimiser la mémoire GPU et continuous batching pour maximiser le throughput.

  2. TP MATIN

    Infrastructure GPU et introduction vLLM

    TP3 : Installation complète (CUDA, drivers, Python) et validation avec nvidia-smi.

  3. TP Après-midi

    Premier déploiement

    TP4 : Déploiement de Llama 3.1 8B avec téléchargement depuis HuggingFace, démarrage du serveur vLLM et premiers tests via l'API OpenAI-compatible.

    TP5 : Benchmarks de performance. Mesure du throughput (tokens/seconde), latence (TTFT et temps total) et utilisation GPU. Identification des goulots d'étranglement pour optimisation.

  1. Cours Matin

    Optimisation vLLM et quantization

    Paramètres clés vLLM : gpu-memory-utilization pour équilibrer mémoire et KV cache, max-model-len pour la taille du contexte, tensor-parallel-size pour multi-GPU. Configuration PagedAttention et continuous batching.

    Techniques de quantization : FP16, INT8, INT4, méthodes GPTQ et AWQ.

  2. TP Matin

    Optimisation vLLM et quantization

    TP6 : Déploiement GPT-OSS 20B quantized avec mesure d'impact sur performance, mémoire et qualité vs full precision.

  3. TP Après-midi

    Configuration avancée

    TP7 : Tuning des paramètres vLLM pour différents cas d'usage (latence minimale vs throughput maximal). Profiling pour identifier les goulots et mesurer l'impact de chaque configuration.

    TP8 : Système de prompts pour production. Templates réutilisables, system prompts, gestion de l'historique de conversation avec truncation intelligente.

  1. Cours Matin

    Architecture RAG et embeddings

    Architecture complète RAG : indexation (extraction, chunking, embeddings), retrieval (recherche par similarité) et génération (construction prompt avec contexte).

    Docling pour extraction intelligente avec préservation de structure (tables, listes, sections). Stratégies de chunking (sémantique vs structurel vs hybride). Modèles d'embeddings et recherche par similarité. 

  2. TP Matin

    Architecture RAG et embeddings

     TP9 : Installation Qdrant et indexation avec Docling.

    Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Donec odio. Quisque volutpat mattis eros. Nullam malesuada erat ut turpis. Lorem ispum dolor sit amet.

  3. TP Après-midi

    Pipeline complet

    TP10 : Pipeline RAG end-to-end. Ingestion avec Docling, génération embeddings, retrieval avec Qdrant, construction prompt et génération avec vLLM. Gestion erreurs, logging et mesure qualité.

  4. Cours Après-midi

    Pipeline complet

    Optimisations RAG : taille de chunks, top-k, prompt engineering spécifique RAG (utilisation contexte, absence de documents, citation sources).

    Mise en place de métriques d'évaluation.

  1. Cours Matin

    Conteneurisation

    Maîtriser l'utilisation des images Docker officielles vLLM (vllm/vllm-openai), configurer nvidia-container-toolkit pour l'accès GPU, optimiser la gestion des volumes de cache et modèles, personnaliser l'image de base selon les besoins métier, et comprendre les paramètres critiques de performance (IPC, mémoire GPU, tensor parallelism).

  2. TP Matin

    Conteneurisation

    TP11 : Stack complète docker-compose avec trois services (vLLM + Qdrant + API FastAPI). Configuration réseaux, volumes, restart policies, health checks et ressources GPU. Stack démarrable avec une commande.

  3. Cours Après-midi

    Cloud et conclusion

    Comparaison options cloud (OVHcloud GPU, Azure, AWS) avec analyse coûts/performances. Déploiement sur OVH, configuration réseau sécurisée. Monitoring avec Prometheus/Grafana, logging et alerting.

  4. FIN Après-midi

    Conclusion

    Récapitulatif et Q&A : synthèse des 5 jours, discussion use cases métiers, ressources pour continuer (docs, papers, communautés), prochaines étapes possibles. Remise des livrables complets.