5 jours INTRA Matériel fournit
Formation LLM et RAG souverains
Ce que vous allez apprendre
Objectifs pédagogiques
À l'issue de cette formation, les participants seront capables de :
- Comprendre l'architecture et le fonctionnement des LLM modernes (Transformers, attention mechanism, tokenization)
- Déployer et configurer vLLM sur GPU pour servir des modèles open-source (Llama, Qwen, Mistral, etc.)
- Optimiser les performances en production (quantization, PagedAttention, batching)
- Implémenter un système RAG complet avec Qdrant pour l'interrogation de documents
- Conteneuriser et déployer une stack complète (vLLM + RAG) sur le cloud
- Benchmarker et monitorer les systèmes LLM en production
En temps pratique
Année des modèles étudiés
Organisable sous 3 semaines
Nombre de participants maximum
Notre formation
Plus de détails
Public visé
Développeurs et architectes avec expérience Python et Linux, souhaitant acquérir une expertise sur le déploiement de LLM en production.
Format
5 jours × 7h (9h-12h30 / 14h-17h30). Présentiel recommandé ou distanciel avec accès SSH aux GPU.
Infrastructure
GPU L40S 48GB dédié avec environnement préconfigré (Ubuntu, CUDA, Docker). Géré par Ascenzia.
Prérequis
Python, Linux CLI, Docker, APIs REST. Niveau intermédiaire à avancé.
Les 5 jours
Programme détaillé
- Jour 1
- Jour 2
- Jour 3
- Jour 4
- Jour 5
-
COURS Matin
Architecture et mécanismes
Étude de l'architecture Transformer avec l'évolution historique (RNN → LSTM → Attention) et analyse détaillée du Multi-Head Attention mechanism. Compréhension du rôle des Feed-Forward Networks, Layer Normalization et Positional Encoding.
Comparaison des algorithmes de tokenization (BPE, WordPiece, SentencePiece) avec calcul d'impact sur les coûts d'API. Étude des paramètres de génération (temperature, top-p, top-k) qui contrôlent le comportement du modèle en production.
-
Cours Après-midi
Écosystème 2025 et benchmarks
Panorama des modèles 2025 : GPT-OSS (20B/120B), DeepSeek R1/V3, Qwen 3, Llama 4, Mistral. Analyse des licences, implications RGPD et critères de choix selon vos contraintes.
-
TP Après-midi
Écosystème 2025 et benchmarks
TP1 : Comparaison pratique des tokenizers avec calcul de coûts réels.
TP2 : Benchmark des APIs (OpenAI, Anthropic) pour mesurer latence, throughput et comprendre quand choisir cloud vs self-hosted.
-
COURS Matin
Infrastructure GPU et introduction vLLM
Étude des architectures GPU (A100, H100, L40S) : VRAM, tensor cores, calcul FP16/FP8. Calcul des besoins en VRAM et choix de configuration GPU selon budget et performance.
Introduction à vLLM avec PagedAttention pour optimiser la mémoire GPU et continuous batching pour maximiser le throughput.
-
TP MATIN
Infrastructure GPU et introduction vLLM
TP3 : Installation complète (CUDA, drivers, Python) et validation avec nvidia-smi.
-
TP Après-midi
Premier déploiement
TP4 : Déploiement de Llama 3.1 8B avec téléchargement depuis HuggingFace, démarrage du serveur vLLM et premiers tests via l'API OpenAI-compatible.
TP5 : Benchmarks de performance. Mesure du throughput (tokens/seconde), latence (TTFT et temps total) et utilisation GPU. Identification des goulots d'étranglement pour optimisation.
-
Cours Matin
Optimisation vLLM et quantization
Paramètres clés vLLM : gpu-memory-utilization pour équilibrer mémoire et KV cache, max-model-len pour la taille du contexte, tensor-parallel-size pour multi-GPU. Configuration PagedAttention et continuous batching.
Techniques de quantization : FP16, INT8, INT4, méthodes GPTQ et AWQ.
-
TP Matin
Optimisation vLLM et quantization
TP6 : Déploiement GPT-OSS 20B quantized avec mesure d'impact sur performance, mémoire et qualité vs full precision.
-
TP Après-midi
Configuration avancée
TP7 : Tuning des paramètres vLLM pour différents cas d'usage (latence minimale vs throughput maximal). Profiling pour identifier les goulots et mesurer l'impact de chaque configuration.
TP8 : Système de prompts pour production. Templates réutilisables, system prompts, gestion de l'historique de conversation avec truncation intelligente.
-
Cours Matin
Architecture RAG et embeddings
Architecture complète RAG : indexation (extraction, chunking, embeddings), retrieval (recherche par similarité) et génération (construction prompt avec contexte).
Docling pour extraction intelligente avec préservation de structure (tables, listes, sections). Stratégies de chunking (sémantique vs structurel vs hybride). Modèles d'embeddings et recherche par similarité.
-
TP Matin
Architecture RAG et embeddings
TP9 : Installation Qdrant et indexation avec Docling.
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Donec odio. Quisque volutpat mattis eros. Nullam malesuada erat ut turpis. Lorem ispum dolor sit amet.
-
TP Après-midi
Pipeline complet
TP10 : Pipeline RAG end-to-end. Ingestion avec Docling, génération embeddings, retrieval avec Qdrant, construction prompt et génération avec vLLM. Gestion erreurs, logging et mesure qualité.
-
Cours Après-midi
Pipeline complet
Optimisations RAG : taille de chunks, top-k, prompt engineering spécifique RAG (utilisation contexte, absence de documents, citation sources).
Mise en place de métriques d'évaluation.
-
Cours Matin
Conteneurisation
Maîtriser l'utilisation des images Docker officielles vLLM (vllm/vllm-openai), configurer nvidia-container-toolkit pour l'accès GPU, optimiser la gestion des volumes de cache et modèles, personnaliser l'image de base selon les besoins métier, et comprendre les paramètres critiques de performance (IPC, mémoire GPU, tensor parallelism).
-
TP Matin
Conteneurisation
TP11 : Stack complète docker-compose avec trois services (vLLM + Qdrant + API FastAPI). Configuration réseaux, volumes, restart policies, health checks et ressources GPU. Stack démarrable avec une commande.
-
Cours Après-midi
Cloud et conclusion
Comparaison options cloud (OVHcloud GPU, Azure, AWS) avec analyse coûts/performances. Déploiement sur OVH, configuration réseau sécurisée. Monitoring avec Prometheus/Grafana, logging et alerting.
-
FIN Après-midi
Conclusion
Récapitulatif et Q&A : synthèse des 5 jours, discussion use cases métiers, ressources pour continuer (docs, papers, communautés), prochaines étapes possibles. Remise des livrables complets.
Notre prestation
Ce qui est inclus
Infrastructure GPU
Serveur L40S 48GB (Ada Lovelace, 362 TFLOPS) chez OVHcloud. Pré-configuré avec Ubuntu, CUDA 12.1+, Docker. Accès SSH personnel pendant toute la formation.
Support technique
Accompagnement complet durant les sessions et pauses. Intervention rapide de l'équipe Ascenzia en cas de problème bloquant.
Livrables complets
11 notebooks Jupyter, scripts Python commentés, Dockerfiles production-ready, guide troubleshooting, ressources pour approfondir.
Certifications
Attestation de formation détaillant les compétences acquises et les technologies maîtrisées.
