5 jours INTRA Matériel fournit

Formation LLM et RAG souverains

Cette formation intensive de 5 jours vous permet de maîtriser le déploiement et l'optimisation de LLM en production avec vLLM, ainsi que la mise en œuvre de systèmes RAG performants. Chaque participant dispose d'un GPU L40S 48GB pour des travaux pratiques en conditions réelles.

Loïc FONTAINE

CTO Ascenzia

À l'issue de cette formation, les participants seront capables de :

Comprendre l'architecture et le fonctionnement des LLM modernes (Transformers, attention mechanism, tokenization)
Déployer et configurer vLLM sur GPU pour servir des modèles open-source (Llama, Qwen, Mistral, etc.)
Optimiser les performances en production (quantization, PagedAttention, batching)
Implémenter un système RAG complet avec Qdrant pour l'interrogation de documents
Conteneuriser et déployer une stack complète (vLLM + RAG) sur le cloud
Benchmarker et monitorer les systèmes LLM en production

Notre formation

Plus de détails

Public visé

Développeurs et architectes avec expérience Python et Linux, souhaitant acquérir une expertise sur le déploiement de LLM en production.

Format

5 jours × 7h (9h-12h30 / 14h-17h30). Présentiel recommandé ou distanciel avec accès SSH aux GPU.

Infrastructure

GPU L40S 48GB dédié avec environnement préconfigré (Ubuntu, CUDA, Docker). Géré par Ascenzia.

Prérequis

Python, Linux CLI, Docker, APIs REST. Niveau intermédiaire à avancé.

Les 5 jours

Programme détaillé

Ce que vous allez découvrir.

COURS Matin

Architecture et mécanismes

Étude de l'architecture Transformer avec l'évolution historique (RNN → LSTM → Attention) et analyse détaillée du Multi-Head Attention mechanism. Compréhension du rôle des Feed-Forward Networks, Layer Normalization et Positional Encoding.

Comparaison des algorithmes de tokenization (BPE, WordPiece, SentencePiece) avec calcul d'impact sur les coûts d'API. Étude des paramètres de génération (temperature, top-p, top-k) qui contrôlent le comportement du modèle en production.
Cours Après-midi

Écosystème 2025 et benchmarks

Panorama des modèles 2025 : GPT-OSS (20B/120B), DeepSeek R1/V3, Qwen 3, Llama 4, Mistral. Analyse des licences, implications RGPD et critères de choix selon vos contraintes.
TP Après-midi

Écosystème 2025 et benchmarks

TP1 : Comparaison pratique des tokenizers avec calcul de coûts réels.

TP2 : Benchmark des APIs (OpenAI, Anthropic) pour mesurer latence, throughput et comprendre quand choisir cloud vs self-hosted.

COURS Matin

Infrastructure GPU et introduction vLLM

Étude des architectures GPU (A100, H100, L40S) : VRAM, tensor cores, calcul FP16/FP8. Calcul des besoins en VRAM et choix de configuration GPU selon budget et performance.

Introduction à vLLM avec PagedAttention pour optimiser la mémoire GPU et continuous batching pour maximiser le throughput.
TP MATIN

Infrastructure GPU et introduction vLLM

TP3 : Installation complète (CUDA, drivers, Python) et validation avec nvidia-smi.
TP Après-midi

Premier déploiement

TP4 : Déploiement de Llama 3.1 8B avec téléchargement depuis HuggingFace, démarrage du serveur vLLM et premiers tests via l'API OpenAI-compatible.

TP5 : Benchmarks de performance. Mesure du throughput (tokens/seconde), latence (TTFT et temps total) et utilisation GPU. Identification des goulots d'étranglement pour optimisation.

Cours Matin

Optimisation vLLM et quantization

Paramètres clés vLLM : gpu-memory-utilization pour équilibrer mémoire et KV cache, max-model-len pour la taille du contexte, tensor-parallel-size pour multi-GPU. Configuration PagedAttention et continuous batching.

Techniques de quantization : FP16, INT8, INT4, méthodes GPTQ et AWQ.
TP Matin

Optimisation vLLM et quantization

TP6 : Déploiement GPT-OSS 20B quantized avec mesure d'impact sur performance, mémoire et qualité vs full precision.
TP Après-midi

Configuration avancée

TP7 : Tuning des paramètres vLLM pour différents cas d'usage (latence minimale vs throughput maximal). Profiling pour identifier les goulots et mesurer l'impact de chaque configuration.

TP8 : Système de prompts pour production. Templates réutilisables, system prompts, gestion de l'historique de conversation avec truncation intelligente.

Cours Matin

Architecture RAG et embeddings

Architecture complète RAG : indexation (extraction, chunking, embeddings), retrieval (recherche par similarité) et génération (construction prompt avec contexte).

Docling pour extraction intelligente avec préservation de structure (tables, listes, sections). Stratégies de chunking (sémantique vs structurel vs hybride). Modèles d'embeddings et recherche par similarité.
TP Matin

Architecture RAG et embeddings

TP9 : Installation Qdrant et indexation avec Docling.

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Donec odio. Quisque volutpat mattis eros. Nullam malesuada erat ut turpis. Lorem ispum dolor sit amet.

Read More About This Session
TP Après-midi

Pipeline complet

TP10 : Pipeline RAG end-to-end. Ingestion avec Docling, génération embeddings, retrieval avec Qdrant, construction prompt et génération avec vLLM. Gestion erreurs, logging et mesure qualité.
Cours Après-midi

Pipeline complet

Optimisations RAG : taille de chunks, top-k, prompt engineering spécifique RAG (utilisation contexte, absence de documents, citation sources).

Mise en place de métriques d'évaluation.

Cours Matin

Conteneurisation

Maîtriser l'utilisation des images Docker officielles vLLM (vllm/vllm-openai), configurer nvidia-container-toolkit pour l'accès GPU, optimiser la gestion des volumes de cache et modèles, personnaliser l'image de base selon les besoins métier, et comprendre les paramètres critiques de performance (IPC, mémoire GPU, tensor parallelism).
TP Matin

Conteneurisation

TP11 : Stack complète docker-compose avec trois services (vLLM + Qdrant + API FastAPI). Configuration réseaux, volumes, restart policies, health checks et ressources GPU. Stack démarrable avec une commande.
Cours Après-midi

Cloud et conclusion

Comparaison options cloud (OVHcloud GPU, Azure, AWS) avec analyse coûts/performances. Déploiement sur OVH, configuration réseau sécurisée. Monitoring avec Prometheus/Grafana, logging et alerting.
FIN Après-midi

Conclusion

Récapitulatif et Q&A : synthèse des 5 jours, discussion use cases métiers, ressources pour continuer (docs, papers, communautés), prochaines étapes possibles. Remise des livrables complets.

Notre prestation

Ce qui est inclus

Votre réussite nous tient à coeur : voici comment nous vous accompagnions.

Infrastructure GPU

Serveur L40S 48GB (Ada Lovelace, 362 TFLOPS) chez OVHcloud. Pré-configuré avec Ubuntu, CUDA 12.1+, Docker. Accès SSH personnel pendant toute la formation.

Support technique

Accompagnement complet durant les sessions et pauses. Intervention rapide de l'équipe Ascenzia en cas de problème bloquant.

Livrables complets

11 notebooks Jupyter, scripts Python commentés, Dockerfiles production-ready, guide troubleshooting, ressources pour approfondir.

Certifications

Attestation de formation détaillant les compétences acquises et les technologies maîtrisées.

Formation LLM et RAG souverains

Loïc FONTAINE

Objectifs pédagogiques

Plus de détails

Public visé

Format

Infrastructure

Prérequis

Programme détaillé

Architecture et mécanismes

Écosystème 2025 et benchmarks

Écosystème 2025 et benchmarks

Infrastructure GPU et introduction vLLM

Infrastructure GPU et introduction vLLM

Premier déploiement

Optimisation vLLM et quantization

Optimisation vLLM et quantization

Configuration avancée

Architecture RAG et embeddings

Architecture RAG et embeddings

Pipeline complet