Cursus
Formation Créer son propre agent IA avec les LLMs open source
Objectifs
Comprendre le fonctionnement des modèles de langage open source (LLMs).
Installer et interagir avec un modèle type Mistral, LLaMA ou GPT-J via HuggingFace.
Construire un agent conversationnel autonome avec prompt chaining et RAG.
Déployer une interface interactive (local ou via app web simple).
Pré-requis
Participants
Programme de formation
INTRODUCTION AUX LLMS OPEN SOURCE
-
Enjeux de souveraineté et d'indépendance technologique
-
Comparatif
- Mistral
- LLaMA
- Falcon
- GPT-J...
-
Avantages, limites, licences d'usage (Apache 2,0, MIT...)
-
Choix selon objectifs
- Taille
- Performance
- Contraintes hardware
GÉNÉRATION EN LOCAL OU VIA API
-
Utilisation de HuggingFace Hub pour déploiement rapide
-
Différences entre API distante (Inference API) et inférence locale
-
Benchmarks de performance sur pormpts standards (temps, cohérence, coût)
ASPECTS MATÉRIELS : CPU, GPU, QUANTIZATION
-
Importance de la RAM, VRAM et de l'optimisation mémoire
-
Formats de modèles
- FP32
- INT8
- GGUF
- Quantization à la volée
-
Usage de serveurs, colab ou modèles en local
BIBLIOTHÈQUE TRANSFORMERS (HUGGINGFACE)
-
Chargement de modèles
- AutoModelForCausalLM
- AutoTokenizer
-
Gestion des batchs, sampling, temperature, top-p, top-k
-
Tokenization : spécificités des modèles (Byte Pair Encoding, SentencePiece...)
PROMPT ENGINEERING AVANCÉ
-
Structure d'un prompt efficace
- Consignes
- Style
- Format attendu
-
Définition de rôles (système de consignes persistantes)
-
Paramétrage de température et comportement selon le ton
CHAINING DE PROMPTS
-
Construction d'enchaînements logiques (task chaining, output <-> input)
-
Structuration de flux
- Agent décisionnel
- Etapes séquentielles
MÉMOIRE À COURT TERME
-
Gestion d'un historique de conversation
-
Mécanisme de buffer, résumé automatique, context compression
-
Usage de ConversationSummaryMemory ou de mémoires locales
GESTION DU CONTEXTE ET DES TOKENS
-
Calcul de la taille de contexte maximale selon modèle
-
Troncature intelligente, compression ou sélection sémantique
-
Réduction de charge contextuelle via embeddings
INTRODUCTION AU RAG (RETRIEVAL AUGMENTED GENERATION)
-
Intérêt : pallier la méconnaissance du modèle par adjonction documentaire
-
Architecture : embed -> store -> retrieve -> generate
-
Cas d'usage (FAX interne, support produit, base réglementaire)
ENCODAGE DE DOCUMENTS
-
Sentence Transformers
- all-MiniLM
- mpnet
- bge
- multilingual
-
Vectorisation texte brut, PDF, site web ou base structurée
-
Nettoyage des données, splitting optimal
INDEXATION DANS UNE BASE VECTORIELLE
-
Choix d'index
- FAISS (Facebook)
- ChromaDB
- Weaviate
-
Création de bases persistantes, configuration de la similarité
-
Recherche vectorielle
- top-k
- score de similarité
- hybridation
RÉCUPÉRATION ET GÉNÉRATION CONDITIONNÉE
-
Pipeline de RAG : retrieve -> rerank -> prompt final
-
Prompt enrichi vs prompt structuré (template + contenu injecté)
-
Optimisation