# IA Générative

### Dafnis Krasniqi

## 1. Introduction à l'IA Générative

Ce cours, intitulé **Introduction à l'IA Générative et aux Modèles de Langage de Grande Taille (LLM)**, explique comment l'IA générative permet de créer du contenu (texte, images, etc.) à partir d'un simple prompt textuel, sans avoir besoin de compétences techniques particulières. L'IA générative démocratise ainsi l'accès à des outils puissants.

### **Objectifs d'apprentissage :**
1. Comprendre ce qu'est l'IA générative et comment fonctionnent les LLMs.
2. Explorer des cas d'usage dans l'éducation, en particulier grâce aux LLMs.


### **Évolution de l'IA :**
- **Débuts de l'IA :** Les premiers chatbots des années 60 se basaient sur des bases de connaissances limitées.
- **Apprentissage automatique (Machine Learning) :** Dans les années 90, des algorithmes statistiques ont été utilisés pour analyser le texte et permettre aux machines de mieux comprendre le langage humain.
- **Réseaux de neurones :** Des avancées en matériel ont permis le développement de réseaux de neurones, comme les réseaux neuronaux récurrents (RNN), capables de traiter des séquences plus longues de texte.
- **Présent : IA générative et Transformers** : Aujourd'hui, les Transformers ont surmonté les limites des RNNs en traitant de longues séquences de texte et en générant du contenu de manière créative.

![title](Images/AI-diagram.png)

### **Fonctionnement des LLMs :**
Les LLMs utilisent des **tokenizers** pour convertir le texte en nombres, sur lesquels ils basent leurs prédictions. 

![title](Images/tokenizer-example.png)


* Les grands modèles de langage (LLM), comme GPT, reçoivent un texte en entrée et génèrent un texte en sortie. Pour ce faire, le texte est d'abord transformé en nombres via un tokenizer, qui divise le texte en segments appelés tokens et les associe à des indices numériques. Ensuite, le modèle prédit un token à chaque étape, en se basant sur une séquence d'entrée. Ce processus fonctionne en une série d'itérations, où le modèle continue d'ajouter des tokens pour former une réponse complète.


* La sélection du token de sortie se fait en fonction d'une distribution de probabilité. Cependant, le modèle n'utilise pas toujours le token avec la plus haute probabilité pour garantir de la variation dans les réponses. Ce niveau de variation est contrôlé par un paramètre appelé temperature, permettant d’ajouter une dose de créativité.

### **Cas d'usage des LLMs :**
1. **Résumé de texte**
2. **Création d'idées**
3. **Complétion de texte**
4. **Génération de code**

![title](Images/conversation-example.png) 

### **Limitations de l'IA générative :**
L'IA générative n'est pas toujours fiable, elle peut générer des contenus erronés ou biaisés. De plus, elle n'a pas de réelle intelligence émotionnelle ou critique.

![title](Images/students-by-DALLE2.png) 

# 2 "Exploring and Comparing Different LLMs"

### Introduction
Cette leçon aborde les différents types de Modèles de Langage de Grande Taille (LLMs), comment les tester et les comparer, et comment les déployer. L’objectif est de comprendre les avantages et inconvénients de ces modèles pour choisir le plus adapté aux cas d’usage spécifiques.



### Objectifs
- Choisir le bon modèle pour un usage donné.



### Les différents types de LLMs
Les LLMs peuvent être catégorisés selon leur architecture, leurs données d'entraînement, et leurs cas d’usage. Voici quelques exemples :

- **Reconnaissance vocale** : modèles comme Whisper pour la reconnaissance multilingue.
- **Génération d’images** : modèles comme DALL-E ou Midjourney.
- **Génération de texte** : modèles comme GPT-3.5 ou GPT-4 pour les tâches textuelles.
- **Multimodalité** : GPT-4 Turbo permet de traiter du texte et des images simultanément.



### Modèles Open Source vs Propriétaires
- **Open Source** : accès libre aux modèles comme Alpaca ou LLaMA, mais avec des limitations en termes de maintenance et d’optimisation.
- **Propriétaires** : modèles comme ceux d’OpenAI ou Google Bard, optimisés pour la production mais souvent payants et non modifiables.



![title](Images/Capture.png) 

### Catégories par sortie
- **Embeddings** : pour représenter des textes sous forme numérique.
- **Génération d'images** : modèles comme DALL-E.
- **Génération de texte/code** : pour la génération automatique de contenu textuel ou de code.

![title](Images/Embedding.png) 

![title](Images/Image.png) 

![title](Images/Text.png) 

### Architectures
- **Modèles Décodeurs seulement** : comme GPT, spécialisés dans la génération de texte.
- **Modèles Encodeurs seulement** : comme BERT, spécialisés dans la compréhension du texte.
- **Modèles Encodeurs-Décodeurs** : comme T5, capables de générer et de comprendre du texte.

### Attention Is All You Need

En 2017, Vaswani et al. ont publié un article intitulé *Attention Is All You Need* lors de la conférence NeurIPS, où ils ont introduit l'architecture *Transformer* originale pour la traduction automatique. Cette architecture a surpassé les modèles *RNN* encodeur-décodeur dominants à l’époque, en étant à la fois plus performante et plus rapide.

L'architecture *Transformer* est devenue la base de modèles récents comme *BERT* et *GPT-3*, et a déjà été appliquée dans des domaines comme la vision par ordinateur et l'apprentissage par renforcement. Comprendre cette architecture est donc essentiel pour anticiper les futures tendances de l'apprentissage automatique.



### Caractéristiques du *Transformer* :
L'architecture est présentée comme simple, car elle ne repose ni sur des récurrences ni sur des convolutions, deux concepts courants mais complexes des RNNs et CNNs. Au lieu de cela, elle utilise des mécanismes comme l’encodeur-décodeur, les *word embeddings* et l’attention (*attention mechanism*).

Le mécanisme de self-attention est un concept clé utilisé dans les modèles de language de type Transformer, comme les LLMs. 

#### Définition
Le **self-attention** est une technique qui permet à un modèle de pondérer l'importance de chaque mot (ou token) par rapport aux autres mots d'une phrase lorsqu'il les traite. Autrement dit, chaque mot "fait attention" à d'autres mots pour comprendre le contexte dans lequel il est utilisé.

![title](Images/attention_m.png) 


### Comment cela fonctionne
1. **Entrée :** Chaque mot d'une phrase est représenté par un vecteur (une série de nombres).
2. **Calcul des Scores d'Attention :** Le mécanisme de self-attention compare chaque mot avec tous les autres mots de la phrase. Il calcule des "scores d'attention" pour chaque paire de mots, indiquant à quel point un mot est important par rapport aux autres.
3. **Application des Scores :** Ces scores sont utilisés pour ajuster les représentations de chaque mot en fonction de son importance par rapport aux autres mots. Par exemple, dans la phrase "Le chat mange une souris", le modèle peut déterminer que "chat" est plus lié à "mange" qu'à "souris".
4. **Sortie :** Chaque mot est finalement représenté par une version pondérée qui tient compte de son contexte global dans la phrase.

### Pourquoi c'est important
Le self-attention permet aux modèles d'IA de traiter efficacement des relations complexes entre les mots, même sur de longues phrases. Cela améliore la compréhension contextuelle, rendant les modèles plus précis pour des tâches comme la traduction, la génération de texte et la réponse aux questions.

### L'architecture de base : Encodeur-Décodeur
Le *Transformer* suit un schéma encodeur-décodeur classique. L’encodeur extrait des caractéristiques à partir d’une phrase d’entrée (par exemple, en anglais), et le décodeur utilise ces caractéristiques pour produire une phrase de sortie (par exemple, une traduction en français).

- **Encodeur** : Composé de plusieurs blocs d'encodeurs empilés, qui traitent la phrase d’entrée. Le dernier bloc encodeur génère des caractéristiques qui alimentent le décodeur.
- **Décodeur** : Lui aussi constitué de plusieurs blocs, il prend en entrée les caractéristiques produites par l'encodeur et génère la phrase de sortie.

Chaque bloc de décodeur reçoit les informations provenant de l'encodeur, créant une interaction continue entre les deux.

L'utilisation multiple de blocs (indiquée par *Nx* dans le schéma original) renforce l'efficacité du modèle.

![title](Images/transformers.png) 

pour allé plus loin: https://kikaben.com/transformers-encoder-decoder/

![title](Images/transformers_1.png) 

### Amélioration des résultats des LLMs
Il existe plusieurs approches pour améliorer les performances des LLMs :
- **Prompt engineering** : affiner les requêtes pour obtenir de meilleures réponses.
- **RAG (Retrieval-Augmented Generation)** : intégrer des données externes à la requête.
- **Fine-tuning** : adapter un modèle existant avec des données spécifiques pour un meilleur ajustement.



### Amélioration des résultats des LLMs
L'amélioration des performances des *Large Language Models* (LLMs) est un enjeu clé pour obtenir des résultats plus précis, pertinents et adaptés à des contextes spécifiques. Plusieurs stratégies peuvent être mises en œuvre pour optimiser ces modèles :

- **Prompt Engineering** : Le *prompt engineering* consiste à formuler et structurer soigneusement les requêtes adressées aux LLMs pour obtenir des réponses optimales. En ajustant la formulation, en précisant des instructions ou en donnant des exemples, il est possible d'améliorer la compréhension du modèle et la qualité des réponses générées. 

- **RAG (Retrieval-Augmented Generation)** : Cette méthode combine la génération de texte par LLM avec des données externes récupérées en temps réel via un système de recherche. Cela permet au modèle d’accéder à des informations spécifiques, à jour ou qui ne sont pas incluses dans son corpus d’entraînement. 

- **Fine-tuning** : Le *fine-tuning* consiste à adapter un modèle de base préentraîné sur des données généralistes à des domaines ou des cas d’usage spécifiques. En réentraînant le modèle avec des jeux de données ciblés, on peut affiner ses capacités pour qu’il devienne plus performant dans un contexte particulier (par exemple, la santé, le droit, la finance, etc.). 

- **Utilisation de modèles spécialisés ou hybrides** : Combiner plusieurs LLMs ou créer des modèles spécialisés pour des tâches spécifiques peut aussi améliorer les résultats. Par exemple, certains modèles peuvent être conçus pour une meilleure compréhension du langage, tandis que d'autres excellent dans des tâches de génération créative.

En combinant ces différentes approches, il est possible de maximiser les performances des LLMs pour des besoins variés et de s’adapter aux exigences spécifiques des utilisateurs et des domaines d'application.

##  3. Introduction à RAG (Retrieval Augmented Generation) et Bases de Données Vectorielles

---

### Qu'est-ce que le RAG ?
- Retrieval Augmented Generation (RAG) est une méthode qui combine les *Large Language Models* (LLMs) avec des données externes.
- Elle enrichit les réponses des LLMs en récupérant des informations provenant de bases de connaissances spécifiques.
- Utile lorsque les LLMs n'ont pas accès à des informations récentes ou spécialisées.

![title](Images/how-rag-works.png) 

### **Pourquoi utiliser RAG ?**
- **Améliore la précision** : Les réponses sont basées sur des données actuelles et spécifiques.
- **Réduit les erreurs (hallucinations)** : Limite les réponses inventées en utilisant des informations vérifiables.
- **Économique** : Moins coûteux que d’entraîner à nouveau un modèle complet (fine-tuning).

### **Comment fonctionne le RAG ?**
1. **Base de connaissances** : Les documents sont transformés en *embeddings* (représentations numériques).
2. **Requête utilisateur** : L'utilisateur pose une question.
3. **Récupération des données** : Les *embeddings* similaires sont extraits de la base de données.
4. **Génération augmentée** : Le LLM utilise ces données pour enrichir sa réponse.


### **Les Bases de Données Vectorielles**
- **Qu'est-ce que c'est ?** : Une base de données conçue pour stocker des *embeddings* (représentations vectorielles de texte, images, etc.).
- **Pourquoi c'est important ?** : Permet une recherche rapide et efficace de contenu pertinent en fonction des requêtes utilisateurs.
- **Exemples** : Azure Cosmos DB, Pinecone, Qdrant.

### **Processus RAG : Exemple**
1. **Ingestion des documents** : Les textes sont découpés et transformés en *embeddings*.
2. **Stockage dans une base de données vectorielle**.
3. **Requête utilisateur** : Transformée en vecteur pour la recherche.
4. **Récupération et génération** : Les données pertinentes sont récupérées et intégrées à la réponse du modèle.


### **Avantages du RAG**
- **Réponses plus pertinentes** : Meilleures performances sur des tâches spécifiques grâce à des informations récentes.
- **Recherche efficace** : Les *embeddings* permettent de trouver des documents proches en signification.
- **Personnalisation** : Facilement adaptable à des domaines spécifiques (ex. : support client, apprentissage).


### **Applications Pratiques**
- **Chatbots** : Améliorer les réponses en intégrant des informations d'entreprise ou des notes personnelles.
- **Systèmes de recommandation** : Proposer des contenus (films, articles) basés sur des données stockées.
- **Recherche d’images** : Trouver des images similaires via des représentations vectorielles.

### **Conclusion**
- **RAG** est une technologie clé pour rendre les LLMs plus performants et pertinents, en les reliant à des bases de données externes.
- **Bases de données vectorielles** facilitent cette intégration en permettant une recherche rapide et efficace d’informations adaptées.


# 4. les modèles open source

### **Introduction aux Modèles Open Source**

- Le monde des LLMs open source est en constante évolution.
- Cette leçon se concentre sur les modèles open source et leurs avantages.
- Comparaison avec les modèles propriétaires dans une autre leçon.

### **Qu'est-ce qu'un Modèle Open Source ?**

- Le logiciel open source : partage libre du code sous licence OSI.
- Pour les LLMs, les critères d'un modèle open source incluent : Données d'entraînement, poids du modèle, code d'évaluation et de fine-tuning, et métriques.
- Peu de modèles répondent à ces critères (ex. : OLMo d'AllenAI).

### ** Avantages des Modèles Open Source**

- **Personnalisables** : Adaptables pour des tâches spécifiques (ex. : génération de code, biologie).
- **Coût réduit** : Moins cher que les modèles propriétaires.
- **Flexibilité** : Possibilité de combiner différents modèles (ex. : HuggingChat).


![title](Images/model-price.png) 

![title](Images/model-price.png) 