#### I. Comparaison NLP Traditionnelle Vs Moderne

In [4]:
import pandas as pd


# Création du DataFrame comparatif
data = {
    "Aspect": [
        "Ingénierie des fonctionnalités",
        "Représentations de mots",
        "Architectures de modèles",
        "Méthodologie de formation",
        "Exemples clés de modèles",
        "Avantages",
        "Inconvénients"
    ],
    "NLP Traditionnelle": [
        "Manuelle (TF-IDF, n-grams, bag-of-words)",
        "Statiques (Word2Vec, GloVe)",
        "Superficielles (Naïve Bayes, SVM)",
        "Spécifique à la tâche",
        "Naïve Bayes, SVM, HMM",
        "Interprétabilité, Moins de ressources requises",
        "Moins précis, Difficulté à capturer le contexte"
    ],
    "NLP Moderne": [
        "Automatique (apprentissage de bout en bout)",
        "Contextuelles (Word Embeddings dynamiques, Transformers)",
        "Profondes (LSTM, Transformers, BERT, GPT)",
        "Pré-formation + mise au point (fine-tuning)",
        "BERT, GPT, T5",
        "Grande précision, Capacité à capturer le contexte",
        "Besoin de grandes ressources de calcul, Difficulté d'interprétation"
    ]
}

df_nlp_comparatif = pd.DataFrame(data)

# Affichage du DataFrame
df_nlp_comparatif.head(7)

Unnamed: 0,Aspect,NLP Traditionnelle,NLP Moderne
0,Ingénierie des fonctionnalités,"Manuelle (TF-IDF, n-grams, bag-of-words)",Automatique (apprentissage de bout en bout)
1,Représentations de mots,"Statiques (Word2Vec, GloVe)","Contextuelles (Word Embeddings dynamiques, Tra..."
2,Architectures de modèles,"Superficielles (Naïve Bayes, SVM)","Profondes (LSTM, Transformers, BERT, GPT)"
3,Méthodologie de formation,Spécifique à la tâche,Pré-formation + mise au point (fine-tuning)
4,Exemples clés de modèles,"Naïve Bayes, SVM, HMM","BERT, GPT, T5"
5,Avantages,"Interprétabilité, Moins de ressources requises","Grande précision, Capacité à capturer le contexte"
6,Inconvénients,"Moins précis, Difficulté à capturer le contexte","Besoin de grandes ressources de calcul, Diffic..."


II. Architecture LLM et scénarios d'application

In [5]:
# Création du DataFrame comparatif pour les architectures LLM
data_llm = {
    "Architecture": ["BERT", "GPT", "T5"],
    "Différences architecturales": [
        "Bidirectionnel, modélisation du langage masqué (MLM)",
        "Unidirectionnel, modélisation du langage causal (Auto-régressif)",
        "Encodeur-décodeur, utilise à la fois MLM et causal"
    ],
    "Application concrète": [
        "Analyse des sentiments et extraction d'entités",
        "Génération de texte et chatbots",
        "Résumé de texte et traduction automatique"
    ],
    "Pourquoi bien adaptée ?": [
        "Sa capacité bidirectionnelle permet de mieux comprendre le contexte des mots, ce qui est crucial pour l'analyse sémantique.",
        "Son approche auto-régressive permet de générer un texte fluide et naturel en prédisant chaque mot suivant.",
        "Sa structure encodeur-décodeur est efficace pour transformer et reformuler du texte, idéale pour les tâches nécessitant une compréhension et une réécriture."
    ]
}

df_llm_comparatif = pd.DataFrame(data_llm)

# Affichage du DataFrame
df_llm_comparatif.head()

Unnamed: 0,Architecture,Différences architecturales,Application concrète,Pourquoi bien adaptée ?
0,BERT,"Bidirectionnel, modélisation du langage masqué...",Analyse des sentiments et extraction d'entités,Sa capacité bidirectionnelle permet de mieux c...
1,GPT,"Unidirectionnel, modélisation du langage causa...",Génération de texte et chatbots,Son approche auto-régressive permet de générer...
2,T5,"Encodeur-décodeur, utilise à la fois MLM et ca...",Résumé de texte et traduction automatique,Sa structure encodeur-décodeur est efficace po...


III. Les avantages et les considérations éthiques de la Pre-training

In [8]:
# Création du DataFrame pour les avantages des modèles pré-entraînés
data_avantages = {
    "Avantage": [
        "Généralisation améliorée",
        "Besoin réduit de données étiquetées",
        "Réglage plus rapide",
        "Apprentissage par transfert",
        "Robustesse"
    ],
    "Explication": [
        "Les modèles pré-entraînés capturent des structures complexes du langage, ce qui leur permet de mieux généraliser sur de nouvelles tâches.",
        "Ils sont déjà exposés à une grande variété de données, ce qui réduit la nécessité d'avoir un grand corpus étiqueté pour l'entraînement spécifique.",
        "Le fine-tuning sur une tâche spécifique est plus rapide car le modèle possède déjà une base solide de compréhension du langage.",
        "Un modèle pré-entraîné peut être réutilisé pour différentes tâches avec peu d'ajustements, ce qui permet de gagner du temps et des ressources.",
        "Ils sont plus résistants aux variations linguistiques et aux bruits dans les données, offrant ainsi de meilleures performances même sur des données imparfaites."
    ]
}

df_avantages = pd.DataFrame(data_avantages)

# Création du DataFrame pour les préoccupations éthiques et stratégies d'atténuation
data_ethique = {
    "Préoccupation éthique": [
        "Biais dans les données",
        "Désinformation",
        "Utilisation abusive"
    ],
    "Description": [
        "Les modèles peuvent apprendre et reproduire les biais présents dans les données d'entraînement, conduisant à des résultats discriminatoires.",
        "Les LLM peuvent générer du contenu trompeur ou faux, posant un problème de fiabilité de l'information.",
        "Ils peuvent être détournés pour produire du spam, des deepfakes ou du contenu malveillant."
    ],
    "Stratégie d’atténuation": [
        "Utilisation de jeux de données plus diversifiés et équilibrés, audit des biais et mise en place de filtres éthiques.",
        "Développement de modèles capables de vérifier les sources et de signaler les informations douteuses.",
        "Implémentation de garde-fous comme des filtres de sécurité et des restrictions d'accès pour éviter les usages malveillants."
    ]
}

df_ethique = pd.DataFrame(data_ethique)

# Affichage des DataFrames
df_avantages.head()

Unnamed: 0,Avantage,Explication
0,Généralisation améliorée,Les modèles pré-entraînés capturent des struct...
1,Besoin réduit de données étiquetées,Ils sont déjà exposés à une grande variété de ...
2,Réglage plus rapide,Le fine-tuning sur une tâche spécifique est pl...
3,Apprentissage par transfert,Un modèle pré-entraîné peut être réutilisé pou...
4,Robustesse,Ils sont plus résistants aux variations lingui...


In [9]:
df_ethique.head()

Unnamed: 0,Préoccupation éthique,Description,Stratégie d’atténuation
0,Biais dans les données,Les modèles peuvent apprendre et reproduire le...,Utilisation de jeux de données plus diversifié...
1,Désinformation,Les LLM peuvent générer du contenu trompeur ou...,Développement de modèles capables de vérifier ...
2,Utilisation abusive,Ils peuvent être détournés pour produire du sp...,Implémentation de garde-fous comme des filtres...


####IV. L'architecture des transformateurs

**Mécanisme d’auto-attention et attention multi-têtes**

  * L'auto-attention est un mécanisme clé du Transformer qui permet à chaque mot d'une séquence de "regarder" tous les autres mots pour établir des relations contextuelles. Voici comment cela fonctionne :

  * Création des représentations du mot : Chaque mot est transformé en trois vecteurs appelés Query (Q), Key (K) et Value (V).

  * Calcul des scores d’attention : Pour chaque mot, on calcule un score de similarité entre sa requête (Query) et les clés (Keys) des autres mots. Ce score est obtenu via un produit scalaire suivi d'une normalisation par Softmax.

  * Pondération et agrégation des valeurs : Les scores obtenus servent à pondérer les Values (V) des autres mots avant d’être agrégés pour former une nouvelle représentation contextuelle du mot.

  * L’avantage de ce mécanisme est qu’il permet au modèle de capturer les relations à long terme entre les mots, contrairement aux approches séquentielles comme les RNN.

**Pourquoi utiliser l’attention multi-têtes ?**
  * L’attention multi-têtes est une extension de l’auto-attention qui consiste à répéter le calcul d’auto-attention plusieurs fois en parallèle, avec des paramètres différents. Cela permet :

  * D’apprendre plusieurs types de relations entre les mots : une tête peut capturer la structure syntaxique, une autre peut se concentrer sur la sémantique.

  * D’améliorer la richesse des représentations : chaque tête fournit une perspective différente du même mot.

  * De mieux comprendre le contexte global : en combinant différentes informations, le modèle devient plus robuste.

**Exemple d’application :**

Prenons la phrase "Le chat noir saute sur le canapé."

Une première tête d’attention peut se focaliser sur la relation entre "chat" et "saute" pour capturer l’action.

Une deuxième tête peut relier "noir" et "chat" pour capturer la description.

Une troisième tête peut analyser "chat" et "canapé", indiquant l’endroit où il saute.

Chaque tête d’attention extrait une information spécifique, et leur combinaison permet d’obtenir une meilleure compréhension globale.



**Application du mécanisme de self-attention sur la phrase :**

** "Les personnes créatives ne dépendent pas de ChatGPT."**

1. Transformation des mots en vecteurs
Chaque mot est converti en une représentation vectorielle grâce à un embedding, puis le modèle génère trois matrices pour chaque mot :

* Query (Q) → "Que cherche ce mot ?"

* Key (K) → "À quel point ce mot est pertinent pour les autres ?"

* Value (V) → "Quelle information transporte ce mot ?"

2.  Calcul des scores d’attention
Chaque mot va analyser son lien avec tous les autres mots de la phrase et attribuer un poids via une matrice d’auto-attention.

   * Quelques relations clés :
Mot "dépendent" (query) & autres mots (keys) :

     * Il a un lien fort avec "ne" et "pas", car ces mots construisent la négation.

     * Il accorde une attention modérée à "ChatGPT", qui est l’objet de la dépendance.

     * Il accorde une faible attention à "créatives", qui caractérise "personnes" plutôt qu’une action.

  * Mot "ChatGPT" (query) & autres mots (keys) :

     * Il se connecte fortement à "dépendent", car il est l'objet de cette dépendance.

     * Il pourrait accorder un poids plus faible à "personnes", car elles sont le sujet, pas l'action.

  * Mot "créatives" (query) & autres mots (keys) :

     * Il se lie fortement à "personnes", car il décrit leur caractéristique.

     * Il pourrait avoir un lien plus faible avec "dépendent", car la phrase exprime une action plutôt qu’une description.

Tous ces scores sont normalisés avec Softmax, donnant des poids entre 0 et 1 pour représenter l'importance relative de chaque mot.

3️.  Pondération et combinaison des valeurs
Les Values (V) de chaque mot sont ensuite pondérées en fonction des scores d’attention.

  * La représentation du mot "dépendent" sera influencée par "ne" et "pas" pour bien intégrer la négation.

  * Le mot "ChatGPT" prendra en compte l’action "dépendent", renforçant ainsi son rôle de mot cible de la phrase.

  * "Personnes" conservera son lien avec "créatives", assurant une compréhension fine du sujet.

4. Multi-Head Attention : Plusieurs perspectives

  * L’auto-attention est appliquée plusieurs fois en parallèle pour capter différents aspects du sens :

  * Une tête d’attention pourrait relier "dépendent" ↔ "ChatGPT" pour capter la dépendance.

  * Une autre tête d’attention pourrait se concentrer sur "personnes" ↔ "créatives" pour comprendre qui est concerné.

  * Une troisième tête pourrait capter la négation "ne pas" ↔ "dépendent", garantissant que le modèle intègre bien cette nuance.


Cette structure permet au Transformer de comprendre le sens global de la phrase, en capturant à la fois la relation entre les concepts et la négation, un point critique en NLP.



#### Comparaison entre MLM et CLM

In [11]:
# Réimportation des bibliothèques après réinitialisation de l'état
import pandas as pd


# Création du DataFrame pour la comparaison MLM vs CLM
data_mlm_clm = {
    "Aspect": ["Modélisation du langage masqué (MLM)", "Modélisation du langage causal (CLM)"],
    "Description": [
        "Masque certains mots dans la phrase et demande au modèle de les prédire, comme dans BERT. Cela force le modèle à apprendre une meilleure représentation bidirectionnelle du contexte.",
        "Prédit chaque mot en fonction des mots précédents uniquement, comme dans GPT. Cela permet la génération de texte fluide et naturel, mais empêche la capture complète du contexte environnant."
    ],
    "Scénario adapté": [
        "MLM est mieux adapté aux tâches nécessitant une compréhension fine du texte, comme l'extraction d'informations ou la classification de sentiments.",
        "CLM est plus adapté aux tâches de génération de texte comme les chatbots ou l'écriture automatique d'articles."
    ]
}

df_mlm_clm = pd.DataFrame(data_mlm_clm)

# Affichage du DataFrame
df_mlm_clm.head()

Unnamed: 0,Aspect,Description,Scénario adapté
0,Modélisation du langage masqué (MLM),Masque certains mots dans la phrase et demande...,MLM est mieux adapté aux tâches nécessitant un...
1,Modélisation du langage causal (CLM),Prédit chaque mot en fonction des mots précéde...,CLM est plus adapté aux tâches de génération d...


#### V.  Variations BERT

In [12]:
# Création du DataFrame pour les variantes de BERT adaptées aux scénarios
data_scenarios = {
    "Scénario": [
        "Analyse des sentiments en temps réel sur mobile",
        "Recherche sur des documents juridiques nécessitant précision",
        "Assistance client mondiale en plusieurs langues",
        "Pré-formation efficace et détection de remplacement de jeton",
        "PNL efficace dans des environnements aux ressources limitées"
    ],
    "Variante de BERT recommandée": [
        "DistilBERT",
        "RoBERTa",
        "XLM-RoBERTa",
        "ELECTRA",
        "ALBERT"
    ],
    "Justification": [
        "DistilBERT est plus léger et rapide tout en conservant une bonne performance, idéal pour les applications mobiles.",
        "RoBERTa améliore BERT avec un meilleur pré-entraînement et plus de données, ce qui augmente la précision sur des textes complexes comme le droit.",
        "XLM-RoBERTa est entraîné sur plusieurs langues, ce qui le rend parfait pour gérer des requêtes en plusieurs langues.",
        "ELECTRA est conçu pour un pré-entraînement efficace avec un coût réduit en calcul, parfait pour la détection et le remplacement de jetons.",
        "ALBERT réduit la taille du modèle et optimise la mémoire, idéal pour les environnements à ressources limitées."
    ]
}

df_scenarios = pd.DataFrame(data_scenarios)

# Création du DataFrame pour la comparaison des variantes de BERT
data_comparatif = {
    "Variante de BERT": ["RoBERTa", "ALBERT", "DistilBERT", "ELECTRA", "XLM-RoBERTa"],
    "Données et méthodes de formation": [
        "Plus de données et entraînement sans NSP, ce qui améliore la robustesse",
        "Factorisation des embeddings et partage des paramètres pour un modèle plus compact",
        "Distillation de BERT pour un modèle plus rapide et léger",
        "Utilisation de la détection de remplacement de jeton au lieu de MLM pour un pré-entraînement plus efficace",
        "Pré-entraîné sur des dizaines de langues pour une compréhension multilingue"
    ],
    "Taille et efficacité": [
        "Plus grand que BERT mais plus précis",
        "Beaucoup plus compact, nécessitant moins de mémoire",
        "Plus petit et rapide que BERT, adapté aux ressources limitées",
        "Efficace en pré-formation avec un coût réduit",
        "Large et complexe, mais performant en multilingue"
    ],
    "Optimisations et innovations": [
        "Suppression de NSP et plus de tokens vus pendant le pré-entraînement",
        "Compression des paramètres pour réduire l'empreinte mémoire",
        "Utilisation de la distillation de connaissances pour réduire la taille",
        "Modèle générateur-discriminateur pour un apprentissage plus efficace",
        "Pré-entraînement optimisé pour les langues multiples"
    ],
    "Cas d'utilisation idéaux": [
        "Tâches nécessitant une compréhension fine comme le droit ou la finance",
        "Applications nécessitant un modèle léger et rapide",
        "PNL en temps réel sur mobile et ressources limitées",
        "Pré-formation rapide et détection efficace de tokens",
        "Traitement du langage dans des contextes multilingues"
    ]
}

df_comparatif = pd.DataFrame(data_comparatif)

# Affichage des DataFrames
df_scenarios.head()

Unnamed: 0,Scénario,Variante de BERT recommandée,Justification
0,Analyse des sentiments en temps réel sur mobile,DistilBERT,DistilBERT est plus léger et rapide tout en co...
1,Recherche sur des documents juridiques nécessi...,RoBERTa,RoBERTa améliore BERT avec un meilleur pré-ent...
2,Assistance client mondiale en plusieurs langues,XLM-RoBERTa,XLM-RoBERTa est entraîné sur plusieurs langues...
3,Pré-formation efficace et détection de remplac...,ELECTRA,ELECTRA est conçu pour un pré-entraînement eff...
4,PNL efficace dans des environnements aux resso...,ALBERT,ALBERT réduit la taille du modèle et optimise ...


In [13]:
df_comparatif.head()

Unnamed: 0,Variante de BERT,Données et méthodes de formation,Taille et efficacité,Optimisations et innovations,Cas d'utilisation idéaux
0,RoBERTa,"Plus de données et entraînement sans NSP, ce q...",Plus grand que BERT mais plus précis,Suppression de NSP et plus de tokens vus penda...,Tâches nécessitant une compréhension fine comm...
1,ALBERT,Factorisation des embeddings et partage des pa...,"Beaucoup plus compact, nécessitant moins de mé...",Compression des paramètres pour réduire l'empr...,Applications nécessitant un modèle léger et ra...
2,DistilBERT,Distillation de BERT pour un modèle plus rapid...,"Plus petit et rapide que BERT, adapté aux ress...",Utilisation de la distillation de connaissance...,PNL en temps réel sur mobile et ressources lim...
3,ELECTRA,Utilisation de la détection de remplacement de...,Efficace en pré-formation avec un coût réduit,Modèle générateur-discriminateur pour un appre...,Pré-formation rapide et détection efficace de ...
4,XLM-RoBERTa,Pré-entraîné sur des dizaines de langues pour ...,"Large et complexe, mais performant en multilingue",Pré-entraînement optimisé pour les langues mul...,Traitement du langage dans des contextes multi...


#### VI. Température Softmax - Le régulateur d'aléatoire

In [14]:
# Création du DataFrame pour les effets de la température Softmax
data_temperature = {
    "Température": ["0.2", "1.5", "1.0"],
    "Effet sur la sortie": [
        "Les prédictions sont très déterministes. Le modèle choisit presque toujours l'option la plus probable, ce qui réduit la créativité.",
        "Les prédictions sont plus aléatoires. Le modèle génère des phrases moins cohérentes mais plus variées, pouvant inclure des choix improbables.",
        "Équilibre entre déterminisme et diversité. Le modèle génère du texte fluide et logique tout en conservant une certaine variété."
    ]
}

df_temperature = pd.DataFrame(data_temperature)

# Création du DataFrame pour la conception de l'application avec température Softmax
data_application = {
    "Application": [
        "Génération d'histoires pour enfants",
        "Résumé automatique de rapports financiers"
    ],
    "Température recommandée": [
        "Élevée (~1.2 - 1.5) pour favoriser la créativité et la diversité dans les histoires.",
        "Basse (~0.2 - 0.5) pour assurer la cohérence et éviter l'invention d'informations."
    ],
    "Justification": [
        "Une température plus élevée permet de générer des histoires plus variées et imaginatives, avec des rebondissements originaux.",
        "Une température plus basse garantit que le modèle reste factuel et ne produit pas d'affirmations spéculatives."
    ]
}

df_application = pd.DataFrame(data_application)

# Création du DataFrame pour l'effet de la température sur le biais
data_biais = {
    "Impact du réglage de la température": [
        "Une température basse réduit l'exploration des options moins probables, ce qui peut renforcer les biais existants dans les données d'entraînement.",
        "Une température élevée favorise la diversité des résultats mais peut entraîner des sorties incohérentes ou erronées."
    ],
    "Exemple": [
        "Si un modèle formé sur des textes d'actualité a une température basse, il risque de privilégier des formulations courantes, renforçant certains biais médiatiques.",
        "Avec une température élevée, un chatbot peut produire des réponses inattendues, allant de l'humour absurde à des incohérences factuelles."
    ]
}

df_biais = pd.DataFrame(data_biais)

# Affichage des DataFrames
df_temperature.head()

Unnamed: 0,Température,Effet sur la sortie
0,0.2,Les prédictions sont très déterministes. Le mo...
1,1.5,Les prédictions sont plus aléatoires. Le modèl...
2,1.0,Équilibre entre déterminisme et diversité. Le ...


In [15]:
df_application.head()

Unnamed: 0,Application,Température recommandée,Justification
0,Génération d'histoires pour enfants,Élevée (~1.2 - 1.5) pour favoriser la créativi...,Une température plus élevée permet de générer ...
1,Résumé automatique de rapports financiers,Basse (~0.2 - 0.5) pour assurer la cohérence e...,Une température plus basse garantit que le mod...


In [16]:
df_biais.head()

Unnamed: 0,Impact du réglage de la température,Exemple
0,Une température basse réduit l'exploration des...,Si un modèle formé sur des textes d'actualité ...
1,Une température élevée favorise la diversité d...,"Avec une température élevée, un chatbot peut p..."
