1. Self-Attention et Multi-Head Attention

A) Le mécanisme de self-attention dans un Transformer :
Le self-attention fonctionne en trois étapes principales :

A.1 Création des matrices Q (Query), K (Key), et V (Value) :
- Chaque token d'entrée est transformé en trois vecteurs
- Ces transformations se font via des matrices de poids apprenables
- Les dimensions sont optimisées pour le calcul matriciel

A.2 Calcul des scores d'attention :
- Score = Q × K^T
- Application du scaling factor (1/√dk)
- Application de softmax pour normalisation

A.3 Pondération finale :
- Multiplication avec la matrice V
- Obtention des représentations contextuelles
- Agrégation des informations pertinentes

In [4]:
# B) Avantages du Multi-Head Attention :

import pandas as pd
from IPython.display import display, HTML

# Premier tableau : Comparaison Single-Head vs Multi-Head Attention
data_attention = {
    'Aspect': [
        'Capacité de Représentation',
        'Parallélisme',
        'Types d\'Attention',
        'Robustesse'
    ],
    'Single-Head': [
        "• Une seule perspective\n• Vision limitée\n• Représentation unique",
        "• Traitement séquentiel\n• Moins efficace\n• Ressources sous-utilisées",
        "• Focus unique\n• Pas de spécialisation\n• Capture limitée",
        "• Sensible aux erreurs\n• Moins stable\n• Dépendance unique"
    ],
    'Multi-Head': [
        "• Multiples perspectives\n• Vision enrichie\n• Représentations complémentaires",
        "• Traitement parallèle\n• Haute efficacité\n• Utilisation optimale GPU",
        "• Focus multiples\n• Spécialisation par tête\n• Capture complète",
        "• Robuste aux erreurs\n• Plus stable\n• Redondance bénéfique"
    ]
}

df_attention = pd.DataFrame(data_attention)

# Style du tableau
styles = [
    dict(selector="th", props=[("font-weight", "bold"),
                              ("text-align", "left"),
                              ("background-color", "#2c3e50"),
                              ("color", "white"),
                              ("padding", "12px")]),
    dict(selector="td", props=[("padding", "12px"),
                              ("white-space", "pre-wrap"),
                              ("border-bottom", "1px solid #ddd")]),
]

# Affichage du premier tableau avec style
styled_df_attention = df_attention.style\
    .set_table_styles(styles)\
    .set_properties(**{
        'white-space': 'pre-wrap',
        'text-align': 'left',
        'padding': '12px',
        'background-color': '#ffffff'
    })\
    .set_caption("Comparaison Single-Head vs Multi-Head Attention")

display(styled_df_attention)


Unnamed: 0,Aspect,Single-Head,Multi-Head
0,Capacité de Représentation,• Une seule perspective • Vision limitée • Représentation unique,• Multiples perspectives • Vision enrichie • Représentations complémentaires
1,Parallélisme,• Traitement séquentiel • Moins efficace • Ressources sous-utilisées,• Traitement parallèle • Haute efficacité • Utilisation optimale GPU
2,Types d'Attention,• Focus unique • Pas de spécialisation • Capture limitée,• Focus multiples • Spécialisation par tête • Capture complète
3,Robustesse,• Sensible aux erreurs • Moins stable • Dépendance unique,• Robuste aux erreurs • Plus stable • Redondance bénéfique


C) Exemple Concret :
Prenons la phrase : "L'intelligence artificielle transforme rapidement notre société numérique"

Différentes têtes d'attention se concentrent sur :

- Tête 1 : Relations grammaticales (artificielle → intelligence)
- Tête 2 : Relations temporelles (rapidement → transforme)
- Tête 3 : Relations thématiques (numérique → société)
- Tête 4 : Relations conceptuelles (intelligence artificielle → société numérique)

In [None]:
# 2) Objectifs de Pré-entraînement
# A) Comparaison MLM vs CLM
data_pretraining = {
    'Caractéristique': [
        'Direction',
        'Contexte',
        'Application',
        'Complexité',
        'Use Cases'
    ],
    'MLM (BERT)': [
        "• Bidirectionnel\n• Accès complet au contexte\n• Masquage aléatoire",
        "• Contexte gauche et droit\n• Vision complète\n• Compréhension globale",
        "• Classification\n• Analyse\n• Extraction",
        "• Plus complexe\n• Apprentissage plus riche\n• Coût computationnel plus élevé",
        "• Analyse de sentiment\n• QA\n• Classification de texte"
    ],
    'CLM (GPT)': [
        "• Unidirectionnel\n• Gauche vers droite\n• Auto-régressif",
        "• Contexte gauche uniquement\n• Vision partielle\n• Prédiction séquentielle",
        "• Génération\n• Completion\n• Dialogue",
        "• Plus simple\n• Apprentissage direct\n• Génération naturelle",
        "• Chatbots\n• Génération de texte\n• Storytelling"
    ]
}

df_pretraining = pd.DataFrame(data_pretraining)

# Affichage du deuxième tableau avec style
styled_df_pretraining = df_pretraining.style\
    .set_table_styles(styles)\
    .set_properties(**{
        'white-space': 'pre-wrap',
        'text-align': 'left',
        'padding': '12px',
        'background-color': '#ffffff'
    })\
    .set_caption("Comparaison MLM vs CLM")

display(styled_df_pretraining)


Unnamed: 0,Caractéristique,MLM (BERT),CLM (GPT)
0,Direction,• Bidirectionnel • Accès complet au contexte • Masquage aléatoire,• Unidirectionnel • Gauche vers droite • Auto-régressif
1,Contexte,• Contexte gauche et droit • Vision complète • Compréhension globale,• Contexte gauche uniquement • Vision partielle • Prédiction séquentielle
2,Application,• Classification • Analyse • Extraction,• Génération • Completion • Dialogue
3,Complexité,• Plus complexe • Apprentissage plus riche • Coût computationnel plus élevé,• Plus simple • Apprentissage direct • Génération naturelle
4,Use Cases,• Analyse de sentiment • QA • Classification de texte,• Chatbots • Génération de texte • Storytelling


B) Scénarios appropriés :

- MLM : Analyse de documents juridiques où la compréhension complète du contexte est cruciale
- CLM : Génération de réponses créatives pour un chatbot d'assistance client


C) NSP (Next Sentence Prediction) :

- Utilisation initiale : Comprendre les relations entre phrases
- Abandon progressif car :
    - Tâche trop simple/artificielle
    - Bénéfices limités vs coût computationnel
    - Meilleurs résultats avec d'autres objectifs

In [None]:
# 3. Transformer Model Selection

import pandas as pd
from IPython.display import display, HTML

data_models = {
    'Application': [
        'Analyse des avis clients',
        'Chatbot créatif',
        'Traduction technique'
    ],
    'Type de Modèle': [
        'Encoder-only (BERT)',
        'Decoder-only (GPT)',
        'Encoder-Decoder (T5)'
    ],
    'Justification': [
        "• Compréhension bidirectionnelle du contexte\n• Excellent pour la classification\n• Capture fine des nuances émotionnelles\n• Optimisé pour l'analyse",
        "• Génération fluide et naturelle\n• Maintien du contexte conversationnel\n• Capacité créative\n• Contrôle de la température",
        "• Préservation précise du sens\n• Adaptation aux spécificités techniques\n• Gestion des variations de longueur\n• Flexibilité structurelle"
    ],
    'Avantages Spécifiques': [
        "• Précision élevée dans la classification\n• Robustesse aux variations linguistiques\n• Traitement efficace des textes courts\n• Pas besoin de génération",
        "• Réponses contextuellement adaptées\n• Personnalisation du ton\n• Mémoire conversationnelle\n• Génération créative",
        "• Fidélité à la source\n• Adaptation au jargon technique\n• Conservation de la structure\n• Gestion du formatage"
    ]
}

df_models = pd.DataFrame(data_models)

# Style du tableau
styles = [
    dict(selector="th", props=[("font-weight", "bold"),
                              ("text-align", "left"),
                              ("background-color", "#2c3e50"),
                              ("color", "white"),
                              ("padding", "12px")]),
    dict(selector="td", props=[("padding", "12px"),
                              ("white-space", "pre-wrap"),
                              ("border-bottom", "1px solid #ddd")])
]

styled_df_models = df_models.style\
    .set_table_styles(styles)\
    .set_properties(**{
        'white-space': 'pre-wrap',
        'text-align': 'left',
        'padding': '12px',
        'background-color': '#ffffff'
    })\
    .set_caption("Sélection des Modèles Transformer par Application")

display(styled_df_models)


Unnamed: 0,Application,Type de Modèle,Justification,Avantages Spécifiques
0,Analyse des avis clients,Encoder-only (BERT),• Compréhension bidirectionnelle du contexte • Excellent pour la classification • Capture fine des nuances émotionnelles • Optimisé pour l'analyse,• Précision élevée dans la classification • Robustesse aux variations linguistiques • Traitement efficace des textes courts • Pas besoin de génération
1,Chatbot créatif,Decoder-only (GPT),• Génération fluide et naturelle • Maintien du contexte conversationnel • Capacité créative • Contrôle de la température,• Réponses contextuellement adaptées • Personnalisation du ton • Mémoire conversationnelle • Génération créative
2,Traduction technique,Encoder-Decoder (T5),• Préservation précise du sens • Adaptation aux spécificités techniques • Gestion des variations de longueur • Flexibilité structurelle,• Fidélité à la source • Adaptation au jargon technique • Conservation de la structure • Gestion du formatage


4. Positional Encoding

A) Objectif et Importance

Le positional encoding est crucial dans l'architecture Transformer pour plusieurs raisons :

Fonction Principale :
- Injecte l'information de position dans le modèle
- Permet de différencier les mêmes mots à différentes positions
- Maintient l'ordre séquentiel de l'information

Caractéristiques Techniques :
- Utilisation de fonctions sinusoïdales
- Création de patterns uniques pour chaque position
- Propriétés d'interpolation pour les séquences de différentes longueurs


B) Exemple Concret de Problème Sans Positional Encoding

Dans le contexte juridique, prenons l'exemple suivant :
"Le demandeur rejette la demande du défendeur"
vs
"Le défendeur rejette la demande du demandeur"

Sans positional encoding :
- Les deux phrases contiendraient exactement les mêmes tokens
- Le modèle ne pourrait pas différencier qui rejette quoi
- L'interprétation juridique serait complètement inversée

Avec positional encoding :
- L'ordre des mots est préservé
- Les relations sujet-verbe-objet sont maintenues
- Le sens juridique est correctement interprété

Ce cas montre l'importance critique du positional encoding pour :
- La compréhension précise des documents juridiques
- L'interprétation correcte des relations entre entités
- La maintenance de la logique argumentative