# TP : Comment les LLM repr√©sentent le monde ?
## Exploration des embeddings et des biais g√©opolitiques

### Objectifs du TP
- Comprendre le concept d'embedding et de similarit√© s√©mantique
- Explorer comment les mod√®les de langage repr√©sentent les concepts g√©opolitiques
- Analyser les biais potentiels dans ces repr√©sentations
- Visualiser les relations s√©mantiques captur√©es par les embeddings

## 0. Installation et imports

In [None]:
# Installation des librairies n√©cessaires
!pip install sentence-transformers numpy pandas matplotlib seaborn scikit-learn plotly -q

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sentence_transformers import SentenceTransformer
from sklearn.decomposition import PCA
from sklearn.metrics.pairwise import cosine_similarity
import plotly.express as px
import plotly.graph_objects as go
from typing import List, Dict, Tuple
import warnings
warnings.filterwarnings('ignore')

# Configuration pour un affichage optimal
plt.rcParams['figure.figsize'] = (10, 8)
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")

## 1. Introduction aux embeddings

### Qu'est-ce qu'un embedding ?

Un **embedding** est une repr√©sentation vectorielle dense d'un mot, d'une phrase ou d'un document. Ces vecteurs capturent les relations s√©mantiques entre les concepts.

### Pourquoi c'est important ?
- Les embeddings permettent de calculer des **similarit√©s** entre concepts
- Ils r√©v√®lent comment le mod√®le "comprend" les relations entre les mots
- **MAIS** : ils refl√®tent aussi les biais pr√©sents dans les donn√©es d'entra√Ænement !

## 2. Chargement du mod√®le

Nous utilisons un mod√®le multilingue pour pouvoir travailler avec diff√©rentes langues.

In [None]:
# Chargement du mod√®le sentence-transformers multilingue
# Ce mod√®le est entra√Æn√© sur des donn√©es multilingues et peut encoder des phrases dans plus de 50 langues
model_name = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'
model = SentenceTransformer(model_name)

print(f"Mod√®le charg√© : {model_name}")
print(f"Dimension des embeddings : {model.get_sentence_embedding_dimension()}")

## 3. Fonctions utilitaires

D√©finissons les fonctions principales pour notre exploration.

In [None]:
def generate_embeddings(texts: List[str], model: SentenceTransformer) -> Dict[str, np.ndarray]:
    """
    G√©n√®re les embeddings pour une liste de textes.
    
    Args:
        texts: Liste de textes √† encoder
        model: Mod√®le SentenceTransformer
    
    Returns:
        Dictionnaire {texte: embedding}
    """
    embeddings = model.encode(texts, convert_to_numpy=True)
    return dict(zip(texts, embeddings))


def plot_similarity_matrix(embeddings_dict: Dict[str, np.ndarray], title: str = "Matrice de similarit√©"):
    """
    Affiche une matrice de similarit√© sous forme de heatmap.
    
    Args:
        embeddings_dict: Dictionnaire {texte: embedding}
        title: Titre du graphique
    """
    labels = list(embeddings_dict.keys())
    embeddings = np.array(list(embeddings_dict.values()))
    
    # Calcul de la matrice de similarit√© cosinus
    similarity_matrix = cosine_similarity(embeddings)
    
    # Cr√©ation de la heatmap
    plt.figure(figsize=(12, 10))
    sns.heatmap(similarity_matrix, 
                xticklabels=labels, 
                yticklabels=labels, 
                annot=True, 
                fmt='.2f',
                cmap='RdBu_r',
                vmin=-1, vmax=1,
                square=True)
    plt.title(title)
    plt.xticks(rotation=45, ha='right')
    plt.yticks(rotation=0)
    plt.tight_layout()
    plt.show()
    
    return similarity_matrix


def plot_pca_2d(embeddings_dict: Dict[str, np.ndarray], title: str = "Projection PCA 2D", 
                categories: Dict[str, str] = None):
    """
    Projette les embeddings en 2D avec PCA et les visualise.
    
    Args:
        embeddings_dict: Dictionnaire {texte: embedding}
        title: Titre du graphique
        categories: Dictionnaire optionnel {texte: cat√©gorie} pour colorer les points
    """
    labels = list(embeddings_dict.keys())
    embeddings = np.array(list(embeddings_dict.values()))
    
    # PCA en 2D
    pca = PCA(n_components=2)
    embeddings_2d = pca.fit_transform(embeddings)
    
    # Cr√©ation du DataFrame pour plotly
    df = pd.DataFrame({
        'x': embeddings_2d[:, 0],
        'y': embeddings_2d[:, 1],
        'label': labels
    })
    
    if categories:
        df['category'] = [categories.get(label, 'Autre') for label in labels]
        color_col = 'category'
    else:
        color_col = None
    
    # Visualisation interactive avec plotly
    fig = px.scatter(df, x='x', y='y', text='label', color=color_col,
                     title=title, 
                     labels={'x': f'PC1 ({pca.explained_variance_ratio_[0]:.1%})', 
                             'y': f'PC2 ({pca.explained_variance_ratio_[1]:.1%})'})
    
    fig.update_traces(textposition='top center', 
                      marker=dict(size=10))
    
    fig.update_layout(width=800, height=600)
    fig.show()
    
    print(f"Variance expliqu√©e : PC1={pca.explained_variance_ratio_[0]:.1%}, PC2={pca.explained_variance_ratio_[1]:.1%}")
    print(f"Variance totale expliqu√©e : {sum(pca.explained_variance_ratio_):.1%}")

## 4. Premier exemple : Concepts simples en fran√ßais

Commen√ßons par explorer comment le mod√®le repr√©sente des concepts simples de la langue fran√ßaise.

In [None]:
# Exemple 1 : Mots simples
mots_simples = [
    "chat", "chien", "oiseau",  # Animaux
    "voiture", "avion", "train",  # Transports
    "pomme", "orange", "banane",  # Fruits
    "Paris", "Londres", "Berlin"  # Villes
]

# G√©n√©ration des embeddings
embeddings_simples = generate_embeddings(mots_simples, model)

# Visualisation
print("=== Matrice de similarit√© ===\n")
similarity_matrix = plot_similarity_matrix(embeddings_simples, "Similarit√© entre concepts simples")

In [None]:
# D√©finition des cat√©gories pour la visualisation
categories_simples = {
    "chat": "Animaux", "chien": "Animaux", "oiseau": "Animaux",
    "voiture": "Transports", "avion": "Transports", "train": "Transports",
    "pomme": "Fruits", "orange": "Fruits", "banane": "Fruits",
    "Paris": "Villes", "Londres": "Villes", "Berlin": "Villes"
}

# Visualisation PCA
print("\n=== Projection PCA 2D ===\n")
plot_pca_2d(embeddings_simples, "Projection PCA - Concepts simples", categories_simples)

### üí° Question 1
**Observez la matrice de similarit√© et la projection PCA. Que remarquez-vous ?**
- Les mots de la m√™me cat√©gorie sont-ils proches ?
- Y a-t-il des similarit√©s surprenantes ?

## 5. Exploration g√©opolitique

Passons maintenant √† l'exploration de concepts g√©opolitiques plus complexes.

### 5.1 Notions g√©opolitiques fondamentales

In [None]:
# Concepts g√©opolitiques
concepts_geopolitiques = [
    "d√©mocratie",
    "dictature",
    "libert√©",
    "oppression",
    "d√©veloppement",
    "pauvret√©",
    "paix",
    "guerre",
    "occident",
    "orient",
    "nord global",
    "sud global"
]

embeddings_concepts = generate_embeddings(concepts_geopolitiques, model)
plot_similarity_matrix(embeddings_concepts, "Similarit√© entre concepts g√©opolitiques")

In [None]:
# Cat√©gorisation pour la visualisation
categories_concepts = {
    "d√©mocratie": "Syst√®me politique",
    "dictature": "Syst√®me politique",
    "libert√©": "Valeurs",
    "oppression": "Valeurs",
    "d√©veloppement": "√âconomie",
    "pauvret√©": "√âconomie",
    "paix": "√âtat",
    "guerre": "√âtat",
    "occident": "G√©ographie",
    "orient": "G√©ographie",
    "nord global": "G√©ographie",
    "sud global": "G√©ographie"
}

plot_pca_2d(embeddings_concepts, "Projection PCA - Concepts g√©opolitiques", categories_concepts)

### üí° Question 2
**Analysez les associations entre concepts :**
- Quels concepts sont les plus proches de "d√©mocratie" ?
- Comment sont positionn√©s "occident" et "orient" par rapport aux autres concepts ?
- Ces associations vous semblent-elles neutres ou biais√©es ?

### 5.2 Repr√©sentation des pays

In [None]:
# Liste de pays diversifi√©s
pays = [
    # Europe
    "France", "Allemagne", "Royaume-Uni", "Italie", "Espagne", "Pologne",
    # Am√©rique
    "√âtats-Unis", "Canada", "Br√©sil", "Argentine", "Mexique",
    # Asie
    "Chine", "Japon", "Inde", "Cor√©e du Sud", "Indon√©sie",
    # Afrique
    "Nigeria", "Afrique du Sud", "√âgypte", "Kenya", "Maroc",
    # Moyen-Orient
    "Arabie Saoudite", "Iran", "Isra√´l", "Turquie",
    # Oc√©anie
    "Australie", "Nouvelle-Z√©lande"
]

embeddings_pays = generate_embeddings(pays, model)

In [None]:
plot_similarity_matrix(embeddings_pays, "Matrice de similarit√© entre pays")

In [None]:
# D√©finition des r√©gions pour la visualisation
regions = {
    "France": "Europe", "Allemagne": "Europe", "Royaume-Uni": "Europe", 
    "Italie": "Europe", "Espagne": "Europe", "Pologne": "Europe",
    "√âtats-Unis": "Am√©rique", "Canada": "Am√©rique", "Br√©sil": "Am√©rique", 
    "Argentine": "Am√©rique", "Mexique": "Am√©rique",
    "Chine": "Asie", "Japon": "Asie", "Inde": "Asie", 
    "Cor√©e du Sud": "Asie", "Indon√©sie": "Asie",
    "Nigeria": "Afrique", "Afrique du Sud": "Afrique", "√âgypte": "Afrique", 
    "Kenya": "Afrique", "Maroc": "Afrique",
    "Arabie Saoudite": "Moyen-Orient", "Iran": "Moyen-Orient", 
    "Isra√´l": "Moyen-Orient", "Turquie": "Moyen-Orient",
    "Australie": "Oc√©anie", "Nouvelle-Z√©lande": "Oc√©anie"
}

plot_pca_2d(embeddings_pays, "Projection PCA - Pays du monde", regions)

### üí° Question 3
**Explorez les regroupements de pays :**
- Les pays sont-ils regroup√©s par r√©gion g√©ographique ?
- Ou par d'autres crit√®res (√©conomiques, culturels, politiques) ?
- Identifiez des pays "proches" de mani√®re surprenante.

### 5.3 Pays dans diff√©rents contextes g√©opolitiques

In [None]:
# Cr√©ons des descriptions contextualis√©es
contextes_pays = [
    # Contexte √©conomique
    "France pays d√©velopp√©",
    "France √©conomie avanc√©e",
    "Nigeria pays en d√©veloppement",
    "Nigeria √©conomie √©mergente",
    
    # Contexte politique
    "√âtats-Unis d√©mocratie",
    "√âtats-Unis superpuissance",
    "Chine r√©gime autoritaire",
    "Chine puissance montante",
    
    # Contexte culturel
    "Japon tradition moderne",
    "Japon technologie avanc√©e",
    "Inde diversit√© culturelle",
    "Inde d√©mocratie peupl√©e",
    
    # Contexte conflictuel
    "Isra√´l conflit r√©gional",
    "Palestine territoire occup√©",
    "Ukraine guerre 2022",
    "Russie agression militaire"
]

embeddings_contextes = generate_embeddings(contextes_pays, model)
plot_similarity_matrix(embeddings_contextes, "Similarit√© entre pays en contexte")

In [None]:
# Cat√©gorisons par type de contexte
categories_contextes = {
    "France pays d√©velopp√©": "√âconomique",
    "France √©conomie avanc√©e": "√âconomique",
    "Nigeria pays en d√©veloppement": "√âconomique",
    "Nigeria √©conomie √©mergente": "√âconomique",
    "√âtats-Unis d√©mocratie": "Politique",
    "√âtats-Unis superpuissance": "Politique",
    "Chine r√©gime autoritaire": "Politique",
    "Chine puissance montante": "Politique",
    "Japon tradition moderne": "Culturel",
    "Japon technologie avanc√©e": "Culturel",
    "Inde diversit√© culturelle": "Culturel",
    "Inde d√©mocratie peupl√©e": "Culturel",
    "Isra√´l conflit r√©gional": "Conflictuel",
    "Palestine territoire occup√©": "Conflictuel",
    "Ukraine guerre 2022": "Conflictuel",
    "Russie agression militaire": "Conflictuel"
}

plot_pca_2d(embeddings_contextes, "Projection PCA - Pays en contexte", categories_contextes)

### üí° Question 4
**Analysez l'impact du contexte :**
- Comment le contexte change-t-il la position d'un pays dans l'espace des embeddings ?
- Les descriptions positives/n√©gatives influencent-elles les similarit√©s ?
- Quels biais potentiels identifiez-vous ?

## 6. Exploration libre et r√©flexion

### 6.1 Testez vos propres hypoth√®ses

In [None]:
# Zone d'exp√©rimentation libre
# Modifiez cette liste pour tester vos propres concepts !

mes_concepts = [
    # Exemple : st√©r√©otypes de genre
    "homme fort",
    "femme forte",
    "homme sensible",
    "femme sensible",
    
    # Exemple : professions
    "ing√©nieur",
    "infirmi√®re",
    "PDG",
    "secr√©taire",
    
    # Ajoutez vos propres concepts ici !
    
]

# G√©n√©ration et visualisation
embeddings_libres = generate_embeddings(mes_concepts, model)
plot_similarity_matrix(embeddings_libres, "Exploration libre - Mes concepts")
plot_pca_2d(embeddings_libres, "Projection PCA - Mes concepts")

### 6.2 Analyse comparative multilingue

In [None]:
# Testons la repr√©sentation d'un m√™me concept dans diff√©rentes langues
concepts_multilingues = [
    # Libert√©
    "libert√©",        # Fran√ßais
    "freedom",        # Anglais
    "libertad",       # Espagnol
    "Freiheit",       # Allemand
    "Ëá™Áî±",           # Chinois
    "ÿ≠ÿ±Ÿäÿ©",          # Arabe
    
    # Paix
    "paix",          # Fran√ßais
    "peace",         # Anglais
    "paz",           # Espagnol
    "Frieden",       # Allemand
    "ÂíåÂπ≥",          # Chinois
    "ÿ≥ŸÑÿßŸÖ",          # Arabe
]

embeddings_multilingue = generate_embeddings(concepts_multilingues, model)
plot_similarity_matrix(embeddings_multilingue, "Similarit√© multilingue")

### üí° Question 5
**R√©flexion finale :**
- Les m√™mes concepts sont-ils repr√©sent√©s de la m√™me fa√ßon dans diff√©rentes langues ?
- Quelles implications cela a-t-il pour l'utilisation de mod√®les multilingues ?
- Comment pourrait-on d√©tecter et corriger les biais identifi√©s ?

## 7. Pour aller plus loin

### 7.1 Comparaison avec d'autres mod√®les

In [None]:
# Liste d'autres mod√®les √† essayer
autres_modeles = [
    'sentence-transformers/all-MiniLM-L6-v2',  # Anglais uniquement
    'sentence-transformers/distiluse-base-multilingual-cased-v2',  # Multilingue
    'sentence-transformers/LaBSE',  # Large-scale multilingual
]

print("Autres mod√®les que vous pouvez tester :")
for modele in autres_modeles:
    print(f"- {modele}")

# D√©commentez pour tester un autre mod√®le
# nouveau_model = SentenceTransformer('sentence-transformers/LaBSE')
# nouveaux_embeddings = generate_embeddings(pays[:10], nouveau_model)
# plot_pca_2d(nouveaux_embeddings, "Projection avec LaBSE")

## 8. Conclusions et discussions

### Points cl√©s √† retenir :

1. **Les embeddings capturent des relations s√©mantiques complexes**
   - Similarit√©s conceptuelles
   - Relations g√©ographiques et culturelles
   - Associations contextuelles

2. **Les biais sont omnipr√©sents**
   - Reflet des donn√©es d'entra√Ænement
   - Associations culturelles et historiques
   - St√©r√©otypes sociaux

3. **Implications pratiques**
   - N√©cessit√© de tester et auditer les mod√®les
   - Importance du contexte d'utilisation
   - Besoin de diversit√© dans les donn√©es

### Questions pour la discussion :

- Comment peut-on utiliser ces mod√®les de mani√®re √©thique ?
- Quelles pr√©cautions prendre dans des applications sensibles ?
- Comment am√©liorer la repr√©sentation √©quitable des diff√©rentes cultures ?