## üì¶ 1. Installation et Imports

In [None]:
# Installation des packages
!pip install -q datasets transformers scikit-learn kagglehub

# T√©l√©charger NLTK data
import nltk
nltk.download('stopwords', quiet=True)
nltk.download('punkt', quiet=True)

print("‚úÖ Installation termin√©e!")

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import pickle
import re
from collections import Counter

from datasets import load_dataset
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Configuration
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Imports r√©ussis!")

## üìÇ 2. Cr√©er la Structure de Dossiers

In [None]:
# Cr√©er les dossiers n√©cessaires
folders = [
    'data/raw',
    'data/processed',
    'models/lstm',
    'models/bilstm',
    'models/cnn_bilstm',
    'models/bert',
    'results/figures',
    'results/metrics'
]

for folder in folders:
    Path(folder).mkdir(parents=True, exist_ok=True)

print("‚úÖ Structure de dossiers cr√©√©e!")
!ls -la

## üîó 3. T√©l√©chargement du Dataset GoEmotions depuis Kaggle

**‚ö†Ô∏è IMPORTANT : Personne 1 doit faire cette √©tape**

**Source** : https://www.kaggle.com/datasets/debarshichanda/goemotions/data

### M√©thode 1 : Chargement Automatique avec KaggleHub (Recommand√© ‚úÖ)
Utilise l'API Kaggle pour t√©l√©charger automatiquement

In [None]:
# ==========================================
# M√âTHODE 1 : Chargement Automatique (Recommand√©)
# ==========================================
import kagglehub
import pandas as pd
import os

print("üì• T√©l√©chargement automatique du dataset GoEmotions depuis Kaggle...")
print("‚è≥ Cela peut prendre 1-2 minutes...\n")

try:
    # T√©l√©charger le dataset (nouvelle API)
    path = kagglehub.dataset_download("debarshichanda/goemotions")
    
    print(f"‚úÖ Dataset t√©l√©charg√© dans: {path}")
    
    # Lister les fichiers disponibles
    files_in_dataset = os.listdir(path)
    print(f"\nüìÅ Fichiers disponibles: {files_in_dataset}")
    
    # Trouver le fichier CSV principal
    csv_files = [f for f in files_in_dataset if f.endswith('.csv')]
    
    if csv_files:
        # Charger le premier fichier CSV trouv√©
        csv_file = csv_files[0]
        file_path = os.path.join(path, csv_file)
        
        print(f"\nüìä Chargement du fichier: {csv_file}")
        df = pd.read_csv(file_path)
        
        print(f"\n‚úÖ Dataset charg√© avec succ√®s!")
        print(f"üìä Statistiques:")
        print(f"  Nombre total d'√©chantillons: {len(df):,}")
        print(f"  Nombre de colonnes: {len(df.columns)}")
        
        # Sauvegarder dans data/raw/
        df.to_csv('data/raw/goemotions.csv', index=False)
        print("\nüíæ Dataset sauvegard√© dans data/raw/goemotions.csv")
        
        print(f"\nüìã Colonnes disponibles:")
        print(df.columns.tolist())
        
        print(f"\nüëÅÔ∏è Aper√ßu des 5 premi√®res lignes:")
        display(df.head())
    else:
        print("‚ùå Aucun fichier CSV trouv√© dans le dataset")
        print("üí° Utilisez la M√©thode 2 (Upload Manuel) ci-dessous")
        
except Exception as e:
    print(f"\n‚ùå Erreur lors du chargement automatique: {e}")
    print("\nüí° Solution : Utilisez la M√©thode 2 (Upload Manuel) ci-dessous")

In [None]:
# ==========================================
# M√âTHODE 2 : Upload Manuel (Alternative)
# ==========================================
# ‚ö†Ô∏è Ex√©cutez cette cellule si la M√©thode 1 a √©chou√©

from google.colab import files
import pandas as pd

print("üì§ Veuillez uploader les fichiers CSV du dataset GoEmotions depuis Kaggle...")
print("üëâ T√©l√©chargez d'abord depuis: https://www.kaggle.com/datasets/debarshichanda/goemotions/data")
print("üëâ Le dataset peut √™tre en 1 ou 3 fichiers (goemotions.csv OU goemotions_1/2/3.csv)")
print("üëâ Uploadez TOUS les fichiers CSV, puis cliquez sur 'Choisir les fichiers' ci-dessous\n")

uploaded = files.upload()

# Trouver tous les fichiers CSV upload√©s
csv_files = [name for name in uploaded.keys() if name.endswith('.csv')]

if csv_files:
    print(f"\n‚úÖ {len(csv_files)} fichier(s) CSV d√©tect√©(s): {csv_files}")
    
    # Charger tous les fichiers CSV et les combiner
    print("üìä Chargement des donn√©es en cours...")
    dfs = []
    for csv_file in sorted(csv_files):  # Trier pour avoir 1, 2, 3 dans l'ordre
        print(f"  - Chargement de {csv_file}...")
        df_temp = pd.read_csv(csv_file)
        dfs.append(df_temp)
        print(f"    ‚úì {len(df_temp):,} lignes charg√©es")
    
    # Combiner tous les DataFrames
    if len(dfs) > 1:
        print(f"\nüîó Combinaison de {len(dfs)} fichiers...")
        df = pd.concat(dfs, ignore_index=True)
        print(f"‚úÖ Fichiers combin√©s!")
    else:
        df = dfs[0]
    
    # Sauvegarder dans data/raw/
    df.to_csv('data/raw/goemotions.csv', index=False)
    
    print(f"\n‚úÖ Dataset charg√© avec succ√®s!")
    print(f"üìä Statistiques:")
    print(f"  Nombre total d'√©chantillons: {len(df):,}")
    print(f"  Nombre de colonnes: {len(df.columns)}")
    print(f"\nüìã Colonnes disponibles:")
    print(df.columns.tolist())
    print(f"\nüëÅÔ∏è Aper√ßu des premi√®res lignes:")
    display(df.head())
else:
    print("‚ùå ERREUR : Aucun fichier CSV upload√©!")
    print("üëâ T√©l√©chargez le dataset depuis: https://www.kaggle.com/datasets/debarshichanda/goemotions/data")
    print("üëâ Puis r√©ex√©cutez cette cellule")


In [None]:
# ==========================================
# M√âTHODE 3 : Charger depuis les fichiers d√©j√† upload√©s
# ==========================================
# ‚ö†Ô∏è Si vous avez d√©j√† upload√© les fichiers et ils sont dans /content/

import pandas as pd
import os

# Liste des fichiers CSV √† charger (modifiez les chemins si n√©cessaire)
csv_files = [
    '/content/goemotions_1.csv',
    '/content/goemotions_2.csv',
    '/content/goemotions_3.csv'
]

# V√©rifier quels fichiers existent
existing_files = [f for f in csv_files if os.path.exists(f)]

if existing_files:
    print(f"‚úÖ {len(existing_files)} fichier(s) trouv√©(s)!")
    
    # Charger tous les fichiers
    dfs = []
    for csv_file in existing_files:
        print(f"üìä Chargement de {csv_file}...")
        df_temp = pd.read_csv(csv_file)
        dfs.append(df_temp)
        print(f"  ‚úì {len(df_temp):,} lignes charg√©es")
    
    # Combiner tous les DataFrames
    if len(dfs) > 1:
        print(f"\nüîó Combinaison de {len(dfs)} fichiers...")
        df = pd.concat(dfs, ignore_index=True)
        print(f"‚úÖ Fichiers combin√©s!")
    else:
        df = dfs[0]
    
    # Sauvegarder dans data/raw/
    df.to_csv('data/raw/goemotions.csv', index=False)
    
    print(f"\n‚úÖ Dataset charg√© avec succ√®s!")
    print(f"üìä Statistiques:")
    print(f"  Nombre total d'√©chantillons: {len(df):,}")
    print(f"  Nombre de colonnes: {len(df.columns)}")
    print(f"\nüìã Colonnes disponibles:")
    print(df.columns.tolist())
    print(f"\nüëÅÔ∏è Aper√ßu des premi√®res lignes:")
    display(df.head())
else:
    print("‚ùå Aucun fichier trouv√©!")
    print("üí° V√©rifiez les chemins des fichiers. Ex√©cutez cette commande pour voir o√π sont vos fichiers:")
    print("!ls -la /content/*.csv")

### M√©thode 2 : Upload Manuel (Si la M√©thode 1 √©choue)

**Instructions :**
1. Aller sur https://www.kaggle.com/datasets/debarshichanda/goemotions/data
2. Cliquer sur **"Download"** pour t√©l√©charger goemotions.csv sur votre PC
3. Ex√©cuter la cellule ci-dessous et cliquer sur **"Choisir les fichiers"**
4. S√©lectionner le fichier goemotions.csv t√©l√©charg√©

In [None]:
# ==========================================
# √âTAPE 2 : V√©rification du format du dataset
# ==========================================

print("üîç Analyse du format du dataset...\n")

# V√©rifier les colonnes
print(f"üìä Informations du dataset:")
print(f"  Shape: {df.shape}")
print(f"  Colonnes: {list(df.columns)}")

# Afficher quelques exemples
print(f"\nüìù Exemples de donn√©es:")
display(df.head(10))

# V√©rifier les statistiques
print(f"\nüìà Statistiques de base:")
print(df.describe())

In [None]:
# ==========================================
# √âTAPE 3 : Pr√©paration du dataset pour l'entra√Ænement
# ==========================================

print("üîß Pr√©paration du dataset au format multi-label...\n")

# Identifier la colonne de texte
text_col = None
for col in ['text', 'comment_text', 'sentence', 'content']:
    if col in df.columns:
        text_col = col
        break

if text_col is None:
    print("‚ùå Colonne de texte non trouv√©e!")
    print(f"Colonnes disponibles: {df.columns.tolist()}")
else:
    print(f"‚úÖ Colonne de texte identifi√©e: '{text_col}'")

# Identifier les colonnes d'√©motions (28 √©motions GoEmotions)
emotion_labels = [
    'admiration', 'amusement', 'anger', 'annoyance', 'approval', 'caring',
    'confusion', 'curiosity', 'desire', 'disappointment', 'disapproval',
    'disgust', 'embarrassment', 'excitement', 'fear', 'gratitude', 'grief',
    'joy', 'love', 'nervousness', 'optimism', 'pride', 'realization',
    'relief', 'remorse', 'sadness', 'surprise', 'neutral'
]

emotion_cols = [col for col in df.columns if col in emotion_labels]

print(f"\nüé≠ Colonnes d'√©motions trouv√©es: {len(emotion_cols)}/{len(emotion_labels)}")
if len(emotion_cols) > 0:
    print(f"√âmotions: {emotion_cols[:5]}... (affichant 5 premi√®res)")

# Cr√©er les splits train/val/test (80/10/10)
if len(emotion_cols) >= 27 and text_col is not None:
    print("\n‚úÖ Dataset au format multi-label! Cr√©ation des splits...")
    
    from sklearn.model_selection import train_test_split
    
    # Split: 80% train, 10% val, 10% test
    train_data, temp_data = train_test_split(df, test_size=0.2, random_state=42, shuffle=True)
    val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42, shuffle=True)
    
    print(f"\nüìä Splits cr√©√©s:")
    print(f"  Train:      {len(train_data):,} samples ({len(train_data)/len(df)*100:.1f}%)")
    print(f"  Validation: {len(val_data):,} samples ({len(val_data)/len(df)*100:.1f}%)")
    print(f"  Test:       {len(test_data):,} samples ({len(test_data)/len(df)*100:.1f}%)")
    print(f"  Total:      {len(df):,} samples")
    
    # Cr√©er les DataFrames finaux
    train_df = train_data.copy()
    val_df = val_data.copy()
    test_df = test_data.copy()
    
    # Normaliser la colonne 'text'
    if text_col != 'text':
        train_df['text'] = train_df[text_col]
        val_df['text'] = val_df[text_col]
        test_df['text'] = test_df[text_col]
    
    # Cr√©er la colonne 'labels' (liste des indices des √©motions actives)
    def get_label_indices(row):
        return [i for i, col in enumerate(emotion_labels) if col in emotion_cols and row.get(col, 0) == 1]
    
    print("\nüè∑Ô∏è Cr√©ation de la colonne 'labels'...")
    train_df['labels'] = train_df.apply(get_label_indices, axis=1)
    val_df['labels'] = val_df.apply(get_label_indices, axis=1)
    test_df['labels'] = test_df.apply(get_label_indices, axis=1)
    
    print("‚úÖ Dataset pr√™t pour l'entra√Ænement!")
    print(f"\nüìã Exemple de labels:")
    print(f"  Texte: {train_df.iloc[0]['text'][:80]}...")
    print(f"  Labels: {train_df.iloc[0]['labels']}")
    print(f"  √âmotions: {[emotion_labels[i] for i in train_df.iloc[0]['labels']]}")
    
else:
    print("\n‚ö†Ô∏è Format du dataset non reconnu. Utilisation de HuggingFace comme fallback...")
    from datasets import load_dataset
    dataset = load_dataset('go_emotions', 'simplified')
    train_df = pd.DataFrame(dataset['train'])
    val_df = pd.DataFrame(dataset['validation'])
    test_df = pd.DataFrame(dataset['test'])
    emotion_labels = [
        'admiration', 'amusement', 'anger', 'annoyance', 'approval', 'caring',
        'confusion', 'curiosity', 'desire', 'disappointment', 'disapproval',
        'disgust', 'embarrassment', 'excitement', 'fear', 'gratitude', 'grief',
        'joy', 'love', 'nervousness', 'optimism', 'pride', 'realization',
        'relief', 'remorse', 'sadness', 'surprise', 'neutral'
    ]
    print(f"‚úÖ Dataset HuggingFace charg√©!")
    print(f"  Train:      {len(train_df):,} samples")
    print(f"  Validation: {len(val_df):,} samples")
    print(f"  Test:       {len(test_df):,} samples")

NUM_CLASSES = len(emotion_labels)
print(f"\nüéØ Nombre de classes: {NUM_CLASSES}")

### üìä Pr√©paration du Dataset pour le Projet

Le dataset Kaggle GoEmotions contient toutes les √©motions dans une seule colonne.
Nous devons le transformer en format multi-label (28 colonnes binaires).

In [None]:
# Afficher un aper√ßu
print("\nüìù Aper√ßu des donn√©es:")
train_df.head()

## üè∑Ô∏è 4. Labels des √âmotions

In [None]:
# Labels d'√©motions GoEmotions
emotion_labels = [
    'admiration', 'amusement', 'anger', 'annoyance', 'approval', 'caring',
    'confusion', 'curiosity', 'desire', 'disappointment', 'disapproval',
    'disgust', 'embarrassment', 'excitement', 'fear', 'gratitude', 'grief',
    'joy', 'love', 'nervousness', 'optimism', 'pride', 'realization',
    'relief', 'remorse', 'sadness', 'surprise', 'neutral'
]

NUM_CLASSES = len(emotion_labels)

print(f"\nüé≠ Nombre d'√©motions: {NUM_CLASSES}")
print(f"\nListe des √©motions:")
for i, emotion in enumerate(emotion_labels, 1):
    print(f"  {i:2d}. {emotion}")

## üìä 5. Analyse Exploratoire

In [None]:
# Distribution des √©motions
all_labels = []
for labels in train_df['labels']:
    all_labels.extend(labels)

label_counts = Counter(all_labels)
label_counts_sorted = sorted(label_counts.items())

# Pr√©parer les donn√©es pour le graphique
indices = [x[0] for x in label_counts_sorted]
counts = [x[1] for x in label_counts_sorted]
labels_names = [emotion_labels[i] if i < len(emotion_labels) else f"Label {i}" for i in indices]

# Plot
fig, ax = plt.subplots(figsize=(16, 6))
bars = ax.bar(labels_names, counts, color='steelblue', edgecolor='navy')

# Colorer les barres selon la fr√©quence
colors = plt.cm.viridis(np.linspace(0, 1, len(counts)))
for bar, color in zip(bars, colors):
    bar.set_color(color)

ax.set_xlabel('√âmotion', fontsize=12, fontweight='bold')
ax.set_ylabel('Fr√©quence', fontsize=12, fontweight='bold')
ax.set_title('Distribution des √âmotions dans le Training Set', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.savefig('results/figures/emotion_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\nüìà Statistiques:")
print(f"  Total de labels: {sum(counts):,}")
print(f"  √âmotion la plus fr√©quente: {labels_names[counts.index(max(counts))]} ({max(counts):,} occurrences)")
print(f"  √âmotion la moins fr√©quente: {labels_names[counts.index(min(counts))]} ({min(counts):,} occurrences)")
print(f"  Ratio d√©s√©quilibre: {max(counts)/min(counts):.2f}")

In [None]:
# Nombre de labels par √©chantillon
labels_per_sample = [len(labels) for labels in train_df['labels']]

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histogramme
axes[0].hist(labels_per_sample, bins=range(1, max(labels_per_sample)+2), 
             edgecolor='black', color='coral', alpha=0.7)
axes[0].set_xlabel('Nombre de Labels par √âchantillon', fontweight='bold')
axes[0].set_ylabel('Fr√©quence', fontweight='bold')
axes[0].set_title('Distribution du Nombre de Labels', fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Boxplot
axes[1].boxplot(labels_per_sample, vert=True)
axes[1].set_ylabel('Nombre de Labels', fontweight='bold')
axes[1].set_title('Boxplot du Nombre de Labels', fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.savefig('results/figures/labels_per_sample.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\nüìä Statistiques Multi-Label:")
print(f"  Moyenne: {np.mean(labels_per_sample):.2f} labels/√©chantillon")
print(f"  M√©diane: {np.median(labels_per_sample):.0f} labels/√©chantillon")
print(f"  Maximum: {max(labels_per_sample)} labels/√©chantillon")
print(f"  Minimum: {min(labels_per_sample)} labels/√©chantillon")

In [None]:
# Longueur des textes
train_df['text_length'] = train_df['text'].apply(len)
train_df['word_count'] = train_df['text'].apply(lambda x: len(str(x).split()))

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

axes[0].hist(train_df['text_length'], bins=50, edgecolor='black', color='lightblue')
axes[0].axvline(train_df['text_length'].mean(), color='red', linestyle='--', 
                linewidth=2, label=f'Moyenne: {train_df["text_length"].mean():.0f}')
axes[0].set_xlabel('Longueur du Texte (caract√®res)', fontweight='bold')
axes[0].set_ylabel('Fr√©quence', fontweight='bold')
axes[0].set_title('Distribution de la Longueur des Textes', fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

axes[1].hist(train_df['word_count'], bins=50, edgecolor='black', color='lightgreen')
axes[1].axvline(train_df['word_count'].mean(), color='red', linestyle='--', 
                linewidth=2, label=f'Moyenne: {train_df["word_count"].mean():.1f}')
axes[1].set_xlabel('Nombre de Mots', fontweight='bold')
axes[1].set_ylabel('Fr√©quence', fontweight='bold')
axes[1].set_title('Distribution du Nombre de Mots', fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('results/figures/text_length_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\nüìè Statistiques de Longueur:")
print(f"  Longueur moyenne: {train_df['text_length'].mean():.1f} caract√®res")
print(f"  Nombre de mots moyen: {train_df['word_count'].mean():.1f} mots")
print(f"  Percentile 95: {train_df['word_count'].quantile(0.95):.0f} mots")

In [None]:
print("\nüìä ANALYSE DE CO-OCCURRENCE DES √âMOTIONS")
print("="*60)

# Cr√©er la matrice de co-occurrence
# D'abord pr√©parer y_train si pas encore fait (pour cette section)
if 'y_train' not in locals():
    y_train_temp = prepare_labels(train_df['labels'].tolist(), NUM_CLASSES)
else:
    y_train_temp = y_train

co_occurrence = np.dot(y_train_temp.T, y_train_temp)

# Normaliser pour avoir des probabilit√©s
co_occurrence_prob = co_occurrence / np.diag(co_occurrence)[:, None]

# Cr√©er un DataFrame pour meilleure visualisation
co_occurrence_df = pd.DataFrame(
    co_occurrence_prob,
    index=emotion_labels,
    columns=emotion_labels
)

# Visualiser la matrice
plt.figure(figsize=(16, 14))
sns.heatmap(
    co_occurrence_df,
    cmap='YlOrRd',
    annot=False,  # Trop de donn√©es pour annoter
    fmt='.2f',
    cbar_kws={'label': 'Probabilit√© de co-occurrence'},
    linewidths=0.5,
    square=True
)
plt.title('Matrice de Co-occurrence des √âmotions\n(Probabilit√© qu\'une √©motion apparaisse avec une autre)', 
          fontsize=14, fontweight='bold', pad=20)
plt.xlabel('√âmotion', fontsize=12, fontweight='bold')
plt.ylabel('√âmotion', fontsize=12, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.savefig('results/figures/emotion_cooccurrence.png', dpi=300, bbox_inches='tight')
plt.show()

# Trouver les paires d'√©motions les plus corr√©l√©es
print("\nüîó TOP 10 PAIRES D'√âMOTIONS LES PLUS CORR√âL√âES:")
print("-"*60)

correlations = []
for i in range(NUM_CLASSES):
    for j in range(i+1, NUM_CLASSES):
        correlations.append({
            'Emotion1': emotion_labels[i],
            'Emotion2': emotion_labels[j],
            'Correlation': co_occurrence_prob[i, j]
        })

correlations_df = pd.DataFrame(correlations).sort_values('Correlation', ascending=False)
print(correlations_df.head(10).to_string(index=False))

print("\n‚úÖ Analyse de co-occurrence termin√©e!")

### üìä 5.5 Matrice de Co-occurrence des √âmotions

In [None]:
# Calculer les ratios de d√©s√©quilibre
print("\nüìä ANALYSE DU D√âS√âQUILIBRE DES CLASSES")
print("="*60)

max_count = max(counts)
min_count = min(counts)
imbalance_ratio = max_count / min_count

print(f"\nRatio de d√©s√©quilibre : {imbalance_ratio:.2f}:1")
print(f"Classe majoritaire : {labels_names[counts.index(max_count)]} ({max_count:,} occurrences)")
print(f"Classe minoritaire : {labels_names[counts.index(min_count)]} ({min_count:,} occurrences)")
print("="*60)

# Calculer les poids de classe pour g√©rer le d√©s√©quilibre
emotion_weights = {}
for emotion, count in zip(emotion_labels, counts):
    weight = len(train_df) / (NUM_CLASSES * count)
    emotion_weights[emotion] = weight

# Cr√©er un DataFrame des poids
weights_df = pd.DataFrame({
    'Emotion': emotion_labels,
    'Count': counts,
    'Weight': [emotion_weights[em] for em in emotion_labels]
}).sort_values('Weight', ascending=False)

print(f"\n‚öñÔ∏è POIDS DES CLASSES (Top 10 et Bottom 10):")
print(f"\nTop 10 (classes sous-repr√©sent√©es - poids √©lev√©s):")
print(weights_df.head(10).to_string(index=False))
print(f"\nBottom 10 (classes sur-repr√©sent√©es - poids faibles):")
print(weights_df.tail(10).to_string(index=False))

# Visualiser les poids
fig, ax = plt.subplots(figsize=(14, 6))
bars = ax.bar(weights_df['Emotion'], weights_df['Weight'], alpha=0.7, edgecolor='black')

# Colorer selon le poids
colors = plt.cm.RdYlGn_r(np.linspace(0, 1, len(weights_df)))
for bar, color in zip(bars, colors):
    bar.set_color(color)

ax.set_xlabel('√âmotion', fontsize=12, fontweight='bold')
ax.set_ylabel('Poids de Classe', fontsize=12, fontweight='bold')
ax.set_title('Poids des Classes pour G√©rer le D√©s√©quilibre', fontsize=14, fontweight='bold')
ax.axhline(y=1.0, color='red', linestyle='--', linewidth=2, label='Poids √©quilibr√© (1.0)')
plt.xticks(rotation=45, ha='right')
plt.legend()
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.savefig('results/figures/class_weights.png', dpi=300, bbox_inches='tight')
plt.show()

print("\n‚úÖ Analyse du d√©s√©quilibre termin√©e!")

### üìä 5.4 Analyse Approfondie du D√©s√©quilibre des Classes

## üßπ 6. Pr√©traitement des Textes

In [None]:
def clean_text(text):
    """Nettoyer le texte"""
    if not isinstance(text, str):
        return ""
    
    # Lowercase
    text = text.lower()
    
    # Supprimer URLs
    text = re.sub(r'http\S+|www\S+|https\S+', '', text)
    
    # Supprimer mentions et hashtags
    text = re.sub(r'@\w+', '', text)
    text = re.sub(r'#\w+', '', text)
    
    # Garder seulement lettres, chiffres et ponctuation basique
    text = re.sub(r'[^a-zA-Z0-9\s.,!?\'\-]', '', text)
    
    # Supprimer espaces multiples
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Appliquer le nettoyage
print("Nettoyage des textes...")
train_df['text_clean'] = train_df['text'].apply(clean_text)
val_df['text_clean'] = val_df['text'].apply(clean_text)
test_df['text_clean'] = test_df['text'].apply(clean_text)

print("\n‚úÖ Nettoyage termin√©!")
print("\nExemple de transformation:")
print(f"Avant: {train_df['text'].iloc[0]}")
print(f"Apr√®s: {train_df['text_clean'].iloc[0]}")

## üî¢ 7. Tokenization et S√©quences

In [None]:
# Param√®tres
MAX_VOCAB_SIZE = 10000
MAX_SEQUENCE_LENGTH = 128

print(f"Configuration:")
print(f"  Taille du vocabulaire: {MAX_VOCAB_SIZE:,}")
print(f"  Longueur max des s√©quences: {MAX_SEQUENCE_LENGTH}")

# Cr√©er le tokenizer
print("\nCr√©ation du tokenizer...")
tokenizer = Tokenizer(num_words=MAX_VOCAB_SIZE, oov_token='<OOV>')
tokenizer.fit_on_texts(train_df['text_clean'])

print(f"\n‚úÖ Tokenizer cr√©√©!")
print(f"  Vocabulaire complet: {len(tokenizer.word_index):,} mots")
print(f"  Vocabulaire utilis√©: {MAX_VOCAB_SIZE:,} mots")

In [None]:
# Convertir en s√©quences
print("Conversion en s√©quences...")
X_train_seq = tokenizer.texts_to_sequences(train_df['text_clean'])
X_val_seq = tokenizer.texts_to_sequences(val_df['text_clean'])
X_test_seq = tokenizer.texts_to_sequences(test_df['text_clean'])

# Padding
print("Application du padding...")
X_train = pad_sequences(X_train_seq, maxlen=MAX_SEQUENCE_LENGTH, 
                        padding='post', truncating='post')
X_val = pad_sequences(X_val_seq, maxlen=MAX_SEQUENCE_LENGTH, 
                      padding='post', truncating='post')
X_test = pad_sequences(X_test_seq, maxlen=MAX_SEQUENCE_LENGTH, 
                       padding='post', truncating='post')

print(f"\n‚úÖ S√©quences cr√©√©es!")
print(f"  X_train: {X_train.shape}")
print(f"  X_val:   {X_val.shape}")
print(f"  X_test:  {X_test.shape}")

## üè∑Ô∏è 8. Pr√©parer les Labels Multi-Label

In [None]:
def prepare_labels(labels_list, num_classes=28):
    """
    Convertir les listes de labels en matrices binaires
    """
    n_samples = len(labels_list)
    label_matrix = np.zeros((n_samples, num_classes), dtype=np.float32)
    
    for i, labels in enumerate(labels_list):
        for label_idx in labels:
            if label_idx < num_classes:
                label_matrix[i, label_idx] = 1.0
    
    return label_matrix

# Pr√©parer les labels
print("Pr√©paration des labels...")
y_train = prepare_labels(train_df['labels'].tolist(), NUM_CLASSES)
y_val = prepare_labels(val_df['labels'].tolist(), NUM_CLASSES)
y_test = prepare_labels(test_df['labels'].tolist(), NUM_CLASSES)

print(f"\n‚úÖ Labels pr√©par√©s!")
print(f"  y_train: {y_train.shape}")
print(f"  y_val:   {y_val.shape}")
print(f"  y_test:  {y_test.shape}")


# ==========================================
# √âTAPE 8.1 : Gestion du D√©s√©quilibre des Classes (Requis pour l'√©nonc√©)
# ==========================================
print("\n‚öñÔ∏è Calcul des poids de classes pour g√©rer le d√©s√©quilibre...")

# Calculer le nombre d'occurrences positives pour chaque classe
class_counts = y_train.sum(axis=0)
total_samples = len(y_train)

# Calculer les poids (plus une classe est rare, plus son poids est √©lev√©)
# Formule standard pour multi-label: pos_weight = (total - pos) / pos
class_weights = {}
pos_weights = []

print("Poids calcul√©s (Top 5 rares vs fr√©quents):")
sorted_indices = np.argsort(class_counts)

for i in range(NUM_CLASSES):
    pos = max(class_counts[i], 1) # √âviter division par 0
    neg = total_samples - pos
    weight = neg / pos
    class_weights[i] = weight
    pos_weights.append(weight)

# Afficher quelques exemples
print("\nClasses les plus rares (Poids √©lev√©s):")
for i in sorted_indices[:5]:
    print(f"  {emotion_labels[i]}: Count={int(class_counts[i])}, Weight={class_weights[i]:.2f}")

print("\nClasses les plus fr√©quentes (Poids faibles):")
for i in sorted_indices[-5:]:
    print(f"  {emotion_labels[i]}: Count={int(class_counts[i])}, Weight={class_weights[i]:.2f}")


# ==========================================
# √âTAPE 8.2 : Pr√©paration des Embeddings GloVe (Requis pour l'√©tude d'ablation)
# ==========================================
# Note: L'√©nonc√© demande de comparer les embeddings. Nous pr√©parons GloVe ici.
print("\nüåç Pr√©paration des Embeddings GloVe (Pre-trained)...")

# Fonction pour charger GloVe
def load_glove_embeddings(vocab_word_index, embedding_dim=100):
    print("  üì• T√©l√©chargement de GloVe (glove.6B.100d)... Cela peut prendre quelques instants.")
    
    # V√©rifier si le fichier existe d√©j√†
    if not os.path.exists('glove.6B.100d.txt'):
        print("  Downloading GloVe...")
        !wget -q --no-check-certificate http://nlp.stanford.edu/data/glove.6B.zip
        !unzip -q glove.6B.zip
    
    print("  Chargement des vecteurs en m√©moire...")
    embeddings_index = {}
    with open('glove.6B.100d.txt', encoding='utf-8') as f:
        for line in f:
            values = line.split()
            word = values[0]
            coefs = np.asarray(values[1:], dtype='float32')
            embeddings_index[word] = coefs

    print(f"  ‚úÖ {len(embeddings_index):,} vecteurs de mots trouv√©s dans GloVe.")

    # Cr√©er la matrice d'embedding seulement pour notre vocabulaire
    num_words = min(MAX_VOCAB_SIZE, len(vocab_word_index) + 1)
    embedding_matrix = np.zeros((num_words, embedding_dim))
    
    hits = 0
    misses = 0
    
    for word, i in vocab_word_index.items():
        if i >= MAX_VOCAB_SIZE:
            continue
        embedding_vector = embeddings_index.get(word)
        if embedding_vector is not None:
            # Les mots non trouv√©s dans l'embedding index seront tous des z√©ros.
            embedding_matrix[i] = embedding_vector
            hits += 1
        else:
            misses += 1
            
    print(f"  ‚úÖ Matrice construite: {hits} mots trouv√©s, {misses} mots manquants.")
    return embedding_matrix

# Pr√©parer la matrice au cas o√π on voudrait l'utiliser
try:
    embedding_matrix = load_glove_embeddings(tokenizer.word_index, embedding_dim=128) # Note: GloVe est 100d, on adaptera ou on utilisera 100d
    # Note: Si on utilise glove.6B.100d, la dimension DOIT √™tre 100.
    # Pour simplifier et matcher GloVe standard, on refait avec dim=100
    embedding_matrix = load_glove_embeddings(tokenizer.word_index, embedding_dim=100)
    USE_GLOVE = True
except Exception as e:
    print(f"‚ö†Ô∏è Impossible de charger GloVe (Erreur: {e}). On continuera sans.")
    embedding_matrix = None
    USE_GLOVE = False

## üíæ 9. Sauvegarder les Donn√©es Pr√©par√©es

In [None]:
print("Sauvegarde des donn√©es pr√©par√©es...\n")

# Sauvegarder les s√©quences
np.save('data/processed/X_train.npy', X_train)
np.save('data/processed/X_val.npy', X_val)
np.save('data/processed/X_test.npy', X_test)
print("‚úÖ S√©quences sauvegard√©es")

# Sauvegarder les labels
np.save('data/processed/y_train.npy', y_train)
np.save('data/processed/y_val.npy', y_val)
np.save('data/processed/y_test.npy', y_test)
print("‚úÖ Labels sauvegard√©s")

# Sauvegarder le tokenizer
with open('data/processed/tokenizer.pkl', 'wb') as f:
    pickle.dump(tokenizer, f)
print("‚úÖ Tokenizer sauvegard√©")

# Sauvegarder les m√©tadonn√©es
metadata = {
    'emotion_labels': emotion_labels,
    'num_classes': NUM_CLASSES,
    'max_vocab_size': MAX_VOCAB_SIZE,
    'max_sequence_length': MAX_SEQUENCE_LENGTH,
    'vocab_size': len(tokenizer.word_index),
    'train_size': len(X_train),
    'val_size': len(X_val),
    'test_size': len(X_test),
    'use_glove': USE_GLOVE
}

with open('data/processed/metadata.pkl', 'wb') as f:
    pickle.dump(metadata, f)
print("‚úÖ M√©tadonn√©es sauvegard√©es")

# Sauvegarder les poids de classes (NOUVEAU - Requis Partie 1)
with open('data/processed/class_weights.pkl', 'wb') as f:
    pickle.dump(class_weights, f)
print("‚úÖ Poids des classes sauvegard√©s (pour g√©rer le d√©s√©quilibre)")

# Sauvegarder la matrice d'embedding GloVe (NOUVEAU - Requis Partie 4)
if USE_GLOVE and embedding_matrix is not None:
    np.save('data/processed/embedding_matrix.npy', embedding_matrix)
    print("‚úÖ Matrice d'embedding GloVe sauvegard√©e")
else:
    print("‚ö†Ô∏è Matrice GloVe non sauvegard√©e (non charg√©e)")

# Sauvegarder les textes originaux pour BERT (qui a besoin des textes bruts)
with open('data/processed/texts_train.pkl', 'wb') as f:
    pickle.dump(train_df['text_clean'].tolist(), f)
print("‚úÖ Textes train sauvegard√©s")

with open('data/processed/texts_val.pkl', 'wb') as f:
    pickle.dump(val_df['text_clean'].tolist(), f)
print("‚úÖ Textes val sauvegard√©s")

with open('data/processed/texts_test.pkl', 'wb') as f:
    pickle.dump(test_df['text_clean'].tolist(), f)
print("‚úÖ Textes test sauvegard√©s")

print("\n" + "="*60)
print("üéâ PR√âPARATION DES DONN√âES TERMIN√âE !")
print("="*60)
print("\nVous pouvez maintenant ex√©cuter les notebooks d'entra√Ænement:")
print("  üìì Notebook_1_LSTM.ipynb")
print("  üìì Notebook_2_BiLSTM_Attention.ipynb")
print("  üìì Notebook_3_CNN_BiLSTM.ipynb")
print("  üìì Notebook_4_BERT.ipynb")
print("\nPuis pour la comparaison:")
print("  üìì Notebook_5_Comparaison_Finale.ipynb")

In [None]:
# V√©rifier les fichiers cr√©√©s
print("\nüìÅ Fichiers cr√©√©s dans data/processed/:")
!ls -lh data/processed/

## üì§ 10. [Optionnel] Sauvegarder vers Google Drive

In [None]:
# Monter Google Drive (optionnel)
from google.colab import drive
drive.mount('/content/drive')

# Cr√©er un dossier dans Drive
!mkdir -p "/content/drive/MyDrive/emotion_detection_project"

# Copier les donn√©es
!cp -r data/processed "/content/drive/MyDrive/emotion_detection_project/"
!cp -r results "/content/drive/MyDrive/emotion_detection_project/"

print("\n‚úÖ Donn√©es sauvegard√©es dans Google Drive!")