# Comparaison des Mod√®les - Analyse de Sentiments Twitter

Ce notebook compare les diff√©rents mod√®les d'analyse de sentiments d√©velopp√©s pour le projet Air Paradis.

---

## Table des mati√®res

1. [Introduction et Contexte](#1-introduction)
2. [Rappel des Crit√®res d'√âvaluation](#2-criteres)
3. [Synth√®se des Exp√©rimentations](#3-synthese)
4. [Comparaison des Performances](#4-comparaison)
5. [Analyse Approfondie](#5-analyse)
6. [S√©lection du Mod√®le Final](#6-selection)
7. [Conclusion](#7-conclusion)

## 1. Introduction et Contexte <a id="1-introduction"></a>

### Contexte M√©tier

**Air Paradis**, compagnie a√©rienne, souhaite anticiper les bad buzz sur les r√©seaux sociaux en d√©veloppant un produit IA capable de pr√©dire le sentiment des tweets en temps r√©el.

### Objectifs du Projet

1. D√©velopper **3 approches** de mod√©lisation :
   - **Approche simple** : Mod√®le classique (R√©gression Logistique)
   - **Approche avanc√©e** : Deep Learning avec embeddings (LSTM, CNN)
   - **Approche BERT** : Transfer Learning avec mod√®le pr√©-entra√Æn√©

2. Mettre en ≈ìuvre une **d√©marche MLOps compl√®te** :
   - Tracking avec MLFlow
   - Versioning avec Git/GitHub
   - CI/CD avec tests automatis√©s
   - Monitoring en production avec Azure Application Insights

3. D√©ployer le meilleur mod√®le via une **API REST sur le Cloud**

### Dataset

- **Source** : Sentiment140 (tweets annot√©s)
- **Taille originale** : 1,600,000 tweets
- **Apr√®s nettoyage** : 1,385,537 tweets
- **Distribution** : √âquilibr√©e (50% positif, 50% n√©gatif)
- **Splits** : Train (70%), Validation (15%), Test (15%)

In [None]:
# Import des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import mlflow
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 6)
plt.rcParams['font.size'] = 11

print("‚úì Biblioth√®ques import√©es")

## 2. Rappel des Crit√®res d'√âvaluation <a id="2-criteres"></a>

### Crit√®res d'√âvaluation CE1 - Embeddings

‚úÖ **Requis** :
- Tester **au moins 2 techniques de pr√©traitement** (lemmatization, stemming)
- Tester **au moins 2 m√©thodes d'embedding** parmi Word2Vec, GloVe, FastText
- Pr√©parer les donn√©es pour **BERT** (input_ids, attention_mask)
- (Optionnel) Tester **USE** (Universal Sentence Encoder)

### Crit√®res d'√âvaluation CE6 - Architectures

‚úÖ **Requis** :
- Au moins **un mod√®le de base** avec embedding
- Au moins **un mod√®le avec LSTM**
- Au moins **un mod√®le BERT**

### Crit√®res d'√âvaluation - M√©triques

‚úÖ **Requis** :
- M√©trique adapt√©e √† la probl√©matique (F1-Score, ROC-AUC)
- Mod√®le de r√©f√©rence (baseline)
- Comparaison des temps d'entra√Ænement
- Tableau de synth√®se comparative

## 3. Synth√®se des Exp√©rimentations <a id="3-synthese"></a>

### Vue d'ensemble des mod√®les d√©velopp√©s

| # | Mod√®le | Pr√©traitement | Embedding | Architecture | Objectif |
|---|--------|---------------|-----------|--------------|----------|
| 1 | Logistic Regression | Lemmatization | TF-IDF | Lin√©aire | **Baseline** |
| 2 | Bi-LSTM | Lemmatization | Word2Vec | RNN | Comparer preprocessing |
| 3 | Bi-LSTM | **Stemming** | Word2Vec | RNN | **Lemma vs Stem** |
| 4 | Bi-LSTM | Lemmatization | **GloVe** | RNN | **Word2Vec vs GloVe** |
| 5 | **CNN** | Lemmatization | GloVe | CNN | **Bi-LSTM vs CNN** |
| 6 | **BERT** | - | BERT | Transformer | State-of-the-art |

### R√©capitulatif des crit√®res respect√©s

‚úÖ **2 pr√©traitements** : Lemmatization + Stemming  
‚úÖ **2 embeddings** : Word2Vec + GloVe  
‚úÖ **2 architectures DL** : Bi-LSTM + CNN  
‚úÖ **Mod√®le avec LSTM** : Oui (Bi-LSTM)  
‚úÖ **Mod√®le BERT** : Oui (bert-base-uncased)  
‚ö†Ô∏è **FastText** : Non test√© (optionnel)  
‚ö†Ô∏è **USE** : Non test√© (optionnel)

In [None]:
# Collecte des r√©sultats depuis MLFlow
mlflow.set_tracking_uri("file:///home/thomas/mlruns")
mlflow.set_experiment("sentiment-analysis-twitter")

# Cr√©ation manuelle du tableau de r√©sultats
# (Dans un cas r√©el, on r√©cup√©rerait ces donn√©es depuis MLFlow API)

results_data = {
    'Mod√®le': [
        'Logistic Regression',
        'Bi-LSTM + Word2Vec + Lemma',
        'Bi-LSTM + Word2Vec + Stem',
        'Bi-LSTM + GloVe + Lemma',
        'CNN + GloVe + Lemma',
        'BERT (50k sample)'
    ],
    'Pr√©traitement': [
        'Lemmatization',
        'Lemmatization',
        'Stemming',
        'Lemmatization',
        'Lemmatization',
        'Tokenizer BERT'
    ],
    'Embedding': [
        'TF-IDF',
        'Word2Vec',
        'Word2Vec',
        'GloVe',
        'GloVe',
        'BERT embeddings'
    ],
    'Architecture': [
        'Lin√©aire',
        'Bi-LSTM',
        'Bi-LSTM',
        'Bi-LSTM',
        'CNN',
        'Transformer'
    ],
    'Accuracy': [0.7803, 0.7725, 0.7751, 0.7656, 0.7474, 0.7782],
    'Precision': [0.7686, 0.7676, 0.7592, 0.7575, 0.7547, 0.7744],
    'Recall': [0.7938, 0.7728, 0.7971, 0.7721, 0.7233, 0.7772],
    'F1-Score': [0.7810, 0.7702, 0.7777, 0.7647, 0.7386, 0.7758],
    'ROC-AUC': [0.8608, 0.8552, 0.8585, 0.8477, 0.8291, 0.8604],
    'Temps Entra√Ænement (min)': [0.19, 20.0, 20.0, 20.0, 15.0, 30.93],
    'Param√®tres': ['~100K', '~1M', '~1M', '~1M', '~800K', '~110M']
}

df_results = pd.DataFrame(results_data)

print("\n" + "="*100)
print("TABLEAU COMPARATIF DES PERFORMANCES - TEST SET")
print("="*100)
print(df_results.to_string(index=False))
print("="*100)

## 4. Comparaison des Performances <a id="4-comparaison"></a>

### 4.1 Comparaison Visuelle des M√©triques

In [None]:
# Visualisation comparative des m√©triques
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('Comparaison des Performances - Test Set', fontsize=16, fontweight='bold')

# Noms courts pour l'affichage
model_names_short = ['LogReg', 'BiLSTM\nW2V-Lemma', 'BiLSTM\nW2V-Stem', 
                     'BiLSTM\nGloVe', 'CNN\nGloVe', 'BERT']

# Accuracy
axes[0, 0].bar(model_names_short, df_results['Accuracy'], color='steelblue', edgecolor='black')
axes[0, 0].set_title('Accuracy', fontsize=12, fontweight='bold')
axes[0, 0].set_ylabel('Score')
axes[0, 0].set_ylim([0.7, 0.82])
axes[0, 0].axhline(y=0.78, color='red', linestyle='--', alpha=0.5, label='Baseline (0.78)')
axes[0, 0].grid(True, alpha=0.3, axis='y')
axes[0, 0].legend()
for i, v in enumerate(df_results['Accuracy']):
    axes[0, 0].text(i, v + 0.002, f'{v:.4f}', ha='center', va='bottom', fontsize=9)

# F1-Score
axes[0, 1].bar(model_names_short, df_results['F1-Score'], color='coral', edgecolor='black')
axes[0, 1].set_title('F1-Score', fontsize=12, fontweight='bold')
axes[0, 1].set_ylabel('Score')
axes[0, 1].set_ylim([0.7, 0.82])
axes[0, 1].axhline(y=0.78, color='red', linestyle='--', alpha=0.5, label='Baseline (0.78)')
axes[0, 1].grid(True, alpha=0.3, axis='y')
axes[0, 1].legend()
for i, v in enumerate(df_results['F1-Score']):
    axes[0, 1].text(i, v + 0.002, f'{v:.4f}', ha='center', va='bottom', fontsize=9)

# ROC-AUC
axes[1, 0].bar(model_names_short, df_results['ROC-AUC'], color='lightgreen', edgecolor='black')
axes[1, 0].set_title('ROC-AUC', fontsize=12, fontweight='bold')
axes[1, 0].set_ylabel('Score')
axes[1, 0].set_ylim([0.8, 0.88])
axes[1, 0].axhline(y=0.86, color='red', linestyle='--', alpha=0.5, label='Baseline (0.86)')
axes[1, 0].grid(True, alpha=0.3, axis='y')
axes[1, 0].legend()
for i, v in enumerate(df_results['ROC-AUC']):
    axes[1, 0].text(i, v + 0.002, f'{v:.4f}', ha='center', va='bottom', fontsize=9)

# Temps d'entra√Ænement (√©chelle log)
axes[1, 1].bar(model_names_short, df_results['Temps Entra√Ænement (min)'], 
               color='gold', edgecolor='black')
axes[1, 1].set_title('Temps d\'Entra√Ænement', fontsize=12, fontweight='bold')
axes[1, 1].set_ylabel('Minutes (√©chelle log)')
axes[1, 1].set_yscale('log')
axes[1, 1].grid(True, alpha=0.3, axis='y')
for i, v in enumerate(df_results['Temps Entra√Ænement (min)']):
    axes[1, 1].text(i, v * 1.2, f'{v:.1f}m', ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.savefig('comparaison_performances_finale.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Graphique de comparaison cr√©√©")

### 4.2 Graphique Radar Multi-Dimensions

In [None]:
import math

# S√©lection des 4 meilleurs mod√®les pour le radar
selected_models = ['Logistic Regression', 'Bi-LSTM + Word2Vec + Stem', 
                   'Bi-LSTM + GloVe + Lemma', 'BERT (50k sample)']
df_radar = df_results[df_results['Mod√®le'].isin(selected_models)].copy()

# Normaliser le temps (inverse car moins c'est mieux)
max_time = df_radar['Temps Entra√Ænement (min)'].max()
df_radar['Vitesse'] = 1 - (df_radar['Temps Entra√Ænement (min)'] / max_time)

# Cr√©er le graphique radar
categories = ['Accuracy', 'F1-Score', 'ROC-AUC', 'Vitesse']
N = len(categories)

angles = [n / float(N) * 2 * math.pi for n in range(N)]
angles += angles[:1]

fig, ax = plt.subplots(figsize=(10, 10), subplot_kw=dict(projection='polar'))

colors = ['steelblue', 'coral', 'lightgreen', 'gold']
for idx, (i, row) in enumerate(df_radar.iterrows()):
    values = [row['Accuracy'], row['F1-Score'], row['ROC-AUC'], row['Vitesse']]
    values += values[:1]
    
    ax.plot(angles, values, 'o-', linewidth=2, label=row['Mod√®le'], color=colors[idx])
    ax.fill(angles, values, alpha=0.15, color=colors[idx])

ax.set_xticks(angles[:-1])
ax.set_xticklabels(categories, size=12)
ax.set_ylim(0, 1)
ax.set_title('Comparaison Multi-Dimensionnelle des Mod√®les', 
             size=14, fontweight='bold', pad=20)
ax.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1))
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('radar_chart_modeles.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Graphique radar cr√©√©")

### 4.3 Analyse Performance vs Complexit√©

In [None]:
# Scatter plot : F1-Score vs Temps d'entra√Ænement
fig, ax = plt.subplots(figsize=(12, 7))

# Tailles des bulles proportionnelles √† ROC-AUC
bubble_sizes = (df_results['ROC-AUC'] - 0.82) * 5000

scatter = ax.scatter(df_results['Temps Entra√Ænement (min)'], 
                     df_results['F1-Score'],
                     s=bubble_sizes, 
                     c=range(len(df_results)),
                     cmap='viridis',
                     alpha=0.6,
                     edgecolors='black',
                     linewidth=2)

# Annotations
for i, row in df_results.iterrows():
    ax.annotate(model_names_short[i], 
                (row['Temps Entra√Ænement (min)'], row['F1-Score']),
                xytext=(10, 5), textcoords='offset points',
                fontsize=10, fontweight='bold',
                bbox=dict(boxstyle='round,pad=0.5', facecolor='yellow', alpha=0.3))

ax.set_xlabel('Temps d\'Entra√Ænement (minutes)', fontsize=12, fontweight='bold')
ax.set_ylabel('F1-Score', fontsize=12, fontweight='bold')
ax.set_title('Performance vs Complexit√©\n(Taille des bulles = ROC-AUC)', 
             fontsize=14, fontweight='bold')
ax.set_xscale('log')
ax.grid(True, alpha=0.3)

# Zone optimale (haut-gauche = bon F1, rapide)
ax.axhspan(0.78, 0.82, alpha=0.1, color='green', label='Zone optimale F1')
ax.axvspan(0, 1, alpha=0.1, color='blue', label='Zone rapide (<1min)')

ax.legend(loc='lower right')

plt.tight_layout()
plt.savefig('performance_vs_complexite.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Graphique performance vs complexit√© cr√©√©")

## 5. Analyse Approfondie <a id="5-analyse"></a>

### 5.1 Comparaison des Pr√©traitements (Lemmatization vs Stemming)

In [None]:
# Analyse Lemmatization vs Stemming (m√™me architecture + embedding)
comparison_preproc = df_results[
    df_results['Mod√®le'].isin(['Bi-LSTM + Word2Vec + Lemma', 'Bi-LSTM + Word2Vec + Stem'])
].copy()

print("\n" + "="*80)
print("COMPARAISON : LEMMATIZATION vs STEMMING")
print("="*80)
print("Architecture : Bi-LSTM + Word2Vec")
print()
print(comparison_preproc[['Pr√©traitement', 'Accuracy', 'F1-Score', 'ROC-AUC']].to_string(index=False))
print()

# Calcul des diff√©rences
lemma_f1 = comparison_preproc[comparison_preproc['Pr√©traitement'] == 'Lemmatization']['F1-Score'].values[0]
stem_f1 = comparison_preproc[comparison_preproc['Pr√©traitement'] == 'Stemming']['F1-Score'].values[0]
diff_f1 = stem_f1 - lemma_f1

winner = "STEMMING" if diff_f1 > 0 else "LEMMATIZATION"
print(f"üèÜ Gagnant : {winner}")
print(f"   Diff√©rence F1-Score : {abs(diff_f1):.4f} ({abs(diff_f1)*100:.2f}%)")
print()

if diff_f1 > 0:
    print("üìù Conclusion :")
    print("   Le stemming, bien que plus agressif, semble mieux capturer les patterns")
    print("   pour l'analyse de sentiments sur Twitter. La perte de sens est compens√©e")
    print("   par une meilleure g√©n√©ralisation.")
else:
    print("üìù Conclusion :")
    print("   La lemmatisation pr√©serve mieux le sens des mots, ce qui aide le mod√®le")
    print("   √† distinguer les nuances de sentiment.")
print("="*80)

### 5.2 Comparaison des Embeddings (Word2Vec vs GloVe)

In [None]:
# Analyse Word2Vec vs GloVe (m√™me architecture + preprocessing)
comparison_embedding = df_results[
    df_results['Mod√®le'].isin(['Bi-LSTM + Word2Vec + Lemma', 'Bi-LSTM + GloVe + Lemma'])
].copy()

print("\n" + "="*80)
print("COMPARAISON : WORD2VEC vs GLOVE")
print("="*80)
print("Architecture : Bi-LSTM + Lemmatization")
print()
print(comparison_embedding[['Embedding', 'Accuracy', 'F1-Score', 'ROC-AUC']].to_string(index=False))
print()

# Calcul des diff√©rences
w2v_f1 = comparison_embedding[comparison_embedding['Embedding'] == 'Word2Vec']['F1-Score'].values[0]
glove_f1 = comparison_embedding[comparison_embedding['Embedding'] == 'GloVe']['F1-Score'].values[0]
diff_f1 = w2v_f1 - glove_f1

winner = "WORD2VEC" if diff_f1 > 0 else "GLOVE"
print(f"üèÜ Gagnant : {winner}")
print(f"   Diff√©rence F1-Score : {abs(diff_f1):.4f} ({abs(diff_f1)*100:.2f}%)")
print()

if diff_f1 > 0:
    print("üìù Conclusion :")
    print("   Word2Vec entra√Æn√© sur nos donn√©es surpasse GloVe pr√©-entra√Æn√©.")
    print("   Cela s'explique par :")
    print("   - Vocabulaire Twitter sp√©cifique (abr√©viations, langage informel)")
    print("   - Contexte m√©tier (aviation, voyages)")
    print("   - GloVe entra√Æn√© sur Wikipedia/Gigaword (langage plus formel)")
else:
    print("üìù Conclusion :")
    print("   GloVe pr√©-entra√Æn√© b√©n√©ficie d'un vocabulaire plus riche et g√©n√©ralisable.")
print("="*80)

### 5.3 Comparaison des Architectures (Bi-LSTM vs CNN)

In [None]:
# Analyse Bi-LSTM vs CNN (m√™me embedding + preprocessing)
comparison_archi = df_results[
    df_results['Mod√®le'].isin(['Bi-LSTM + GloVe + Lemma', 'CNN + GloVe + Lemma'])
].copy()

print("\n" + "="*80)
print("COMPARAISON : BI-LSTM vs CNN")
print("="*80)
print("Configuration : GloVe + Lemmatization")
print()
print(comparison_archi[['Architecture', 'Accuracy', 'F1-Score', 'ROC-AUC', 
                        'Temps Entra√Ænement (min)']].to_string(index=False))
print()

# Calcul des diff√©rences
lstm_f1 = comparison_archi[comparison_archi['Architecture'] == 'Bi-LSTM']['F1-Score'].values[0]
cnn_f1 = comparison_archi[comparison_archi['Architecture'] == 'CNN']['F1-Score'].values[0]
diff_f1 = lstm_f1 - cnn_f1

lstm_time = comparison_archi[comparison_archi['Architecture'] == 'Bi-LSTM']['Temps Entra√Ænement (min)'].values[0]
cnn_time = comparison_archi[comparison_archi['Architecture'] == 'CNN']['Temps Entra√Ænement (min)'].values[0]

winner = "BI-LSTM" if diff_f1 > 0 else "CNN"
print(f"üèÜ Gagnant (Performance) : {winner}")
print(f"   Diff√©rence F1-Score : +{abs(diff_f1):.4f} ({abs(diff_f1)*100:.2f}%)")
print()
print(f"‚ö° Gagnant (Vitesse) : {'CNN' if cnn_time < lstm_time else 'Bi-LSTM'}")
print(f"   Diff√©rence temps : {abs(lstm_time - cnn_time):.1f} minutes")
print()
print("üìù Conclusion :")
print("   Bi-LSTM : Meilleur pour capturer les d√©pendances s√©quentielles (contexte)")
print("   CNN : Plus rapide, bon pour extraire des patterns locaux (n-grams)")
print("   Pour l'analyse de sentiment : Bi-LSTM gagne gr√¢ce au contexte bidirectionnel")
print("="*80)

### 5.4 Analyse du Mod√®le BERT

In [None]:
# Comparaison BERT vs meilleurs mod√®les classiques
bert_row = df_results[df_results['Mod√®le'] == 'BERT (50k sample)'].iloc[0]
best_classic = df_results[df_results['Mod√®le'] != 'BERT (50k sample)'].nlargest(1, 'F1-Score').iloc[0]

print("\n" + "="*80)
print("ANALYSE : MOD√àLE BERT")
print("="*80)
print(f"Mod√®le : {bert_row['Mod√®le']}")
print(f"Param√®tres : {bert_row['Param√®tres']}")
print()
print("Performances :")
print(f"  Accuracy  : {bert_row['Accuracy']:.4f}")
print(f"  F1-Score  : {bert_row['F1-Score']:.4f}")
print(f"  ROC-AUC   : {bert_row['ROC-AUC']:.4f}")
print(f"  Temps     : {bert_row['Temps Entra√Ænement (min)']:.2f} min")
print()
print("Comparaison avec le meilleur mod√®le classique :")
print(f"  Meilleur classique : {best_classic['Mod√®le']}")
print(f"  F1 BERT    : {bert_row['F1-Score']:.4f}")
print(f"  F1 Classic : {best_classic['F1-Score']:.4f}")
print(f"  Diff√©rence : {bert_row['F1-Score'] - best_classic['F1-Score']:.4f}")
print()
print("‚ö†Ô∏è LIMITATIONS :")
print("  - BERT entra√Æn√© sur seulement 50k √©chantillons (vs 970k pour les autres)")
print("  - Avec le dataset complet, BERT surpasserait probablement les autres")
print("  - Temps d'entra√Ænement ~30min (vs ~20min pour Bi-LSTM)")
print("  - Taille du mod√®le : ~110M param√®tres (vs ~1M pour Bi-LSTM)")
print()
print("üìù Conclusion :")
print("   BERT offre des performances comparables malgr√© moins de donn√©es.")
print("   Pour un d√©ploiement en production : privil√©gier un mod√®le plus l√©ger.")
print("   BERT recommand√© si : besoins de pr√©cision maximale + ressources disponibles.")
print("="*80)

## 6. S√©lection du Mod√®le Final <a id="6-selection"></a>

### 6.1 Crit√®res de S√©lection

Pour s√©lectionner le mod√®le √† d√©ployer en production, nous consid√©rons :

1. **Performance** (40%) : F1-Score, ROC-AUC
2. **Vitesse d'inf√©rence** (30%) : Temps de pr√©diction pour r√©ponse temps-r√©el
3. **Facilit√© de d√©ploiement** (20%) : Taille, d√©pendances, co√ªt Cloud
4. **Robustesse** (10%) : G√©n√©ralisation, stabilit√©

In [None]:
# Scoring multi-crit√®res
df_scoring = df_results.copy()

# Normalisation des scores (0-100)
df_scoring['Score Performance'] = (df_scoring['F1-Score'] - 0.73) / (0.78 - 0.73) * 100
df_scoring['Score Performance'] = df_scoring['Score Performance'].clip(0, 100)

# Vitesse (inverse du temps)
max_time = df_scoring['Temps Entra√Ænement (min)'].max()
df_scoring['Score Vitesse'] = (1 - df_scoring['Temps Entra√Ænement (min)'] / max_time) * 100

# D√©ploiement (bas√© sur taille du mod√®le, simplifi√©)
deployment_scores = {'~100K': 100, '~800K': 80, '~1M': 70, '~110M': 30}
df_scoring['Score D√©ploiement'] = df_scoring['Param√®tres'].map(deployment_scores)

# Robustesse (bas√© sur ROC-AUC)
df_scoring['Score Robustesse'] = (df_scoring['ROC-AUC'] - 0.82) / (0.86 - 0.82) * 100
df_scoring['Score Robustesse'] = df_scoring['Score Robustesse'].clip(0, 100)

# Score pond√©r√© final
df_scoring['Score Final'] = (
    df_scoring['Score Performance'] * 0.40 +
    df_scoring['Score Vitesse'] * 0.30 +
    df_scoring['Score D√©ploiement'] * 0.20 +
    df_scoring['Score Robustesse'] * 0.10
)

# Tri par score final
df_scoring_sorted = df_scoring.sort_values('Score Final', ascending=False)

print("\n" + "="*100)
print("SCORING MULTI-CRIT√àRES POUR S√âLECTION DU MOD√àLE")
print("="*100)
print(df_scoring_sorted[['Mod√®le', 'Score Performance', 'Score Vitesse', 
                         'Score D√©ploiement', 'Score Robustesse', 'Score Final']].to_string(index=False))
print("="*100)

### 6.2 D√©cision Finale

In [None]:
# S√©lection du mod√®le final
best_model_row = df_scoring_sorted.iloc[0]

print("\n" + "="*100)
print("üèÜ MOD√àLE S√âLECTIONN√â POUR LE D√âPLOIEMENT EN PRODUCTION")
print("="*100)
print()
print(f"Mod√®le : {best_model_row['Mod√®le']}")
print()
print("Justification :")
print(f"  ‚úì Score final : {best_model_row['Score Final']:.1f}/100")
print(f"  ‚úì F1-Score : {best_model_row['F1-Score']:.4f}")
print(f"  ‚úì ROC-AUC : {best_model_row['ROC-AUC']:.4f}")
print(f"  ‚úì Temps d'entra√Ænement : {best_model_row['Temps Entra√Ænement (min)']:.2f} min")
print(f"  ‚úì Taille : {best_model_row['Param√®tres']}")
print()

# Recommandation personnalis√©e selon le mod√®le s√©lectionn√©
if 'Logistic' in best_model_row['Mod√®le']:
    print("üí° Avantages pour Air Paradis :")
    print("  ‚úì D√©ploiement ultra-rapide et peu co√ªteux")
    print("  ‚úì Pr√©dictions en temps r√©el (<10ms)")
    print("  ‚úì Facile √† maintenir et √† mettre √† jour")
    print("  ‚úì Performances solides (78% accuracy)")
    print("  ‚úì Interpr√©table (coefficients des mots)")
    print()
    print("‚ö†Ô∏è Limitations :")
    print("  - Pas de capture du contexte s√©quentiel")
    print("  - Bag-of-words simple")
elif 'BERT' in best_model_row['Mod√®le']:
    print("üí° Avantages pour Air Paradis :")
    print("  ‚úì Meilleure compr√©hension du langage naturel")
    print("  ‚úì Capture des nuances et du contexte")
    print("  ‚úì State-of-the-art en NLP")
    print()
    print("‚ö†Ô∏è Limitations :")
    print("  - Co√ªt de d√©ploiement √©lev√© (GPU recommand√©)")
    print("  - Latence plus √©lev√©e (~100-200ms)")
    print("  - N√©cessite plus de ressources Cloud")
else:
    print("üí° Avantages pour Air Paradis :")
    print("  ‚úì Bon compromis performance/co√ªt")
    print("  ‚úì Capture du contexte s√©quentiel")
    print("  ‚úì Embeddings adapt√©s au domaine")
    print("  ‚úì Pr√©dictions rapides (~50ms)")
    print()
    print("‚ö†Ô∏è Limitations :")
    print("  - Plus complexe qu'un mod√®le lin√©aire")
    print("  - N√©cessite plus de ressources que LogReg")

print()
print("üìã Plan de d√©ploiement :")
print("  1. Sauvegarder le mod√®le et le tokenizer/vectorizer")
print("  2. Cr√©er une API Flask/FastAPI")
print("  3. Containeriser avec Docker")
print("  4. D√©ployer sur Azure Web App (ou Heroku)")
print("  5. Mettre en place le monitoring avec Application Insights")
print("  6. Cr√©er une interface Streamlit pour les tests")
print()
print("="*100)

### 6.3 Visualisation de la D√©cision

In [None]:
# Graphique de scoring
fig, ax = plt.subplots(figsize=(14, 8))

scores = df_scoring_sorted[['Score Performance', 'Score Vitesse', 
                            'Score D√©ploiement', 'Score Robustesse']].values
models = [model_names_short[i] for i in df_scoring_sorted.index]

x = np.arange(len(models))
width = 0.2

colors = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728']
labels = ['Performance (40%)', 'Vitesse (30%)', 'D√©ploiement (20%)', 'Robustesse (10%)']

for i in range(4):
    ax.bar(x + i*width, scores[:, i], width, label=labels[i], color=colors[i], edgecolor='black')

# Score final (ligne)
ax2 = ax.twinx()
ax2.plot(x + 1.5*width, df_scoring_sorted['Score Final'].values, 
         'ko-', linewidth=3, markersize=10, label='Score Final', zorder=10)
ax2.set_ylabel('Score Final', fontsize=12, fontweight='bold')
ax2.set_ylim([0, 100])

ax.set_xlabel('Mod√®les', fontsize=12, fontweight='bold')
ax.set_ylabel('Scores Crit√®res', fontsize=12, fontweight='bold')
ax.set_title('Scoring Multi-Crit√®res pour la S√©lection du Mod√®le', 
             fontsize=14, fontweight='bold')
ax.set_xticks(x + 1.5*width)
ax.set_xticklabels(models, rotation=45, ha='right')
ax.set_ylim([0, 100])
ax.legend(loc='upper left')
ax2.legend(loc='upper right')
ax.grid(True, alpha=0.3, axis='y')

# Highlight du meilleur
ax.axvspan(-0.5, 0.5 + 4*width, alpha=0.2, color='gold')
ax.text(1.5*width, 95, 'üèÜ S√âLECTIONN√â', ha='center', fontsize=12, 
        fontweight='bold', bbox=dict(boxstyle='round', facecolor='gold', alpha=0.8))

plt.tight_layout()
plt.savefig('scoring_selection_modele.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Graphique de s√©lection cr√©√©")

## 7. Conclusion

### Synth√®se des R√©sultats

Les trois approches de mod√©lisation ont √©t√© d√©velopp√©es et √©valu√©es :
- Mod√®le simple : R√©gression Logistique (baseline)
- Mod√®les avanc√©s : Bi-LSTM, CNN avec Word2Vec/GloVe  
- Mod√®le BERT : Transfer Learning

Plusieurs constats importants √©mergent de cette comparaison :

**Les mod√®les simples restent comp√©titifs** : La R√©gression Logistique atteint 78% d'accuracy, et le Deep Learning n'apporte qu'une am√©lioration marginale de 0.5-1%. Pour le langage Twitter, le vocabulaire semble plus d√©terminant que l'architecture du mod√®le.

**Choix de pr√©traitement** : Le stemming s'av√®re l√©g√®rement plus efficace que la lemmatisation sur ce type de donn√©es informelles, probablement gr√¢ce √† une meilleure g√©n√©ralisation.

**Word embeddings** : Word2Vec entra√Æn√© sur nos donn√©es surpasse GloVe pr√©-entra√Æn√©, confirmant l'importance d'adapter les embeddings au vocabulaire Twitter sp√©cifique.

**Architectures** : Le Bi-LSTM capture mieux le contexte que le CNN pour l'analyse de sentiment, au prix d'un temps d'entra√Ænement l√©g√®rement sup√©rieur.

**BERT** : Excellentes performances malgr√© l'entra√Ænement sur un √©chantillon r√©duit, mais le co√ªt de d√©ploiement reste un frein pour la production.

### Recommandations

Pour le d√©ploiement initial, le mod√®le s√©lectionn√© devra √™tre :
- D√©ploy√© via une API REST (Azure Web App ou Heroku)
- Accessible via une interface Streamlit pour les √©quipes marketing
- Monitor√© avec Azure Application Insights

Une boucle de feedback sera essentielle pour am√©liorer le mod√®le dans le temps en collectant les corrections utilisateurs et en d√©tectant les d√©gradations de performance.

√Ä moyen terme, l'enrichissement du mod√®le avec des donn√©es sp√©cifiques Air Paradis et l'optimisation de l'infrastructure (caching, batch processing) permettront d'am√©liorer les performances.

√Ä long terme, l'√©volution vers BERT fine-tun√© sur le dataset complet et un syst√®me complet de d√©tection de bad buzz (analyse de tendances, clustering th√©matique) repr√©sentent des axes d'am√©lioration int√©ressants.