# Projet 7 - R√©alisez une analyse de sentiments gr√¢ce au Deep Learning

> üéì OpenClassrooms ‚Ä¢ Parcours [AI Engineer](https://openclassrooms.com/fr/paths/795-ai-engineer) | üëã *√âtudiant* : [David Scanu](https://www.linkedin.com/in/davidscanu14/)

## Partie 2 : Approches classiques de Machine Learning

Ce notebook impl√©mente plusieurs mod√®les de **machine learning traditionnels pour la classification de sentiment des tweets**. Nous commen√ßons par un pr√©traitement adapt√© aux sp√©cificit√©s des tweets (URLs, mentions, hashtags), puis nous vectorisons les textes avec les approches **BoW** et **TF-IDF**. Quatre classifieurs sont test√©s et compar√©s : **R√©gression Logistique, SVM, Random Forest et Naive Bayes**. Les performances de chaque mod√®le sont mesur√©es (accuracy, precision, recall, F1-score) et enregistr√©es via **MLflow** pour faciliter la comparaison. Le meilleur mod√®le est automatiquement sauvegard√© pour une utilisation ult√©rieure dans l'API.

## üìù Contexte

Dans le cadre de ma formation d'AI Engineer chez OpenClassrooms, ce projet s'inscrit dans un sc√©nario professionnel o√π j'interviens en tant qu'ing√©nieur IA chez MIC (Marketing Intelligence Consulting), entreprise de conseil sp√©cialis√©e en marketing digital.

Notre client, Air Paradis (compagnie a√©rienne), souhaite **anticiper les bad buzz sur les r√©seaux sociaux**. La mission consiste √† d√©velopper un produit IA permettant de **pr√©dire le sentiment associ√© √† un tweet**, afin d'am√©liorer la gestion de sa r√©putation en ligne.

## ‚ö° Mission

> D√©velopper un mod√®le d'IA permettant de pr√©dire le sentiment associ√© √† un tweet.

Cr√©er un prototype fonctionnel d'un mod√®le d'**analyse de sentiments pour tweets** selon trois approches diff√©rentes :

1. **Mod√®le sur mesure simple** : Approche classique (r√©gression logistique) pour une pr√©diction rapide
2. **Mod√®le sur mesure avanc√©** : Utilisation de r√©seaux de neurones profonds avec diff√©rents word embeddings
3. **Mod√®le avanc√© BERT** : Exploration de l'apport en performance d'un mod√®le BERT

Cette mission implique √©galement la mise en ≈ìuvre d'une d√©marche MLOps compl√®te :
- Utilisation de MLFlow pour le tracking des exp√©rimentations et le stockage des mod√®les
- Cr√©ation d'un pipeline de d√©ploiement continu (Git + Github + plateforme Cloud)
- Int√©gration de tests unitaires automatis√©s
- Mise en place d'un suivi de performance en production via Azure Application Insight

## üóìÔ∏è Plan de travail

1. **Exploration et pr√©paration des donn√©es**
   - Acquisition des donn√©es de tweets Open Source
   - Analyse exploratoire et pr√©traitement des textes

2. **D√©veloppement des mod√®les**
   - Impl√©mentation du mod√®le classique (r√©gression logistique)
   - Conception du mod√®le avanc√© avec diff√©rents word embeddings
   - Test du mod√®le BERT pour l'analyse de sentiments
   - Comparaison des performances via MLFlow

3. **Mise en place de la d√©marche MLOps**
   - Configuration de MLFlow pour le tracking des exp√©rimentations
   - Cr√©ation du d√©p√¥t Git avec structure de projet appropri√©e
   - Impl√©mentation des tests unitaires automatis√©s
   - Configuration du pipeline de d√©ploiement continu

4. **D√©ploiement et monitoring**
   - D√©veloppement de l'API de pr√©diction avec FastAPI
   - D√©ploiement sur Heroku
   - Cr√©ation de l'interface de test (Streamlit ou Next.js)
   - Configuration du suivi via Azure Application Insight

5. **Communication**
   - R√©daction de l'article de blog
   - Pr√©paration du support de pr√©sentation

## Importation des biblioth√®ques

In [77]:
# Importations n√©cessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import re
import time
import warnings
from collections import Counter
import pickle
from tqdm import tqdm

# Importations NLTK
import nltk
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('wordnet')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# Importations scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,
                             fbeta_score, make_scorer, matthews_corrcoef, balanced_accuracy_score,
                             classification_report, confusion_matrix, roc_auc_score, roc_curve)

# Configuration des visualisations
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.family'] = 'DejaVu Sans'
warnings.filterwarnings('ignore')

[nltk_data] Downloading package punkt_tab to /home/david/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /home/david/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/david/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## üíæ Jeu de donn√©es : Sentiment140

Le jeu de donn√©es [Sentiment140 dataset with 1.6 million tweets](https://www.kaggle.com/datasets/kazanova/sentiment140) est une ressource majeure pour l'analyse de sentiment sur Twitter, comprenant **1,6 million de tweets** extraits via l'API Twitter. Ces tweets ont √©t√© automatiquement annot√©s selon leur polarit√© sentimentale, offrant une base solide pour d√©velopper des mod√®les de classification de sentiment.

Le jeu de donn√©es est organis√© en 6 colonnes distinctes :

1. **target** : La polarit√© du sentiment exprim√© dans le tweet.
   - 0 = sentiment n√©gatif
   - 2 = sentiment neutre
   - 4 = sentiment positif
2. **ids** : L'identifiant unique du tweet (exemple : *2087*)
3. **date** : La date et l'heure de publication du tweet.
4. **flag** : La requ√™te utilis√©e pour obtenir le tweet.
   - Exemple : *lyx*
   - Si aucune requ√™te n'a √©t√© utilis√©e : *NO_QUERY*
5. **user** : Le nom d'utilisateur de l'auteur du tweet.
6. **text** : Le contenu textuel du tweet.

In [2]:
%%time 

# Define the URL and the local file path
url = "https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/AI+Engineer/Project+7%C2%A0-+D%C3%A9tectez+les+Bad+Buzz+gr%C3%A2ce+au+Deep+Learning/sentiment140.zip"
local_zip_path = "./content/data/sentiment140.zip"
extract_path = "./content/data"

if not os.path.exists(extract_path):

    # Create the directory if it doesn't exist
    os.makedirs(extract_path, exist_ok=True)

    # Download the zip file
    response = requests.get(url)
    with open(local_zip_path, 'wb') as file:
        file.write(response.content)

    # Extract the contents of the zip file
    with zipfile.ZipFile(local_zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_path)

    # Delete the zip file
    os.remove(local_zip_path)

CPU times: user 50 Œºs, sys: 5 Œºs, total: 55 Œºs
Wall time: 60.3 Œºs


In [None]:
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', True)

In [4]:

# Define the path to the CSV file
csv_file_path = os.path.join(extract_path, 'training.1600000.processed.noemoticon.csv')

# Define the column names
column_names = ['target', 'ids', 'date', 'flag', 'user', 'text']

# Load the dataset into a pandas DataFrame
raw_data = pd.read_csv(csv_file_path, encoding='latin-1', names=column_names)

# Display the first few rows of the DataFrame
raw_data.head()

Unnamed: 0,target,ids,date,flag,user,text
0,0,1467810369,Mon Apr 06 22:19:45 PDT 2009,NO_QUERY,_TheSpecialOne_,"@switchfoot http://twitpic.com/2y1zl - Awww, t..."
1,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
2,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
3,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
4,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."


In [5]:
print(f"Ce dataframe contient {raw_data.shape[0]} lignes et {raw_data.shape[1]} colonnes.")

Ce dataframe contient 1600000 lignes et 6 colonnes.


## Recommandations de mod√©lisation

Approches recommand√©es pour l'analyse de sentiment:

1. Approches classiques de Machine Learning:
   - Mod√®les bas√©s sur les sacs de mots (BoW) ou TF-IDF avec classifieurs comme R√©gression Logistique, SVM, Random Forest ou Naive Bayes

2. Word Embeddings + Deep Learning (2 mod√®les):
   - Utiliser des embeddings pr√©-entra√Æn√©s (Word2Vec, GloVe, FastText) avec des classifieurs Deep Learning
   - Utiliser des r√©seaux de neurones r√©currents (RNN, **LSTM**, GRU)

3. Mod√®les transformers (BERT, Sentence Transformers, RoBERTa, DistilBERT):
   - Fine-tuning de mod√®les pr√©-entra√Æn√©s sp√©cifiques √† Twitter comme BERTweet

Consid√©rations importantes:

1. D√©s√©quilibre des classes: utiliser des techniques comme SMOTE, sous-√©chantillonnage, ou pond√©ration des classes
2. Validation crois√©e: essentielle pour √©valuer correctement les performances
3. M√©triques d'√©valuation: ne pas se limiter √† l'accuracy, utiliser F1-score, pr√©cision, rappel, et AUC-ROC
4. Interpr√©tabilit√©: pour certaines applications, privil√©gier des mod√®les interpr√©tables ou utiliser SHAP/LIME
5. D√©pendance temporelle: consid√©rer l'√©volution du langage sur Twitter au fil du temps

**Notes du mentor :**

Voici le texte extrait de cette capture d'√©cran :

- Cr√©ation de deux mod√®les de Deep Learning, dont au moins un avec un layer LSTM.
- Simulation selon deux techniques de pr√©-traitement (lemmatization, stemming) sur l'un des 2 mod√®les, afin de choisir la technique pour la suite des simulations.
- Simulation selon 2 approches de word embedding (parmi Word2VEc, Glove, FastText), entra√Æn√©s avec le jeu de donn√©es ou pr√©-entra√Æn√©s sur au moins un des 2 mod√®les de Deep Learning, afin de choisir l'embedding pour la suite des simulations.
- Cr√©ation ensuite d'un mod√®le BERT, il y a 2 approches possibles :
  - G√©n√©rer des features (sentence embedding) √† partir d'un TFBertModel (Hugging Face) ou d'un d'un model via le Hub TensorFlow, puis ajouter une ou des couches de classification
  - Utiliser directement un mod√®le Hugging Face de type TFBertForSequenceClassification
- En option tester USE (Universal Sentence Encoding) pour le feature engineering

Probl√®mes et erreurs courants :
- Temps de traitement et limitation de ressources en TensorFlow-Keras.
- Inspirer des exemples de mod√®les cit√©s en ressources


## Approches classiques de Machine Learning

Notre d√©marche pour la classification de sentiment avec des approches classiques comprend:

1. **Pr√©traitement des tweets**
   - Nettoyage: suppression des caract√®res sp√©ciaux
   - Tokenisation et lemmatisation
   - Remplacement des URLs et mentions par des tokens sp√©ciaux

2. **Vectorisation du texte**
   - **Sac de mots (BoW)** : repr√©sentation bas√©e sur la fr√©quence d'apparition
   - **TF-IDF** : pond√©ration par importance relative des mots

3. **Mod√®les test√©s**
   - R√©gression Logistique: rapide et interpr√©table
   - SVM Lin√©aire: efficace pour les textes
   - Random Forest: robuste aux outliers
   - Naive Bayes: performant pour les classifications textuelles

4. **√âvaluation et suivi**
   - M√©triques: accuracy, pr√©cision, recall, F1-score
   - Tracking avec MLflow pour la reproductibilit√© et la comparaison

In [24]:
def convert_sentiment_label(df):
    converted_target_data = df.copy()
    converted_target_data['target'] = converted_target_data['target'].apply(lambda x: 0 if x == 0 else 1)
    return converted_target_data

converted_target_data = convert_sentiment_label(raw_data)

In [25]:
converted_target_data['target'].value_counts()

target
0    800000
1    800000
Name: count, dtype: int64

In [34]:
def downsample_data(df, n_samples=50000):
    """
    R√©duit la taille d'un DataFrame en √©chantillonnant al√©atoirement un nombre sp√©cifi√© de lignes pour chaque classe.
    """
    negative_samples = df[df['target'] == 0].sample(n=n_samples, random_state=42)
    positive_samples = df[df['target'] == 1].sample(n=n_samples, random_state=42)
    downsampled_data = pd.concat([negative_samples, positive_samples])
    return downsampled_data

downsampled_data = downsample_data(converted_target_data, n_samples=50000)
downsampled_data['target'].value_counts()

target
0    50000
1    50000
Name: count, dtype: int64

## Pr√©traitement

In [33]:
from multiprocessing import Pool

# Fonction de pr√©traitement pour les tweets
def preprocess_tweet(tweet):
    """
    Pr√©traite un tweet en appliquant plusieurs transformations :
    - Conversion en minuscules
    - Remplacement des URLs, mentions et hashtags par des tokens sp√©ciaux
    - Suppression des caract√®res sp√©ciaux
    - Tokenisation et lemmatisation
    - Suppression des stopwords
    """
    # V√©rifier si le tweet est une cha√Æne de caract√®res
    if not isinstance(tweet, str):
        return ""
    
    # Convertir en minuscules
    tweet = tweet.lower()
    
    # Remplacer les URLs par un token sp√©cial
    tweet = re.sub(r'https?://\S+|www\.\S+', '<URL>', tweet)
    
    # Remplacer les mentions par un token sp√©cial
    tweet = re.sub(r'@\w+', '<MENTION>', tweet)
    
    # Traiter les hashtags (conserver le # comme token s√©par√© et le mot qui suit)
    tweet = re.sub(r'#(\w+)', r'# \1', tweet)
    
    # Supprimer les caract√®res sp√©ciaux et les nombres, mais garder les tokens sp√©ciaux
    tweet = re.sub(r'[^\w\s<>@#!?]', '', tweet)
    
    # Tokenisation
    tokens = word_tokenize(tweet)
    
    # Lemmatisation
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(token) for token in tokens]
    
    # Supprimer les stopwords, mais conserver les n√©gations importantes
    stop_words = set(stopwords.words('english'))
    important_words = {'no', 'not', 'nor', 'neither', 'never', 'nobody', 'none', 'nothing', 'nowhere'}
    stop_words = stop_words - important_words
    tokens = [token for token in tokens if token not in stop_words]
    
    # Rejoindre les tokens en une cha√Æne
    return ' '.join(tokens)


def process_in_parallel(df, func, n_jobs=4):
    """
    Applique une fonction √† un DataFrame en le divisant en parties et en traitant chaque partie en parall√®le.
    Permet d'acc√©l√©rer le traitement sur les ordinateurs multi-coeurs.
    """
    df_split = np.array_split(df, n_jobs)
    pool = Pool(n_jobs)
    df = pd.concat(pool.map(func, df_split))
    pool.close()
    pool.join()
    return df

def apply_preprocessing(df_part):
    df_part['processed_text'] = df_part['text'].apply(preprocess_tweet)
    return df_part

In [37]:
# Appliquer le pr√©traitement √† tous les tweets
print("Pr√©traitement des tweets en cours...")
# downsampled_data['processed_text'] = downsampled_data['text'].apply(preprocess_tweet)
# Utilisation
preprocessed_data = process_in_parallel(downsampled_data, apply_preprocessing, n_jobs=8)
print("Pr√©traitement termin√© !")

Pr√©traitement des tweets en cours...


Pr√©traitement termin√© !


In [38]:
preprocessed_data.head()

Unnamed: 0,target,ids,date,flag,user,text,processed_text
212188,0,1974671194,Sat May 30 13:36:31 PDT 2009,NO_QUERY,simba98,@xnausikaax oh no! where did u order from? tha...,< MENTION > oh no ! u order ? thats horrible
299036,0,1997882236,Mon Jun 01 17:37:11 PDT 2009,NO_QUERY,Seve76,A great hard training weekend is over. a coup...,great hard training weekend couple day rest le...
475978,0,2177756662,Mon Jun 15 06:39:05 PDT 2009,NO_QUERY,x__claireyy__x,"Right, off to work Only 5 hours to go until I...",right work 5 hour go im free xd
588988,0,2216838047,Wed Jun 17 20:02:12 PDT 2009,NO_QUERY,Balasi,I am craving for japanese food,craving japanese food
138859,0,1880666283,Fri May 22 02:03:31 PDT 2009,NO_QUERY,djrickdawson,Jean Michel Jarre concert tomorrow gotta work...,jean michel jarre concert tomorrow got ta work...


## Division des donn√©es en ensembles d'entra√Ænement et de test

In [39]:
# Diviser les donn√©es en ensembles d'entra√Ænement et de test
from sklearn.model_selection import train_test_split

X = preprocessed_data['processed_text']
y = preprocessed_data['target']

# Division train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Taille de l'ensemble d'entra√Ænement: {X_train.shape[0]} exemples")
print(f"Taille de l'ensemble de test: {X_test.shape[0]} exemples")

Taille de l'ensemble d'entra√Ænement: 80000 exemples
Taille de l'ensemble de test: 20000 exemples


## Entra√Ænement des mod√®les et tracking avec MLflow

### Configuration de MLFlow

In [58]:
import mlflow
from mlflow.models import infer_signature
from mlflow import MlflowClient
from dotenv import load_dotenv

# Charger les variables d'environnement depuis le fichier .env
load_dotenv()

# Configuration de MLflow avec les variables d'environnement
mlflow_tracking_uri = os.getenv("MLFLOW_TRACKING_URI")
aws_access_key_id = os.getenv("AWS_ACCESS_KEY_ID")
aws_secret_access_key = os.getenv("AWS_SECRET_ACCESS_KEY")

# Configuration explicite de MLflow
mlflow.set_tracking_uri(mlflow_tracking_uri)
print(f"MLflow Tracking URI: {mlflow_tracking_uri}")

# Configuration explicite des identifiants AWS
os.environ["AWS_ACCESS_KEY_ID"] = aws_access_key_id
os.environ["AWS_SECRET_ACCESS_KEY"] = aws_secret_access_key
print("Identifiants AWS configur√©s")

MLflow Tracking URI: https://zany-orbit-q59ppqxj6j34j4x-5001.app.github.dev/
Identifiants AWS configur√©s


In [69]:
# Cr√©er l'exp√©rience MLflow
mlflow.set_experiment("OC Projet 7")

<Experiment: artifact_location='s3://mlflow-artefact-store/models/52', creation_time=1741945848821, experiment_id='52', last_update_time=1741945848821, lifecycle_stage='active', name='OC Projet 7', tags={}>

### Vectorisation des textes

La vectorisation est le processus qui transforme des documents textuels en vecteurs num√©riques exploitables par les algorithmes de machine learning. Les deux approches simples sont :

- **Bag of Words (BoW)** : compte simplement la fr√©quence d'apparition de chaque mot
- **TF-IDF** : pond√®re les mots selon leur importance (fr√©quence dans le document / fr√©quence dans tous les documents)

Ces m√©thodes cr√©ent des matrices g√©n√©ralement tr√®s creuses (>99% de z√©ros) car chaque document n'utilise qu'une petite partie du vocabulaire total. Dans notre impl√©mentation, nous utilisons `CountVectorizer` pour l'approche BoW et `TfidfVectorizer` pour le TF-IDF, avec des n-grammes (1,2) qui permettent de capturer des expressions de deux mots cons√©cutifs.


In [60]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

# Cr√©er les vectoriseurs
tfidf_vectorizer = TfidfVectorizer(max_features=10000, ngram_range=(1, 2))
bow_vectorizer = CountVectorizer(max_features=10000, ngram_range=(1, 2))


# Transformer les textes en vecteurs TF-IDF
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Transformer les textes en vecteurs BoW
X_train_bow = bow_vectorizer.fit_transform(X_train)
X_test_bow = bow_vectorizer.transform(X_test)

print("Vectorisation termin√©e !")

Vectorisation termin√©e !


### Fonction d'√©valuation des mod√®les

Dans le contexte d'un outil pr√©ventif de **d√©tection de bad buzz pour Air Paradis**, il est probablement plus important de **ne pas manquer de tweets n√©gatifs** (priorit√© au rappel), nous pouvons consid√©rer le **F2-score** qui donne plus de poids au rappel qu'√† la pr√©cision.

In [74]:
def evaluate_model(model, X_train, X_test, y_train, y_test, model_name, vectorizer_name):
    """
    √âvalue un mod√®le d√©j√† entra√Æn√© et retourne les r√©sultats
    """
    # Pr√©dictions sur l'ensemble de test
    y_pred = model.predict(X_test)
    
    # Obtenir les probabilit√©s ou scores de d√©cision pour ROC AUC
    if hasattr(model, 'predict_proba'):
        y_score = model.predict_proba(X_test)[:, 1]
    elif hasattr(model, 'decision_function'):
        y_score = model.decision_function(X_test)
    else:
        y_score = y_pred  # Fallback pour les mod√®les qui n'ont pas ces m√©thodes
    
    # Calculer les m√©triques
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    f2 = fbeta_score(y_test, y_pred, beta=2)  # Ajout du F2-score
    roc_auc = roc_auc_score(y_test, y_score)
    
    # Cr√©er la matrice de confusion sous forme de figure
    cm = confusion_matrix(y_test, y_pred)
    fig_cm, ax_cm = plt.subplots(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax_cm)
    ax_cm.set_xlabel('Pr√©diction')
    ax_cm.set_ylabel('Valeur r√©elle')
    ax_cm.set_title(f'Matrice de confusion - {model_name} avec {vectorizer_name}')
    
    # Cr√©er la courbe ROC
    fpr, tpr, _ = roc_curve(y_test, y_score)
    fig_roc, ax_roc = plt.subplots(figsize=(8, 6))
    ax_roc.plot(fpr, tpr, label=f'ROC curve (AUC = {roc_auc:.3f})')
    ax_roc.plot([0, 1], [0, 1], 'k--')
    ax_roc.set_xlim([0.0, 1.0])
    ax_roc.set_ylim([0.0, 1.05])
    ax_roc.set_xlabel('Taux de faux positifs')
    ax_roc.set_ylabel('Taux de vrais positifs')
    ax_roc.set_title(f'Courbe ROC - {model_name} avec {vectorizer_name}')
    ax_roc.legend(loc="lower right")
    ax_roc.grid(True)
    
    # Afficher les r√©sultats
    print(f"\nR√©sultats pour {model_name} avec {vectorizer_name}:")
    print(f"Accuracy: {accuracy:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"Recall: {recall:.4f}")
    print(f"F1 Score: {f1:.4f}")
    print(f"F2 Score: {f2:.4f}")  # Ajout du F2-score
    print(f"ROC AUC: {roc_auc:.4f}")
    print("\nMatrice de confusion:")
    print(cm)
    print("\nRapport de classification:")
    print(classification_report(y_test, y_pred))
    
    return accuracy, precision, recall, f1, f2, roc_auc, fig_cm, fig_roc, y_pred

### Initialiser les mod√®les √† tester

Voici la liste des mod√®les que nous allons tester :

- R√©gression Logistique
- SVM Lin√©aire
- For√™t Al√©atoire
- Naive Bayes

In [73]:
# Initialiser les mod√®les √† tester
base_models = {
    "Regression_Logistique": LogisticRegression(random_state=42),
    "SVM_Lineaire": LinearSVC(random_state=42),
    "Random_Forest": RandomForestClassifier(random_state=42),
    "Naive_Bayes": MultinomialNB()
}

# D√©finir les grilles d'hyperparam√®tres pour GridSearchCV
param_grids = {
    "Regression_Logistique": {
        'C': [0.01, 0.1, 1.0, 10.0],
        'max_iter': [1000],
        'solver': ['liblinear', 'saga']
    },
    "SVM_Lineaire": {
        'C': [0.01, 0.1, 1.0, 10.0],
        'max_iter': [1000],
        'dual': [True, False]
    },
    "Random_Forest": {
        'n_estimators': [50, 100, 200],
        'max_depth': [None, 10, 20],
        'min_samples_split': [2, 5]
    },
    "Naive_Bayes": {
        'alpha': [0.1, 0.5, 1.0, 2.0]
    }
}

# Dictionnaire des vectoriseurs
vectorizers = {
    "TF-IDF": (tfidf_vectorizer, X_train_tfidf, X_test_tfidf),
    "BoW": (bow_vectorizer, X_train_bow, X_test_bow)
}

# D√©finir le scorer F2
scorers = {
    'f2': make_scorer(fbeta_score, beta=2),
    'f1': make_scorer(f1_score),
    'mcc': make_scorer(matthews_corrcoef),
    'balanced_acc': make_scorer(balanced_accuracy_score)
}

# Dictionnaire pour stocker les r√©sultats
results = []

In [None]:
# Tester chaque mod√®le avec les deux types de vectorisation
total_iterations = len(base_models) * len(vectorizers)
progress_bar = tqdm(total=total_iterations, desc="Progression globale")

# Tester chaque mod√®le avec les deux types de vectorisation
for model_name, base_model in base_models.items():
    for vectorizer_name, (vectorizer, X_train_vec, X_test_vec) in vectorizers.items():
        print(f"\n{'='*80}")
        print(f"D√©marrage de GridSearchCV pour {model_name} avec {vectorizer_name}...")
        
        # D√©finir la grille de param√®tres et cr√©er GridSearchCV
        param_grid = param_grids[model_name]

        grid_search = GridSearchCV(
            base_model,
            param_grid,
            cv=5,
            scoring=scorers,
            refit='f2',
            n_jobs=-1,
            verbose=1,
            return_train_score=True
        )
        
        # D√©marrer le run MLflow
        with mlflow.start_run(run_name=f"Modele_Simple_{model_name}_{vectorizer_name}"):
            # Journaliser les param√®tres g√©n√©raux
            mlflow.log_param("model_type", model_name)
            mlflow.log_param("vectorizer_type", vectorizer_name)
            mlflow.log_param("dataset_size", X_train.shape[0] + X_test.shape[0])
            mlflow.log_param("train_size", X_train.shape[0])
            mlflow.log_param("test_size", X_test.shape[0])
            mlflow.log_param("max_features", 10000)
            mlflow.log_param("ngram_range", "(1, 2)")
            mlflow.log_param("scoring_metric", "f2_score")  # Noter que F2 est utilis√©
            
            # Mesurer le temps d'entra√Ænement
            start_time = time.time()
            
            # Entra√Æner avec GridSearchCV
            grid_search.fit(X_train_vec, y_train)
            
            # Calculer le temps d'entra√Ænement
            training_time = time.time() - start_time
            
            # Journaliser le temps d'entra√Ænement
            mlflow.log_metric("training_time", training_time)
            
            # R√©cup√©rer et journaliser les meilleurs param√®tres
            best_params = grid_search.best_params_
            for param, value in best_params.items():
                mlflow.log_param(f"best_{param}", value)
            
            # Journaliser le meilleur score de validation crois√©e
            mlflow.log_metric("best_cv_f2_score", grid_search.best_score_)
            
            # R√©cup√©rer le meilleur mod√®le
            best_model = grid_search.best_estimator_
            
            # √âvaluer le meilleur mod√®le sur l'ensemble de test
            acc, prec, rec, f1, f2, roc_auc, fig_cm, fig_roc, y_pred = evaluate_model(
                best_model, X_train_vec, X_test_vec, y_train, y_test, model_name, vectorizer_name
            )
            
            # Journaliser les m√©triques
            mlflow.log_metric("accuracy", acc)
            mlflow.log_metric("precision", prec)
            mlflow.log_metric("recall", rec)
            mlflow.log_metric("f1", f1)
            mlflow.log_metric("f2", f2)
            mlflow.log_metric("roc_auc", roc_auc)
            
            # Journaliser les figures
            mlflow.log_figure(fig_cm, "confusion_matrix.png")
            mlflow.log_figure(fig_roc, "roc_curve.png")
            plt.close(fig_cm)
            plt.close(fig_roc)
            
            # Journaliser le mod√®le
            signature = infer_signature(X_train_vec, y_pred)
            mlflow.sklearn.log_model(best_model, "model", signature=signature)
            
            # Sauvegarder et journaliser le vectoriseur
            vectorizer_path = f"vectorizer_{vectorizer_name}.pkl"
            with open(vectorizer_path, "wb") as f:
                pickle.dump(vectorizer, f)
            mlflow.log_artifact(vectorizer_path)
            
            # Journaliser les r√©sultats d√©taill√©s de GridSearchCV
            cv_results = pd.DataFrame(grid_search.cv_results_)
            cv_results_path = "cv_results.csv"
            cv_results.to_csv(cv_results_path, index=False)
            mlflow.log_artifact(cv_results_path)
            
            # Cr√©er et journaliser un graphique des r√©sultats de GridSearchCV
            plt.figure(figsize=(12, 8))
            params = [f"{k}={v}" for k, v in best_params.items()]
            params_str = ", ".join(params)
            
            # Extraire les scores moyens pour chaque param√®tre principal
            for param in param_grid.keys():
                if len(param_grid[param]) > 1:  # Seulement si le param√®tre a plusieurs valeurs
                    param_name = f"param_{param}"
                    if param_name in cv_results.columns:
                        # Utiliser la colonne sp√©cifique √† la m√©trique f2 (que vous avez d√©finie comme principale)
                        scores_df = cv_results[[param_name, "mean_test_f2", "std_test_f2"]]
                        scores_df = scores_df.sort_values(param_name)
                        
                        plt.figure(figsize=(10, 6))
                        plt.errorbar(
                            scores_df[param_name].astype(str),
                            scores_df["mean_test_f2"],
                            yerr=scores_df["std_test_f2"],
                            fmt='-o'
                        )
                        plt.title(f'Scores de validation crois√©e (F2) par {param}')
                        plt.xlabel(param)
                        plt.ylabel('F2 Score moyen')
                        plt.grid(True)
                        mlflow.log_figure(plt.gcf(), f"cv_results_{param}.png")
                        plt.close()
            
            # Journaliser les features importantes (pour les mod√®les qui le supportent)
            if hasattr(best_model, 'coef_'):
                # R√©cup√©rer les features les plus importantes
                if isinstance(best_model, LogisticRegression) or isinstance(best_model, LinearSVC):
                    coefs = best_model.coef_[0]
                    if vectorizer_name == "TF-IDF":
                        feature_names = tfidf_vectorizer.get_feature_names_out()
                    else:
                        feature_names = bow_vectorizer.get_feature_names_out()
                    
                    # Cr√©er un DataFrame avec les coefs et les noms des features
                    coefs_df = pd.DataFrame({
                        'feature': feature_names,
                        'importance': coefs
                    })
                    
                    # Trier par importance absolue
                    coefs_df['abs_importance'] = abs(coefs_df['importance'])
                    coefs_df = coefs_df.sort_values('abs_importance', ascending=False).head(20)
                    
                    # Journaliser les features les plus importantes
                    top_features_path = "top_features.csv"
                    coefs_df.to_csv(top_features_path, index=False)
                    mlflow.log_artifact(top_features_path)
                    
                    # Cr√©er un graphique pour visualiser les features les plus importantes
                    plt.figure(figsize=(10, 8))
                    sns.barplot(x='importance', y='feature', data=coefs_df.sort_values('importance', ascending=False).head(20))
                    plt.title(f'Top 20 features positives')
                    plt.tight_layout()
                    mlflow.log_figure(plt.gcf(), "top_positive_features.png")
                    plt.close()
                    
                    plt.figure(figsize=(10, 8))
                    sns.barplot(x='importance', y='feature', data=coefs_df.sort_values('importance').head(20))
                    plt.title(f'Top 20 features n√©gatives')
                    plt.tight_layout()
                    mlflow.log_figure(plt.gcf(), "top_negative_features.png")
                    plt.close()
            
            # Stocker les r√©sultats pour comparaison
            results.append({
                "Mod√®le": model_name.replace("_", " "),
                "Vectorisation": vectorizer_name,
                "Meilleurs param√®tres": str(best_params),
                "Accuracy": acc,
                "Precision": prec,
                "Recall": rec,
                "F1 Score": f1,
                "F2 Score": f2,
                "ROC AUC": roc_auc,
                "Temps d'entra√Ænement (s)": training_time
            })
            
            # Afficher les r√©sultats
            print(f"Meilleurs param√®tres: {best_params}")
            print(f"Meilleur score CV (F2): {grid_search.best_score_:.4f}")
            print(f"F1 Score sur test: {f1:.4f}")
            print(f"F2 Score sur test: {f2:.4f}")
            print(f"ROC AUC sur test: {roc_auc:.4f}")
            print(f"Temps d'entra√Ænement: {training_time:.2f} secondes")


        # √Ä la fin de chaque it√©ration, mettez √† jour la barre de progression
        progress_bar.update(1)
        progress_bar.set_description(f"Dernier mod√®le: {model_name} avec {vectorizer_name}")

progress_bar.close()

In [None]:
# Cr√©er un tableau r√©capitulatif des r√©sultats
results_df = pd.DataFrame(results)
results_df

In [None]:
# Cr√©er un run sp√©cial pour le r√©capitulatif
with mlflow.start_run(run_name="Modele_Simple_Recapitulatif"):
    # Journaliser le tableau des r√©sultats
    results_path = "model_comparison_results.csv"
    results_df.to_csv(results_path, index=False)
    mlflow.log_artifact(results_path)
    
    # Cr√©er et journaliser un graphique de comparaison des performances F1
    plt.figure(figsize=(14, 8))
    plot_data_f1 = results_df.pivot(index='Mod√®le', columns='Vectorisation', values='F1 Score')
    ax_f1 = plot_data_f1.plot(kind='bar', rot=0)
    plt.title('Comparaison des mod√®les et vectorisations (F1 Score)')
    plt.ylabel('F1 Score')
    plt.ylim(0.6, 1.0)
    plt.legend(title='Vectorisation')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    for container in ax_f1.containers:
        ax_f1.bar_label(container, fmt='%.3f', padding=3)
    plt.tight_layout()
    mlflow.log_figure(plt.gcf(), "model_comparison_f1.png")
    plt.close()
    
    # Cr√©er et journaliser un graphique de comparaison des performances F2
    plt.figure(figsize=(14, 8))
    plot_data_f2 = results_df.pivot(index='Mod√®le', columns='Vectorisation', values='F2 Score')
    ax_f2 = plot_data_f2.plot(kind='bar', rot=0)
    plt.title('Comparaison des mod√®les et vectorisations (F2 Score)')
    plt.ylabel('F2 Score')
    plt.ylim(0.6, 1.0)
    plt.legend(title='Vectorisation')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    for container in ax_f2.containers:
        ax_f2.bar_label(container, fmt='%.3f', padding=3)
    plt.tight_layout()
    mlflow.log_figure(plt.gcf(), "model_comparison_f2.png")
    plt.close()
    
    # Cr√©er et journaliser un graphique de comparaison des performances ROC AUC
    plt.figure(figsize=(14, 8))
    plot_data_roc = results_df.pivot(index='Mod√®le', columns='Vectorisation', values='ROC AUC')
    ax_roc = plot_data_roc.plot(kind='bar', rot=0)
    plt.title('Comparaison des mod√®les et vectorisations (ROC AUC)')
    plt.ylabel('ROC AUC')
    plt.ylim(0.6, 1.0)
    plt.legend(title='Vectorisation')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    for container in ax_roc.containers:
        ax_roc.bar_label(container, fmt='%.3f', padding=3)
    plt.tight_layout()
    mlflow.log_figure(plt.gcf(), "model_comparison_roc_auc.png")
    plt.close()
    
    # Journaliser le meilleur mod√®le selon F2 (puisque c'est notre m√©trique principale maintenant)
    best_model_row = results_df.loc[results_df['F2 Score'].idxmax()]
    best_model_name = best_model_row['Mod√®le'].replace(" ", "_")
    best_vectorizer = best_model_row['Vectorisation']
    
    print(f"\nMeilleur mod√®le (selon F2): {best_model_row['Mod√®le']} avec {best_vectorizer}")
    print(f"F1 Score: {best_model_row['F1 Score']:.4f}")
    print(f"F2 Score: {best_model_row['F2 Score']:.4f}")
    print(f"ROC AUC: {best_model_row['ROC AUC']:.4f}")
    print(f"Meilleurs param√®tres: {best_model_row['Meilleurs param√®tres']}")
    
    # Journaliser des informations sur le meilleur mod√®le
    mlflow.log_param("best_model", f"{best_model_row['Mod√®le']} avec {best_vectorizer}")
    mlflow.log_param("best_model_f1", best_model_row['F1 Score'])
    mlflow.log_param("best_model_f2", best_model_row['F2 Score'])
    mlflow.log_param("best_model_roc_auc", best_model_row['ROC AUC'])
    mlflow.log_param("best_model_params", best_model_row['Meilleurs param√®tres'])
    
    # Afficher le tableau des r√©sultats
    print("\nR√©capitulatif des r√©sultats:")
    display(results_df)

In [None]:
# Sauvegarder le meilleur mod√®le pour utilisation future
def save_best_model(results_df):
    best_model_row = results_df.loc[results_df['F2 Score'].idxmax()]  # Utiliser F2 maintenant
    best_model_name = best_model_row['Mod√®le'].replace(" ", "_")
    best_vectorizer = best_model_row['Vectorisation']
    
    # Charger le meilleur mod√®le depuis MLflow
    client = MlflowClient()
    
    # Trouver le run correspondant au meilleur mod√®le
    runs = client.search_runs(
        experiment_ids=[mlflow.get_experiment_by_name("OC Projet 7").experiment_id],
        filter_string=f"tags.mlflow.runName = 'Modele_Simple_{best_model_name}_{best_vectorizer}'"
    )
    
    if runs:
        best_run = runs[0]
        run_id = best_run.info.run_id
        
        # Charger le mod√®le depuis MLflow
        model_uri = f"runs:/{run_id}/model"
        best_model = mlflow.sklearn.load_model(model_uri)
        
        # Charger le vectoriseur depuis les artefacts
        client.download_artifacts(run_id, f"vectorizer_{best_vectorizer}.pkl", "./")
        with open(f"./vectorizer_{best_vectorizer}.pkl", "rb") as f:
            vectorizer = pickle.load(f)
        
        # Cr√©er le dossier de mod√®les s'il n'existe pas
        os.makedirs("./content/models", exist_ok=True)
        
        # Sauvegarder le mod√®le
        model_path = f"./content/models/best_model_{best_model_name}_{best_vectorizer}.pkl"
        with open(model_path, "wb") as f:
            pickle.dump(best_model, f)
        
        # Sauvegarder le vectoriseur
        vectorizer_path = f"./content/models/vectorizer_{best_vectorizer}.pkl"
        with open(vectorizer_path, "wb") as f:
            pickle.dump(vectorizer, f)
        
        print(f"Meilleur mod√®le ({best_model_row['Mod√®le']} avec {best_vectorizer}) sauvegard√© dans le dossier './content/models'")
        print(f"Chemin du mod√®le: {model_path}")
        print(f"Chemin du vectoriseur: {vectorizer_path}")
        
        # Test du mod√®le charg√©
        if best_vectorizer == "TF-IDF":
            X_test_vec = X_test_tfidf
        else:
            X_test_vec = X_test_bow
            
        y_pred = best_model.predict(X_test_vec)
        f1 = f1_score(y_test, y_pred)
        f2 = fbeta_score(y_test, y_pred, beta=2)
        print(f"F1 Score du meilleur mod√®le sauvegard√©: {f1:.4f}")
        print(f"F2 Score du meilleur mod√®le sauvegard√©: {f2:.4f}")
        
        return best_model, vectorizer, best_model_row['Mod√®le'], best_vectorizer
    else:
        print("Aucun run trouv√© pour le meilleur mod√®le!")
        return None, None, None, None

In [None]:
# Sauvegarder le meilleur mod√®le
best_model, vectorizer, best_model_name, best_vectorizer = save_best_model(results_df)

In [None]:
# Fonction de pr√©diction pour l'API
def predict_sentiment(text, model=best_model, vect=vectorizer):
    """
    Fonction qui prend un texte en entr√©e et retourne la pr√©diction du sentiment
    Cette fonction pourra √™tre utilis√©e dans l'API
    """
    # Pr√©traiter le texte
    processed_text = preprocess_tweet(text)
    
    # Vectoriser
    text_vectorized = vect.transform([processed_text])
    
    # Pr√©dire
    prediction = model.predict(text_vectorized)[0]
    
    # R√©cup√©rer la probabilit√© si le mod√®le le permet
    if hasattr(model, 'predict_proba'):
        probas = model.predict_proba(text_vectorized)[0]
        confidence = probas[1] if prediction == 1 else probas[0]
    else:
        # Pour les mod√®les sans predict_proba, comme SVM
        decision = model.decision_function(text_vectorized)[0] if hasattr(model, 'decision_function') else 0
        confidence = abs(decision) / 2  # Normaliser d'une certaine fa√ßon
    
    return {
        'sentiment': 'positif' if prediction == 1 else 'n√©gatif',
        'score': float(confidence),
        'model': best_model_name,
        'vectorizer': best_vectorizer
    }

Ajouter des emojis, caract√®res sp√©ciaux, ponctuations, fautes d'orthographe, langage internet (lol, wtf)

In [None]:
# Tester la fonction de pr√©diction sur quelques exemples
def test_model_on_examples(model, vectorizer):
    # Quelques exemples de tweets pour tester le mod√®le
    test_tweets = [
        "I love this flight, the service was amazing! #happy",
        "Worst flight ever, delayed for 3 hours and no explanation @airline",
        "Nice plane but the food was not good enough.",
        "The staff was helpful but the seats were uncomfortable for a long flight",
        "Amazing experience with Air Paradis today! Great customer service!"
    ]
    
    print("\nTest du meilleur mod√®le sur quelques exemples:")
    for i, tweet in enumerate(test_tweets):
        result = predict_sentiment(tweet, model, vectorizer)
        print(f"Tweet {i+1}: {tweet}")
        print(f"Sentiment pr√©dit: {result['sentiment']} (score de confiance: {result['score']:.4f})\n")

# Ex√©cuter les tests si le mod√®le a √©t√© correctement charg√©
if best_model is not None and vectorizer is not None:
    test_model_on_examples(best_model, vectorizer)

In [None]:
# Conclusion et √©tapes suivantes
print("""
## Conclusion de l'approche "Mod√®le Simple"

Nous avons d√©velopp√© plusieurs mod√®les classiques pour la d√©tection de sentiment dans les tweets,
en utilisant une optimisation des hyperparam√®tres via GridSearchCV optimis√©e sur le F2-score
pour privil√©gier le rappel (capacit√© √† ne pas manquer de tweets n√©gatifs) :

1. R√©gression Logistique
2. SVM Lin√©aire
3. Random Forest
4. Naive Bayes

Chaque mod√®le a √©t√© test√© avec deux types de vectorisation :
- Sac de mots (BoW)
- TF-IDF

Le meilleur mod√®le selon le F2-score est {best_model_name} avec la vectorisation {best_vectorizer}, 
atteignant un F2 Score de {best_f2:.4f}, un F1 Score de {best_f1:.4f} et un ROC AUC de {best_roc_auc:.4f}.

Les hyperparam√®tres optimaux trouv√©s pour ce mod√®le sont : {best_params}

### Avantages du workflow impl√©ment√© :

1. **Focalisation sur le rappel avec F2-score** :
   - R√©duit le risque de manquer des tweets n√©gatifs (bad buzz potentiels)
   - Particuli√®rement adapt√© pour l'anticipation des probl√®mes de r√©putation

2. **Suivi complet des exp√©riences avec MLflow** :
   - Tracking de toutes les m√©triques importantes
   - Sauvegarde des mod√®les et vectoriseurs
   - Visualisations des performances

3. **Optimisation syst√©matique** :
   - Recherche sur grille des meilleurs hyperparam√®tres
   - Validation crois√©e pour √©viter le surapprentissage
   - Comparaison rigoureuse des performances

4. **Pr√©traitement adapt√© aux tweets** :
   - Traitement sp√©cifique des URLs, mentions et hashtags
   - Conservation des n√©gations et autres √©l√©ments linguistiques importants
   - Features suppl√©mentaires bas√©es sur l'analyse des donn√©es

### Prochaines √©tapes :

1. **D√©velopper le mod√®le sur mesure avanc√©** utilisant des r√©seaux de neurones et des word embeddings
2. **Tester l'approche avec BERT** pour comparer les performances
3. **D√©ployer le mod√®le via une API** pour le rendre accessible √† d'autres applications
4. **Mettre en place le suivi MLOps** pour monitorer les performances du mod√®le en production

Le mod√®le actuel servira de r√©f√©rence (baseline) pour √©valuer les am√©liorations apport√©es par 
les approches plus avanc√©es.
""".format(
    best_model_name=best_model_name,
    best_vectorizer=best_vectorizer,
    best_f1=best_model_row['F1 Score'],
    best_f2=best_model_row['F2 Score'],
    best_roc_auc=best_model_row['ROC AUC'],
    best_params=best_model_row['Meilleurs param√®tres']
))

## Explications d√©taill√©es

Le code complet int√®gre plusieurs pratiques MLOps avanc√©es:

### 1. Optimisation des hyperparam√®tres avec GridSearchCV

J'ai impl√©ment√© GridSearchCV pour chaque combinaison de mod√®le et vectoriseur. Cela permet d'explorer syst√©matiquement l'espace des hyperparam√®tres pour trouver la configuration optimale. Pour chaque mod√®le, j'ai d√©fini une grille de param√®tres pertinents:

- **R√©gression Logistique**: diff√©rentes valeurs de r√©gularisation (C), types de solveurs
- **SVM**: diff√©rentes valeurs de C, options de dualit√©
- **Random Forest**: nombre d'arbres, profondeur maximale, crit√®res de division
- **Naive Bayes**: diff√©rentes valeurs pour le param√®tre de lissage alpha

L'optimisation est effectu√©e avec validation crois√©e √† 5 plis (5-fold) pour garantir la robustesse des r√©sultats.

### 2. Tracking complet avec MLflow

Pour chaque exp√©rience, j'enregistre dans MLflow:

- **Param√®tres**: tous les hyperparam√®tres utilis√©s, y compris les meilleurs trouv√©s par GridSearchCV
- **M√©triques**: accuracy, precision, recall, F1 score, ROC AUC, temps d'entra√Ænement
- **Artifacts**: 
  - Le mod√®le optimis√© avec sa signature d'entr√©e/sortie
  - Le vectoriseur utilis√© (nouveaut√© demand√©e)
  - La matrice de confusion et la courbe ROC
  - Les r√©sultats d√©taill√©s de la validation crois√©e
  - Les features les plus importantes (pour les mod√®les qui le permettent)
  - Des graphiques d'analyse de l'influence des hyperparam√®tres

### 3. R√©capitulatif global et analyse comparative

Un run sp√©cial "Recapitulatif" est cr√©√© pour comparer tous les mod√®les:

- Tableau comparatif avec toutes les m√©triques
- Graphiques de comparaison pour F1 Score et ROC AUC
- Identification et journalisation du meilleur mod√®le

### 4. Sauvegarde et utilisation du meilleur mod√®le

J'ai impl√©ment√© une m√©thode sophistiqu√©e pour:

1. Identifier le meilleur mod√®le dans l'historique MLflow
2. Le r√©cup√©rer avec son vectoriseur
3. Sauvegarder les deux dans un dossier local sp√©cifi√© ("./content/models")
4. Cr√©er une fonction de pr√©diction pr√™te pour l'API

### 5. Visualisations avanc√©es

Pour faciliter l'analyse:

- Matrices de confusion pour chaque mod√®le
- Courbes ROC avec AUC calcul√©
- Graphiques des features les plus importantes
- Graphiques d'√©volution des scores en fonction des hyperparam√®tres

### Avantages de cette approche

1. **Reproductibilit√©**: Tous les d√©tails des exp√©riences sont enregistr√©s
2. **Tra√ßabilit√©**: Tu peux facilement suivre l'√©volution des performances
3. **Maintenabilit√©**: Le code est modulaire et bien document√©
4. **Optimisation automatique**: La recherche des meilleurs hyperparam√®tres est syst√©matique
5. **Facilit√© d'int√©gration**: Le mod√®le et vectoriseur sont sauvegard√©s pr√™ts pour le d√©ploiement

Cette impl√©mentation suit les bonnes pratiques MLOps et pose des bases solides pour les √©tapes suivantes du projet, notamment le d√©veloppement de mod√®les plus avanc√©s et leur d√©ploiement.

### Prochaines √©tapes :

1. **D√©velopper le mod√®le sur mesure avanc√©** utilisant des r√©seaux de neurones et des word embeddings
2. **Tester l'approche avec BERT** pour comparer les performances
3. **D√©ployer le mod√®le via une API** pour le rendre accessible √† d'autres applications
4. **Mettre en place le suivi MLOps** pour monitorer les performances du mod√®le en production