In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split, cross_val_score, cross_validate, learning_curve
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score, roc_curve, auc, precision_score, recall_score, roc_curve, f1_score

from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
import mlflow
import re
import time
import pickle

#mlflow.set_tracking_uri("http://mlflow-server:5000")


In [None]:
import mlflow
import os

# Définir un nouveau répertoire de suivi, par exemple, un dossier spécifique pour les expériences MLflow
tracking_dir = "/tmp/mlruns"  # Vous pouvez choisir un autre répertoire si nécessaire
os.makedirs(tracking_dir, exist_ok=True)  # Crée le dossier s'il n'existe pas

#mlflow.set_tracking_uri(f"file://{tracking_dir}")
mlflow.set_tracking_uri("http://localhost:5000")



In [None]:
# tracking experiment in mlflow
#mlflow.set_experiment("1-modele-simple")
#Nom de l'expérience
# experiment_name = "modele-simple"

# from mlflow.tracking import MlflowClient
# # Assurer que l'expérience existe et récupérer son ID
# client = MlflowClient()
# try:
#     experiment_id = client.create_experiment(experiment_name)
# except mlflow.exceptions.RestException:
#     experiment_id = client.get_experiment_by_name(experiment_name).experiment_id

#experiment_id = 0

## 1. Chargement des données

In [None]:
path = '/code/data/archive/'
df = pd.read_csv(path + 'training.1600000.processed.noemoticon.csv', sep=',',  encoding='latin-1')

df.info()

In [None]:
# Mettre un header au dataframe
df.columns = ['target', 'ids', 'date', 'flag', 'user', 'text']

In [None]:
# Supprimer toutes les lignes ayant des doublons dans la colonne 'text', y compris la première occurrence
display(df.shape)
df = df[~df['text'].duplicated(keep=False)].reset_index(drop=True)

# Vérifier le nombre de lignes après suppression
print(f"Nombre de lignes après suppression complète des doublons :\n {df.shape}")


In [None]:
# Vérifier s'il y a des valeurs manquantes dans la colonne 'target'
missing_target_count = df['target'].isnull().sum()

if missing_target_count == 0:
    print("Toutes les lignes de la colonne 'target' contiennent une valeur.")
else:
    print(f"Il y a {missing_target_count} lignes sans valeur dans la colonne 'target'.")


In [None]:
# Voir les valeurs uniques du dataframe
df.nunique()

In [None]:
# Voir si il y a des valeurs manquantes
df.isnull().sum()

### Distribion des valeurs de la colonne 'target' .

In [None]:
# Créer un histogramme des valeurs de la colonne 'target' avec des étiquettes spécifiques et le nombre total de valeurs

# Compter les occurrences de chaque valeur unique dans 'target' avec les valeurs 0, 2, et 4
target_counts = df['target'].value_counts().reindex([0, 2, 4], fill_value=0)

# Configurer le graphique
plt.figure(figsize=(8, 6))
bars = plt.bar(['Negative (0)', 'Neutral (2)', 'Positive (4)'], target_counts, color='skyblue', edgecolor='black')

# Ajouter les annotations (le nombre total au-dessus de chaque colonne)
for bar, count in zip(bars, target_counts):
    plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height(), f'{count}', ha='center', va='bottom', fontsize=12)

# Personnaliser l'apparence du graphique
plt.title("Distribution des valeurs de la colonne 'target'")
plt.xlabel("Polarity of Tweet")
plt.ylabel("Frequency")
plt.show()

### Analyse du graphique

Le graphique ci-dessus montre la distribution des valeurs de la colonne `target` dans votre dataset de tweets, qui est utilisé pour l'analyse de sentiments. Voici une analyse détaillée :

1. **Distribution des sentiments** : Le graphique indique qu'il y a deux catégories majoritaires :
   - **Negative (0)** : 799,999 tweets
   - **Positive (4)** : 800,000 tweets
   - **Neutral (2)** : Aucun tweet n'est présent dans cette catégorie.

   Cela signifie que le dataset est composé exclusivement de sentiments polarisés, soit négatifs, soit positifs, sans tweets neutres. Cela pourrait poser un défi pour les modèles d'apprentissage, car ils ne verront aucune donnée pour la catégorie "neutre".

2. **Équilibre des classes** : Les deux classes `Negative` et `Positive` sont presque parfaitement équilibrées, avec seulement un tweet de différence. Cet équilibre est avantageux pour l'apprentissage supervisé car il minimise les risques de biais en faveur d'une classe spécifique.

3. **Données manquantes** : L'absence de tweets neutres (valeur `2`) peut poser problème si l'on souhaite modéliser ou prédire cette classe. Si une détection de sentiment neutre est requise, il serait idéal de compléter le dataset avec des tweets de cette catégorie.

### Conclusion

Le graphique de distribution des valeurs de la colonne `target` montre une absence de tweets neutres (valeur `2`). Étant donné que seules les catégories **Negative (0)** et **Positive (4)** sont présentes en quantités équilibrées, il est judicieux de simplifier le problème en une **classification binaire** entre sentiments négatifs et positifs.

Cette approche de classification binaire sera plus efficace, car il n'y a pas de données pour entraîner un modèle à détecter les tweets neutres.


## MLFlow

- Fonction pour intégrer MLFLOW pour chaque modèle de machine learning testé.

In [None]:
# Filtrer pour un sous-ensemble
df_sample = df.sample(frac=0.5, random_state=42)
df_data = df_sample[['target', 'text']]
df_data.sample(5)

In [None]:
df_sample['target'].value_counts()

In [None]:
# Définir les features et labels
df_sample['target'] = df_sample['target'].apply(lambda x: 1 if x == 4 else 0) 

In [None]:
df_sample['target'].value_counts()
df_sample.to_pickle('df_sample.pkl')

In [None]:
df_data.info()

In [None]:
# Initialisation de NLTK
nltk.download('stopwords')
nltk.download('wordnet')


In [None]:
# Définir les stopwords anglais
english_stopwords = list(set(stopwords.words('english')))

In [None]:
# Classe de prétraitement et vectorisation des tweets
class TweetVectorizer:
    def __init__(self, vectorizer_type='tfidf', method='lemmatize'):
        self.vectorizer_type = vectorizer_type
        self.method = method
        self.stemmer = PorterStemmer()
        self.lemmatizer = WordNetLemmatizer()
        
        # Initialiser le vectorizer
        if vectorizer_type == 'count':
            self.vectorizer = CountVectorizer(stop_words=english_stopwords)
        elif vectorizer_type == 'tfidf':
            self.vectorizer = TfidfVectorizer(stop_words=english_stopwords)
        else:
            raise ValueError("vectorizer_type doit être 'count' ou 'tfidf'")
    
    def clean_tweet(self, tweet):
        # Convertir le tweet en minuscules
        tweet = tweet.lower()
        # Supprimer les URL commencant par 'http' ou 'https' ou 'www'
        tweet = re.sub(r'www\S+', '', tweet)
        tweet = re.sub(r'http\S+', '', tweet)
        # Supprimer les mentions
        tweet = re.sub(r'@\w+', '', tweet)
        # Supprimer les hashtags
        tweet = re.sub(r'#\w+', '', tweet)
        # Supprimer les caractères spéciaux et les chiffres
        tweet = re.sub(r'[^A-Za-z ]+', ' ', tweet)
        # Supprimer les espaces supplémentaires
        tweet = re.sub(r'\s+', ' ', tweet)
        return tweet
        
    def preprocess(self, tweet):
        cleaned_tweet = self.clean_tweet(tweet)
        tokens = cleaned_tweet.split()
        
        # Appliquer le stemming ou la lemmatisation
        if self.method == 'stem':
            tokens = [self.stemmer.stem(token) for token in tokens]
        elif self.method == 'lemmatize':
            tokens = [self.lemmatizer.lemmatize(token) for token in tokens]
        
        return ' '.join(tokens)
    
    def fit_transform(self, documents):
        # Prétraitement des documents
        documents_preprocessed = [self.preprocess(doc) for doc in documents]
        
        # Suivi de la vectorisation dans MLflow
        with mlflow.start_run(run_name="Vectorization", nested=True):
            mlflow.set_tag("Stage", "Vectorization")
            mlflow.set_tag("vectorizer_type", self.vectorizer_type)
            mlflow.set_tag("preprocessing_method", self.method)
            
            # Enregistrer le temps de traitement de la vectorisation
            start_time = time.time()
            self.vectorizer.fit(documents_preprocessed)  # Correction: Entraînement du vectorizer avant la transformation
            X = self.vectorizer.transform(documents_preprocessed)  # Transformation des données
            
            end_time = time.time()
            processing_time = end_time - start_time
            mlflow.log_metric("vectorization_time_seconds", processing_time)
            
            # Enregistrer la densité de la matrice de caractéristiques
            density = X.nnz / float(X.shape[0] * X.shape[1])
            mlflow.log_metric("matrix_density", density)
            
            # Enregistrer le nombre de caractéristiques
            num_features = X.shape[1]
            mlflow.log_metric("num_features", num_features)
        return X
    
    def transform(self, documents):
        # Transformation des nouveaux documents en utilisant le vectorizer entraîné
        documents_preprocessed = [self.preprocess(doc) for doc in documents]
        X = self.vectorizer.transform(documents_preprocessed)
        
        return X

In [None]:
# Classe pour la classification avec régression logistique
class TweetClassifier:
    def __init__(self, vectorizer_type='tfidf', method='lemmatize'):
        self.model = LogisticRegression(C=1.0, solver='lbfgs', penalty='l2')
        self.vectorizer_type = vectorizer_type
        self.method = method

    # Méthode pour obtenir le type de vectorizer
    def get_vectorizer_type(self):
        return self.vectorizer.vectorizer_type

    # Méthode pour obtenir la méthode de prétraitement
    def get_vectorizer_method(self):
        return self.vectorizer.method

    def train_and_evaluate(self, X_train, X_val, y_train, y_val):
        # Suivi de l'entraînement du modèle dans MLflow comme sous-exécution
        with mlflow.start_run(run_name="Validation", nested=True):
            mlflow.set_tag("Stage", "Validation")
            mlflow.set_tag("model", "Logistic Regression")
            
            # Enregistrer les hyperparamètres du modèle
            mlflow.log_param("C", self.model.get_params()['C'])
            mlflow.log_param("solver", self.model.get_params()['solver'])
            mlflow.log_param("penalty", self.model.get_params()['penalty'])
            
            # Cross-validation sur le set d'entraînement
            cv_results = cross_validate(self.model, X_train, y_train, cv=5, 
                                        scoring=['roc_auc', 'f1', 'accuracy', 'precision', 'recall'],
                                        return_train_score=False)
            
            # Stockage des résultats de cross-validation
            metrics_dict = {
                "CrossVal ROC_AUC": round(cv_results['test_roc_auc'].mean(), 3),
                "CrossVal F1": round(cv_results['test_f1'].mean(), 3),
                "CrossVal Accuracy": round(cv_results['test_accuracy'].mean(), 3),
                "CrossVal Precision": round(cv_results['test_precision'].mean(), 3),
                "CrossVal Recall": round(cv_results['test_recall'].mean(), 3),
                "CrossVal Fit Time": round(cv_results['fit_time'].mean(), 3)
            }
            
            # Enregistrer les métriques de cross-validation dans MLflow
            mlflow.log_metrics(metrics_dict)
            
            # Entraînement du modèle sur l'ensemble d'entraînement complet et tracking du temps de fit
            start_time_fit = time.time()
            self.model.fit(X_train, y_train)
            end_time_fit = time.time()
            fit_time = end_time_fit - start_time_fit
            mlflow.log_metric("fit_time_seconds", fit_time)
            
            # Prédiction sur l'ensemble de validation et tracking du temps de prédiction
            start_time_predict = time.time()
            y_val_pred = self.model.predict(X_val)
            end_time_predict = time.time()
            predict_time = end_time_predict - start_time_predict
            
            # Calcul des probabilités pour ROC AUC
            y_val_prob = self.model.predict_proba(X_val)[:, 1]
            
            # Calcul des métriques de validation uniquement
            validation_metrics = {
                "Validation Accuracy": round(accuracy_score(y_val, y_val_pred), 3),
                "Validation ROC_AUC": round(roc_auc_score(y_val, y_val_prob), 3),
                "Validation F1": round(f1_score(y_val, y_val_pred), 3),
                "Validation Precision": round(precision_score(y_val, y_val_pred), 3),
                "Validation Recall": round(recall_score(y_val, y_val_pred), 3),
                "Validation Predict Time": round(predict_time, 3)
            }
            
            mlflow.log_table(validation_metrics, "validation_metrics_table.json")
            
            # Enregistrer les métriques de validation dans MLflow
            mlflow.log_metrics(validation_metrics)
            
            # Tracer et enregistrer la courbe ROC
            fpr, tpr, _ = roc_curve(y_val, y_val_prob)
            plt.figure()
            plt.plot(fpr, tpr, label=f"ROC curve (area = {validation_metrics['Validation ROC_AUC']:.2f})")
            plt.plot([0, 1], [0, 1], 'k--')
            plt.xlabel("False Positive Rate")
            plt.ylabel("True Positive Rate")
            plt.title("ROC Curve - Validation Set")
            plt.legend(loc="lower right")
            plt.savefig("roc_curve_val.png")
            mlflow.log_artifact("roc_curve_val.png")
            plt.close()
            
            # Tracer et enregistrer la courbe d'apprentissage
            train_sizes, train_scores, val_scores = learning_curve(
                self.model, X_train, y_train, cv=5, scoring="accuracy", n_jobs=-1, train_sizes=np.linspace(0.1, 1.0, 5)
            )
            
            train_scores_mean = np.mean(train_scores, axis=1)
            val_scores_mean = np.mean(val_scores, axis=1)
            
            plt.figure()
            plt.plot(train_sizes, train_scores_mean, label="Training score")
            plt.plot(train_sizes, val_scores_mean, label="Validation score")
            plt.xlabel("Training Set Size")
            plt.ylabel("Accuracy")
            plt.title("Learning Curve")
            plt.legend(loc="best")
            plt.grid()
            plt.savefig("learning_curve.png")
            mlflow.log_artifact("learning_curve.png")
            plt.close()
            
            # Sauvegarde du modèle pour reproductibilité
            mlflow.sklearn.log_model(self.model, "RegLog_"+self.method+"_"+self.vectorizer_type)
            
            run_id = mlflow.active_run().info.run_id
            result = mlflow.register_model(
                model_uri=f"runs:/{run_id}/model",
                name=f"Reglog_{self.method}_{self.vectorizer_type}"
            )
        
            
            # Affichage des métriques finales
            print("Cross-Validation Metrics:", metrics_dict)
            print("Validation Metrics:", validation_metrics)
    
    def final_evaluation(self, X_test, y_test):
        # Évaluation finale sur le set de test
        with mlflow.start_run(run_name="Final Test Evaluation", nested=True):
            mlflow.set_tag("Stage", "Final Test Evaluation")
            y_test_pred = self.model.predict(X_test)
            test_accuracy = accuracy_score(y_test, y_test_pred)
            mlflow.log_metric("test_accuracy", test_accuracy)
            mlflow.log_text(classification_report(y_test, y_test_pred), "test_classification_report.txt")
            
            # Calcul de la courbe ROC-AUC sur l'ensemble de test
            y_test_prob = self.model.predict_proba(X_test)[:, 1]
            fpr, tpr, _ = roc_curve(y_test, y_test_prob)
            roc_auc_test = auc(fpr, tpr)
            mlflow.log_metric("test_roc_auc", roc_auc_test)
            metrics_dict = {
                "test_accuracy": test_accuracy,
                "test_roc_auc": roc_auc_test
            }
            mlflow.log_table(metrics_dict, "test_metrics_table.json")
            mlflow.set_tag("test_accuracy", test_accuracy)
            mlflow.set_tag("final_evaluation_metric", "test_roc_auc")

            # Tracer et enregistrer la courbe ROC pour le set de test
            plt.figure()
            plt.plot(fpr, tpr, label=f"ROC curve (area = {roc_auc_test:.2f})")
            plt.plot([0, 1], [0, 1], 'k--')
            plt.xlabel("False Positive Rate")
            plt.ylabel("True Positive Rate")
            plt.title("ROC Curve - Test Set")
            plt.legend(loc="lower right")
            plt.savefig("roc_curve_test.png")
            mlflow.log_artifact("roc_curve_test.png")
            plt.close()
            
            # Enregistrer le modèle final
            mlflow.sklearn.log_model(self.model, "logistic_regression_model")
            print(f"\n Test Accuracy : {test_accuracy}")
            print(classification_report(y_test, y_test_pred))
            print(f"\n")


In [None]:
# Définition des combinaisons à tester
configurations = [
    {'vectorizer_type': 'count', 'method': 'lemmatize'},
    {'vectorizer_type': 'count', 'method': 'stem'},
    {'vectorizer_type': 'tfidf', 'method': 'lemmatize'},
    {'vectorizer_type': 'tfidf', 'method': 'stem'}
]
#  mlflow server --backend-store-uri postgresql://postgres:postgres@postgres/mydb --default-artifact-root /tmp/mlru
# ns/artifacts --host 0.0.0.0 --port 5000

In [None]:
# Séparer les données en Train, Validation et Test une seule fois
# Utiliser les tweets originaux pour diviser les ensembles de manière cohérente
experiment = mlflow.set_experiment("modele-simple")
y = df_sample['target']
tweets = df_sample['text']
y_train_val, y_test = train_test_split(y, test_size=0.2, random_state=42)
tweets_train_val, tweets_test = train_test_split(tweets, test_size=0.2, random_state=42)

# Rediviser l'ensemble Train + Validation en Train et Validation
y_train, y_val = train_test_split(y_train_val, test_size=0.25, random_state=42)
tweets_train, tweets_val = train_test_split(tweets_train_val, test_size=0.25, random_state=42)

# Boucle pour tester chaque configuration
for config in configurations:
    # Démarrer une nouvelle exécution parent pour chaque configuration
    with mlflow.start_run(run_name=f"{config['vectorizer_type']} + {config['method']}", nested=False):
        mlflow.set_tag("Model_Type", "Logistic Regression")
        mlflow.set_tag("vectorizer_type", config['vectorizer_type'])
        mlflow.set_tag("preprocessing_method", config['method'])
        mlflow.set_tag("Model_Type", "Logistic Regression")
        mlflow.set_tag("vectorizer_type", config['vectorizer_type'])
        mlflow.set_tag("preprocessing_method", config['method'])
        print(f"\n Testing configuration: {config}")
        
        # Enregistrer les paramètres de configuration comme tags
        mlflow.set_tag("vectorizer_type", config['vectorizer_type'])
        mlflow.set_tag("preprocessing_method", config['method'])
        
        # Initialiser et appliquer la vectorisation avec TweetVectorizer
        tweet_vectorizer = TweetVectorizer(vectorizer_type=config['vectorizer_type'], method=config['method'])
        
        # Vectorisation des ensembles Train, Validation et Test
        X_train = tweet_vectorizer.fit_transform(tweets_train)
        X_val = tweet_vectorizer.transform(tweets_val)
        X_test = tweet_vectorizer.transform(tweets_test)
        
        # Initialiser le classificateur
        classifier = TweetClassifier(vectorizer_type=config['vectorizer_type'], method=config['method'])
        
        # Entraîner et évaluer le modèle avec Train et Validation
        classifier.train_and_evaluate(X_train, X_val, y_train, y_val)

        # Évaluation finale sur le set de Test
        classifier.final_evaluation(X_test, y_test)
