# Importation des bibliothèques 

In [41]:
# Importations standards
import os
import re
import ast
import pickle
import warnings

# Importations des bibliothèques scientifiques
import numpy as np
import pandas as pd

# Importations des bibliothèques de scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.multioutput import MultiOutputClassifier
from sklearn.metrics import f1_score, jaccard_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC, LinearSVC
from sklearn.linear_model import LogisticRegression, SGDClassifier, ElasticNet
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.multiclass import OneVsRestClassifier
from sklearn.model_selection import RandomizedSearchCV

# Importations des modèles d'autres bibliothèques
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier

# Importations liées à la gestion des jobs
import joblib
from joblib import parallel_backend, dump, Parallel, delayed

# Ignorer les avertissements spécifiques de sklearn
warnings.filterwarnings("ignore")

# Importations des fonctions personnalisées
import utils.utils_supervised as func

## Charger les données nettoyées

Pour la partie supervisée, je vais utiliser les données d'entraînement pour trouver le meilleur modèle. Ensuite, je ferai la prédiction sur les données de test. Donc, je vais charger les données d'entraînement et de test :

#### Les données Train:

In [42]:
train_df = pd.read_csv("Data/stack_overflow_data_cleaned_train_filtered.csv")
display(train_df.head())
print(train_df.shape)

Unnamed: 0,Id,cleaned_title,cleaned_body,combined_title_body,split_tags
0,19245853,xcode iphone simulator look iphone,question device appearance iphone simulator xc...,xcode iphone simulator look iphone question de...,"['ios', 'iphone', 'xcode', 'ios', 'simulator',..."
1,55921515,building dockerfile aptget update jailing proc...,docker host ubuntu docker snap dockerfile comm...,building dockerfile aptget update jailing proc...,"['docker', 'ubuntu', 'nginx', 'dockerfile', 'a..."
2,72575793,aadsts9002326 crossorigin token redemption isi...,send cross origin request access token react s...,aadsts9002326 crossorigin token redemption isi...,"['javascript', 'reactjs', 'webpack', 'axios', ..."
3,11489824,choose tesseract opencv,tesseract opencv look tesseract ocr engine ope...,choose tesseract opencv tesseract opencv look ...,"['python', 'opencv', 'computer', 'vision', 'oc..."
4,3489041,mysqlerror key max key length byte,cause database,mysqlerror key max key length byte cause database,"['mysql', 'sql', 'ruby', 'on', 'rails', 'index..."


(39881, 5)


#### Les données Test:

In [43]:
test_df = pd.read_csv("Data/stack_overflow_data_cleaned_test_filtered.csv")
display(test_df.head())
print(test_df.shape)

Unnamed: 0,Id,cleaned_title,cleaned_body,combined_title_body,split_tags
0,32177764,weight_decay meta parameter caffe,bvlccaffe git training meta parameter meta par...,weight_decay meta parameter caffe bvlccaffe gi...,"['machine', 'learning', 'neural', 'network', '..."
1,35870760,pyspark dataframe sqllike clause,filter pyspark dataframe sqllike clause tuple ...,pyspark dataframe sqllike clause filter pyspar...,"['python', 'sql', 'apache', 'spark', 'datafram..."
2,10679214,set contenttype header httpclient request,set header object api allows header try throw ...,set contenttype header httpclient request set ...,"['c#', 'aspnet', 'rest', 'content', 'type', 'd..."
3,22157596,aspnet web api operationcanceledexception brow...,user load page ajax request hit aspnet web api...,aspnet web api operationcanceledexception brow...,"['aspnet', 'iis', 'aspnet', 'web', 'api', 'tas..."
4,6100573,draw line object,line control window form draw line line,draw line object line control window form draw...,"['c#', 'winforms', 'user', 'interface', 'drawi..."


(9977, 5)


#### Vérification des valeurs manquantes pour les dataframes:

##### Train:

In [44]:
func.taux_de_Remplissage_tableau(train_df, affichage_all = True)

##### Test:

In [45]:
func.taux_de_Remplissage_tableau(test_df, affichage_all = True)

#### Prétraitement des données de la colonne `train_df['split_tags']` pour construire la variable cible `y` :

Lors du téléchargement des datasets test_df et train_df, le type de la variable de la colonne `split_tags` avait changé, donc il fallait les remettre au bon format :

In [46]:
# Convertir les tags de chaînes de caractères en listes
train_df['split_tags'] = train_df['split_tags'].apply(ast.literal_eval)
test_df['split_tags'] = test_df['split_tags'].apply(ast.literal_eval)

In [47]:
train_df.head()

Unnamed: 0,Id,cleaned_title,cleaned_body,combined_title_body,split_tags
0,19245853,xcode iphone simulator look iphone,question device appearance iphone simulator xc...,xcode iphone simulator look iphone question de...,"[ios, iphone, xcode, ios, simulator, instruments]"
1,55921515,building dockerfile aptget update jailing proc...,docker host ubuntu docker snap dockerfile comm...,building dockerfile aptget update jailing proc...,"[docker, ubuntu, nginx, dockerfile, apt]"
2,72575793,aadsts9002326 crossorigin token redemption isi...,send cross origin request access token react s...,aadsts9002326 crossorigin token redemption isi...,"[javascript, reactjs, webpack, axios, umijs]"
3,11489824,choose tesseract opencv,tesseract opencv look tesseract ocr engine ope...,choose tesseract opencv tesseract opencv look ...,"[python, opencv, computer, vision, ocr, tesser..."
4,3489041,mysqlerror key max key length byte,cause database,mysqlerror key max key length byte cause database,"[mysql, sql, ruby, on, rails, indexing, mysql,..."


#### Trier les mots par fréquence et sélectionner les 200 plus fréquents dans le corpus `train_df['split_tags']`:

Pour les besoins des entraînements des modèles supervisés, nous avons besoin de limiter le nombre de tags. Le but de cette partie est de récupérer les 200 tags les plus fréquents du corpus construit avec la colonne train_df['split_tags']. Nous décidons de ne retenir que les 200 premiers tags, ce qui simplifie le modèle et améliore sa performance. Nous devons donc filtrer les documents qui ne sont pas liés à ces 200 premiers tags:

In [48]:
# Combiner tous les tags en une seule liste de corpus
corpus_tags = [tag for sublist in train_df['split_tags'] for tag in sublist]

# Afficher la fréquence de chaque tag dans le corpus
value_counts_tags = pd.Series(corpus_tags).value_counts()
print("Fréquence de chaque tag dans le corpus :\n\n",value_counts_tags)

Fréquence de chaque tag dans le corpus :

 python        6988
java          6426
javascript    5298
android       5258
c#            4999
              ... 
mixer            1
heapster         1
cov              1
esxi             1
slidify          1
Length: 9958, dtype: int64


In [49]:
vocabulary_tags = list(value_counts_tags.head(200).index)
print(vocabulary_tags)



Nous allons garder dans la colonne `train_df['split_tags']` uniquement les tags les plus fréquents présents dans `vocabulary_tags`. Pour ce faire, nous appliquons la fonction filter_tags à cette colonne:

In [50]:
# Fonction pour filtrer les tags
def filter_tags(tags):
    return [tag for tag in tags if tag in vocabulary_tags]

In [51]:
# Application de la fonction sur la colonne 'split_tags'
train_df['split_tags'] = train_df['split_tags'].apply(filter_tags)

#### Vérifions les valeurs manquantes après avoir filtré les tags :

In [52]:
func.taux_de_Remplissage_tableau(train_df, affichage_all = True)

Donc pas de valeurs manquantes, nous pouvons continuer.

In [53]:
train_df.head()

Unnamed: 0,Id,cleaned_title,cleaned_body,combined_title_body,split_tags
0,19245853,xcode iphone simulator look iphone,question device appearance iphone simulator xc...,xcode iphone simulator look iphone question de...,"[ios, iphone, xcode, ios, simulator]"
1,55921515,building dockerfile aptget update jailing proc...,docker host ubuntu docker snap dockerfile comm...,building dockerfile aptget update jailing proc...,"[docker, ubuntu, nginx, dockerfile, apt]"
2,72575793,aadsts9002326 crossorigin token redemption isi...,send cross origin request access token react s...,aadsts9002326 crossorigin token redemption isi...,"[javascript, reactjs, webpack, axios]"
3,11489824,choose tesseract opencv,tesseract opencv look tesseract ocr engine ope...,choose tesseract opencv tesseract opencv look ...,"[python, opencv, computer, vision]"
4,3489041,mysqlerror key max key length byte,cause database,mysqlerror key max key length byte cause database,"[mysql, sql, ruby, on, rails, indexing, mysql,..."


Nous remarquons que la taille des listes de la colonne split_tags a changé puisque nous n'avons gardé que les mots fréquents.

#### Transformer les listes de tags en une matrice binaire

Pour préparer les données pour l'entraînement des modèles supervisés, nous devons encoder les tags sous une forme binaire. Pour ce faire, nous utilisons MultiLabelBinarizer de scikit-learn, qui permet de transformer les listes de tags en une matrice binaire. Chaque colonne de cette matrice représente un tag, et chaque ligne indique la présence ou l'absence des tags pour un document donné:

In [54]:
# Initialiser l'encodeur MultiLabelBinarizer
mlb = MultiLabelBinarizer()

# Appliquer l'encodeur sur la colonne 'split_tags' du DataFrame train_df
# Cela transforme les listes de tags en une matrice binaire
y = mlb.fit_transform(train_df['split_tags'])

In [55]:
# Affichage des classes identifiées par le MultiLabelBinarizer
print("Classes:", mlb.classes_[:10])

# Affichage de la matrice des étiquettes transformées
print("Transformed Data:\n", y)

Classes: ['2x' '3d' 'abstract' 'access' 'action' 'actionbar' 'active'
 'activerecord' 'activity' 'adb']
Transformed Data:
 [[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


#### Sauvgarde de l'encodeur MultiLabelBinarizer:

In [56]:
# joblib.dump(mlb, 'Model/supervised/mlb.pkl')

#### Trier les mots par fréquence et sélectionner les 200 plus fréquents dans le corpus `df['combined_title_body']`:

In [57]:
# Combiner tout le contenu des corps de texte nettoyés en une seule chaîne de texte
corpus_combined_title_body = " ".join(train_df['combined_title_body'].values).lower()

# Afficher la fréquence de chaque mot dans le corpus des corps de texte nettoyés
corpus_combined_title_body_tokens = corpus_combined_title_body.split()
value_counts_combined_title_body = pd.Series(corpus_combined_title_body_tokens).value_counts()
print("Fréquence de chaque mot dans le corpus des corps de texte nettoyés :\n", value_counts_combined_title_body)

Fréquence de chaque mot dans le corpus des corps de texte nettoyés :
 file             19114
error            17715
code             17381
use              14901
data              8756
                 ...  
entought             1
popperminjs          1
oraconnection        1
cwe                  1
amplayer             1
Length: 64654, dtype: int64


In [58]:
# Créer la liste du vocabulaire des mots les plus fréquents du corpus
vocabulary = list(value_counts_combined_title_body.head(200).index)
print("Les 200 mots les plus fréquents du corpus des corps de texte nettoyés :\n", vocabulary)

Les 200 mots les plus fréquents du corpus des corps de texte nettoyés :


In [59]:
vocabulary[:5]

['file', 'error', 'code', 'use', 'data']

#### Vectoriser les textes de la colonne `train_df['combined_title_body']`:

On va utiliser TfidfVectorizer pour vectoriser les textes des questions en utilisant le vocabulaire filtré :

In [60]:
vectorizer_supervised = TfidfVectorizer(vocabulary=vocabulary)
X_tfidf = vectorizer_supervised.fit_transform(train_df['combined_title_body'])

In [61]:
X_tfidf

<39881x1000 sparse matrix of type '<class 'numpy.float64'>'
	with 610995 stored elements in Compressed Sparse Row format>

#### Sauvgarde du vectorizer_supervised au format pkl:

In [62]:
# joblib.dump(vectorizer_supervised, 'Model/supervised/vectorizer_supervised.pkl')

#### Diviser les données en ensembles d'entraînement et de test

Pour évaluer les performances de nos modèles supervisés, on doit diviser nos données en ensembles d'entraînement et de test. on va utiliser la fonction train_test_split de scikit-learn pour effectuer cette division de manière aléatoire, tout en réservant 20% des données pour les tests:

In [63]:
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

#### Fonction pour l'entraînement, le calcul de la performance et l'enregistrement des modèles :

Pour évaluer les performances des modèles de classification multi-étiquette, on calcule le score de Jaccard moyen et on évalue les modèles après leur entraînement. Le fichier `init.py` contient deux fonctions : `jaccard` pour le calcul du score de Jaccard et `train_and_evaluate` pour l'entraînement et l'évaluation des modèles:

On initialise ces deux dictionnaires pour stocker les performances des modèles et les modèles entraînés : 

In [64]:
models_performance = {}
trained_models = {}

#### Entraînement Logistic Regression

In [65]:
%%time
model_name = "Logistic Regression"
model = OneVsRestClassifier(LogisticRegression(max_iter=500), n_jobs=-1)

with parallel_backend("threading"):
    trained_models[model_name] = func.train_and_evaluate(model_name, model, X_train, y_train, X_test, y_test, models_performance)


Training Logistic Regression...
Logistic Regression - F1 Score: 0.4138298963783728
Logistic Regression - Jaccard Score: 0.6326875651375887


#### Entraînement de SGD Classifier:

In [66]:
%%time
model_name = "SGD Classifier"
model = OneVsRestClassifier(SGDClassifier(max_iter=500), n_jobs=-1)

with parallel_backend("threading"):
    trained_models[model_name] = func.train_and_evaluate(model_name, model, X_train, y_train, X_test, y_test, models_performance)

Training SGD Classifier...
SGD Classifier - F1 Score: 0.41737613688276093
SGD Classifier - Jaccard Score: 0.6343952773037115


#### Entraînement de Support Vector Machine:

In [67]:
%%time
model_name = "Support Vector Machine"
model = OneVsRestClassifier(LinearSVC(max_iter=500), n_jobs=-1)
with parallel_backend("threading"):
    trained_models[model_name] = func.train_and_evaluate(model_name, model, X_train, y_train, X_test, y_test, models_performance)

Training Support Vector Machine...
Support Vector Machine - F1 Score: 0.48311284636670326
Support Vector Machine - Jaccard Score: 0.6625270210684342


#### Entraînement de XGBoost

In [68]:
%%time
model_name = "XGBoost"
# Mise à jour du modèle avec les meilleurs paramètres trouvés
model = OneVsRestClassifier(XGBClassifier(n_estimators=500, use_label_encoder=False, eval_metric='logloss'))
with parallel_backend("threading"):
    trained_models[model_name] = func.train_and_evaluate(model_name, model, X_train, y_train, X_test, y_test, models_performance)

Training XGBoost...


#### Entraînement de Random Forest:

In [None]:
%%time
model_name = "Random Forest"
model = OneVsRestClassifier(RandomForestClassifier(n_estimators=20), n_jobs=-1)
with parallel_backend("threading"):
    trained_models[model_name] = func.train_and_evaluate(model_name, model, X_train, y_train, X_test, y_test, models_performance)

Training Random Forest...
Random Forest - F1 Score: 0.33986291134717217
Random Forest - Jaccard Score: 0.6053346777468337


#### Entraînement de LightGBM:

In [None]:
%%time
model_name = "LightGBM"
model = OneVsRestClassifier(LGBMClassifier(n_estimators=500))
with parallel_backend("threading"):
    trained_models[model_name] = func.train_and_evaluate(model_name, model, X_train, y_train, X_test, y_test, models_performance)

Training LightGBM...
LightGBM - F1 Score: 0.3867804612311603
LightGBM - Jaccard Score: 0.6211654058352009


#### Entraînement de AdaBoost:

In [None]:
%%time
model_name = "AdaBoost"
model = OneVsRestClassifier(AdaBoostClassifier(n_estimators=20))
with parallel_backend("threading"):
    trained_models[model_name] = func.train_and_evaluate(model_name, model, X_train, y_train, X_test, y_test, models_performance)

Training AdaBoost...
AdaBoost - F1 Score: 0.3748692316633732
AdaBoost - Jaccard Score: 0.612332855987375


#### Convertir les résultats en DataFrame

In [None]:
result_df = pd.DataFrame.from_dict(models_performance, orient="index")
display(result_df)

Unnamed: 0,F1 Score,Jaccard Score
Logistic Regression,0.358727,0.610531
SGD Classifier,0.326948,0.60054
Support Vector Machine,0.345787,0.606483
XGBoost,0.391392,0.622167
Random Forest,0.339863,0.605335
LightGBM,0.38678,0.621165
AdaBoost,0.374869,0.612333


#### Sélection du meilleur modèle:

Pour identifier le meilleur modèle parmi ceux que l'on a entraînés, on compare les scores moyens de Jaccard de chaque modèle:

In [None]:
# Initialiser les variables pour suivre le meilleur modèle et son score de Jaccard
best_model = None
best_jaccard = 0
best_model_name = None

# Parcourir tous les modèles entraînés et leurs scores de Jaccard
for model_name, (trained_model, jaccard_avg) in trained_models.items():
    # Si le score de Jaccard actuel est meilleur que le meilleur score enregistré
    if jaccard_avg > best_jaccard:
        # Mettre à jour le meilleur score de Jaccard
        best_jaccard = jaccard_avg
        # Mettre à jour le meilleur modèle
        best_model = trained_model
        # Mettre à jour le nom du meilleur modèle
        best_model_name = model_name

# Afficher le meilleur modèle et son score de Jaccard
print(f'Best Model: {best_model_name}, Jaccard Score: {best_jaccard}')

Best Model: XGBoost, Jaccard Score: 0.6221665654955523


In [None]:
# best_model_path = 'Model/supervised/best_model.pkl'
# dump(best_model, best_model_path)
# print('Best model saved to %s', best_model_path)

#### Tester le meilleur modèle pour la prédiction des tags :

On fait le test avec un seul exemple de la fonction predict_tags :

In [None]:
new_text = train_df['combined_title_body'][4]  # Utiliser le quatrième texte du DataFrame train_df comme exemple

In [None]:
# Exemple de prédiction pour un nouveau texte
predicted_tags = func.predict_tags(new_text, best_model, vectorizer_supervised, mlb)  # Prédire les tags pour le nouveau texte
print("Predicted Tags:", predicted_tags)  # Afficher les tags prédits

Predicted Tags: ['google', 'gradle', 'flask', 'key', 'database']


#### Prédire les tags pour toutes les questions de test_df :

Pour améliorer l'efficacité de la prédiction des tags sur un grand nombre de textes, on peut utiliser la parallélisation. La fonction `parallel_predict_tags` de la bibliothèque `joblib` permet d'exploiter les capacités multicœur de la machine, réduisant ainsi le temps nécessaire pour traiter toutes les questions de `test_df`:

In [None]:
%%time
# Paralléliser l'application de la fonction predict_tags
def parallel_predict_tags(df, model, vectorizer, mlb, n_jobs=-1):
    df['predicted_tags'] = Parallel(n_jobs=n_jobs)(
        delayed(func.predict_tags)(text, model, vectorizer, mlb) for text in df['combined_title_body']
    )
    return df

# Appliquer la fonction parallélisée
with parallel_backend("threading"):
    test_df = parallel_predict_tags(test_df, best_model, vectorizer_supervised, mlb)

# Afficher les premières lignes pour vérifier
test_df.head()

Unnamed: 0,Id,cleaned_title,cleaned_body,combined_title_body,split_tags,predicted_tags
0,32177764,weight_decay meta parameter caffe,bvlccaffe git training meta parameter meta par...,weight_decay meta parameter caffe bvlccaffe gi...,"[machine, learning, neural, network, deep, lea...","[google, gradle, hibernate, flutter, xml]"
1,35870760,pyspark dataframe sqllike clause,filter pyspark dataframe sqllike clause tuple ...,pyspark dataframe sqllike clause filter pyspar...,"[python, sql, apache, spark, dataframe, pyspark]","[gradle, flutter, xml, python, pandas]"
2,10679214,set contenttype header httpclient request,set header object api allows header try throw ...,set contenttype header httpclient request set ...,"[c#, aspnet, rest, content, type, dotnet, http...","[google, gradle, flutter, java, http]"
3,22157596,aspnet web api operationcanceledexception brow...,user load page ajax request hit aspnet web api...,aspnet web api operationcanceledexception brow...,"[aspnet, iis, aspnet, web, api, task, parallel...","[formatting, xml, aspnet, mvc, c#]"
4,6100573,draw line object,line control window form draw line line,draw line object line control window form draw...,"[c#, winforms, user, interface, drawing, 2d]","[google, gradle, hibernate, flutter, xml]"


#### Sauvegarde de `test_df` avec `predicted_tags` :

In [None]:
test_df.to_csv("Data/stack_overflow_data_cleaned_test_predicted_tags_supervised.csv", index=False)

#### Calculer le taux de couverture moyen pour les tags prédits par le modèle supervisé:

Pour évaluer la qualité des prédictions, on calcule le taux de couverture moyen des tags prédits. Cette métrique mesure la proportion de tags corrects prédits par rapport aux tags réels en utilisant la fonction `coverage_rate` sur `test_df`:

In [None]:
# Calculer le taux de couverture moyen pour les tags prédits par le modèle supervisé
average_coverage_supervised = func.coverage_rate(test_df, 'split_tags', 'predicted_tags')
print(f"Taux de couverture moyen pour le modèle supervisé: {average_coverage_supervised:.2f}")


Taux de couverture moyen pour le modèle supervisé: 0.16
