# Recherche du meillieur algo ML - Entranement test - pipeline¶

In [3]:
#Importation des bibliothèques nécéssaires
import pandas as pd
import numpy as np 
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score, roc_auc_score, classification_report
from time import time


In [2]:
# fonction pour le chargement du dataSet à partir du fichier CSV
def train_test_split_fonction(method, filename):
    df= pd.read_csv(filename, sep=';')
    
    #  Sous_échantillonnage (Under-Sampling) des données pour avoir un DataSet équilibré
    #nombre de négatif 
    no_negatif = len(df[df['Sentiment'] == -1])
    # Indexes des commentaires positives 
    positif_indexes = df[df['Sentiment'] == 1].index
    # random exempels commentaires positifs
    random_indexes = np.random.choice(positif_indexes,no_negatif, replace=False)
    # indices des commentaires négatifs
    negatif_indexes = df[df['Sentiment'] == -1].index
    # Concat les indices trouvés des commentaires postifs & négatifs
    underSample_indexes = np.concatenate([negatif_indexes,random_indexes])
    # Construire un DataFrame équilibré 
    df_underSample = df.loc[underSample_indexes]
    
    # Affection des targer value_y et feature_set X
    if method == "stem":
        X, y = df_underSample.StemmedComments, df_underSample.Sentiment   
    if method == "lem":
        X, y = df_underSample.LemmatizedComments, df_underSample.Sentiment
    
    # Split the data : train and Test set 
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify = y)
    
    return X_train, X_test, y_train, y_test


In [3]:
def pipeline_fonction_avec_gridsearch(classifier, vectorizer):
    #  Paramètres GridSerach pour les vectorizers (Count and TFIDF)
    parameters_vect = {
        'vectorizer__max_df': [0.5, 0.75, 1.0],
        'vectorizer__ngram_range': [(1, 1), (1, 2), (1,3)],
        'vectorizer__max_features': [2000, 4000, 6000]
    }
    
    
    # paramètres GridSearch pour les Classifieurs 
    if classifier == "log":
        parameters_clf = {"classifier__C":[0.01,0.1, 1, 10, 100],
                          "classifier__penalty":['l1', 'l2']}  
    elif classifier == "rf":
        parameters_clf = {'classifier__n_estimators' : [10, 50, 100,200,500],
                          'classifier__max_features': ['auto', 'log2'], 
                          'classifier__criterion' :['gini', 'entropy']} 
    elif classifier == "svm" : 
        parameters_clf = {'classifier__kernel': ['linear', 'rbf'],
                          'classifier__C':[0.01,0.1, 1, 10, 100], 
                          'classifier__gamma' : [0.01, 0.001, 0.0001]}
    else : 
        return "Le classifieur spécifié n'est pas traité !"
    
    
    # définition du vectorizer 
    if vectorizer == 'tfidf' : 
        vect =  TfidfVectorizer()
    elif vectorizer =='count' : 
        vect = CountVectorizer()
    else :
        return "Le vectorizer spécifié n'est pas traité !"
    
    
    # définition du classifier 
    if classifier == "log": 
        clf = LogisticRegression()
    elif classifier == "rf":
        clf = RandomForestClassifier()
    elif classifier == "svm" : 
        clf = SVC() 
    else : 
        return "Le classifieur spécifié n'est pas traité !"
    
    
    # Création du Pipeline
    # L'attribut "memory" permet d'activer la mise en cache des transformateurs du pipeline (CountVect/TFIDF) dans le dossier spécifié 
    # le tranformateur n'est pas calculé/entrainé à chaque fois, si les paramètres et les données d'entrée sont identiques (optimisation du temps de calcul)   
    print("Crération du pipeline avec le classifieur %s ..." % classifier)
    sentiment_pipeline = Pipeline([
        ('vectorizer', vect),
        ('classifier', clf)
    ])
    
    # Constuire l'objet GridSearchCV 
    # Définition de la liste compète des paramèters (hyperparamètres) de la GridSearchCV
    gridParameters = dict()
    gridParameters.update(parameters_vect)
    gridParameters.update(parameters_clf)
    
    
    # Création de l'objet GridSearch Associé 
    # P.S : n_jobs (nbre de processus à exécuter en parallèle ; n_jobs = -1 --> utiliser tous les processus du PC si celui-ci le permet)
    # P.S: Score d'évaluation "roc_auc" pour prendre en compte le taux de faux postifs, en plus du taux des vrais positifs
    #      --> Vue que le DataSet est déséquilibrée, cette métrique est mieux conseillée que l'accuracy pour la compraison des perf des algos. 
    # verbose = 1: pour afficher quelques message --> permet le suivi de l'avancement de l'algo
    gs = RandomizedSearchCV(sentiment_pipeline, param_distributions=gridParameters, verbose=1, cv=7, n_jobs=-1)

    # return l'objet GridSearch
    return gs


In [4]:
# Fichier CSV contenant la DataSet à traiter 
#dataFile = 'all_reviews_Fr_Prepared_binaryClass.csv'  # Commentaires Français
dataFile = 'all_reviews_En_Prepared_binaryClass.csv'  # Commentaires Anglais

# Load & Split the Data 
# Sous_échantillonnage équilibré de commentaires stemmatisés ou lemmatisés 
X_train_stem, X_test_stem, y_train_stem, y_test_stem = train_test_split_fonction("stem", dataFile)

X_train_lem, X_test_lem, y_train_lem, y_test_lem = train_test_split_fonction("lem", dataFile)


In [5]:
# On va comparer la performance de 4 algorithmes ML différents connus pour l'analyse du Texte (logisticRegression; RandomForest; SVM; NaiveBayes)
# Pour chaque algorithme , on fera appel à GridSearch pour optimiser ses hyperparamétres
# Et cela dans les deux cas de traitement de texte : Stemming & Lemmatization et les deux vectorizers utilisés  

# Création des différents pipelines nécéssaires 
# Avec Stemming
gs_stem_count_rf = pipeline_fonction_avec_gridsearch('rf', 'count')
gs_stem_tfidf_rf = pipeline_fonction_avec_gridsearch('rf', 'tfidf')
gs_stem_count_log = pipeline_fonction_avec_gridsearch('log', 'count')
gs_stem_tfidf_log = pipeline_fonction_avec_gridsearch('log', 'tfidf')
gs_stem_count_svm = pipeline_fonction_avec_gridsearch('svm', 'count')
gs_stem_tfidf_svm = pipeline_fonction_avec_gridsearch('svm', 'tfidf')
# Avec lemmatization 
gs_lem_count_rf = pipeline_fonction_avec_gridsearch('rf', 'count')
gs_lem_tfidf_rf = pipeline_fonction_avec_gridsearch('rf', 'tfidf')
gs_lem_count_log = pipeline_fonction_avec_gridsearch('log', 'count')
gs_lem_tfidf_log = pipeline_fonction_avec_gridsearch('log', 'tfidf')
gs_lem_count_svm = pipeline_fonction_avec_gridsearch('svm', 'count')
gs_lem_tfidf_svm = pipeline_fonction_avec_gridsearch('svm', 'tfidf')

# Enregsitrement des pipelines dans une liste pour automatiser les itérations
grids = [ gs_stem_count_rf,
         gs_stem_tfidf_rf,
         gs_stem_count_log, 
         gs_stem_tfidf_log,
         gs_stem_count_svm,
         gs_stem_tfidf_svm,  
         gs_lem_count_rf,
         gs_lem_tfidf_rf,
         gs_lem_count_log,
         gs_lem_tfidf_log,
         gs_lem_count_svm,
         gs_lem_tfidf_svm
        ]

# Dictionnaire des pipelines et des types de classificateurs pour faciliter le référencement 
grid_dict = {0: 'Stemming - Random Forest/Countvectorizer',
             1: 'Stemming - Random Forest/TFIDF Vectorizer',
             2: 'Stemming - Logistic Regression/Countvectorizer',
             3: 'Stemming - Logistic Regression/TFIDF Vectorizer', 
             4: 'Stemming - Support Vector Machine/Countvectorizer',
             5: 'Stemming - Support Vector Machine/TFIDF Vectorizer',
             6: 'Lemmatization - Random Forest/Countvectorizer',
             7: 'Lemmatization - Random Forest/TFIDF Vectorizer',
             8: 'Lemmatization - Logistic Regression/Countvectorizer',
             9: 'Lemmatization - Logistic Regression/TFIDF Vectorizer', 
             10: 'Lemmatization - Support Vector Machine/Countvectorizer',
             11: 'Lemmatization - Support Vector Machine/TFIDF Vectorizer'
            }

Crération du pipeline avec le classifieur rf ...
Crération du pipeline avec le classifieur rf ...
Crération du pipeline avec le classifieur log ...
Crération du pipeline avec le classifieur log ...
Crération du pipeline avec le classifieur svm ...
Crération du pipeline avec le classifieur svm ...
Crération du pipeline avec le classifieur rf ...
Crération du pipeline avec le classifieur rf ...
Crération du pipeline avec le classifieur log ...
Crération du pipeline avec le classifieur log ...
Crération du pipeline avec le classifieur svm ...
Crération du pipeline avec le classifieur svm ...


In [None]:
# Fit the grid search objects
print('********* Optimisation des Modèles ML et Réglages des Hyperparamètres ....**********')
best_acc = 0.0
best_clf = 0
best_gs = ''

# Boucle pour l'évaluation de tous les pipelines (enregistrement du meilleure Classifieur pour chaque pipeline )
for idx, gs in enumerate(grids) : 
    
    print("\n Nouvelle instane GridSearch...")
    print('Pipeline : %s' % grid_dict[idx])
    print('------------------------------------------------')
    # Entrainement du Grid Search sur le data_train
    t0 = time()
    if (grid_dict[idx][0:3]=='Lem'): # fit on the LemmatizedComments
        gs.fit(X_train_lem, y_train_lem)
    else : 
        gs.fit(X_train_stem, y_train_stem)
    print("Entrainement SearchGrid faut %0.4f" % (time() - t0))
    # Meilleur pipeline 
    best_pipe = gs.best_estimator_
    # Meilleur paramètres et score 
    print('Meilleur Score CV d\'entrainement (accuracy): %.4f' % gs.best_score_)   
    print('Meilleur ensemble de paramètres: %s' % gs.best_params_)
    # Prédire les donnes de Test avec le meilleur classifieur
    if (grid_dict[idx][0:3]=='Lem'): # fit on the LemmatizedComments
        y_pred = best_pipe.predict(X_test_lem)
        acc_score = accuracy_score(y_test_lem, y_pred)
        print('Score "accuracy" ur les données de Test avec le meilleur pipeline : %0.4f ' % acc_score )
        print('\n')
         # Afficher d'autres métriques significatives
        #print('Score "Accuracy" sur les données de Test avec le meilleur pipeline : %0.4f ' % accuracy_score(y_test_lem, y_pred) )
        print('Matrice de Confusion :')
        print(confusion_matrix(y_test_lem, y_pred))
        print("Rapport de Classification sur les donénes de Test")
        print(classification_report(y_test_lem,y_pred))   
    else :
        y_pred = best_pipe.predict(X_test_stem)
        acc_score = accuracy_score(y_test_stem, y_pred)
        print('Score AUC ROC  sur les données de Test avec le meilleur pipeline : %0.4f ' % acc_score )
        print('\n')
        # Afficher d'autres métriques significatives
        #print('Score "Accuracy" sur les données de Test avec le meilleur pipeline : %0.4f ' % accuracy_score(y_test_stem, y_pred) )
        print('Matrice de Confusion :')
        print(confusion_matrix(y_test_stem, y_pred))
        print("Rapport de Classification sur les donénes de Test")
        print(classification_report(y_test_stem,y_pred))
    
    #  Suivi du meilleur modèle (AUC ROC la plus élevée)
    if acc_score > best_acc: 
        best_acc = acc_score
        best_gs = gs 
        best_clf = idx 
    

********* Optimisation des Modèles ML et Réglages des Hyperparamètres ....**********

 Nouvelle instane GridSearch...
Pipeline : Stemming - Random Forest/Countvectorizer
------------------------------------------------
Fitting 7 folds for each of 10 candidates, totalling 70 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed: 34.6min
[Parallel(n_jobs=-1)]: Done  70 out of  70 | elapsed: 61.9min finished


Entrainement SearchGrid faut 4209.1639
Meilleur Score CV d'entrainement (accuracy): 0.9096
Meilleur ensemble de paramètres: {'vectorizer__ngram_range': (1, 2), 'vectorizer__max_features': 6000, 'vectorizer__max_df': 1.0, 'classifier__n_estimators': 500, 'classifier__max_features': 'log2', 'classifier__criterion': 'entropy'}
Score AUC ROC  sur les données de Test avec le meilleur pipeline : 0.9057 


Matrice de Confusion :
[[11852  1398]
 [ 1101 12149]]
Rapport de Classification sur les donénes de Test
              precision    recall  f1-score   support

          -1       0.92      0.89      0.90     13250
           1       0.90      0.92      0.91     13250

    accuracy                           0.91     26500
   macro avg       0.91      0.91      0.91     26500
weighted avg       0.91      0.91      0.91     26500


 Nouvelle instane GridSearch...
Pipeline : Stemming - Random Forest/TFIDF Vectorizer
------------------------------------------------
Fitting 7 folds for each of 10 

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed: 76.2min
[Parallel(n_jobs=-1)]: Done  70 out of  70 | elapsed: 135.5min finished


Entrainement SearchGrid faut 8589.3133
Meilleur Score CV d'entrainement (accuracy): 0.9055
Meilleur ensemble de paramètres: {'vectorizer__ngram_range': (1, 3), 'vectorizer__max_features': 2000, 'vectorizer__max_df': 0.75, 'classifier__n_estimators': 500, 'classifier__max_features': 'log2', 'classifier__criterion': 'entropy'}
Score AUC ROC  sur les données de Test avec le meilleur pipeline : 0.9008 


Matrice de Confusion :
[[11819  1431]
 [ 1198 12052]]
Rapport de Classification sur les donénes de Test
              precision    recall  f1-score   support

          -1       0.91      0.89      0.90     13250
           1       0.89      0.91      0.90     13250

    accuracy                           0.90     26500
   macro avg       0.90      0.90      0.90     26500
weighted avg       0.90      0.90      0.90     26500


 Nouvelle instane GridSearch...
Pipeline : Stemming - Logistic Regression/Countvectorizer
------------------------------------------------
Fitting 7 folds for each 

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:  1.7min
[Parallel(n_jobs=-1)]: Done  70 out of  70 | elapsed:  4.0min finished


Entrainement SearchGrid faut 256.4257
Meilleur Score CV d'entrainement (accuracy): 0.9110
Meilleur ensemble de paramètres: {'vectorizer__ngram_range': (1, 3), 'vectorizer__max_features': 6000, 'vectorizer__max_df': 0.75, 'classifier__penalty': 'l2', 'classifier__C': 0.01}
Score AUC ROC  sur les données de Test avec le meilleur pipeline : 0.9094 


Matrice de Confusion :
[[11899  1351]
 [ 1051 12199]]
Rapport de Classification sur les donénes de Test
              precision    recall  f1-score   support

          -1       0.92      0.90      0.91     13250
           1       0.90      0.92      0.91     13250

    accuracy                           0.91     26500
   macro avg       0.91      0.91      0.91     26500
weighted avg       0.91      0.91      0.91     26500


 Nouvelle instane GridSearch...
Pipeline : Stemming - Logistic Regression/TFIDF Vectorizer
------------------------------------------------
Fitting 7 folds for each of 10 candidates, totalling 70 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:  3.0min
[Parallel(n_jobs=-1)]: Done  70 out of  70 | elapsed:  5.4min finished


Entrainement SearchGrid faut 339.9396
Meilleur Score CV d'entrainement (accuracy): 0.9137
Meilleur ensemble de paramètres: {'vectorizer__ngram_range': (1, 3), 'vectorizer__max_features': 2000, 'vectorizer__max_df': 0.75, 'classifier__penalty': 'l2', 'classifier__C': 1}
Score AUC ROC  sur les données de Test avec le meilleur pipeline : 0.9114 


Matrice de Confusion :
[[11968  1282]
 [ 1067 12183]]
Rapport de Classification sur les donénes de Test
              precision    recall  f1-score   support

          -1       0.92      0.90      0.91     13250
           1       0.90      0.92      0.91     13250

    accuracy                           0.91     26500
   macro avg       0.91      0.91      0.91     26500
weighted avg       0.91      0.91      0.91     26500


 Nouvelle instane GridSearch...
Pipeline : Stemming - Support Vector Machine/Countvectorizer
------------------------------------------------
Fitting 7 folds for each of 10 candidates, totalling 70 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.


# Choix du Meilleur Modèle

In [2]:
print('\n Le Modèle avec les meilleurs performances est: %s' % grid_dict[best_clf])

# Enregistrer le meilleur pipeline de GridSearch dans un fichier 
dump_file = 'best_gs_pipeline.pkl'
joblib.dump(best_gs, dump_file, compress=1)
print('\nSaved %s grid search pipeline to file: %s' % (grid_dict[best_clf], dump_file))

NameError: name 'grid_dict' is not defined

# CHOIX ET CHARGEMENT DU MODELE

Après avoir choisi notre modèle ainsi que les parameteres les plus optimals, il faut entrainer ce modèle sur toute la base puis sauvegarder le modèle sous forme de fichier .pkl grace au module pickle de Python.
Pickle sert a serialiser, soit convertir une hiérarichie d'obtejts Python en un flux d'octet. Un tel fichier peut donc passer par le "unpickling" pour pouvoir permettre de manipuler le modèle en  python depuis un fihcir de flux d'octet.
Cette étape est indispensable dans la mesure où le but de se projet et d'exposer un modèle ML. On aurait pu entrainer ce modèle dès que l'uilsatuer rentrerait un commentaire à analyser, mais cela serait bcp trop long et innaproprié. Pour cela il est donc indispensable d'enregistrer le modèle afin de deployer facilement un modèle de machine learning sur une interface (pour nous il s'agit d'un site web utilsant la librairie pytho FLASK)
imaginons qu'il s'avere que log regression ait obtneu les meilleur score avec un tfidf sans lem ni stem

https://www.analyticsvidhya.com/blog/2020/04/how-to-deploy-machine-learning-model-flask/

In [11]:
# A mettre à jour cette partie une fois l'entrainement et la comparasion des modèle est terminé
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.pipeline import Pipeline
import numpy as np


import pickle

df = pd.read_csv('all_reviews_EN_Prepared_binaryClass.csv',sep=';')


def load_model():
    
    mon_modele = open("modele_en_description.txt", "w") # Argh j'ai tout écrasé !
    mod = "Tfidf/Stem/Log {'classifier__C': 1, 'classifier__penalty': 'l2', 'vectorizer__max_df': 0.75, 'vectorizer__max_features': 2000, 'vectorizer__ngram_range': (1, 3)}"
    mon_modele.write(mod)
    mon_modele.close()
    
    X, y = df.StemmedComments, df.Sentiment
    #a modifier
    vectorizer = TfidfVectorizer(ngram_range=(1,3),max_df=0.75,max_features=2000)
    #a modifier avec les patrametress
    
    classifier =  LogisticRegression(C=1,penalty='l2')
   
    sentiment_pipeline = Pipeline([
        ('vectorizer', vectorizer),
        ('classifier',classifier)
    ])
    
    #fiting model with  training data
    sentiment_pipeline.fit(X,y)
    
    #saving model to disk
    pickle.dump(sentiment_pipeline, open('app/model_en.pkl','wb'))
    
    #loading model to compare the result
    model_fr = pickle.load(open('app/model_en.pkl','rb'))
   
   

In [12]:
print(df.info())
df = df.fillna("vide")
print(df.info())
load_model()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 189735 entries, 0 to 189734
Data columns (total 4 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Commentaire         189735 non-null  object
 1   Sentiment           189735 non-null  int64 
 2   StemmedComments     189735 non-null  object
 3   LemmatizedComments  189735 non-null  object
dtypes: int64(1), object(3)
memory usage: 5.8+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 189735 entries, 0 to 189734
Data columns (total 4 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Commentaire         189735 non-null  object
 1   Sentiment           189735 non-null  int64 
 2   StemmedComments     189735 non-null  object
 3   LemmatizedComments  189735 non-null  object
dtypes: int64(1), object(3)
memory usage: 5.8+ MB
None


MemoryError: 

## test prediction grace au model chargé

In [None]:
from nltk import word_tokenize
from nltk.stem.snowball import SnowballStemmer
from nltk.stem.snowball import FrenchStemmer
import spacy
from spacy_lefff import LefffLemmatizer, POSTagger


model_fr = pickle.load(open('app/model_fr.pkl','rb'))



#si ni lemm ni stemm
#text = ["bravo"]

#si stemm
text = "honte"
FrenchStemmer = SnowballStemmer("french")
wt = word_tokenize(text)
st = [FrenchStemmer.stem(token) for token in wt ]
st = ' '.join(st)
text = [st]


#si lemm
"""
text = "hontes"
nlp = spacy.load("fr_core_news_sm")
french_lemmatizer = LefffLemmatizer()
nlp.add_pipe(french_lemmatizer, name='lefff')
doc = nlp(text)   
lt=''
for d in doc:
    #print(d.text, d.pos_, d._.lefff_lemma, d.tag_, d.lemma_)
    lt = lt + " " + d.lemma_
text = [lt]
"""
# predict the label using the pipeline
print(str(model_fr.predict(text)[0]))


proba = model_fr.predict_proba(text)[0]
proba_neg = proba[0]
proba_pos = proba[-1]
print(proba_neg)