## I - Automatisation cleaning datasets

In [1]:
# Script permettant de nettoyer et de comparer plusieurs dataframes au sein d'un même script
# N.B : les datasets utilisés correspondent à des commentaires de chaînes sur Youtube
# qui ont été scrappées à des fins pédagogiques (projet d'étude).
# Il s'agit de commentaires relatifs à des chaînes tenues par des individus ou des entreprises
# qui portent sur les langages de programmations R et python.
import pandas as pd
import re

# Dataframes des commentaires issues de chaînes tenues par des particuliers
df_ind_py = pd.read_csv('data/individu_Python_1.csv')
df_ind_R = pd.read_csv('data/individu_R_1.csv')
# Dataframes des commentaires issues de chaînes tenues par des entreprises
df_entrep_py = pd.read_csv('data/entreprise_Python_2.csv')
df_entrep_R = pd.read_csv('data/entreprise_R_2.csv')

dataframes = ['df1', 'df2', 'df3', 'df4']

# Liste qui regroupe l'ensemble des dataframes
df_all = [df_ind_py, df_ind_R, df_entrep_py, df_entrep_R]

# Deuxième liste qui regroupera les dataframes nettoyés
df_all2 = []

# Dictionnaires vides auxquels on va ajouter les commentaires nettoyés pour chaque dataframe
dico1 = {'comment': []} 
dico2 = {'comment': []}
dico3 = {'comment': []}
dico4 = {'comment': []}

# Liste qui regroupe l'ensemble de nos dictionnaires
dico_all = [dico1, dico2, dico3, dico4]

# Liste qui regroupera l'ensemble des effectifs ( =  dataframe[column].size() )
somme = []

# Remove all emojis
def remove_emoji(string):
    emoji_pattern = re.compile("["
                           u"\U0001F600-\U0001F64F"  # emoticons
                           u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                           u"\U0001F680-\U0001F6FF"  # transport & map symbols
                           u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           u"\U00002702-\U000027B0"
                           u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', string)


# Clean de tous les dataframes en supprimant NaN, emoji, HTML (balises)
def all_For_One(dataframe, dictionnary):
    dataframe = dataframe.filter(['commentText'])
    dataframe.rename(columns={'commentText':'comment'}, inplace=True)
    dataframe = dataframe.dropna()
    for i in dataframe.comment:
        ip = remove_emoji(i)
        re.sub('<[^<]+?>', '', ip)
        dictionnary['comment'].append(ip)    
    for c in dataframes:
        c = pd.DataFrame(dictionnary)
        
    somme.append(c['comment'].size) 
    return c
    
# Boucle permettant de remplir notre liste des dataframes cleaned 
for df,dico in zip(df_all, dico_all):
    df_all2.append(all_For_One(df, dico))

    
# On a donc :
# somme = liste qui contient l'effectif (taille) de la colonne de chaque dataframe
# df_all2 = liste qui contient l'ensemble des dataframes cleaned

# Ajouts possibles => cleaning des :
# -URLS, 
# -numbers (cellphones)
# -format dates, emails... 

**Exemple : sélection et création du "premier dataframe" de notre liste de dataframes** 

In [3]:
df_first = df_all2[0]
df_first

Unnamed: 0,comment
0,"I barely understand what i am doing, but i tri..."
1,"Hello Siraj, I would like to ask you something..."
2,Fuck data science. Fuck my family. And fuck go...
3,Need help. I can’t install the scikit (windows...
4,"Hey, just a quick question, is there a problem..."
5,You are amazing.
6,Lol who's that guy in the small pic at 3:20?\...
7,"Hey, how's it going,\nThanks been watching you..."
8,"I think some dependencies changed, if you want..."
9,"I think output is wrong , value which you pass..."


## II - Automatisation entraînement modèles :

**1 - Import des librairies et du dataset :**

In [4]:
# Les librairies facultatives sont commentées
import pandas as pd
import numpy as np
# import matplotlib.pyplot as plt
# %matplotlib inline
# import seaborn as sns
# sns.set()
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('data/Dataset_feuilles_1.csv')
# On crée nos variables features (X) et labels (y)
X = df.iloc[:,2:194]
y = df.iloc[:,1]

**2 - Normalisation des features et encoding des labels :**

In [5]:
from sklearn.preprocessing import LabelEncoder, StandardScaler

labelencoder = LabelEncoder()
standardscaler = StandardScaler()

# On standardise les 192 variables comme évoqué précédemment
X_std = standardscaler.fit_transform(X)
# On encode notre variable 'species' passant ainsi d'un format string à un format numérique calculable
y_encode = labelencoder.fit_transform(y)

**3 - Séparation du dataset en training et testing sets :**

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_std, y_encode,
                                                    test_size=0.2, random_state=42)

**4 - Création des différents modèles à confronter :**

In [7]:
from sklearn.svm import LinearSVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

knn = KNeighborsClassifier()
param_knn = {'n_neighbors': np.arange(2, 16),
             'metric':["euclidean","manhattan","chebyshev","minkowski"],
             'weights' : ['uniform', 'distance']}

svm = LinearSVC(dual=False)
param_svm = {'penalty': ['l1','l2'],
             'C': np.logspace(-3, 3, 7),
             'multi_class': ['crammer_singer'] }

**5 - Automatisation de l'entraînement avec optimisation des paramètres et hyperparamètres via GridSearchCV et loop / fold :**

In [8]:
# Code permettant d'automatiser l'entrainement des deux modèles utilisés ici.
# On peut très bien intégrer d'autres modèles avec leurs listes de paramètres associés
def one_For_All(models, folds):
    # On définit ici un dictionnaire qui va nous servir de compte rendu bilan
    dico_all = {'model': [], 'fold': [], 'param': [], 'score': []}
    # On itère sur le dictionnaire des modèles qui contient aussi une clef avec leurs paramètres
    for mod, paramg in zip(models['algorithme'], models['parameters']):
        # Pour chaque folds on entraîne le modèle de la première boucle avec ses paramètres
        for fold in folds:
            # On applique une GridSearchCV au modèle concerné avec ses paramètres et le fold en question
            grid_pred = GridSearchCV(mod, paramg, cv=fold)
            grid_pred.fit(X_train, y_train)
            score_all = grid_pred.score(X_test, y_test)
            # On remplit ici les différentes clefs de notre dictionnaire
            dico_all['model'].append(mod)
            dico_all['fold'].append(fold)
            dico_all['param'].append(grid_pred.best_params_)
            dico_all['score'].append(score_all)
    # En sortie de boucle on crée un dataframe à partir de notre dictionnaire bilan
    df_model = pd.DataFrame(dico_all)
    # On filtre notre dataframe bilan en sélectionnant le modèle ayant le meilleur score
    x_model = df_model.loc[df_model['score'].idxmax()]

    return x_model


In [11]:
%%time

folds = [x for x in range(2, 11)]

algorithms = {'algorithme': [knn, svm], 'parameters': [param_knn, param_svm]}

resultats_all = one_For_All(algorithms, folds)

CPU times: user 25min 25s, sys: 2min 40s, total: 28min 5s
Wall time: 24min 27s


In [12]:
resultats_all

model    LinearSVC(C=1.0, class_weight=None, dual=False...
fold                                                     9
param    {'C': 0.01, 'multi_class': 'crammer_singer', '...
score                                                    1
Name: 16, dtype: object

In [None]:
# Si on ne connait pas les labels exacts du dictionnaire 
#(mais que l'ordre de celui-ci reste inchangé) on peut adopter ce style de boucle à la place

# Exemple :
for mod, paramg in zip(list(algorithms.values())[0], list(algorithms.values())[1]):
    print(paramg)