## Projet 6 : Catégorisez automatiquement des questions

### Etape 2: Modélisation supervisée

---

#### Fonctions utiles

#### Fonction qui récupère les features d'un corpus selon une fraction des données entre min_features_to_stop et max_features_to_stop
<u>Exemple</u>: get_stop_words(freq_features, 0.2, 0.7) récupère 20 % des features les - significatives et 30% de celles les + significatives, le paramètre freq_features correspond à un vecteur de fréquence des features obtenu avec un modèle CountVectorizer ou TfidfVectorizer

In [1]:
def get_stop_words(freq_features, min_features_to_stop=0.1, max_features_to_stop=1):
    freq_quantile = freq_features.quantile([min_features_to_stop, max_features_to_stop]) 
    stop_words =list(freq_features[(freq_features < freq_quantile.iloc[0]) | (freq_features > freq_quantile.iloc[1])].index)
    return stop_words 

#### Retourne un vectorizer (Count/Tfidf) entrainé sur un dataset X_train en précisant le %tage des features à supprimer du vocabulaire 

In [2]:
def fit_vectorizer_on(vectorizer, X_train, min_features_to_stop=0.1, max_features_to_stop=1):
    # Numérisation du texte des posts (Body uniquement) avec TfidfVectorizer
    X_features = vectorizer.fit_transform(X_train).toarray()

    freq_features = pd.Series(np.sum(X_features, axis=0), index=vectorizer.get_feature_names())

    # On élague les features les plus faibles en terme de tf-idf (ou les plus fortes si max_features_to_stop < 1)
    stop_words = get_stop_words(freq_features, min_features_to_stop, max_features_to_stop)

    # Et renumérisation des posts en tenant compte des stop words calculés
    vectorizer.set_params(stop_words=stop_words)
    
    vectorizer.fit_transform(X_train)

    return vectorizer

#### Entraine un modèle Naive Bayes sur (X_train, y_train) et calcule l'accuracy score obtenu sur (X_test, y_test)

In [3]:
from sklearn import metrics

def get_score_nbayes_on(nbayes, vectorizer, X_train, y_train, X_test, y_test):
    X_train_vect = vectorizer.fit_transform(X_train).toarray()

    nbayes.fit(X_train_vect, y_train)

    X_test_vect = vectorizer.transform(X_test).toarray()

    y_pred = nbayes.predict(X_test_vect)

    return metrics.accuracy_score(y_test, y_pred)

#### Fonctions de tracé

In [4]:
# Fonction de tracé d'un barplot pour une Series
def trace_barplot(y, title, kind='bar'):
    if (kind=='bar'):
        plt.xticks(range(len(y)), list(y.index),rotation = 0, fontsize=14)
        plt.bar(range(len(y)),y,width = 0.2, color='red')   
    elif (kind=='barh'):       
        plt.yticks(range(len(y)), list(y.index),rotation = 0, fontsize=14)
        plt.barh(range(len(y)),y,height = 0.2, color='red')
    plt.title(title)

In [5]:
# Fonction de tracé d'un histogramme pour un array/Series
def trace_hist(y,title,xlabel,ylabel, n_bins):
    plt.hist(y, range=(y.min(), y.max()), bins=n_bins,color='yellow',edgecolor='red')
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(title)

---

In [6]:
import pandas as pd
%pylab inline
plt.style.use('ggplot')

Populating the interactive namespace from numpy and matplotlib


## Tests de modèles supervisés

## Cas d'une classification multi-classes, 1 output. 
#### Test du classifieur sur un jeu de données de posts STOVF taggués avec <u> 1 seul tag </u>



### 1. Modèle classifieur Naive Bayes

#### On charge les posts STOVF traités dans le notebook StackoverflowData.ipynb

In [7]:
stovf_data = pd.read_pickle('C:\\Formation\\Data scientist\\Projet_6\\datasets_2\\stovfset_4ml.pkl')

In [None]:
# Répartition du nombre de tags dans le jeu de données
# On dispose de 25838 documents avec 1 seul tag
stovf_data.Nb_tags.value_counts()

#### Préparation des données d'entrainement et de test

In [None]:
from sklearn import model_selection

stovf_data_one_tag = stovf_data[stovf_data.Nb_tags==1].copy()

In [None]:
stovf_data_one_tag.shape

#### On cleane les tags avec une fréquence très faible: nécessité d'avoir suffisamment de données pour entrainer les modèles sur chacune des classes 

In [None]:
tags_freq = stovf_data_one_tag.Tags_cleaned_2.value_counts()
print('Nbre de tags avec une fréquence très faible = 1 %*taille des données:', len(tags_freq[tags_freq < 0.01*stovf_data_one_tag.shape[0]]))

In [None]:
tags_to_remove = list(tags_freq[tags_freq < 0.01*stovf_data_one_tag.shape[0]].index)

#### Suppression des tags non significatifs (représentés par moins de 1% des données)

In [None]:
stovf_data_one_tag.Tags_cleaned_2 = stovf_data_one_tag.Tags_cleaned_2.apply(lambda x: np.nan if x in tags_to_remove else x)

In [None]:
stovf_data_one_tag.drop(stovf_data_one_tag[stovf_data_one_tag.Tags_cleaned_2.isnull()].index, axis=0, inplace=True)

#### Données d'entrainement et de test avec:
X = texte + titre du post STOVF, y = tag

In [None]:
X = stovf_data_one_tag[['Body_cleaned','Title_cleaned']]
y = stovf_data_one_tag.Tags_cleaned_2

X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, stratify=y, test_size=0.25, random_state=0)

#### Visualisation des étiquettes finales 

In [None]:
plt.figure(figsize=(6,6))
trace_barplot(y.value_counts(), 'Tags et distribution', kind='barh')

#### Numérisation des posts (Body uniquement) avec CountfVectorizer et application d'un modèle Naive Bayes

In [None]:
from sklearn.feature_extraction.text import CountVectorizer


count_vect_body = CountVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)

count_vect_body = fit_vectorizer_on(count_vect_body, X_train.Body_cleaned, min_features_to_stop=0.4)

print('Taille du vocabulaire:%i' % len(count_vect_body.get_feature_names()))

from sklearn.naive_bayes import MultinomialNB

nbayes = MultinomialNB()

score = get_score_nbayes_on(nbayes, count_vect_body, X_train.Body_cleaned, y_train, X_test.Body_cleaned, y_test)

print('Accuracy score - CountVectorizer(Body) + Naive Bayes:', score)

#### Numérisation des posts (Body uniquement) avec TfidffVectorizer et application d'un modèle Naive Bayes

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

count_vect_body = TfidfVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)

count_vect_body = fit_vectorizer_on(count_vect_body, X_train.Body_cleaned, min_features_to_stop=0.4)

print('Taille du vocabulaire:%i' % len(count_vect_body.get_feature_names()))
print(' [Min, Max] Tf-idf: [%.2f, %2f]' % (count_vect_body.idf_.min(),count_vect_body.idf_.max()) )

nbayes = MultinomialNB()

score = get_score_nbayes_on(nbayes, count_vect_body, X_train.Body_cleaned, y_train, X_test.Body_cleaned, y_test)

print('Accuracy score - TfidfVectorizer(Body) + Naive Bayes:', score)

#### Numérisation des posts (Title uniquement) avec CountVectorizer et application d'un modèle Naive Bayes

In [None]:
count_vect = CountVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)

count_vect = fit_vectorizer_on(count_vect, X_train.Title_cleaned, min_features_to_stop=0.4)

print('Taille du vocabulaire:%i' % len(count_vect.get_feature_names()))

nbayes = MultinomialNB()

score = get_score_nbayes_on(nbayes, count_vect, X_train.Title_cleaned, y_train, X_test.Title_cleaned, y_test)

print('Accuracy score - CountVectorizer(Title) + Naive Bayes:', score)

#### Numérisation des posts (Title uniquement) avec TfidffVectorizer et application d'un modèle Naive Bayes

In [None]:
count_vect = TfidfVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)

count_vect = fit_vectorizer_on(count_vect, X_train.Title_cleaned, min_features_to_stop=0.4)

print('Taille du vocabulaire:%i' % len(count_vect.get_feature_names()))
print(' [Min, Max] Tf-idf: [%.2f, %2f]' % (count_vect.idf_.min(),count_vect.idf_.max()) )

nbayes = MultinomialNB()

score = get_score_nbayes_on(nbayes, count_vect, X_train.Title_cleaned, y_train, X_test.Title_cleaned, y_test)

print('Accuracy score - TfidfVectorizer(Title) + Naive Bayes:', score)

#### Numérisation des posts (Body+Title séparément) avec CountVectorizer et application d'un modèle Naive Bayes sur la concaténation des features Body  + features Title 
-> on considère 2 contextes différents suivant que le mot appartienne au post ou au titre du post.

In [None]:
count_vect_body = CountVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)
count_vect_body = fit_vectorizer_on(count_vect_body, X_train.Body_cleaned, min_features_to_stop=0.4)
X_train_vect_body = count_vect_body.fit_transform(X_train.Body_cleaned).toarray()

count_vect_title = CountVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)
count_vect_title = fit_vectorizer_on(count_vect_title, X_train.Title_cleaned, min_features_to_stop=0.4)
X_train_vect_title = count_vect_title.fit_transform(X_train.Title_cleaned).toarray()

nbayes = MultinomialNB()

X_train_vect_body_title = np.concatenate((X_train_vect_body, X_train_vect_title), axis=1)

nbayes.fit(X_train_vect_body_title, y_train)

X_test_vect_body = count_vect_body.transform(X_test.Body_cleaned).toarray()
X_test_vect_title = count_vect_title.transform(X_test.Title_cleaned).toarray()

X_test_vect_body_title = np.concatenate((X_test_vect_body, X_test_vect_title), axis=1)

y_pred = nbayes.predict(X_test_vect_body_title)

score = metrics.accuracy_score(y_test, y_pred)

print('Accuracy score - CountVectorizer(Body+Title) + Naive Bayes:', score)
nbayes.score(X_test_vect_body_title, y_test)

#### On visualise les résultats des prédictions 

In [None]:
# sur un échantillon aléatoire de 5 posts
pd.DataFrame({'Body':X_test.Body_cleaned,'Title':X_test.Title_cleaned,'y_test':y_test,'y_pred':y_pred}).sample(5)

### 2. Modèle classifieur Régression logistique 

#### Numérisation des posts (Body uniquement) avec TfidffVectorizer et application d'un modèle de Régression logistique

In [None]:
from sklearn import linear_model

logreg = linear_model.LogisticRegression(multi_class='ovr')

# Body vectorization (Train)
count_vect_body = TfidfVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)
count_vect_body = fit_vectorizer_on(count_vect_body, X_train.Body_cleaned, min_features_to_stop=0.4)
X_train_vect_body = count_vect_body.fit_transform(X_train.Body_cleaned).toarray()

logreg.fit(X_train_vect_body, y_train)

#### Calcul des probabilités d'appartenance à chacune des classes 

In [None]:
# Body vectorization (Test)
X_test_vect_body = count_vect_body.transform(X_test.Body_cleaned).toarray()

# On récupère la prédiction de la valeur positive
y_prob = logreg.predict_proba(X_test_vect_body)

#### Mesure intuitive de l'efficacité de chacun des classifieurs en regardant le nombre de points autour de la frontière de décision

In [None]:
nb_posts_near_decisionf=[]
for i in range(y_prob.shape[1]):
    nb_points = sum((y_prob[:,i]  > 0.4) & (y_prob[:,i]  < 0.6))
    nb_posts_near_decisionf.append(nb_points*100/y_prob.shape[0])
nb_posts_near_decisionf
#pd.DataFrame({'Pourcentage de posts autour de la frontière de décision (proba. entre 0.4 et 0.6)':nb_posts_near_decisionf})

#### Score

In [None]:
score = logreg.score(X_test_vect_body, y_test)

print('Accuracy score - TfidfVectorizer(Body) + Logistic Regression:', score)

#### Numérisation des posts (Body + Title) avec TfidffVectorizer et application d'un modèle de Régression logistique

In [None]:
logreg = linear_model.LogisticRegression(multi_class='ovr')

# Title vectorization (Train)
count_vect_title = TfidfVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)
count_vect_title = fit_vectorizer_on(count_vect_title, X_train.Title_cleaned, min_features_to_stop=0.4)
X_train_vect_title = count_vect_title.fit_transform(X_train.Title_cleaned).toarray()

# Body + Title concatenation (Train)
X_train_vect_body_title = np.concatenate((X_train_vect_body, X_train_vect_title), axis=1)

logreg.fit(X_train_vect_body_title, y_train)

In [None]:
# Title vectorization (Test)
X_test_vect_title = count_vect_title.transform(X_test.Title_cleaned).toarray()
# Body + Title concatenation (Test)
X_test_vect_body_title = np.concatenate((X_test_vect_body, X_test_vect_title), axis=1) 

score = logreg.score(X_test_vect_body_title, y_test)

print('Accuracy score - TfidfVectorizer(Body + Title) + Logistic Regression:', score)

#### Validation croisée sur le modèle de régression logistique (Body+Title)

In [None]:
from sklearn.model_selection import cross_val_score

clf = linear_model.LogisticRegression(multi_class='ovr')
 
scores = cross_val_score(clf, X_train_vect_body_title, y_train, cv=5)
print('Moyenne des erreurs du modèle :', scores.mean())
print('Variance des erreurs du modèle :', scores.std())

#### Validation croisée avec recherche du meilleur modèle sur les hyperparamètres {C, penalty}

In [None]:
from sklearn import neighbors, metrics

param_grid = {'C':10.0**-np.arange(-2,2),
              'penalty': ['l1','l2']
             }
score = 'accuracy'

clf = model_selection.GridSearchCV(
    linear_model.LogisticRegression(multi_class='ovr'), 
    param_grid, 
    cv=5, 
    scoring=score 
)

clf.fit(X_train_vect_body_title, y_train)

print ("Meilleur(s) hyperparamètre(s) sur le jeu d'entraînement:", clf.best_params_)

print ("Résultats de la validation croisée :")
for mean, std, params in zip(clf.cv_results_['mean_test_score'], clf.cv_results_['std_test_score'], clf.cv_results_['params']):
    print ("\t%s = %0.3f (+/-%0.03f) for %r" % (score, mean, std*2,params ))

#### Le meilleur score de 69,4 % est obtenu avec C = 1 et penalty = l1 (méthode Lasso) 

In [None]:
clf.score(X_test_vect_body_title, y_test)

### 3. SGD Classifier

#### Entrainement d'un SGD Classifier avec les paramètres sklearn par défaut 
et en considérant la fonction de coût d'une Régression logistique (paramètre loss='log')

In [None]:
from sklearn.linear_model import SGDClassifier

# ici pas nécessaire de scaler les features avant entrainement
sgd = SGDClassifier(loss="log")
sgd.fit(X_train_vect_body_title, y_train)

In [None]:
score = sgd.score(X_test_vect_body_title, y_test)

print('Accuracy score - TfidfVectorizer(Body + Title) + SGD Classifieur:', score)

#### Validation croisée et recherche du meilleur modèle avec une GridSearchCV

In [None]:
from sklearn import neighbors, metrics

param_grid = {#'alpha': 10.0**-np.arange(1,7),
              'alpha': [5e-06,8e-06,1e-05,5e-05,9e-05],
              'penalty': ['l1','l2','elasticnet']              
             }

score = 'accuracy'

clf = model_selection.GridSearchCV(
    linear_model.SGDClassifier(loss="log"), 
    param_grid, 
    cv=5, 
    scoring=score 
)

clf.fit(X_train_vect_body_title, y_train)

print ("Meilleur(s) hyperparamètre(s) sur le jeu d'entraînement:", clf.best_params_)


In [None]:
print ("Résultats de la validation croisée :")
for mean, std, params in zip(clf.cv_results_['mean_test_score'], clf.cv_results_['std_test_score'], clf.cv_results_['params']):
    print ("\t%s = %0.3f (+/-%0.03f) for %r" % (score, mean, std*2,params ))

In [None]:
score = clf.score(X_test_vect_body_title, y_test)

print('Accuracy score - TfidfVectorizer(Body + Title) + SGD Classifieur:', score)

### 4. Voting Classifier

#### On peut agréger les résultats des 3 classifieurs précédents avec un VotingClassifier pour un vote à la majorité

In [None]:
from sklearn.ensemble import VotingClassifier

clf1 = MultinomialNB()
clf2 = linear_model.LogisticRegression(multi_class='ovr', random_state=1) 
clf3 = linear_model.SGDClassifier(loss="log", alpha=9e-05, penalty='l1', random_state=1, max_iter=10)

vclf = VotingClassifier(estimators=[('mnb', clf1), ('lr', clf2), ('sgd', clf3)], voting='hard')

# on fait une validation croisée 
for clf, label in zip([clf1, clf2, clf3, vclf], ['Naive Bayes', 'Logistic Regression', 'SGD', 'Ensemble']):
     scores = cross_val_score(clf, X_train_vect_body_title, y_train, cv=5, scoring='accuracy')
     print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

#### <u>Conclusion</u>: le VotingClassifier n'a pas permis d'améliorer les résultats de chacun des 3 classifieurs

In [None]:
score = vclf.score(X_test_vect_body_title, y_test)
print('Accuracy score - TfidfVectorizer(Body + Title) + VotingClassifier:', score)

## Cas d'une classification multi-classes, multi-output. 
#### Test du classifieur sur un jeu de données de posts STOVF taggués avec 1 ou plusieurs tags 



### 1. Modèle classifieur Naive Bayes

#### Préparation des données d'entrainement et de test

In [8]:
X = stovf_data[['Body_cleaned','Title_cleaned']]
y = stovf_data.Tags_cleaned_2

In [9]:
y=y.apply(lambda x: x.split())

#### MultiLabelBinarizer sur les tags

In [10]:
from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()

y_mlb= mlb.fit_transform(y)

#### On reconstruit un dataframe 

In [11]:
y_mlb = pd.DataFrame(y_mlb, columns=mlb.classes_, index=y.index)

#### Comme pour le traitement des posts à 1 seul tag, on supprime les tags qui apparaissent dans moins de 1% de la taille du dataset

In [12]:
nb_posts_per_tag = y_mlb.sum(axis=0)

In [13]:
tags_to_remove = nb_posts_per_tag[nb_posts_per_tag < 0.05*X.shape[0]]

In [14]:
print('Nbre initial de tags: %i' % y_mlb.shape[1])
print('Nbre de tags à supprimer: %i' % len(tags_to_remove))

Nbre initial de tags: 6555
Nbre de tags à supprimer: 6549


In [15]:
# Suppression des colonnes tags
y_mlb.drop(list(tags_to_remove.index), axis=1, inplace=True)

In [16]:
# Dimension de y_mlb
y_mlb.shape

(59239, 6)

In [17]:
# la matrice apparait moins "creuse" (sparse)
y_mlb.head()

Unnamed: 0,.net,asp.net,c#,c++,java,javascript
0,0,0,1,0,0,0
1,0,0,0,0,0,0
2,1,0,1,0,0,0
4,0,0,0,0,0,1
5,1,0,0,0,0,0


In [None]:
#trace_barplot(nb_posts_per_tag, 'Tags et distribution', kind='bar')

In [32]:
# Nbre de documents par tag
y_mlb.sum(axis=0)

.net          6219
asp.net       3946
c#            9526
c++           3540
java          5056
javascript    3237
dtype: int64

#### Préparation du jeu d'entrainement et de test 
On se limite là aussi à un dataset de 20000 posts pour des pbs de capacité mémoire

In [None]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X[['Body_cleaned','Title_cleaned']][:20000] , y_mlb[:20000], test_size=0.25, random_state=0)

#### On extrait les features selon les mêmes règles que précédemment avec un CountVectorizer

#### X_train

In [None]:
count_vect_body = CountVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)
count_vect_body = fit_vectorizer_on(count_vect_body, X_train.Body_cleaned, min_features_to_stop=0.4)
X_train_vect_body = count_vect_body.fit_transform(X_train.Body_cleaned).toarray()

count_vect_title = CountVectorizer(ngram_range=(1,2), min_df=20, max_df=0.15)
count_vect_title = fit_vectorizer_on(count_vect_title, X_train.Title_cleaned, min_features_to_stop=0.4)
X_train_vect_title = count_vect_title.fit_transform(X_train.Title_cleaned).toarray()

X_train_vect_body_title = np.concatenate((X_train_vect_body, X_train_vect_title), axis=1)

#### X_test

In [None]:
X_test_vect_body = count_vect_body.transform(X_test.Body_cleaned).toarray()
X_test_vect_title = count_vect_title.transform(X_test.Title_cleaned).toarray()

X_test_vect_body_title = np.concatenate((X_test_vect_body, X_test_vect_title), axis=1)

### MultiOutputClassifier & Naive Bayes
On entraine n classifieurs Naive Bayes binaires de manière indépendante avec n = nbre de tags (44 outputs) 

In [None]:
from sklearn.multioutput import MultiOutputClassifier

nbayes = MultinomialNB()

multi_target_nbayes = MultiOutputClassifier(nbayes, n_jobs=-1)
multi_target_nbayes.fit(X_train_vect_body_title, y_train)                                          

In [None]:
y_pred = multi_target_nbayes.predict(X_test_vect_body_title)

In [None]:
from sklearn.metrics import hamming_loss, accuracy_score

print('Accuracy score: % .2f' % metrics.accuracy_score(y_pred, y_test))
print('Hamming loss score: % .2f' % metrics.hamming_loss(y_pred, y_test))

In [None]:
#test = multi_target_nbayes.predict(X_test_vect_body_title[2:3])

In [None]:
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb.fit_transform([['titi', 'sci-fi', 'thriller'], ['thriller','toto','sci-fi']])

In [None]:
from sklearn.metrics import hamming_loss,accuracy_score,f1_score
hamming_loss(a,b)

In [None]:
y_true = np.array([[0,0,0],
                   [0,1,1],
                   [1,1,1],
                   [0,0,1]])

y_pred = np.array([[0,1,1],
                   [0,1,1],
                   [0,1,0],
                   [0,0,1]])
hamming_loss(y_true,y_pred)
#metrics.accuracy_score(y_pred, y_true)

In [None]:
f1_score(y_true,y_pred,average='weighted')