In [None]:
# Imports n√©cessaires

%matplotlib inline

# Suppression de l'affichage des messages d'avertissement
import warnings
warnings.filterwarnings('ignore')
import string
import time
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn import metrics
from sklearn import model_selection
from sklearn import set_config
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.dummy import DummyClassifier
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, f1_score, accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.multiclass import OneVsRestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import FunctionTransformer, MinMaxScaler
from sklearn.pipeline import Pipeline, FeatureUnion, make_pipeline
from sklearn.tree import DecisionTreeClassifier
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import spacy
import nltk

# Pour √©viter l'affichage tronqu√© des descriptions
pd.set_option('display.max_colwidth', -1)
# Pour la visualisation des pipelines sklearn
set_config(display='diagram')

# Classification de documents

<div class="alert alert-block alert-info">

ü•Ö **Objectifs**

- Savoir utiliser `scikit-learn` pour faire de l'apprentissage supervis√© √† partir de documents
- Savoir pr√©traiter les donn√©es pour l'apprentissage
- R√©aliser une validation crois√©e pour l'apprentissage
- Interpr√©ter les r√©sultats obtenus
</div>

## 1. Donn√©es

Nous allons travailler avec un jeu de donn√©es contenant des descriptions de vins fran√ßais, t√©l√©charg√©es √† l'adresse suivante : https://www.kaggle.com/zynicide/wine-reviews/
Ces descriptions proviennent du site WineEnthusiast, et comprennent par ailleurs le prix d'une bouteille de vin en dollars, la r√©gion d'o√π est issu le vin et la vari√©t√© de raisin utilis√©e.  

L'objectif sera de parvenir √† pr√©dire automatiquement la r√©gion, en fonction des autres informations.

Nous allons commencer par r√©cup√©rer et charger les donn√©es :

In [None]:
# Cr√©ation d'un dossier appel√© data
!mkdir data
# T√©l√©chargement du fichier winemag-fr.csv dans le dossier data
!wget -P data https://git.unistra.fr/dbernhard/ftaa_data/-/raw/main/winemag-fr.csv

In [None]:
# Lecture du fichier CSV
wine_df = pd.read_csv("data/winemag-fr.csv", sep=",", dtype={'description': 'object',
                                           'price': 'float64',
                                           'province': 'category',
                                           'variety': 'object'})
# Nettoyage des donn√©es
# - Suppression des lignes comportant des donn√©es manquantes (dropna)
# - Suppression des doublons (drop_duplicates)
wine_df = wine_df.drop_duplicates().dropna(how = 'any')

In [None]:
wine_df.info()

Le jeu de donn√©es contient 10 166 lignes. Ce jeu de donn√©es est relativement petit pour l'apprentissage automatique. Les colonnes `description` et `variety` contiennent du texte. La colonne `price` des nombres r√©els. La colonne `province` est cat√©gorielle : elle ne peut prendre qu'un nombre fini de valeurs diff√©rentes (modalit√©s).

Nous allons ajouter deux nouvelles colonnes :
- `sparkling` (colonne bool√©enne pour les vins p√©tillants)
- `expensive` (colonne bool√©enne pour les vins chers / peu chers). Cette op√©ration consiste √† **discr√©tiser** la colonne `price`, c'est-√†-dire transformer des variables continues en
valeurs discr√®tes. Cela peut dans certains cas am√©liorer les r√©sultats de
l‚Äôapprentissage, faciliter l‚Äôinterpr√©tation des r√©sultats et r√©duire le temps de calcul. Nous allons classer les vins  en deux cat√©gories : *cher* / *peu cher*, en utilisant un seuil de prix de 50.

A partir de cette valeur, nous d√©finissons la colonne bool√©enne `expensive`, dont la valeur sera 1 si le prix est sup√©rieur au prix de 50, 0 dans le cas contraire :

In [None]:
threshold_price = 50
wine_df['expensive'] = wine_df['price'].map(lambda x : 1 if x > threshold_price else 0)
wine_df['expensive'] = wine_df['expensive'].astype('int64')
wine_df.expensive.value_counts().plot(kind='bar')

De la m√™me mani√®re, nous d√©finissons la colonne bool√©enne `sparkling`, dont la valeur sera 1 si le vin est p√©tillant, 0 dans le cas contraire :

In [None]:
wine_df['sparkling'] = wine_df['variety'].map(
    lambda v : 1 if v in ['Champagne_Blend', 'Sparkling_Blend'] else 0)
wine_df['sparkling'] = wine_df['sparkling'].astype('int64')
wine_df.sparkling.value_counts().plot(kind='bar')

## 2.  Apprentissage de la r√©gion

Nous allons tout d'abord tenter d'apprendre la r√©gion, √† partir du type p√©tillant ou non, de la cat√©gorie de prix, de la description et de la vari√©t√© de raisin.

Les diff√©rentes r√©gions pr√©sentes dans le jeu de donn√©es sont les suivantes :

In [None]:
wine_df.province.value_counts()

Par convention, en science des donn√©es :
- **`X`** est utilis√© pour les donn√©es sources utilis√©es pour l'apprentissage, c'est √† dire l'ensemble des traits ou caract√©ristiques (*features*)
- **`y`**  est utilis√© pour ce que l'on cherche √† pr√©dire (la ou les classes, en cas de classification multi-label)
- **`train`** est utilis√© pour les donn√©es d'apprentissage
- **`test`** est utilis√© pour les donn√©es d'√©valuation

Nous allons tout d'abord extraire `X` et `y` √† partir de nos donn√©es :

In [None]:
# Les colonnes contenant les informations utilis√©es pour l'apprentissage
X = wine_df[['sparkling', 'expensive', 'description', 'variety']]
# La colonne contenant l'information √† pr√©dire
y = wine_df.province

In [None]:
X.head()

In [None]:
y.head()

Pour r√©aliser nos premi√®res exp√©riences, nous allons d√©couper automatiquement les donn√©es en jeu d'apprentissage et de validation (_dev-test set_).

Nous allons uiliser 20% des donn√©es pour la validation (`test_size=0.2`). Avant d√©coupage, les donn√©es seront m√©lang√©es (`shuffle=True`). Cette op√©ration est contr√¥l√©e par un entier (`random_state=12`) qui permet de contr√¥ler le g√©n√©rateur de nombre al√©atoire et ainsi s'assurer que les donn√©es seront d√©coup√©es de la m√™me mani√®re √† chaque appel de la fonction.

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2,
                                                    random_state=12, shuffle=True)

### 2.1. Cr√©ation de pipelines
    
Dans `scikit-learn` on dispose de diff√©rents types d'outils :    
- **Estimateurs** :
    - Objectif : estimer certains param√®tres √† partir d‚Äôun jeu de donn√©es, apprendre un mod√®le
    - L‚Äôestimation est effectu√©e par appel √† la m√©thode `fit()`
    - Exemple : m√©thode `fit()` de `CountVectorizer`
- **Transformateurs** :
    - Objectif : transformer le jeu de donn√©es
    - La transformation est effectu√©e par appel √† la m√©thode `transform()`
    - La transformation repose en g√©n√©ral sur les param√®tres appris √† la phase d'estimation
- **Pr√©dicteurs**
    - Certains estimateurs peuvent faire des pr√©dictions √† partir d'un jeu de donn√©es
    - La pr√©diction se fait par appel √† la m√©thode `predict()`
    - Elle renvoie les pr√©dictions √† partir d'un nouveau jeu de donn√©es
- **Pipeline**
    - S√©quence de transformateurs (`fit` et `transform`) et de pr√©dicteurs (`fit` et `predict`)

Nous allons d√©crire une cha√Æne de traitement sp√©cifique √† chaque type de colonne. En particulier, les colonnes correspondant √† des textes dans `X` doivent √™tre transform√©es en nombres (sac de mots) pour pouvoir √™tre utilis√©es pour l'apprentissage (colonnes `description`, `variety`).

Ces cha√Ænes de traitement seront d√©crites dans des objets de type `Pipeline` qui incluent toutes les √©tapes de pr√©-traitement et de classification. L'utilisation des objets `Pipeline` rend le code plus flexible, mieux structur√©, et permet l'utilisation plus ais√©e de la validation crois√©e.

#### 2.1.1. Colonne `variety`

Dans cette colonne, lorsque le nom de la vari√©t√© comporte plusieurs mots, comme "Bordeaux-style\_Red\_Blend", les mots sont s√©par√©s par `_`. Nous allons donc d√©finir une fonction de tok√©nisation qui d√©coupe la vari√©t√© en fonction de ce signe. Cette fonction de tok√©nisation sera ensuite utilis√©e par un objet de type `CountVectorizer`, afin de pouvoir passer √† une repr√©sentation "sac de mots".

In [None]:
# Fonction de tok√©nisation
def tokenize_variety(text):
    return text.split('_')

# Objet CountVectorizer pour la transformation en sac de mots
var_vectorizer = CountVectorizer(tokenizer=tokenize_variety,
                                 min_df=0.01)

Exemple d'utilisation de `var_vectorizer` sur les 5 premi√®res lignes de `X_val` :

In [None]:
res_var = var_vectorizer.fit_transform(X_val.variety.head())
print("Input varieties")
print(X_val.variety.head())
print()
print("Output bag of words")
var_bow = pd.DataFrame(res_var.toarray(), columns=var_vectorizer.get_feature_names_out())
var_bow

üö® Les r√©ponses aux questions doivent √™tre donn√©es sur Moodle (Questionnaire "R√©ponses aux questions du TP")

<div class="alert alert-info">

‚ùì [1] Que constatez-vous concernant la casse des caract√®res ? Que fait <code>CountVectorizer</code> par d√©faut ?

</div>

<div class="alert alert-info">

‚ùì [2] A quoi correspond le param√®tre <code>min_df</code> utilis√© √† l'initialisation de <code>var_vectorizer</code> ? Vous pouvez consulter l'aide de CountVectorizer pour r√©pondre √† la question : https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

</div>

#### 2.1.2. Colonne `description`

Pour la colonne `description`, le texte sera d√©coup√© en mots √† l'aide de la fonction `split_into_tokens_nltk`. Les mots seront √©galement mis en minuscules et les mots vides seront supprim√©s, √† l'aide des param√®tres sp√©cifiques √† `TfidfVectorizer` :

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

In [None]:
def split_into_tokens_nltk(desc) :
    return word_tokenize(desc)

# Liste des mots vides de NLTK + signes de ponctuation
nltk_stopwords = stopwords.words('english')+list(string.punctuation)

# Objet TfidfVectorizer
desc_vectorizer = TfidfVectorizer(tokenizer=split_into_tokens_nltk,
                                  lowercase=True,
                                  stop_words=nltk_stopwords,
                                  min_df=0.01)

Exemple d'utilisation de `desc_vectorizer` sur les 5 premi√®res lignes de `X_val` :

In [None]:
res_desc = desc_vectorizer.fit_transform(X_val.description.head())
print("Input descriptions")
print(X_val.description.head())
print()
print("Output bag of words")
desc_bow = pd.DataFrame(res_desc.toarray(), columns=desc_vectorizer.get_feature_names_out())
desc_bow

#### 2.1.3 Utilisation de la colonne `description` pour obtenir des informations statistiques

Nous pouvons d√©duire des informations suppl√©mentaires √† partir de la description : sa longueur en nombre de caract√®res et le nombre approximatif de phrases (en comptant le nombre de points).
Pour ce faire, nous allons d√©finir une function particuli√®re charg√©e de calculer ces informations, `text_stats`. Ces informations seront ensuite transform√©es en traits utilisables pour l'apprentissage √† l'aide d'un objet de type `DictVectorizer` (cf. https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html) :

In [None]:
# Source : https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer.html
def text_stats(descriptions):
    return [{"length": len(text), "num_sentences": text.count(".")}
            for text in descriptions]

text_stats_transformer = FunctionTransformer(text_stats)
text_stats_vectorizer = DictVectorizer(sparse=False)

Exemple d'utilisation de `text_stats_transformer` sur les 5 premi√®res lignes de `X_val` :

In [None]:
res_dict = text_stats_transformer.transform(X_val.description.head())
res_stats = text_stats_vectorizer.fit_transform(res_dict)
print("Input descriptions")
print(X_val.description.head())
print()
print("Output statistics")
stats = pd.DataFrame(res_stats, columns=text_stats_vectorizer.get_feature_names_out())
stats

On constate que ces mesures sont bien sup√©rieures √† 1. Les variables `length` et `num_sentences` ont des √©chelles de valeurs tr√®s diff√©rentes des variables obtenues par `CountVectorizer` et `TfIdfVectorizer`, qui sont comprises entre 0 et 1. Cela peut affecter la classification en donnant artificiellement plus de poids aux variables `length` et `num_sentences`. Pour cela, on peut normaliser les donn√©es, afin d'obtenir des plages de valeurs comparables pour les diff√©rentes variables. Plusieurs m√©thodes existent (standardisation √† l'aide du z-score : moyenne nulle et variance de 1, par la valeur maximum absolue, etc.). Nous allons utiliser `MinMaxScaler` (cf. https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler). Cela permet d'obtenir des valeurs comprises dans un intervalle donn√©, par exemple \[0, 1\] :

In [None]:
min_max_scaler = MinMaxScaler()
scaled_stats = min_max_scaler.fit_transform(res_stats)

In [None]:
print("Before MinMax scaling")
print(res_stats)
print()
print("After MinMax scaling")
print(scaled_stats)

<div class="alert alert-info">

‚ùì [3] Que deviennent les valeurs minimum et maximum apr√®s la normalisation ?

</div>

#### 2.1.4. Colonnes `expensive` et `sparkling`

Ces colonnes ne contiennent que des 0 et des 1 et peuvent donc √™tre utilis√©es telles quelles, sans n√©cessiter de traitement particulier.

#### 2.1.5.  Cha√Æne de pr√©-traitement compl√®te

Il est maintenant possible de combiner toutes ces cha√Ænes de pr√©-traitement afin d'obtenir une cha√Æne globale, qui produira l'union des traits g√©n√©r√©s ind√©pendamment par chaque type de pr√©-traitement op√©r√© sur les colonnes.

In [None]:
column_trans = ColumnTransformer(
     [
         # Colonne 'variety' : bag-of-words
         ('variety_bow', var_vectorizer, 'variety'),
         # Colonne 'description' : tf-idf
         ('description_tfidf', desc_vectorizer, 'description'),
         # Colonne 'description' : statistiques
         (
             'description_stats',
             Pipeline(
                 [
                     ('text_stats', text_stats_transformer),
                     ('vect', text_stats_vectorizer),
                     ('scaling', min_max_scaler)
                 ]
             ),
             'description'
         )
     ],
     # Colonnes 'expensive' et 'sparkling' : conserv√©es telles quelles
     remainder='passthrough'
 )

Visualisation de la cha√Æne de pr√©-traitement compl√®te :

In [None]:
column_trans

### 2.2. Apprentissage

On peut maintenant effectuer une cha√Æne compl√®te, apprentissage compris. L'algorithme d'apprentissage utilis√© ici est `LogisticRegression()` :

In [None]:
# Pr√©traitement + apprentissage
classifier_pipeline = make_pipeline(
    # Pr√©paration des donn√©es pour l'apprentissage
    column_trans,
    # Algorithme d'apprentissage
    LogisticRegression()
)

In [None]:
# Apprentissage avec les donn√©es d'entra√Ænement
classifier_pipeline.fit(X_train, y_train)

Nous allons ensuite √©valuer le mod√®le sur les donn√©es de test :

In [None]:
y_pred = classifier_pipeline.predict(X_val)
print("Classification report:\n\n{}".format(classification_report(y_val, y_pred)))

Dans l'affichage des r√©sultats, la colonne `support` correspond au nombre d'instances de chaque classe dans les donn√©es de test (classes r√©elles et non pas classes pr√©dites par le classifieur).

(voir https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)

<div class="alert alert-info">

‚ùì [4] Quel est le score de justesse ?

</div>

<div class="alert alert-info">

‚ùì [5] Quelles sont les r√©gions obtenant les meilleurs r√©sultats en termes de :
    <ul>
        <li>pr√©cision</li>
        <li>rappel</li>
        <li>f1-score (f-mesure)</li>
    </ul>
    
</div>

<div class="alert alert-info">

‚ùì [6] Quelle r√©gion a le plus grand support ?

</div>

### 2.3. Analyse des r√©sultats √† l'aide des matrices de confusion

Chaque ligne d'une matrice de confusion correspond √† la classe r√©elle (classe attendue) et chaque colonne correspond √† la classe pr√©dite. Si la classification √©tait parfaite, alors on ne trouverait que des valeurs non nulles sur la diagonale principale (coin sup√©rieur gauche vers coin inf√©rieur droit) et des valeurs nulles ailleurs dans la matrice (absence de confusions).

La matrice de confusion permet de rep√©rer facilement les classes pour lesquelles le mod√®le √† le plus de difficult√©s (grandes valeurs qui ne se trouvent pas sur la diagonale) et avec quelle(s) autre(s) classe(s) ces classes sont le plus souvent confondues

In [None]:
# Liste des labels (classes) se trouvant dans les donn√©es de test
labels = np.unique(y_val)
# Matrice de confusion
cm =  confusion_matrix(y_val, y_pred, labels=labels)
# Matrice de confusion sous forme de DataFrame
confusion_df = pd.DataFrame(cm, index=labels, columns=labels)
print('confusion matrix\n')
print('(row=expected, col=predicted)')
confusion_df.head(n=15)

<div class="alert alert-info">

‚ùì [7] Combien d'instances de la r√©gion 'Loire-Valley' sont correctement class√©es ?

</div>

Affichage des r√©gions qui sont le plus fr√©quemment confondues avec 'Alsace' :

In [None]:
confusion_df.loc['Alsace'].sort_values(ascending=False)

<div class="alert alert-info">

‚ùì [8] Quelles sont les 3 r√©gions de production des vins les plus fr√©quemment confondues avec l'Alsace ?

</div>

La matrice de confusion peut √©galement √™tre repr√©sent√©e sous forme graphique :

In [None]:
plt.matshow(confusion_matrix(y_val, y_pred),
            cmap=plt.cm.binary, interpolation='nearest')
plt.title('confusion matrix')
plt.colorbar()
plt.ylabel('expected label')
plt.xlabel('predicted label')

Affichage en couleur avec nom des classes :

In [None]:
# Source : https://intellipaat.com/community/1611/sklearn-plot-confusion-matrix-with-labels
# http://www.tarekatwan.com/index.php/2017/12/how-to-plot-a-confusion-matrix-in-python/

fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(cm, interpolation='nearest', cmap=plt.cm.Oranges)
fig.colorbar(cax)
tick_marks = np.arange(len(labels))
labels_for_fig = [l[0:5]+'.' for l in labels]
plt.xticks(tick_marks, labels_for_fig, rotation=45)
plt.yticks(tick_marks, labels_for_fig)
plt.xlabel('Predicted')
plt.ylabel('Expected')
plt.show()

### 2.4. Apprentissage et √©valuation par validation crois√©e

Rappel :       
- Validation crois√©e √† $k$ plis ($k$_-fold cross-validation_) : les donn√©es d'entra√Ænement sont d√©coup√©es en $k$ parties (les "plis") :
    - Un mod√®le est entra√Æn√© en utilisant $k$ - 1 "plis" puis valid√© sur le "pli" restant
    - On fait ensuite la moyenne des mesures d'√©valuation pour obtenir la performance finale du mod√®le.
- Cela permet d'√©viter de d√©couper les donn√©es disponibles en jeu d'entra√Ænement, de validation et de test : le jeu de validation n'est plus n√©cessaire

#### 2.4.1. `KFold`

`KFold` d√©coupe le jeu de donn√©es en $k$ plis cons√©cutifs (par d√©faut, les donn√©es ne sont pas m√©lang√©es : cela peut √™tre modifi√© √† l'aide du param√®tre `shuffle`)

In [None]:
# Nombre de plis
folds = 5
# D√©coupage en plis
kfold = model_selection.KFold(n_splits=folds, shuffle=True, random_state=12)

In [None]:
# Apprentissage avec validation crois√©e
y_kfold_pred = model_selection.cross_val_predict(classifier_pipeline, X_train,
                                                   y_train, cv=kfold, n_jobs=-1)

In [None]:
print(classification_report(y_train, y_kfold_pred))

#### 2.4.2. `StratifiedKFold`

`StratifiedKFold` prend en compte la r√©partition des classes, et le pourcentage d'exemples pour chaque classe est pr√©serv√© dans chaque pli.

In [None]:
stratkfold = model_selection.StratifiedKFold(n_splits=folds, shuffle=True, random_state=12)

In [None]:
y_stratkfold_pred = model_selection.cross_val_predict(classifier_pipeline, X_train,
                                                   y_train, cv=stratkfold, n_jobs=-1)

In [None]:
print(classification_report(y_train, y_stratkfold_pred))

**Remarque**

Il y a peu de diff√©rences ici entre `KFold` et `StratifiedKFold` car on dispose de suffisamment d'instances et dans les deux cas on m√©lange les donn√©es. D'une mani√®re g√©n√©rale, si les classes ne sont pas √©quilibr√©es, on pr√©f√®rera `StratifiedKFold`.

### 2.5. Comparaison de plusieurs classifieurs

Il est souvent utile de comparer plusieurs algorithmes de classification pour la m√™me t√¢che, afin de d√©terminer lequel fonctionne le mieux.
Le choix du classifieur d√©pend de la nature des donn√©es, de la quantit√© disponible, du type de r√©sultat √† obtenir.

Pour vous aider dans le choix des classifieurs,  vous pouvez consulter les diagrammes d'aide suivants :

<div>
<br/>   
<img src="https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F4138465%2Fde131be0b3fb7d7f9d314e1f6c5f0ee6%2Fml_algos_cheat_sheet.png?generation=1590660360753004&alt=media" width="700"/>

Source : https://www.kaggle.com/getting-started/154432
</div>

<div>
<br/>   
<img src="https://scikit-learn.org/stable/_static/ml_map.png" width="700"/>

Source : https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
</div>

Nous allons comparer les algorithmes suivants, en utilisant la validation crois√©e :
- `DummyClassifier` : baseline, toutes les instances seront class√©es dans la classe la plus fr√©quente (d'autres strat√©gies sont possibles)
- `MultinomialNB` : Multinomial Naive Bayes, une des variantes de Naive Bayes g√©n√©ralement utilis√©e pour la classification de textes repr√©sent√©s sous forme de sacs de mots
- `DecisionTreeClassifier` : arbre de d√©cision, utilisant l'algorithme CART
- `LogisticRegression` : la classe est pr√©dite √† partir d'une combinaison lin√©aire des traits, o√π chaque trait est associ√© √† un coefficient.
- `KNeighborsClassifier` : recherche les instances les plus proches dans les donn√©es d'apprentissage afin de d√©terminer la classe.
- `RandomForestClassifier` : pr√©diction √† partir d'un ensemble d'arbres de d√©cision al√©atoires, dont les d√©cisions sont agr√©g√©es

<div class="alert alert-danger" role="alert">

‚ö†Ô∏è L'ex√©cution de la cellule ci-dessous prend du temps, c'est normal ! ‚ö†Ô∏è

</div>

In [None]:
# Mod√®les √† comparer
models = [
    ('Baseline', DummyClassifier(strategy='most_frequent')),
    ('Mutinomial NB', MultinomialNB()),
    ('CART', DecisionTreeClassifier()),
    ('LR', LogisticRegression()),
    ('KNN', KNeighborsClassifier()),
    ('Random forest', RandomForestClassifier())
]
# Evaluation de chaque r√©sultat l'un apr√®s l'autre
scores = []
names = []
scoring = 'macro F1'
# Validation crois√©e √† 5 plis
kfold = model_selection.StratifiedKFold(n_splits=5, shuffle=True, random_state=12)
# It√©ration sur les mod√®les
for name, model in models:
    # Ajout du nom du mod√®le √† la liste name
    names.append(name)
    # Cr√©ation de la pipeline pour le mod√®le
    model_pipeline = make_pipeline(column_trans, model)
    # Validation crois√©e
    y_pred = model_selection.cross_val_predict(model_pipeline,
                                               X_train, y_train,
                                               cv=kfold)
    print(name)
    print(classification_report(y_train, y_pred))
    f1 = metrics.f1_score(y_train, y_pred, average='macro')
    scores.append(f1)

# Repr√©sentation graphique des r√©sultats
indices = np.arange(len(scores))
fig = plt.figure()
plt.barh(indices, scores, .2, label="score", color='b')
plt.yticks(())
for i, c in zip(indices, names):
    plt.text(-.3, i, c)
plt.show()

<div class="alert alert-info">

‚ùì [9] Quel algorithme d'apprentissage obtient les meilleurs r√©sultats (en termes de score F1 macro) ?

</div>



<div class="alert alert-info">

‚ùì [10] Pourquoi est-ce que la classe 'Burgundy' est la seule √† obtenir des scores sup√©rieurs √† 0 avec la m√©thode 'Baseline' ?

</div>

### 2.6. Entra√Ænement uniquement avec une partie des traits

Afin de mieux comprendre l'influence de certains traits sur l'apprentissage, il est d'usage de v√©rifier les r√©sultats en supprimant un trait ou plusieurs traits afin de voir l'influence que cela a sur les r√©sultats.

Par exemple, on peut reprendre l'apprentissage en supprimant les traits li√©s aux statistiques textuelles (longueur du texte et nombre de phrases), en ne conservant que les autres traits :

In [None]:
column_trans2 = ColumnTransformer(
     [
         # Colonne 'variety' : bag-of-words
         ('variety_bow', var_vectorizer, 'variety'),
         # Colonne 'description' : tf-idf
         ('description_tfidf', desc_vectorizer, 'description'),
     ],
     # Colonnes 'expensive' et 'sparkling' : conserv√©es telles quelles
     remainder='passthrough'
 )
column_trans2

In [None]:
# Validation crois√©e √† 5 plis
for name, model in models:
    model_pipeline = make_pipeline(column_trans2, model)
    y_pred = model_selection.cross_val_predict(model_pipeline, X_train, y_train,
                                               cv=kfold)
    print(name)
    print(classification_report(y_train, y_pred))

<div class="alert alert-info">

‚ùì [11] La suppression des traits li√©s aux statistiques textuelles (longueur du texte et nombre de phrases) a-t-elle un impact positif ou n√©gatif sur les r√©sultats de l'apprentissage ? Qu'en d√©duisez-vous sur l'utilit√© de ces traits pour l'apprentissage ?

</div>

<div class="alert alert-info">
    
‚ùì [12] Quels sont les traits les plus importants pour faire la classification selon la r√©gion : 'variety_bow' ou 'description_tfidf' ? (testez l'√©limination de l'un ou l'autre trait, en fixant le param√®tre `remainder='drop'` pour √©liminer les autres colonnes.

</div>

## 3. Bonus : Explication des pr√©dictions

Nous allons utiliser la biblioth√®que [`lime`](https://github.com/marcotcr/lime/) pour essayer de comprendre les pr√©dictions faites par le mod√®le.

L'**explicabilit√©** consiste √† pouvoir expliquer comment un mod√®le aboutit √† ses pr√©dictions, et c'est justement l'objectif de `lime`. `lime` met en √©vidence l'importance de certain tokens du texte pour expliquer la classe pr√©dite pour une instance.

Nous allons pour cela prendre le cas de l'apprentissage de la r√©gion de provenance des vins uniquement √† partir de la description.

In [None]:
c = make_pipeline(desc_vectorizer, LogisticRegression())
c.fit(X_train.description, y_train)

In [None]:
! pip install lime

In [None]:
from lime.lime_text import LimeTextExplainer
class_labels = c.classes_
explainer = LimeTextExplainer(class_names=class_labels)

In [None]:
class_labels

In [None]:
idx = 5689
print(f'Document id : {idx}')
print(f'Classe pr√©dite : {c.predict(X_val.loc[[idx]].description)[0]}')
print(f'Classe r√©elle : {y_val.loc[idx]}')

In [None]:
exp = explainer.explain_instance(X_val.description.at[idx],
                                 c.predict_proba,
                                 num_features=6,
                                 top_labels=len(class_labels))

In [None]:
print('Explications (tokens qui affectent la classification posititivement et n√©gativement)\n')
for i in range(len(class_labels)):
    print(f'Classe {class_labels[i]}')
    print('\n'.join(map(str, exp.as_list(label=i))))
    print()

In [None]:
exp.show_in_notebook(text=False)

In [None]:
exp.show_in_notebook(text=X_val.description.at[idx], labels=(7, 2, 0))

Que se passe-t-il si l'on supprime le mot "flavors" du texte d√©crivant le vin ? De combien la probabilit√© de pr√©diction pour la classe "Loire_Valley" diminue-t-elle ?

In [None]:
exp = explainer.explain_instance(X_val.description.at[idx].replace('flavors', ''),
                                 c.predict_proba,
                                 num_features=6,
                                 top_labels=len(class_labels))

In [None]:
exp.show_in_notebook(text=X_val.description.at[idx], labels=(7, 2, 0))

## Sources
- http://queirozf.com/entries/scikit-learn-pipeline-examples
- http://www.davidsbatista.net/blog/2017/04/01/document_classification/
- http://www.pitt.edu/~naraehan/presentation/Movie+Reviews+sentiment+analysis+with+Scikit-Learn.html
- http://zacstewart.com/2014/08/05/pipelines-of-featureunions-of-pipelines.html
- https://bbengfort.github.io/tutorials/2016/05/19/text-classification-nltk-sckit-learn.html
- https://itnext.io/machine-learning-sentiment-analysis-of-movie-reviews-using-logisticregression-62e9622b4532
- https://machinelearningmastery.com/compare-machine-learning-algorithms-python-scikit-learn/
- https://medium.com/hugo-ferreiras-blog/dealing-with-categorical-features-in-machine-learning-1bb70f07262d
- https://ramhiser.com/post/2018-04-16-building-scikit-learn-pipeline-with-pandas-dataframe
- https://stackabuse.com/text-classification-with-python-and-scikit-learn/
- https://towardsdatascience.com/multi-label-text-classification-with-scikit-learn-30714b7819c5
- https://marcotcr.github.io/lime/tutorials/Lime%20-%20multiclass.html