In [None]:
# Imports nécessaires

%matplotlib inline

# Suppression de l'affichage des messages d'avertissement
import warnings
warnings.filterwarnings('ignore')
import string
import time
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn import metrics
from sklearn import model_selection
from sklearn import set_config
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.dummy import DummyClassifier
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, f1_score, accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.multiclass import OneVsRestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import FunctionTransformer, MinMaxScaler
from sklearn.pipeline import Pipeline, FeatureUnion, make_pipeline
from sklearn.tree import DecisionTreeClassifier
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import spacy
import nltk

# Pour éviter l'affichage tronqué des descriptions
pd.set_option('display.max_colwidth', -1)
# Pour la visualisation des pipelines sklearn
set_config(display='diagram')

# Classification de documents

<div class="alert alert-block alert-info">

🥅 **Objectifs**

- Savoir utiliser `scikit-learn` pour faire de l'apprentissage supervisé à partir de documents
- Savoir prétraiter les données pour l'apprentissage
- Réaliser une validation croisée pour l'apprentissage
- Interpréter les résultats obtenus
</div>

## 1. Données

Nous allons travailler avec un jeu de données contenant des descriptions de vins français, téléchargées à l'adresse suivante : https://www.kaggle.com/zynicide/wine-reviews/
Ces descriptions proviennent du site WineEnthusiast, et comprennent par ailleurs le prix d'une bouteille de vin en dollars, la région d'où est issu le vin et la variété de raisin utilisée.  

L'objectif sera de parvenir à prédire automatiquement la région, en fonction des autres informations.

Nous allons commencer par récupérer et charger les données :

In [None]:
# Création d'un dossier appelé data
!mkdir data
# Téléchargement du fichier winemag-fr.csv dans le dossier data
!wget -P data https://git.unistra.fr/dbernhard/ftaa_data/-/raw/main/winemag-fr.csv

In [None]:
# Lecture du fichier CSV
wine_df = pd.read_csv("data/winemag-fr.csv", sep=",", dtype={'description': 'object',
                                           'price': 'float64',
                                           'province': 'category',
                                           'variety': 'object'})
# Nettoyage des données
# - Suppression des lignes comportant des données manquantes (dropna)
# - Suppression des doublons (drop_duplicates)
wine_df = wine_df.drop_duplicates().dropna(how = 'any')

In [None]:
wine_df.info()

Le jeu de données contient 10 166 lignes. Ce jeu de données est relativement petit pour l'apprentissage automatique. Les colonnes `description` et `variety` contiennent du texte. La colonne `price` des nombres réels. La colonne `province` est catégorielle : elle ne peut prendre qu'un nombre fini de valeurs différentes (modalités).

Nous allons ajouter deux nouvelles colonnes :
- `sparkling` (colonne booléenne pour les vins pétillants)
- `expensive` (colonne booléenne pour les vins chers / peu chers). Cette opération consiste à **discrétiser** la colonne `price`, c'est-à-dire transformer des variables continues en
valeurs discrètes. Cela peut dans certains cas améliorer les résultats de
l’apprentissage, faciliter l’interprétation des résultats et réduire le temps de calcul. Nous allons classer les vins  en deux catégories : *cher* / *peu cher*, en utilisant un seuil de prix de 50.

A partir de cette valeur, nous définissons la colonne booléenne `expensive`, dont la valeur sera 1 si le prix est supérieur au prix de 50, 0 dans le cas contraire :

In [None]:
threshold_price = 50
wine_df['expensive'] = wine_df['price'].map(lambda x : 1 if x > threshold_price else 0)
wine_df['expensive'] = wine_df['expensive'].astype('int64')
wine_df.expensive.value_counts().plot(kind='bar')

De la même manière, nous définissons la colonne booléenne `sparkling`, dont la valeur sera 1 si le vin est pétillant, 0 dans le cas contraire :

In [None]:
wine_df['sparkling'] = wine_df['variety'].map(
    lambda v : 1 if v in ['Champagne_Blend', 'Sparkling_Blend'] else 0)
wine_df['sparkling'] = wine_df['sparkling'].astype('int64')
wine_df.sparkling.value_counts().plot(kind='bar')

## 2.  Apprentissage de la région

Nous allons tout d'abord tenter d'apprendre la région, à partir du type pétillant ou non, de la catégorie de prix, de la description et de la variété de raisin.

Les différentes régions présentes dans le jeu de données sont les suivantes :

In [None]:
wine_df.province.value_counts()

Par convention, en science des données :
- **`X`** est utilisé pour les données sources utilisées pour l'apprentissage, c'est à dire l'ensemble des traits ou caractéristiques (*features*)
- **`y`**  est utilisé pour ce que l'on cherche à prédire (la ou les classes, en cas de classification multi-label)
- **`train`** est utilisé pour les données d'apprentissage
- **`test`** est utilisé pour les données d'évaluation

Nous allons tout d'abord extraire `X` et `y` à partir de nos données :

In [None]:
# Les colonnes contenant les informations utilisées pour l'apprentissage
X = wine_df[['sparkling', 'expensive', 'description', 'variety']]
# La colonne contenant l'information à prédire
y = wine_df.province

In [None]:
X.head()

In [None]:
y.head()

Pour réaliser nos premières expériences, nous allons découper automatiquement les données en jeu d'apprentissage et de validation (_dev-test set_).

Nous allons uiliser 20% des données pour la validation (`test_size=0.2`). Avant découpage, les données seront mélangées (`shuffle=True`). Cette opération est contrôlée par un entier (`random_state=12`) qui permet de contrôler le générateur de nombre aléatoire et ainsi s'assurer que les données seront découpées de la même manière à chaque appel de la fonction.

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2,
                                                    random_state=12, shuffle=True)

### 2.1. Création de pipelines
    
Dans `scikit-learn` on dispose de différents types d'outils :    
- **Estimateurs** :
    - Objectif : estimer certains paramètres à partir d’un jeu de données, apprendre un modèle
    - L’estimation est effectuée par appel à la méthode `fit()`
    - Exemple : méthode `fit()` de `CountVectorizer`
- **Transformateurs** :
    - Objectif : transformer le jeu de données
    - La transformation est effectuée par appel à la méthode `transform()`
    - La transformation repose en général sur les paramètres appris à la phase d'estimation
- **Prédicteurs**
    - Certains estimateurs peuvent faire des prédictions à partir d'un jeu de données
    - La prédiction se fait par appel à la méthode `predict()`
    - Elle renvoie les prédictions à partir d'un nouveau jeu de données
- **Pipeline**
    - Séquence de transformateurs (`fit` et `transform`) et de prédicteurs (`fit` et `predict`)

Nous allons décrire une chaîne de traitement spécifique à chaque type de colonne. En particulier, les colonnes correspondant à des textes dans `X` doivent être transformées en nombres (sac de mots) pour pouvoir être utilisées pour l'apprentissage (colonnes `description`, `variety`).

Ces chaînes de traitement seront décrites dans des objets de type `Pipeline` qui incluent toutes les étapes de pré-traitement et de classification. L'utilisation des objets `Pipeline` rend le code plus flexible, mieux structuré, et permet l'utilisation plus aisée de la validation croisée.

#### 2.1.1. Colonne `variety`

Dans cette colonne, lorsque le nom de la variété comporte plusieurs mots, comme "Bordeaux-style\_Red\_Blend", les mots sont séparés par `_`. Nous allons donc définir une fonction de tokénisation qui découpe la variété en fonction de ce signe. Cette fonction de tokénisation sera ensuite utilisée par un objet de type `CountVectorizer`, afin de pouvoir passer à une représentation "sac de mots".

In [None]:
# Fonction de tokénisation
def tokenize_variety(text):
    return text.split('_')

# Objet CountVectorizer pour la transformation en sac de mots
var_vectorizer = CountVectorizer(tokenizer=tokenize_variety,
                                 min_df=0.01)

Exemple d'utilisation de `var_vectorizer` sur les 5 premières lignes de `X_val` :

In [None]:
res_var = var_vectorizer.fit_transform(X_val.variety.head())
print("Input varieties")
print(X_val.variety.head())
print()
print("Output bag of words")
var_bow = pd.DataFrame(res_var.toarray(), columns=var_vectorizer.get_feature_names_out())
var_bow

🚨 Les réponses aux questions doivent être données sur Moodle (Questionnaire "Réponses aux questions du TP")

<div class="alert alert-info">

❓ [1] Que constatez-vous concernant la casse des caractères ? Que fait <code>CountVectorizer</code> par défaut ?

</div>

<div class="alert alert-info">

❓ [2] A quoi correspond le paramètre <code>min_df</code> utilisé à l'initialisation de <code>var_vectorizer</code> ? Vous pouvez consulter l'aide de CountVectorizer pour répondre à la question : https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

</div>

#### 2.1.2. Colonne `description`

Pour la colonne `description`, le texte sera découpé en mots à l'aide de la fonction `split_into_tokens_nltk`. Les mots seront également mis en minuscules et les mots vides seront supprimés, à l'aide des paramètres spécifiques à `TfidfVectorizer` :

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

In [None]:
def split_into_tokens_nltk(desc) :
    return word_tokenize(desc)

# Liste des mots vides de NLTK + signes de ponctuation
nltk_stopwords = stopwords.words('english')+list(string.punctuation)

# Objet TfidfVectorizer
desc_vectorizer = TfidfVectorizer(tokenizer=split_into_tokens_nltk,
                                  lowercase=True,
                                  stop_words=nltk_stopwords,
                                  min_df=0.01)

Exemple d'utilisation de `desc_vectorizer` sur les 5 premières lignes de `X_val` :

In [None]:
res_desc = desc_vectorizer.fit_transform(X_val.description.head())
print("Input descriptions")
print(X_val.description.head())
print()
print("Output bag of words")
desc_bow = pd.DataFrame(res_desc.toarray(), columns=desc_vectorizer.get_feature_names_out())
desc_bow

#### 2.1.3 Utilisation de la colonne `description` pour obtenir des informations statistiques

Nous pouvons déduire des informations supplémentaires à partir de la description : sa longueur en nombre de caractères et le nombre approximatif de phrases (en comptant le nombre de points).
Pour ce faire, nous allons définir une function particulière chargée de calculer ces informations, `text_stats`. Ces informations seront ensuite transformées en traits utilisables pour l'apprentissage à l'aide d'un objet de type `DictVectorizer` (cf. https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html) :

In [None]:
# Source : https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer.html
def text_stats(descriptions):
    return [{"length": len(text), "num_sentences": text.count(".")}
            for text in descriptions]

text_stats_transformer = FunctionTransformer(text_stats)
text_stats_vectorizer = DictVectorizer(sparse=False)

Exemple d'utilisation de `text_stats_transformer` sur les 5 premières lignes de `X_val` :

In [None]:
res_dict = text_stats_transformer.transform(X_val.description.head())
res_stats = text_stats_vectorizer.fit_transform(res_dict)
print("Input descriptions")
print(X_val.description.head())
print()
print("Output statistics")
stats = pd.DataFrame(res_stats, columns=text_stats_vectorizer.get_feature_names_out())
stats

On constate que ces mesures sont bien supérieures à 1. Les variables `length` et `num_sentences` ont des échelles de valeurs très différentes des variables obtenues par `CountVectorizer` et `TfIdfVectorizer`, qui sont comprises entre 0 et 1. Cela peut affecter la classification en donnant artificiellement plus de poids aux variables `length` et `num_sentences`. Pour cela, on peut normaliser les données, afin d'obtenir des plages de valeurs comparables pour les différentes variables. Plusieurs méthodes existent (standardisation à l'aide du z-score : moyenne nulle et variance de 1, par la valeur maximum absolue, etc.). Nous allons utiliser `MinMaxScaler` (cf. https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler). Cela permet d'obtenir des valeurs comprises dans un intervalle donné, par exemple \[0, 1\] :

In [None]:
min_max_scaler = MinMaxScaler()
scaled_stats = min_max_scaler.fit_transform(res_stats)

In [None]:
print("Before MinMax scaling")
print(res_stats)
print()
print("After MinMax scaling")
print(scaled_stats)

<div class="alert alert-info">

❓ [3] Que deviennent les valeurs minimum et maximum après la normalisation ?

</div>

#### 2.1.4. Colonnes `expensive` et `sparkling`

Ces colonnes ne contiennent que des 0 et des 1 et peuvent donc être utilisées telles quelles, sans nécessiter de traitement particulier.

#### 2.1.5.  Chaîne de pré-traitement complète

Il est maintenant possible de combiner toutes ces chaînes de pré-traitement afin d'obtenir une chaîne globale, qui produira l'union des traits générés indépendamment par chaque type de pré-traitement opéré sur les colonnes.

In [None]:
column_trans = ColumnTransformer(
     [
         # Colonne 'variety' : bag-of-words
         ('variety_bow', var_vectorizer, 'variety'),
         # Colonne 'description' : tf-idf
         ('description_tfidf', desc_vectorizer, 'description'),
         # Colonne 'description' : statistiques
         (
             'description_stats',
             Pipeline(
                 [
                     ('text_stats', text_stats_transformer),
                     ('vect', text_stats_vectorizer),
                     ('scaling', min_max_scaler)
                 ]
             ),
             'description'
         )
     ],
     # Colonnes 'expensive' et 'sparkling' : conservées telles quelles
     remainder='passthrough'
 )

Visualisation de la chaîne de pré-traitement complète :

In [None]:
column_trans

### 2.2. Apprentissage

On peut maintenant effectuer une chaîne complète, apprentissage compris. L'algorithme d'apprentissage utilisé ici est `LogisticRegression()` :

In [None]:
# Prétraitement + apprentissage
classifier_pipeline = make_pipeline(
    # Préparation des données pour l'apprentissage
    column_trans,
    # Algorithme d'apprentissage
    LogisticRegression()
)

In [None]:
# Apprentissage avec les données d'entraînement
classifier_pipeline.fit(X_train, y_train)

Nous allons ensuite évaluer le modèle sur les données de test :

In [None]:
y_pred = classifier_pipeline.predict(X_val)
print("Classification report:\n\n{}".format(classification_report(y_val, y_pred)))

Dans l'affichage des résultats, la colonne `support` correspond au nombre d'instances de chaque classe dans les données de test (classes réelles et non pas classes prédites par le classifieur).

(voir https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)

<div class="alert alert-info">

❓ [4] Quel est le score de justesse ?

</div>

<div class="alert alert-info">

❓ [5] Quelles sont les régions obtenant les meilleurs résultats en termes de :
    <ul>
        <li>précision</li>
        <li>rappel</li>
        <li>f1-score (f-mesure)</li>
    </ul>
    
</div>

<div class="alert alert-info">

❓ [6] Quelle région a le plus grand support ?

</div>

### 2.3. Analyse des résultats à l'aide des matrices de confusion

Chaque ligne d'une matrice de confusion correspond à la classe réelle (classe attendue) et chaque colonne correspond à la classe prédite. Si la classification était parfaite, alors on ne trouverait que des valeurs non nulles sur la diagonale principale (coin supérieur gauche vers coin inférieur droit) et des valeurs nulles ailleurs dans la matrice (absence de confusions).

La matrice de confusion permet de repérer facilement les classes pour lesquelles le modèle à le plus de difficultés (grandes valeurs qui ne se trouvent pas sur la diagonale) et avec quelle(s) autre(s) classe(s) ces classes sont le plus souvent confondues

In [None]:
# Liste des labels (classes) se trouvant dans les données de test
labels = np.unique(y_val)
# Matrice de confusion
cm =  confusion_matrix(y_val, y_pred, labels=labels)
# Matrice de confusion sous forme de DataFrame
confusion_df = pd.DataFrame(cm, index=labels, columns=labels)
print('confusion matrix\n')
print('(row=expected, col=predicted)')
confusion_df.head(n=15)

<div class="alert alert-info">

❓ [7] Combien d'instances de la région 'Loire-Valley' sont correctement classées ?

</div>

Affichage des régions qui sont le plus fréquemment confondues avec 'Alsace' :

In [None]:
confusion_df.loc['Alsace'].sort_values(ascending=False)

<div class="alert alert-info">

❓ [8] Quelles sont les 3 régions de production des vins les plus fréquemment confondues avec l'Alsace ?

</div>

La matrice de confusion peut également être représentée sous forme graphique :

In [None]:
plt.matshow(confusion_matrix(y_val, y_pred),
            cmap=plt.cm.binary, interpolation='nearest')
plt.title('confusion matrix')
plt.colorbar()
plt.ylabel('expected label')
plt.xlabel('predicted label')

Affichage en couleur avec nom des classes :

In [None]:
# Source : https://intellipaat.com/community/1611/sklearn-plot-confusion-matrix-with-labels
# http://www.tarekatwan.com/index.php/2017/12/how-to-plot-a-confusion-matrix-in-python/

fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(cm, interpolation='nearest', cmap=plt.cm.Oranges)
fig.colorbar(cax)
tick_marks = np.arange(len(labels))
labels_for_fig = [l[0:5]+'.' for l in labels]
plt.xticks(tick_marks, labels_for_fig, rotation=45)
plt.yticks(tick_marks, labels_for_fig)
plt.xlabel('Predicted')
plt.ylabel('Expected')
plt.show()

### 2.4. Apprentissage et évaluation par validation croisée

Rappel :       
- Validation croisée à $k$ plis ($k$_-fold cross-validation_) : les données d'entraînement sont découpées en $k$ parties (les "plis") :
    - Un modèle est entraîné en utilisant $k$ - 1 "plis" puis validé sur le "pli" restant
    - On fait ensuite la moyenne des mesures d'évaluation pour obtenir la performance finale du modèle.
- Cela permet d'éviter de découper les données disponibles en jeu d'entraînement, de validation et de test : le jeu de validation n'est plus nécessaire

#### 2.4.1. `KFold`

`KFold` découpe le jeu de données en $k$ plis consécutifs (par défaut, les données ne sont pas mélangées : cela peut être modifié à l'aide du paramètre `shuffle`)

In [None]:
# Nombre de plis
folds = 5
# Découpage en plis
kfold = model_selection.KFold(n_splits=folds, shuffle=True, random_state=12)

In [None]:
# Apprentissage avec validation croisée
y_kfold_pred = model_selection.cross_val_predict(classifier_pipeline, X_train,
                                                   y_train, cv=kfold, n_jobs=-1)

In [None]:
print(classification_report(y_train, y_kfold_pred))

#### 2.4.2. `StratifiedKFold`

`StratifiedKFold` prend en compte la répartition des classes, et le pourcentage d'exemples pour chaque classe est préservé dans chaque pli.

In [None]:
stratkfold = model_selection.StratifiedKFold(n_splits=folds, shuffle=True, random_state=12)

In [None]:
y_stratkfold_pred = model_selection.cross_val_predict(classifier_pipeline, X_train,
                                                   y_train, cv=stratkfold, n_jobs=-1)

In [None]:
print(classification_report(y_train, y_stratkfold_pred))

**Remarque**

Il y a peu de différences ici entre `KFold` et `StratifiedKFold` car on dispose de suffisamment d'instances et dans les deux cas on mélange les données. D'une manière générale, si les classes ne sont pas équilibrées, on préfèrera `StratifiedKFold`.

### 2.5. Comparaison de plusieurs classifieurs

Il est souvent utile de comparer plusieurs algorithmes de classification pour la même tâche, afin de déterminer lequel fonctionne le mieux.
Le choix du classifieur dépend de la nature des données, de la quantité disponible, du type de résultat à obtenir.

Pour vous aider dans le choix des classifieurs,  vous pouvez consulter les diagrammes d'aide suivants :

<div>
<br/>   
<img src="https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F4138465%2Fde131be0b3fb7d7f9d314e1f6c5f0ee6%2Fml_algos_cheat_sheet.png?generation=1590660360753004&alt=media" width="700"/>

Source : https://www.kaggle.com/getting-started/154432
</div>

<div>
<br/>   
<img src="https://scikit-learn.org/stable/_static/ml_map.png" width="700"/>

Source : https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
</div>

Nous allons comparer les algorithmes suivants, en utilisant la validation croisée :
- `DummyClassifier` : baseline, toutes les instances seront classées dans la classe la plus fréquente (d'autres stratégies sont possibles)
- `MultinomialNB` : Multinomial Naive Bayes, une des variantes de Naive Bayes généralement utilisée pour la classification de textes représentés sous forme de sacs de mots
- `DecisionTreeClassifier` : arbre de décision, utilisant l'algorithme CART
- `LogisticRegression` : la classe est prédite à partir d'une combinaison linéaire des traits, où chaque trait est associé à un coefficient.
- `KNeighborsClassifier` : recherche les instances les plus proches dans les données d'apprentissage afin de déterminer la classe.
- `RandomForestClassifier` : prédiction à partir d'un ensemble d'arbres de décision aléatoires, dont les décisions sont agrégées

<div class="alert alert-danger" role="alert">

⚠️ L'exécution de la cellule ci-dessous prend du temps, c'est normal ! ⚠️

</div>

In [None]:
# Modèles à comparer
models = [
    ('Baseline', DummyClassifier(strategy='most_frequent')),
    ('Mutinomial NB', MultinomialNB()),
    ('CART', DecisionTreeClassifier()),
    ('LR', LogisticRegression()),
    ('KNN', KNeighborsClassifier()),
    ('Random forest', RandomForestClassifier())
]
# Evaluation de chaque résultat l'un après l'autre
scores = []
names = []
scoring = 'macro F1'
# Validation croisée à 5 plis
kfold = model_selection.StratifiedKFold(n_splits=5, shuffle=True, random_state=12)
# Itération sur les modèles
for name, model in models:
    # Ajout du nom du modèle à la liste name
    names.append(name)
    # Création de la pipeline pour le modèle
    model_pipeline = make_pipeline(column_trans, model)
    # Validation croisée
    y_pred = model_selection.cross_val_predict(model_pipeline,
                                               X_train, y_train,
                                               cv=kfold)
    print(name)
    print(classification_report(y_train, y_pred))
    f1 = metrics.f1_score(y_train, y_pred, average='macro')
    scores.append(f1)

# Représentation graphique des résultats
indices = np.arange(len(scores))
fig = plt.figure()
plt.barh(indices, scores, .2, label="score", color='b')
plt.yticks(())
for i, c in zip(indices, names):
    plt.text(-.3, i, c)
plt.show()

<div class="alert alert-info">

❓ [9] Quel algorithme d'apprentissage obtient les meilleurs résultats (en termes de score F1 macro) ?

</div>



<div class="alert alert-info">

❓ [10] Pourquoi est-ce que la classe 'Burgundy' est la seule à obtenir des scores supérieurs à 0 avec la méthode 'Baseline' ?

</div>

### 2.6. Entraînement uniquement avec une partie des traits

Afin de mieux comprendre l'influence de certains traits sur l'apprentissage, il est d'usage de vérifier les résultats en supprimant un trait ou plusieurs traits afin de voir l'influence que cela a sur les résultats.

Par exemple, on peut reprendre l'apprentissage en supprimant les traits liés aux statistiques textuelles (longueur du texte et nombre de phrases), en ne conservant que les autres traits :

In [None]:
column_trans2 = ColumnTransformer(
     [
         # Colonne 'variety' : bag-of-words
         ('variety_bow', var_vectorizer, 'variety'),
         # Colonne 'description' : tf-idf
         ('description_tfidf', desc_vectorizer, 'description'),
     ],
     # Colonnes 'expensive' et 'sparkling' : conservées telles quelles
     remainder='passthrough'
 )
column_trans2

In [None]:
# Validation croisée à 5 plis
for name, model in models:
    model_pipeline = make_pipeline(column_trans2, model)
    y_pred = model_selection.cross_val_predict(model_pipeline, X_train, y_train,
                                               cv=kfold)
    print(name)
    print(classification_report(y_train, y_pred))

<div class="alert alert-info">

❓ [11] La suppression des traits liés aux statistiques textuelles (longueur du texte et nombre de phrases) a-t-elle un impact positif ou négatif sur les résultats de l'apprentissage ? Qu'en déduisez-vous sur l'utilité de ces traits pour l'apprentissage ?

</div>

<div class="alert alert-info">
    
❓ [12] Quels sont les traits les plus importants pour faire la classification selon la région : 'variety_bow' ou 'description_tfidf' ? (testez l'élimination de l'un ou l'autre trait, en fixant le paramètre `remainder='drop'` pour éliminer les autres colonnes.

</div>

## 3. Bonus : Explication des prédictions

Nous allons utiliser la bibliothèque [`lime`](https://github.com/marcotcr/lime/) pour essayer de comprendre les prédictions faites par le modèle.

L'**explicabilité** consiste à pouvoir expliquer comment un modèle aboutit à ses prédictions, et c'est justement l'objectif de `lime`. `lime` met en évidence l'importance de certain tokens du texte pour expliquer la classe prédite pour une instance.

Nous allons pour cela prendre le cas de l'apprentissage de la région de provenance des vins uniquement à partir de la description.

In [None]:
c = make_pipeline(desc_vectorizer, LogisticRegression())
c.fit(X_train.description, y_train)

In [None]:
! pip install lime

In [None]:
from lime.lime_text import LimeTextExplainer
class_labels = c.classes_
explainer = LimeTextExplainer(class_names=class_labels)

In [None]:
class_labels

In [None]:
idx = 5689
print(f'Document id : {idx}')
print(f'Classe prédite : {c.predict(X_val.loc[[idx]].description)[0]}')
print(f'Classe réelle : {y_val.loc[idx]}')

In [None]:
exp = explainer.explain_instance(X_val.description.at[idx],
                                 c.predict_proba,
                                 num_features=6,
                                 top_labels=len(class_labels))

In [None]:
print('Explications (tokens qui affectent la classification posititivement et négativement)\n')
for i in range(len(class_labels)):
    print(f'Classe {class_labels[i]}')
    print('\n'.join(map(str, exp.as_list(label=i))))
    print()

In [None]:
exp.show_in_notebook(text=False)

In [None]:
exp.show_in_notebook(text=X_val.description.at[idx], labels=(7, 2, 0))

Que se passe-t-il si l'on supprime le mot "flavors" du texte décrivant le vin ? De combien la probabilité de prédiction pour la classe "Loire_Valley" diminue-t-elle ?

In [None]:
exp = explainer.explain_instance(X_val.description.at[idx].replace('flavors', ''),
                                 c.predict_proba,
                                 num_features=6,
                                 top_labels=len(class_labels))

In [None]:
exp.show_in_notebook(text=X_val.description.at[idx], labels=(7, 2, 0))

## Sources
- http://queirozf.com/entries/scikit-learn-pipeline-examples
- http://www.davidsbatista.net/blog/2017/04/01/document_classification/
- http://www.pitt.edu/~naraehan/presentation/Movie+Reviews+sentiment+analysis+with+Scikit-Learn.html
- http://zacstewart.com/2014/08/05/pipelines-of-featureunions-of-pipelines.html
- https://bbengfort.github.io/tutorials/2016/05/19/text-classification-nltk-sckit-learn.html
- https://itnext.io/machine-learning-sentiment-analysis-of-movie-reviews-using-logisticregression-62e9622b4532
- https://machinelearningmastery.com/compare-machine-learning-algorithms-python-scikit-learn/
- https://medium.com/hugo-ferreiras-blog/dealing-with-categorical-features-in-machine-learning-1bb70f07262d
- https://ramhiser.com/post/2018-04-16-building-scikit-learn-pipeline-with-pandas-dataframe
- https://stackabuse.com/text-classification-with-python-and-scikit-learn/
- https://towardsdatascience.com/multi-label-text-classification-with-scikit-learn-30714b7819c5
- https://marcotcr.github.io/lime/tutorials/Lime%20-%20multiclass.html