# Interprétabilité des modèles
## 0. Overview

Les enjeux derrière l'interprétabilité des modèles, ses motivations ainsi que des méthodes pour les appliquer ont été présentées par **Maxence Brochard**. Vous pouvez à tout moment retrouver les ressources ici : https://lion.app.box.com/folder/65170147483 

=> **L'objectif de ce notebook est la mise en pratique de l'interprétabilité des modèles sur des cas concrets**

### 0.1 Données

Pour la suite de ce notebook, nous nous baserons sur un jeu de données très simple, qui vise à déterminer le prix de vente des maisons de Boston en fonction de différents indicateurs.

In [1]:
from sklearn.datasets import load_boston
import pandas as pd

boston = load_boston()
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = pd.DataFrame(boston.target, columns=["Houses prices"])
print(boston.DESCR)

Boston House Prices dataset

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
      

## 1. Focus sur les Random Forests

Pour commencer, vous devez installer le package **treeinterpreter** : `pip install treeinterpreter` dans votre CLI.

### 1.1 Import des packages

In [2]:
import warnings # On enlève les warnings pour la suite du notebook
warnings.filterwarnings('ignore')

In [3]:
from treeinterpreter import treeinterpreter as ti
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import numpy as np
from sklearn.grid_search import GridSearchCV

### 1.2 Idée générale

Nous allons essayer de nous intéresser un peu plus en profondeur aux Random Forests, et plus particulièrement aux prédictions obtenus par ces modèles, en cherchant à décomposer une prédiction, par exemple pour une maison *i* comme la somme des contributions de chaque variable pour cette maison, i.e. : 
<center> $ prediction^i=biais+contributionVariable_1^i+…+contributionVariable_n^i $ </center> 

Très peu de packages proposent actuellement de rentrer dans ce niveau de détails à l'heure actuelle. Nous nous baserons sur **treeinterpreter**. Ce dernier propose la décomposition exposée au dessus pour différents modèles existants sous *scikit-learn*, tels que :
* DecisionTreeRegressor
* DecisionTreeClassifier
* ExtraTreeRegressor
* ExtraTreeClassifier
* RandomForestRegressor
* RandomForestClassifier
* ExtraTreesRegressor
* ExtraTreesClassifier




### 1.3 Première Random Forest
**Exercice :**
Pour commencer, séparez les données à disposition en 2 échantillons (via la fonction *train_test_split*) en définissant une graîne aléatoire (=1234) :
* un échantillon d'apprentissage (2/3 des données)
* un échantillon de validation (1/3 des données)

Entraînez ensuite une Random Forest (les paramètres par défaut suffiront pour l'exemple) sur la base de vos données d'apprentissage, en indiquant une graine aléatoire (=1234) pour figer les résultats.

*NB : Nous noterons X_train, X_test, y_train, y_test nos échantillons d'apprentissages et de validation, et rf le modèle entraîné*

In [4]:
X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=1/3, random_state=1234)

rf = RandomForestRegressor(random_state=1234)
rf.fit(X_train, y_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=1234, verbose=0, warm_start=False)

Nous allons maintenant choisir 2 points de données de notre échantillon de test, sur lequel nous allons prédire notre cible

In [5]:
tworows = X_test.iloc[:2,]
for i,prediction in enumerate(rf.predict(tworows)):
    print("Prédiction pour ligne {} de notre échantillon de test : {}".format(i,round(prediction,2)))

Prédiction pour ligne 0 de notre échantillon de test : 32.18
Prédiction pour ligne 1 de notre échantillon de test : 23.78


On constate que les prédictions sont très éloignées pour ces 2 points de données. L'idée est donc de comprendre maintenant quelles sont les variables qui ont le plus contribuées (aussi bien négativement que positivement) les prédictions.

Nous allons donc utiliser le package **treeinterpreter**.

La structure est relativement simple, et nous permet, sur la base d'un modèle déjà entraîné, de récupérer pour des points de données de l'échantillon de test, la prédiction du modèle, le biais, ainsi que les contributions de chaque variable :

In [7]:
prediction, biais, contributions = ti.predict(rf, tworows)

Si l'on commence par s'intéresser au contenu de *prediction*, on remarque bien qu'on récupère les mêmes valeurs que ci-dessus. (à ceci près qu'elles sont arrondies à deux décimales)

In [8]:
prediction

array([[32.18],
       [23.78]])

Le contenu de la variable *biais*, qui n'est rien de plus que la moyenne sur l'échantillon d'apprentissage, est logiquement le même qu'importe le point de données de test.

In [9]:
biais

array([22.424273, 22.424273])

Enfin, la variable *contributions* contient deux arrays de dimensions 1x13 chacun, représentant pour chaque prédiction, la contribution de chacune des variables.

In [10]:
contributions

array([[ 6.60555556e-01,  0.00000000e+00,  7.50000000e-02,
         0.00000000e+00,  2.46911765e-01,  6.68611695e+00,
         4.71296296e-03, -9.32726952e-01,  4.50000000e-02,
         1.76981430e+00,  1.61194290e-01, -2.28973138e-01,
         1.26812127e+00],
       [-2.89914054e-01, -8.12566845e-02, -7.07142857e-02,
         0.00000000e+00,  1.82911765e-01,  1.84975041e-01,
        -2.87870370e-02,  7.94091021e-02,  2.83180189e-01,
        -3.20409387e-02, -1.88606092e+00, -6.34404762e-02,
         3.07746530e+00]])

On a donc tout ce qui est nécessaire pour déterminer les contributions de chacune des variables aux deux prédictions, en rappelant que :
<center> $ prediction=biais+contributionVariable1+…+contributionVariablen $ </center> 

In [11]:
for i in range(len(tworows)):
    print("Point de données {}".format(i))
    print("Biais {}".format(biais[i]))
    print("Contributions des variables (par décroissante absolue) :")
    for c, feature in sorted(zip(contributions[i], 
                                 boston.feature_names), 
                             key=lambda x: -abs(x[0])):
        print("{} : {}".format(feature, round(c, 2)))
    print("-"*20) 

Point de données 0
Biais 22.424272997032645
Contributions des variables (par décroissante absolue) :
RM : 6.69
TAX : 1.77
LSTAT : 1.27
DIS : -0.93
CRIM : 0.66
NOX : 0.25
B : -0.23
PTRATIO : 0.16
INDUS : 0.07
RAD : 0.05
AGE : 0.0
ZN : 0.0
CHAS : 0.0
--------------------
Point de données 1
Biais 22.424272997032645
Contributions des variables (par décroissante absolue) :
LSTAT : 3.08
PTRATIO : -1.89
CRIM : -0.29
RAD : 0.28
RM : 0.18
NOX : 0.18
ZN : -0.08
DIS : 0.08
INDUS : -0.07
B : -0.06
TAX : -0.03
AGE : -0.03
CHAS : 0.0
--------------------


**Exercice** : A partir des informations récupérées (biais et contributions) grâce au module *.predict* du package **treeinterpreter**, recalculer les prédictions pour nos 2 points de données de test, et vérifier qu'elles correspondent bien à ce que nous avions obtenu avec *scikit-learn*.

In [12]:
prediction,biais + np.sum(contributions, axis=1)

(array([[32.18],
        [23.78]]), array([32.18, 23.78]))

Ce package est donc très pratique pour pouvoir mieux interpréter les prédictions de nos modèles de Random Forests pour certains points de données.

On y trouve **2 intérêts majeurs** :
* Comprendre pourquoi les valeurs prédites sur 2 jeux de données sont différentes, et quelles sont les variables en causes. Sur notre exemple, on pourrait par exemple chercher à comprendre d'où viennent les différences de prix des maisons de plusieurs voisinages
* Débugger un modèle et/ou les données, en cherchant par exemple à comprendre pourquoi les valeurs prédites sur un nouveau jeu de données ne matchent pas avec celle d'anciennes données

=> **Essayons de développer le premier cas**.

**Exercice** : Splitter le jeu de données de test *(X_test)* en 2 sous échantillons (respectivement *ech1* & *ech2*) de tailles égales. En utilisant la Random Forest déjà entraînée, calculez et stockez les prédictions associées à ces 2 sous échantillons. Calculez en ensuite la moyenne.

In [20]:
idx = round(len(X_test)/2)
ech1 = X_test.iloc[:idx,:]
ech2 = X_test.iloc[idx:,:]

pred_ech1 = rf.predict(ech1)
pred_ech2 = rf.predict(ech2)
print(np.mean(pred_ech1),np.mean(pred_ech2))

22.977142857142855 21.662823529411764


On peut constater que les prédictions moyennes sont relativement différentes sur les 2 échantillons.

**Exerice** : Appliquer la décomposition vue au dessus sur les 2 sous échantillons *ech1* et *ech2*. On notera *prediction1, biais1* et *contributions1* (respectivement *2*) les variables dans lequelles seront stockées les résultats.

Sommez ensuite les contributions par variable pour chaque sous échantillon dans deux variables, respectivement *totalc1* et *totalc2*.

In [21]:
prediction1, biais1, contributions1 = ti.predict(rf, ech1)
prediction2, biais2, contributions2 = ti.predict(rf, ech2)

totalc1 = np.mean(contributions1, axis=0) 
totalc2 = np.mean(contributions2, axis=0) 

Dans la mesure où les biais sont les mêmes (puisque calculés sur le même échantillon d'apprentissage), la différence entre les prédictions moyennes sur les 2 sous échantillons provient uniquement des contributions des différentes variables.
Dans d'autres termes, la somme des contributions des variables est égale à la différence entre les prédictions moyennes. Ce que nous pouvons facilement vérifier.


In [25]:
np.sum(totalc1 - totalc2),np.mean(prediction1) - np.mean(prediction2)

(1.3143193277310923, 1.3143193277310914)

**Exercice** : Calculer les différences de contributions de chaque variable entre les 2 sous échantillons, et appuyez vous sur le dictionnaire des données disponible en début de notebook pour interpréter.

In [28]:
for c, variable in sorted(zip(totalc1 - totalc2, 
                             boston.feature_names), reverse=True):
    print('{} : {}'.format(variable, round(c, 2)))

LSTAT : 0.45
RM : 0.43
DIS : 0.19
B : 0.13
AGE : 0.11
PTRATIO : 0.08
RAD : 0.05
TAX : 0.03
ZN : 0.03
CHAS : 0.0
INDUS : -0.02
CRIM : -0.07
NOX : -0.1


# Crédits
Nous allons baser la suite sur le lien suivant : http://blog.datadive.net/random-forest-interpretation-with-scikit-learn/