# Arbres de Décision - Travaux Pratiques

*Yann Chevaleyre - 2016 - INFO3/M2 - Institut Galilée*

durant ce TP, nous utiliserons les modules python suivant:
* [*scikit-learn*](scikit-learn.org/stable/index.html) pour l'apprentissage artificiel, en particulier les arbres de décision dont la doc est [ici](http://scikit-learn.org/0.12/modules/tree.html)
* [*bokeh*](http://bokeh.pydata.org/en/latest/) pour la visualisation (tutoriels [ici](http://nbviewer.ipython.org/github/paddymul/bokeh_tutorial/blob/master/bokeh_tutorial.ipynb) et [ici](http://nbviewer.ipython.org/github/damianavila/bokeh_overview/blob/master/Bokeh%20Overview.ipynb))
* [*numpy*](http://wiki.scipy.org/Tentative_NumPy_Tutorial) pour la manipulationd des tableaux de données

Si vous avez besoin de rappels concernant Python, vous pouvez par exemple regarder ici:
* http://learnxinyminutes.com/docs/python/
* http://www.cogsci.rpi.edu/~destem/gamedev/python.pdf

N'hésitez pas à regarder les docs !!!


In [None]:
# scikit-learn, bokeh et numpy
from sklearn import tree,ensemble,datasets
from numpy import *
from bokeh.plotting import figure,show,output_notebook
output_notebook()

# Modules utiles pour afficher l'arbre de décision sous forme de graphe
from sklearn.externals.six import StringIO
from IPython.display import Image
import pydot

Créeons un tableau de donnees 1D, avec une variable X allant de 1 à 100, et une variable y étant le log de x, avec en plus du bruit gaussien

In [None]:
N = 200

X = range(1,N+1)
Y = log(X)
Y += 0.5*random.normal(size=N)

Affichons ces donnees

In [None]:
p = figure()
p.scatter(X,Y,color='grey')
p.line(X,log(X),color='red')
show(p)

On veut trouver l'arbre de décision qui "fit" le mieux ces données
Pour ce faire, il faut que X n'ait pas la forme d'un vecteur mais d'une matrice avec une colonne par variable

**Exercice:** Transformez X en matrice (ce qui donnera une matrice composée d'une seule ligne), puis la transposer.
Utiliser cela:
* http://docs.scipy.org/doc/numpy/reference/generated/numpy.matrix.html
* http://docs.scipy.org/doc/numpy/reference/generated/numpy.transpose.html

In [None]:
clf = tree.DecisionTreeRegressor(min_samples_leaf=20)
clf.fit(Xm,Y)


scikit-learn possède une fonction *predict* qui s'applique entre autres aux arbres de décision

Affichez l'aide de cette fonction en tapant *clf.predict?*

Montrez la valeur renvoyez en x=1, x=4 et x=7. Que remarquez-vous ?

In [None]:
p = figure(title="Predictions")

Z = [(clf.predict(i))[0] for i in X]

p.scatter(X,Y,color='lightgrey')
p.line(X,log(X),color='gray')
p.line(X,Z,color='blue')

show(p)

On peut aussi afficher l'arbre de cette facon (à l'aide des packages pydot et graphviz)

In [None]:
# Affichage de l'arbre de décision
out = StringIO()
tree.export_graphviz(clf, out_file=out)
graph = pydot.graph_from_dot_data(out.getvalue())
Image(graph.create_png())

**Exercice:**
* Faites varier les paramètres de l'arbre de décision pour qu'il soit plus ou moins précis, et affichez le.
* Lancez l'apprentissage de forets aléatoires sur le même jeu de données (trouvez la fonction adéquate sur google). Faites varier les paramètres. Que constatez-vous ?

### Arbres de Décision pour la classification du jeu de données IRIS

In [None]:
iris = datasets.load_iris()

load_iris() renvoie une classe composée de deux champs principaux: data et target.
* Affichez le contenu de ces champs.
* Trouvez et lancez l'algorithme d'apprentissage d'arbres de décision *DecisionTreeClassifier* sur ces données (attention, on est en classifiation, plus en régression).
* Affichez la prédiction de l'arbre sur la première ligne de données.
* Calculez le taux d'erreur de l'arbre

Estimation de l'erreur reelle
* Melangez l'ordre des exemples aleatoirement (par exemple en utilisant la fonction shuffle du package random)
* divisez la base de donnees en deux parties X1 et X2, de meme taille
* Generez un arbre de decision sur la premiere partie
* calculez son taux d'erreur sur la seconde partie.
* recommencez en faisant varier le rapport de la taille entre X1 et X2. Qu'observez-vous ?

**Exercice:**
Le programme suivant définit une fonction f(i,j) et affiche une image dont chaque pixel i,j a la couleur correspondant à f(i,j). Modifiez ce programme pour afficher la séparatrice de l'arbre de décision qu'on vient d'apprendre sur la base IRIS. Note: chaque exemple dans IRIS possède 4 variables. Ici, on va en choisir 2 à afficher, et mettre les autres à une valeur constante.
Par exemple, on pourra mettre les deux premières variables à 6 et 3.2, et les deux dernieres seront i,j.

In [None]:
def f(i,j):
    return math.sin(i)*math.cos(j)

d = zeros((N,N))
for i in range(N):
    for j in range(N):
        d[i,j] = f(i*1.0/N,j*1.0/N)

p = figure(x_range=[0, 1], y_range=[0, 1])
p.image(image=[d], x=[0], y=[0], dw=[1], dh=[1], palette="Spectral11")

show(p) 