In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.model_selection import train_test_split, GridSearchCV
iris = load_iris()
X, y = iris.data, iris.target

In [2]:
# 1. Calculer les statistiques (moyenne et écart-type) des quatre variables explicatives :
#    longueur de sépale, largueur de sépale, longueur de pétale et largeur de pétale.
print(f"mean : {X.mean(axis=0)}")
print(f"std : {X.std(axis=0)}")
# 2. Combien y a-t-il d’exemples de chaque classe?
print(f"number of examples of each class : {np.bincount(y)}")

mean : [5.84333333 3.05733333 3.758      1.19933333]
std : [0.82530129 0.43441097 1.75940407 0.75969263]
number of examples of each class : [50 50 50]


In [3]:
# Construire un arbre de décision et prédire la classe d’une fleur
# dont les quatre variables explicatives ont les valeurs suivantes :
# longueur de sépale = 4.9, largueur de sépale = 3.6, longueur de pétale = 1.4 et largeur de pétale = 0.1.
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X, y)
print(f"class : {iris.target_names[clf.predict([[4.9, 3.6, 1.4, 0.1]])]}")
print(f"X_train predicted classes : \n{clf.predict(X)}")

class : ['setosa']
X_train predicted classes : 
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [4]:
# 3. Changez les valeurs de paramètres max_depth et min_samples_leaf. Que constatez-vous ?
clf = tree.DecisionTreeClassifier(max_depth=1, min_samples_leaf=2)
clf = clf.fit(X, y)
print(f"class : {iris.target_names[clf.predict([[4.9, 3.6, 1.4, 0.1]])]}")
print(f"X_train predicted classes when (max_depth=1, min_samples_leaf=2) : \n{clf.predict(X)}")
print("Comme on peut le voir, lorsque les paramètres ont été modifiés, les résultats prédits l'ont été également.")

class : ['setosa']
X_train predicted classes when (max_depth=1, min_samples_leaf=2) : 
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1]
Comme on peut le voir, lorsque les paramètres ont été modifiés, les résultats prédits l'ont été également.


In [5]:
# 4. Le problème ici étant particulièrement simple, refaites une division
#    apprentissage/test avec 5% des données en apprentissage et 95% test.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.05)

In [6]:
clf = tree.DecisionTreeClassifier(max_depth=1, min_samples_leaf=2)
clf = clf.fit(X_train, y_train)
y_train_pred = clf.predict(X_train)
y_pred = clf.predict(X_test)
train_error = np.mean(y_train_pred != y_train)
test_error = np.mean(y_pred != y_test)
print("params : max_depth=1, min_samples_leaf=2")
print(f"train error : {train_error / len(y_test)}")
# Calculez le taux d’éléments mal classifiés sur l’ensemble de test.
print(f"test error : {test_error / len(y_test)}")

params : max_depth=1, min_samples_leaf=2
train error : 0.04137323943661972
test error : 0.046875


In [7]:
# Faites varier (réalisez une recherche par grille avec GridSearchCV)
# les valeurs des paramètres max_depth et min_samples_leafpour mesurer leur impact sur ce score.
params = {'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
grid = GridSearchCV(tree.DecisionTreeClassifier(), params, scoring='accuracy', cv=5)
grid.fit(X_train, y_train)
print("Grid Search")
print(f"best params : {grid.best_params_}")
print(f"best score : {grid.best_score_}")
best_model = grid.best_estimator_
print(f"test score : {best_model.score(X_test, y_test)}")

Grid Search
best params : {'max_depth': 3, 'min_samples_leaf': 5}
best score : 0.9721674876847292
test score : 1.0
