# Evaluation de Modele selon des paramètres

# Objectif
* Prédire l'espece d'une fleur iris en utilisant KNN avec K variable
* Trouver la valeur appropriée de K
* Obtenir le modèle qui généralise correctement 

# Train et test sur tout le dataset

* Apprentissage du modele sur tout le dataset.
* Effectur le Test du modele sur le meme dataset, 
* Evaluer et comparer la classe predite avec la vraie classe

In [34]:
# import packages

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import neighbors, datasets, metrics
from sklearn.metrics import confusion_matrix 
from sklearn.cross_validation import train_test_split

# Lire iris data dans un DataFrame

iris = datasets.load_iris()
print("Iris Data shape: ")
print(iris.data.shape)
print("Iris Target shape: ")
print(iris.target.shape)

X = iris.data
Y = iris.target
#targetNames = iris.target_names
# str(iris)
#irisDF = pd.DataFrame(iris.data)

Iris Data shape: 
(150, 4)
Iris Target shape: 
(150,)


* utiliser KNN avec K = 50 par exemple

In [87]:
# instantier le modele
k_neighbors = 15
clf = neighbors.KNeighborsClassifier(k_neighbors, weights='uniform')
# Effectuer l'apprentissage du model sur tout le dataset
clf.fit(X, Y)
# predire la réponse pour les observations dans X, test du model
confusion_matrix(clf.predict(X), Y)

array([[50,  0,  0],
       [ 0, 49,  1],
       [ 0,  1, 49]])

In [88]:
# stocker les réponses prédites dans y_pred
y_pred = clf.predict(X)

* Determiner un metrique tel que Accuracy

In [89]:
# Metrique d'évaluation - Accuracy de classification

metrics.accuracy_score(Y, y_pred)

#conclusion ! Est ce qu'on a training accuracy ou testing accuracy ?
#
# puisqu'on utilise le meme data pour training et testing, il n'y pas vraiement de testing, 
# donc on obtient a training accuracy.

0.98666666666666669

* utiliser KNN avec K = 1 maintenant

In [60]:
#calculer Accuracy
# instantier le modele
k_neighbors = 1
clf = neighbors.KNeighborsClassifier(k_neighbors, weights='uniform')
clf.fit(X, Y)
metrics.accuracy_score(Y, clf.predict(X))
#conclusion: est ce qu'on a un problème avec cette approche ?
# puisque K=1 et on teste sur le training data, l'accuracy est egale a 1. On est dans over fitting.

1.0

# Evaluation procedure #2: Train/test split

* Split du dataset en deux ensemble:  training set et testing set.
* apprentissage du modele sur le training set.
* Test du modele sur le testing set 
* Evaluer le modele

In [49]:
#utiliser la fonction train_test_split avec taille test de 40% sans random_state
# Utiliser X_train, X_test, y_train, y_test
X_train, X_test, Y_train, Y_test = train_test_split(iris.data, iris.target, test_size=0.40)

#afficher les différentes shape
print "Shape: ", X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

#afficher le premier element de chaque ensemble
print "First element: ", X_train[1,:], X_test[1,:], Y_train[1,], Y_test[1,]

Shape:  (90, 4) (60, 4) (90,) (60,)
First element:  [ 6.2  2.9  4.3  1.3] [ 5.8  2.7  5.1  1.9] 1 2


* Effet du paramètre random_state

* refaire le meme avec random_state = 4

In [50]:
# Utiliser X_train, X_test, y_train, y_test
X_train, X_test, Y_train, Y_test = train_test_split(iris.data, iris.target, test_size=0.40, random_state=4)

#afficher les différentes shape
print "Shape: ", X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

#afficher le premier element de chaque ensemble
print "First element: ", X_train[1,:], X_test[1,:], Y_train[1,], Y_test[1,]

Shape:  (90, 4) (60, 4) (90,) (60,)
First element:  [ 5.6  3.   4.1  1.3] [ 5.7  3.8  1.7  0.3] 1 0


* Effectuer apprentissage avec K=1

In [59]:
#Etape 1: split en traning et test avec random state = 4
X_train, X_test, Y_train, Y_test = train_test_split(iris.data, iris.target, test_size=0.40, random_state=4)

#Etape 2: faire l'apprentissage
clf = neighbors.KNeighborsClassifier(1, weights='uniform')
clf.fit(X_train, Y_train)

#Etape 3: faire le test du modèle avec l'ensemble d'apprentissage
y_pred = clf.predict(X_test)

#Etape 4: determiner accuracy
metrics.accuracy_score(Y_test, y_pred)

#Est ce que vous avez une training accuracy ou testing accuracy ?
# Puisqu'on a separer le training et le testing data, on obtient ici un testing accuracy

0.94999999999999996

* Effectuer apprentissage avec K=50

In [83]:
#Etape 1: split en traning et test avec random state = 4 
X_train, X_test, Y_train, Y_test = train_test_split(iris.data, iris.target, test_size=0.40, random_state=4)

#Etape 2: faire l'apprentissage
clf = neighbors.KNeighborsClassifier(15, weights='uniform')
clf.fit(X_train, Y_train)

#Etape 3: faire le test du modèle avec l'ensemble d'apprentissage
y_pred = clf.predict(X_test)

#Etape 4: determiner accuracy
print metrics.accuracy_score(Y_test, y_pred)

print "Shape: ", X_train.shape, X_test.shape, Y_train.shape, Y_test.shape
print "First element: ", X_train[1,:], X_test[1,:], Y_train[1,], Y_test[1,]

0.983333333333
Shape:  (90, 4) (60, 4) (90,) (60,)
First element:  [ 5.6  3.   4.1  1.3] [ 5.7  3.8  1.7  0.3] 1 0


In [79]:
#Comparer avec l'approche où un seul ensemble de données
## 
## Le cas de K=1, c'est overfitting.
## Pour le dataset iris, le fait de separer en training et testing n'affecte pas le resultat d'apprentissage.
#Votre conclusion

# Prediction avec un echantillon out-of-sample

* On prend un echantillon completement inconnu

In [100]:
#Instantier le modele avec K égale à valeur optimale (comment?)
clf = neighbors.KNeighborsClassifier(15, weights='uniform')

#Effectuer l'apprentissage avec X et y  (ne pas prendre X_train et y_train)
clf.fit(X,Y)

#Faire une prediction avec l'échantillon [3,5,4,5]
#print X #
clf.predict([[3,5,4,5]])


array([2])