# Chapitre 4 : Evaluation d'un modèle
Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/robot.png'>

## Procédure d'évaluation  #1: Entraîner et tester sur le dataset entier
Cette procédure consiste à :
<ul>
<li>Entraîner le modèle sur <b>le dataset en entier</b></li>
<li>Tester le modèle sur <b>le même dataset</b>, et évaluer à quel point nous avons <b>bien comparé</b> les valeurs de <b>classess prédites</b> avec les vraies valeurs de réponse.</li>
</ul>

## Exemple : Cas de la regression logistique

In [None]:
# importer la classe LogisticRegression
from sklearn.linear_model import LogisticRegression

# instantier le modèle (en utilisant les valeurs par défaut des paramètres)
logreg = LogisticRegression()

# entraîner le modèle en utilisant les données du dataset
logreg.fit(X, y)

# predire les valeurs des classes pour les observations contenu dans X
logreg.predict(X)

In [None]:
# stocker les valeurs des classes prédites
y_pred = logreg.predict(X)

# combien de prédictions ont été générées
len(y_pred)

### Précision de classification :
<ul>
<li>Donne la <b>proportion de prédictions correctes</b></li>
<li>C'est une <b>mesure d'évaluation</b> commune pour les problèmes de classification</li>
</ul>

In [None]:
# calculer la précision de la classification pour le modèle de la regression logistique
from sklearn import metrics
print(metrics.accuracy_score(y, y_pred))

## Exemple : Cas de KNN avec différentes valeurs de K

### K=5

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X, y)
y_pred = knn.predict(X)
print(metrics.accuracy_score(y, y_pred))

### K=1

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X, y)
y_pred = knn.predict(X)
print(metrics.accuracy_score(y, y_pred))

## Procédure d'évaluation #2 : Train/Test Split
<ul>
<li>Diviser l'ensemble de données en deux parties: un ensemble d'entraînement et un ensemble de tests.</li>
<li>Entraînez le modèle sur l'ensemble d'entraînement.</li>
<li>Testez le modèle sur l'ensemble de tests et évaluez notre performance.</li>
</ul>

In [None]:
# afficher les structures de X et y
print(X.shape)
print(y.shape)

In [None]:
# étape 1: diviser X et y en deux sous-ensembles : sous-ensemble d'entrainement et sous-ensemble de test
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=4)

<img src="images/train_test_split.png">

Qu'est-ce que nous avons accompli ?
<ul>
<li>Le modèle peut être formé et testé sur différentes données</li>
<li>Les valeurs de c# print the shapes of the new X objects
print(X_train.shape)
print(X_test.shape)lasses sont connues pour l'ensemble de test, et donc les prédictions peuvent être évaluées</li>
</ul>

In [None]:
# afficher les structures des nouveaux objets X 
print(X_train.shape)
print(X_test.shape)

In [None]:
# afficher les structures des nouveaux objets y
print(y_train.shape)
print(y_test.shape)

In [None]:
# étpage 2: entraîner le modèle sur l'ensemble d'entraînement
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

In [None]:
# étape 3: faire des prédictions sur l'ensemble de test
y_pred = logreg.predict(X_test)

# comparer les valeurs des classes actuelles (y_test) avec les valeurs des classes prédites (y_pred)
print(metrics.accuracy_score(y_test, y_pred))

Essayons avec KNN pour K=5:

In [None]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

Essayons avec KNN pour K=1:

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

Comment peut-on définir la meilleure valeur de K?

In [None]:
# Essayer pour K=1 à K=25 et enregistrer les précisions des tests
k_range = list(range(1, 26))
scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    scores.append(metrics.accuracy_score(y_test, y_pred))