# Les k-Plus Proches Voisins : en pratique

Dans le TP4 nous avons implémenté quelques méthodes de base en Machine Learning (Apprentissage Automatique) :
- découpage train/test d'un dataset
- normalisation
- classification par k-PPV (méthode de base et variante pondérée)
- évaluation d'un classifieur

Le fait d'en écrire le code a permis d'en maîtriser le fonctionnement. Cependant, à l'avenir vous devrez utiliser des librairies qui proposent ces méthodes déjà implémentées.

> [Scikit-learn](https://scikit-learn.org/) est une bibliothèque libre Python destinée à l'apprentissage automatique.
>
> Nous y retrouverons notamment :
> - la méthode `train_test_split()` pour découper un dataset en deux sous-ensembles d'entraînement et de test
> - les méthodes `MinMaxScaler()` et `StandardScaler()` pour normaliser le dataset
> - la méthode `KNeighborsClassifier()` pour prédire par k-PPV
>


Vous commencerez par installer la bibliothèque sur votre machine : `pip install scikit-learn`

---

### Exercice 1 : prise en main de Scikit-learn

1. Comme dans le TP4, chargez les données `zoo.csv` dans un Dataframe puis en extraire deux tableaux NumPy `X` (matrice 100x16) et `y` (vecteur des 100 labels de classe)

In [35]:
import pandas as pd
import numpy as np

df = pd.read_csv('donnees/zoo.csv')

X = df.iloc[:, 1:-1].values
y = df.iloc[:, -1].values

print("X:", X.shape)
print("y:", y.shape)


X: (100, 16)
y: (100,)


2. Procédez au découpage du dataset (`X` et `y`) en deux sous-ensembles de même taille (`X_train`, `X_test`, `y_train`, `y_test`) en utilisant la méthode `train_test_split()` de Scikit-learn (consultez la documentation). Puis vérifiez l'équilibre des classes entre les deux sous-ensembles.

In [36]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

print("X_train:", X_train.shape)
print("X_test:", X_test.shape)
print("y_train:", y_train.shape)
print("y_test:", y_test.shape)


X_train: (80, 16)
X_test: (20, 16)
y_train: (80,)
y_test: (20,)


3. Normalisez les données en utilisant au choix l'une des méthodes suivantes : `MinMaxScaler()` ou `StandardScaler()` (consultez la doc)

In [37]:
# normalisation min/max z = (x-min)/(max-min)
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

print("Valeur minimale dans X_train:", X_train.min())
print("Valeur maximale dans X_train:", X_train.max())
print("Valeur minimale dans X_test:", X_test.min())
print("Valeurmaximale dans X_test:", X_test.max())

Valeur minimale dans X_train: 0.0
Valeur maximale dans X_train: 1.0
Valeur minimale dans X_test: -8.337502084375522e-05
Valeurmaximale dans X_test: 1.0


In [38]:
# normalisation centrée réduite z = (x-u)/s avec u la moyenne et s l'écart type
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

print("Moyenne de X_train:", X_train.mean())
print("Ecart type de X_train:", X_train.std())
print("Moyenne de X_test:", X_test.mean())
print("Ecart type de X_test:", X_test.std())

Moyenne de X_train: 2.7755575615628915e-18
Ecart type de X_train: 1.0
Moyenne de X_test: -0.005602415969814189
Ecart type de X_test: 1.004307236979329


4. Utilisez la classe `KNeighborsClassifier` de Scikit-learn pour prédire les classes de chaque données de l'ensemble `X_test` par la méthode k-PPV (non-pondérée) avec $k=2$ (consultez la documentation)

In [39]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=3)

knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

print("Précision:", np.mean(y_pred == y_test))

Précision: 1.0


5. Evaluez ce classifieur en calculant le taux d'erreurs

In [42]:
from sklearn.metrics import accuracy_score

error_rate = 1 - accuracy_score(y_test, y_pred)
print("Taux d'erreur:", error_rate)


Error rate: 0.0


6. Modifiez les paramètres du classifieur (question 4) pour tester (et évaluer) différentes méthodes de prédication :
- différentes valeurs pour $k$
- avec ou sans normalisation des données
- variante pondérée de k-PPV
- etc.

---

### Exercice 2 : pour vous entraîner... et aller plus loin

Vous trouverez deux nouveaux datasets dans le repertoire `donnees` :
- le dataset `iris` : contenant les descriptions de fleurs (iris) selon 4 descripteurs numériques. La tâche de prédiction porte sur le type d'Iris (3 catégories).

- le dataset `card_transdata` : contenant les descriptions de transactions par cartes bancaires selont 7 descripteurs numériques ou booléens. La tâche de prédiction consiste à détecter les fraudes (2 catégories).

Votre travail consiste, pour chacune des deux tâches de prédiction ci-dessus, à proposer un classifieur de type k-PPV le plus efficace possible. 