# **k-Plus Proches Voisins**

Documentation Sci-kit Learn sur les k-Nearest Neighbours : https://scikit-learn.org/stable/modules/neighbors.html

# Méthodes des plus proches voisins

Le principe des méthodes des plus proches voisins est de trouver un nombre prédéfini d'échantillons d'entraînement les plus proches en distance d'un nouveau point, puis de prédire son étiquette à partir de ces échantillons. Le nombre d'échantillons peut être une constante définie par l'utilisateur (**apprentissage des k plus proches voisins**) ou varier en fonction de la densité locale des points (**apprentissage basé sur un rayon**). La distance utilisée peut être toute mesure métrique ; la distance euclidienne standard est le choix le plus courant.

Les méthodes basées sur les voisins sont connues comme des méthodes d'apprentissage non généralisantes, car elles « mémorisent » simplement toutes les données d'entraînement.

Malgré sa simplicité, l'algorithme des plus proches voisins a été utilisé avec succès dans de nombreux problèmes de classification et de régression, notamment la reconnaissance de chiffres manuscrits et l'analyse d'images satellites. Étant une méthode non paramétrique, elle est souvent efficace dans des situations où la frontière de décision est très irrégulière.

![K-Nearest Neighbours](https://scikit-learn.org/stable/_images/sphx_glr_plot_nca_classification_001.png)

# Importer les librairies

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.decomposition import PCA
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt # visualisation des données
import pandas as pd  # traitement des données (ex: lecture de fichiers CSV)
import seaborn as sns # visualisation des données

# Importer le jeu de données

In [None]:
# importer le jeu de données du cancer du sein avec sklearn
breast_cancer = load_breast_cancer(as_frame=True)
print(breast_cancer.DESCR)

# Jeu de données vers DataFrame Pandas

In [None]:
# Mettre les données dans un dataframe pandas avec la variable cible (que nous essaierons de prédire) comme dernière colonne


In [None]:
# Les 10 premières valeurs du jeu de données


# Analyse exploratoire des données

In [None]:
# Forme du jeu de données (nb de lignes et de colonnes)

# Nom des colonnes


In [None]:
# Afficher les informations du jeu de données


In [None]:
# Description du jeu de données (moyenne, écart-type, min, max, quartiles)


### Distribution de fréquence des valeurs dans les variables catégorielles

In [None]:
# Noms des valeurs cibles


# Nombre pour chaque valeur cible


# Comme ci-dessus mais en pourcentage


Nous pouvons voir que le jeu de données est équilibré en termes de classes.

### Valeurs manquantes dans les variables

In [None]:
# Nombre de valeurs manquantes dans chaque colonne


## Corrélation entre les variables

In [None]:
# Matrice de corrélation entre toutes les caractéristiques


In [None]:
# Heatmap de la matrice de corrélation


# Annot = True pour afficher les valeurs à l'intérieur du carré



In [None]:
# afficher les variables les plus corrélées avec la variable cible (valeur absolue)


### Tracer quelques données

In [None]:
# conversion des données en catégories


# Tracer les 2 caractéristiques les plus corrélées avec la variable cible


# reconversion des données en numérique


# Diviser les données en ensembles d'entraînement et de test séparés

In [None]:

# Diviser le jeu de données en ensembles d'entraînement et de test



In [None]:
# Vérifier les dimensions


In [None]:
# Afficher le nombre de valeurs uniques


# Encodage des données

In [None]:
# vérifier les types de données dans X_train


Toutes les données sont numériques, nous n'avons donc pas besoin de faire d'encodage.

# Classifieur K-Plus Proches Voisins

<!-- Add an image link in markdown in a smaller size: -->
![knn](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/KnnClassification.svg/220px-KnnClassification.svg.png) 

In [None]:
# Créer un classifieur KNN avec 8 voisins


# Entraîner le modèle en utilisant les ensembles d'entraînement


# Précision du modèle sur l'ensemble d'entraînement


In [None]:
# Prédire la réponse pour l'ensemble de test


# Précision du modèle sur l'ensemble de test


## Tracer la précision du modèle sur l'ensemble d'entraînement et de test pour différents k voisins

In [None]:

# essayer n_neighbors de 1 à 15


    # Créer un classifieur KNN avec 8 voisins


    # Entraîner le modèle en utilisant les ensembles d'entraînement


    # Précision du modèle sur l'ensemble d'entraînement


# Rapport de classification

**Le rapport de classification** est un autre moyen d'évaluer les performances du modèle de classification. Il affiche les scores de **précision**, **rappel**, **f1** et **support** pour le modèle. J'ai décrit ces termes plus loin.

Nous pouvons afficher un rapport de classification comme suit :-

In [None]:
# Tracer le rapport de classification pour k=8



# Matrice de confusion

Une matrice de confusion aide à résumer les performances d'un algorithme de classification. Elle donne une image claire de la performance d'un modèle de classification ainsi que des types d'erreurs produites par celui-ci. <br>
Elle donne un résumé des prédictions correctes et incorrectes réparties par catégorie. 


Quatre types de résultats sont possibles lors de l'évaluation des performances d'un modèle de classification :


**Vrais Positifs (VP)** – Nous prédisons qu'une observation appartient à une certaine classe *x* et l'observation appartient effectivement à cette classe *x*.


**Vrais Négatifs (VN)** – Nous prédisons qu'une observation n'appartient pas à une certaine classe *x* et l'observation n'appartient effectivement pas à cette classe *x*.


**Faux Positifs (FP)** – Nous prédisons qu'une observation appartient à une certaine classe *x* mais l'observation **n'appartient pas** à cette classe *x*. Ce type d'erreur est appelé erreur de Type I.



**Faux Négatifs (FN)** – Nous prédisons qu'une observation n'appartient pas à une certaine classe *x* mais l'observation **appartient effectivement** à cette classe *x*. C'est une erreur très grave appelée erreur de Type II.



# Validation croisée 

In [None]:
# Validation croisée avec 5 découpes différentes


# ROC et AUC

La courbe ROC est une courbe de probabilité et l'AUC représente le degré ou la mesure de séparabilité. Elle indique à quel point le modèle est capable de distinguer les classes. Plus l'AUC est élevé, meilleur est le modèle pour prédire les 0 comme des 0 et les 1 comme des 1. Par analogie, plus l'AUC est élevé, meilleur est le modèle pour distinguer les patients malades des patients sains.

In [None]:
# Caractéristique de Fonctionnement du Récepteur (ROC) et Aire Sous la Courbe (AUC)



# Frontière de Décision

Les frontières de décision montrent les régions de décision du classifieur. C'est une ligne ou une courbe qui sépare les régions de décision du classifieur.

In [None]:
# Afficher la frontière de décision pour le classifieur KNN sur les caractéristiques les plus corrélées

# Frontière de décision pour 'worst concave points' vs 'worst perimeter'


# Analyse en Composantes Principales

L'Analyse en Composantes Principales est une technique de réduction de dimensionnalité. Elle est utilisée pour réduire le nombre de caractéristiques dans un jeu de données. Elle sert à réduire la complexité du modèle et le temps d'entraînement. Elle est également utilisée pour visualiser des données de haute dimension.

# Références : 
1. https://scikit-learn.org/
2. https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
3. https://www.kaggle.com/code/prashant111/knn-classifier-tutorial