# **k-Plus Proches Voisins**

Documentation Sci-kit Learn sur les k-Nearest Neighbours : https://scikit-learn.org/stable/modules/neighbors.html

# Méthodes des plus proches voisins

Le principe des méthodes des plus proches voisins est de trouver un nombre prédéfini d'échantillons d'entraînement les plus proches en distance d'un nouveau point, puis de prédire son étiquette à partir de ces échantillons. Le nombre d'échantillons peut être une constante définie par l'utilisateur (**apprentissage des k plus proches voisins**) ou varier en fonction de la densité locale des points (**apprentissage basé sur un rayon**). La distance utilisée peut être toute mesure métrique ; la distance euclidienne standard est le choix le plus courant.

Les méthodes basées sur les voisins sont connues comme des méthodes d'apprentissage non généralisantes, car elles « mémorisent » simplement toutes les données d'entraînement.

Malgré sa simplicité, l'algorithme des plus proches voisins a été utilisé avec succès dans de nombreux problèmes de classification et de régression, notamment la reconnaissance de chiffres manuscrits et l'analyse d'images satellites. Étant une méthode non paramétrique, elle est souvent efficace dans des situations où la frontière de décision est très irrégulière.

![K-Nearest Neighbours](https://scikit-learn.org/stable/_images/sphx_glr_plot_nca_classification_001.png)

# Importer les librairies

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.decomposition import PCA
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt # visualisation des données
import pandas as pd  # traitement des données (ex: lecture de fichiers CSV)
import seaborn as sns # visualisation des données

# Importer le jeu de données

In [None]:
# importer le jeu de données du cancer du sein avec sklearn
breast_cancer = load_breast_cancer(as_frame=True)
print(breast_cancer.DESCR)

# Jeu de données vers DataFrame Pandas

In [None]:
# Mettre les données dans un dataframe pandas avec la variable cible (que nous essaierons de prédire) comme dernière colonne


In [None]:
# First 10 value of the dataset


# Exploratory data analysis

In [None]:
# Forme du jeu de données (nb de lignes et de colonnes)

# Nom des colonnes


In [None]:
# Print dataset info


In [None]:
# Description of the dataset (mean, std, min, max, quartiles)


### Distribution de fréquence des valeurs dans les variables catégorielles

In [None]:
# Names of the target values


# Count of each target value


# Comme ci-dessus mais en pourcentage


We can see that the dataset is balanced in terms of its classes.

### Valeurs manquantes dans les variables

In [None]:
# Number of missing values in each column


## Correlation between variables

In [None]:
# Correlation matrix between all the features


In [None]:
# Heatmap of the correlation matrix


# Annot = True to print the values inside the square



In [None]:
# afficher les variables les plus corrélées avec la variable cible (valeur absolue)


### Tracer quelques données

In [None]:
# converting the data into categorical


# Plot the 2 most correlated features with the target variable


# converting the data back into numerical


# Diviser les données en ensembles d'entraînement et de test séparés

In [None]:

# Diviser le jeu de données en ensembles d'entraînement et de test



In [None]:
# Check the shapes


In [None]:
# Print number of unique values


# Data Encoding

In [None]:
# check data types in X_train


All data is numerical, so we don't need to do any encoding.

# K-Nearest Neighbours Classifier

<!-- Add an image link in markdown in a smaller size: -->
![knn](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/KnnClassification.svg/220px-KnnClassification.svg.png) 

In [None]:
# Create a KNN classifier with 8 neighbors


# Entraîner le modèle en utilisant les ensembles d'entraînement


# Précision du modèle sur l'ensemble d'entraînement


In [None]:
# Predict the response for test dataset


# Accuracy of the model on the testing set


## Plot the accuracy of the model on training and testing set for different k neighbours

In [None]:

# try n_neighbors from 1 to 15


    # Create a KNN classifier with 8 neighbors


    # Entraîner le modèle en utilisant les ensembles d'entraînement


    # Précision du modèle sur l'ensemble d'entraînement


# Rapport de classification

**Le rapport de classification** est un autre moyen d'évaluer les performances du modèle de classification. Il affiche les scores de **précision**, **rappel**, **f1** et **support** pour le modèle. J'ai décrit ces termes plus loin.

We can print a classification report as follows:-

In [None]:
# Plot the classification report for k=8



# Matrice de confusion

Une matrice de confusion aide à résumer les performances d'un algorithme de classification. Elle donne une image claire de la performance d'un modèle de classification ainsi que des types d'erreurs produites par celui-ci. <br>
Elle donne un résumé des prédictions correctes et incorrectes réparties par catégorie. 


Quatre types de résultats sont possibles lors de l'évaluation des performances d'un modèle de classification :


**Vrais Positifs (VP)** – Nous prédisons qu'une observation appartient à une certaine classe *x* et l'observation appartient effectivement à cette classe *x*.


**Vrais Négatifs (VN)** – Nous prédisons qu'une observation n'appartient pas à une certaine classe *x* et l'observation n'appartient effectivement pas à cette classe *x*.


**Faux Positifs (FP)** – Nous prédisons qu'une observation appartient à une certaine classe *x* mais l'observation **n'appartient pas** à cette classe *x*. Ce type d'erreur est appelé erreur de Type I.



**Faux Négatifs (FN)** – Nous prédisons qu'une observation n'appartient pas à une certaine classe *x* mais l'observation **appartient effectivement** à cette classe *x*. C'est une erreur très grave appelée erreur de Type II.



# Validation croisée 

In [None]:
# Validation croisée avec 5 découpes différentes


# ROC and AUC

The ROC is a probability curve and AUC represents degree or measure of separability. It tells how much model is capable of distinguishing between classes. Higher the AUC, better the model is at predicting 0s as 0s and 1s as 1s. By analogy, Higher the AUC, better the model is at distinguishing between patients with disease and no disease.

In [None]:
# Receiver Operating Characteristic (ROC) and Area Under the Curve (AUC)



# Decision Boundary

Decision Boundaries shows the decision regions of the classifier. It is a line or a curve that separates the decision regions of the classifier.

In [None]:
# Print decision boundary for KNN classifier over the most correlated features

# Decision boundary for worst concave points vs worst perimeter


# Principal Component Analysis

Principal Component Analysis is a dimensionality reduction technique. It is used to reduce the number of features in a dataset. It is used to reduce the complexity of the model and to reduce the training time. It is also used to visualise high dimensional data.

# Références : 
1. https://scikit-learn.org/
2. https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
3. https://www.kaggle.com/code/prashant111/knn-classifier-tutorial