# ACT  / TP 
# L'algorithme KNN  : Les voisins pour classifier


L'algorithme des _K Plus Proches Voisins_, _K Nearest Neighbours_ (_KNN_), fait partie des algorithmes de [classification](https://en.wikipedia.org/wiki/Category:Classification_algorithms).

L'algorihtme a été décrit en 1951 mais est encore utilisé aujourd'hui. Magré sa simplicité technique, il est particulièrement efficace.


## 1. Principe de l'algorithme knn

### 1.1 Apprentissage
L'algorithme des K plus proches voisins (KNN) est un **algorithme de classification**.

Il devient opérationnel par une phase d'**apprentissage supervisé** simple et facile à mettre en œuvre.


 - Un algorithme d'**apprentissage supervisé** est un algorithme qui repose sur des données d'entrée  étiquetées qui permettent de définir une fonction par apprentissage, fonction qui va fournir une réponse appropriée lorsque de nouvelles données non étiquetées sont fournies.
 
 - Un algorithme d’**apprentissage non supervisé** utilise des données d’entrée sans étiquette. Contrairement à l'apprentissage supervisé qui essaie d'apprendre une fonction qui nous permettra de faire des prédictions à l'aide de nouvelles données non étiquetées, l'apprentissage non supervisé essaie d'apprendre de la structure des données pour nous donner plus d'informations sur celle-ci.


**<u>Exemple :</u>** 

Nous voulons apprendre à une machine à quoi ressemble une fleur.

Pour cela, nous allons lui montrer un (très !) grand nombre images différentes, en lui indiquant lesquelles sont des fleurs et lesquelles ne le sont pas !

![apprentissage](img/flower.png)

Quand il voit une fleur, l'image est étiquetée ```fleur```, et quand ce n'est pas une fleur, l'image est étiquetée ```pas fleur```.
Cela correspond à un apprentissage supervisé.
Après cette phase d'apprentissage la machine doit normalement être capable si on lui montre une photo inédite de fleur de la classifier ```fleur```.


### 1.2 Mise en place

Le but de cet algorithme est d'attribuer une catégorie (une *classe*) à un individu "mystère". 
On se donne pour cela une base de données d'individus connus pour lesquels on dispose des **descripteurs numériques** et **leur catégorie**.

Graphiquement, la position de l'individu "mystère" sur le graphique des individus connus nous renseigne déjà sur la catégorie possible.

**Principe de la méthode**

La démarche est donc la suivante :
1. On calcule toutes les distances entre l'individu "mystère" et les individus de la base
2. On trie la base dans l'ordre croissant des distances à l'individu "mystère"
3. On observe les K premiers voisins : la catégorie la plus représentée parmi ceux-ci est attribuée à l'individu mystère

Le principe est illustré sur la figure ci-dessous :

![Illustration KNN](img/knn_algo.png)

La démarche est donc plutôt simple... L'un des facteurs limitant de cette méthode est la taille de la base : beaucoup d'individus, donc beaucoup de descripteurs !!

Le résultat est aussi lié au nombre de voisins pris en compte comme l'illustre la figure ci-dessous :

![Nombre de voisins](img/knn.png)

Il n'est pas toujours intéressant de prendre en compte un grand nombre de voisins... 

## 2. Application aux iris

Nous allons travailler avec le dataset *archi-connu* des Iris. Ce n'est pas très original mais il faut l'avoir fait au moins une fois !

Ce dataset présente les données de fleurs de trois espèces d'Iris (50 par espèce). Chaque fleur est décrite par quatre données :
1. longueur des pétales
2. largeur des pétales
3. longueur des sépales
4. largeur des sépales

Le but de l'algorithme *k*-NN est de déterminer l'espèce d'une fleur d'iris "mystère" à partir des données des individus connus.


*(pour information, ce jeu de données date de 1936 et a même sa page [wikipedia](https://en.wikipedia.org/wiki/Iris_flower_data_set))*

![Iris](img/iris.png)

### 2.1 Préparation des données

- Créer une table ``iris`` à partire des données à l'aide du module ``csv`` de python. Le fichier se nomme ``iris.csv`` et encodé en utf-8.

In [1]:
# liste d'iris à partir du csv
import csv




- Valider la table ``iris``. Les valeurs numériques sont des nombre *flottants*.

In [3]:
# Validation de la table iris (validation en place)





### 2.2 Affichage graphique

Un iris possède des pétales de dimensions : 0,5 cm de large et 2 cm de long.

 - Représenter graphiquement la largeur des pétales ``PetalWidthCm`` en fonction  de leur longueur ``PetalLengthCm``.
 *( ce sont les caractéristiques les plus flagrantes...)*

 - Placer le point représentant cet iris sur le même graphique en utilisant la commande ``plt.plot()``.
 - Estimer l'espèce de cet iris.
 
 On utilisera le code fourni ci-dessous.

In [None]:
from matplotlib import pyplot as plt

def stats_fleur(liste_fleurs, type_fleur):
    """ Extrait les statistiques d'un iris sous forme de tuple.  
     (Longueur des sépales, Largeur des sépales, Longueur des pétales, largeur des pétales)  """
    
    SL = []
    SW = []
    PL = []
    PW = []   
    for fleur in liste_fleurs:
        if fleur["Species"] == type_fleur:
            SL.append(fleur["SepalLengthCm"])
            SW.append(fleur["SepalWidthCm"])
            PL.append(fleur["PetalLengthCm"])
            PW.append(fleur["PetalWidthCm"])
    return SL, SW, PL, PW 

# extraction des valeurs des 3 espèces d'iris
setosa = stats_fleur(iris,"Iris-setosa")
versi = stats_fleur(iris,"Iris-versicolor")
virgi = stats_fleur(iris,"Iris-virginica")

# Affichage graphique 
plt.plot(virgi[2], virgi[3], "ro", color="red", label="Virginica")
plt.plot(setosa[2], setosa[3], "ro", color="blue", label="Setosa")
plt.plot(versi[2], versi[3], "ro", color="green", label="Versicolor")
plt.axis("equal") # repère orthonormé
plt.xlabel("Longueur des pétales (en cm)")
plt.ylabel("Largeur des pétales (en cm)")
plt.legend()

# Point à poser
### A COMPLETER ICI 

plt.show()

- Un nouvel iris "mystère" est mesuré et ses dimensions sont cette fois : largeur du pétale = 0,75 cm et longueur du pétale = 2,5 cm.
Quel est l'espèce de cet iris ?

In [None]:
plt.plot(virgi[2], virgi[3], "ro", color="red", label="Virginica")
plt.plot(setosa[2], setosa[3], "ro", color="blue", label="Setosa")
plt.plot(versi[2], versi[3], "ro", color="green", label="Versicolor")
plt.axis("equal")
plt.xlabel("Longueur des pétales (en cm)")
plt.ylabel("Largeur des pétales (en cm)")
plt.legend()

# Nouveau point à poser
### A COMPLETER ICI 

plt.show()

### 2.3 Algorithme k-NN : les distances

On considère l'iris "mystère" précédent : 


In [7]:
# largeur du pétale = 0,75 cm et longueur du pétale = 2,5 cm
myst = (2.5, 0.75)

- A l'aide du code suivant, déterminer combien de voisins il y a dans le cercle tracé autour de l'iris "mystère".
Quelle est son espèce possible ?

In [None]:
# le graphe avec la fleur inconnue
plt.plot(virgi[2], virgi[3], "ro", color="red", label="Virginica")
plt.plot(setosa[2], setosa[3], "ro", color="blue", label="Setosa")
plt.plot(versi[2], versi[3], "ro", color="green", label="Versicolor")
plt.axis("equal")
plt.xlabel("Longueur des pétales (en cm)")
plt.ylabel("Largeur des pétales (en cm)")
plt.legend()
plt.plot(2.5, 0.75, "ro", color="black")

# cercle rayon autour de l'iris "mystère" avec 4 voisins
plt.scatter( 2.5 , 0.75 , s=7500 ,  facecolors="none", edgecolors="black" )  

plt.show()

Pour systématiser le processus, on va calculer les distances des voisins de l'iris "mystère".

- Ecrire une fonction ``distance()`` qui renvoie la distance euclidienne entre 2 points A et B du graphique étudié.

In [12]:
from math import sqrt

def distance(A, B):
    """ Distance est un nombre float
        A et B sont des tuples des coordonnées A(xA, yA) et B(yA, yB)"""
    assert (len(A) == len(B) and len(A) == 2), "Les deux points doivent avoir chacun 2 coordonnées"
    


- Créer une nouvelle table ``iris_distance`` qui contient toutes les fleurs de la table ``iris`` avec un descripteur de plus ``{"distance": -- }``, la distance entre chacune des fleurs à la fleur "mystère".

In [None]:
iris_distance = []





### 2.4. Algorithme k-NN : utiliser les plus proches voisins

La table ``iris_distance`` étant préparée, il suffit de la trier et de ne récupérer que les *k* espèces qui nous intéressent.

- Trier la table ``iris_distance`` selon la clé ``distance``.

In [14]:
# on utilise la méthode de tri suivante

def tri_distance(tab) :
    return tab["distance"]

iris_distance_tri = sorted(iris_distance, key=tri_distance)

- Ecrire une fonction qui affiche les *k* premiers éléments de la liste ``iris_distance_tri`` et l'utiliser pour estimer l'espèce de la fleur mystère. Noter la valeur de *k* pertinente pour optimiser les calculs.

On utilisera la méthode simple de "slice" : pour afficher seulement les 10 premiers termes d'une liste L, on écrit ``L[:10]``.

- Quelle est l'espèce la plus probable de la fleur mystère ?

### Sources :

 [site pixees](https://pixees.fr/informatiquelycee/n_site/nsi_prem_knn.html)
 
 [site isn breizh](https://www.isnbreizh.fr/nsi/activity/algoRefKnn/index.html)
 
 [Approche classes chevaliers et fantassins](http://www.monlyceenumerique.fr/nsi_premiere/algo_a/a4_algo_knn.php)
 
 