# Algorithmes des k plus proches voisins

### I. Introduction

Nous allons maintenant travailler sur un **algorithme d'apprentissage automatique**, souvent appelé
algorithme de **machine learning**. L'idée est d'utiliser un grand nombre de données afin "d'apprendre
à la machine" à résoudre un certain type de problème.

Cette idée d'apprentissage automatique ne date pas d'hier, puisque le terme de machine learning a
été utilisé pour la première fois par l'informaticien américain Arthur Samuel en 1959.

Ce qui est important dans les algorithmes de machine learning, c'est **la qualité et la quantité des
données**. Avec le développement d'internet, il est relativement simple de trouver des données sur
n'importe quel sujet, on parle de **Big Data**.

À noter l'importance des stratégies mises en place par les GAFAM (Google, Apple, Facebook,
Amazon et Microsoft) afin de récupérer un grand nombre de données concernant leurs clients. Ces
données sont très souvent utilisées pour nourrir des algorithmes de machine learning.

Nous allons étudier un algorithme d'apprentissage assez simple à appréhender : **l'algorithme des k
plus proches voisins** (en anglais "k nearest neighbors" : knn).


### II. Le problème des iris

Afin de travailler sur un exemple, nous allons utiliser un jeu de données relativement connu dans le monde du machine learning : le jeu de données "iris".

En 1936, Edgar Anderson a collecté des données sur 3 espèces d'iris : "iris setosa", "iris virginica" et "iris versicolor"

<table align="left">
    <tbody>
        <tr>
            <td style="margin:10px; text-align:center"><img src="https://dav74.github.io/site_nsi_prem/img/c32c_1.jpg"></td>
            <td style="margin:10px; text-align:center"><img src="https://dav74.github.io/site_nsi_prem/img/c32c_2.jpg"></td>
            <td style="margin:10px; text-align:center"><img src="https://dav74.github.io/site_nsi_prem/img/c32c_3.jpg"></td>
        </tr>
        <tr>
            <td style="text-align:center">iris setosa</td>
            <td style="text-align:center">iris virginica</td>
            <td style="text-align:center">iris versicolor</td>
        </tr>
    </tbody>
</table>

<br style="clear:both">

Pour chaque iris étudié, Anderson a mesuré (en cm) :
- la largeur des sépales
- la longueur des sépales
- la largeur des pétales
- la longueur des pétales

**Par souci de simplification, nous nous intéresserons uniquement à la largeur et à la longueur des
pétales.**

Pour chaque iris mesuré, Anderson a aussi noté l'espèce ("iris setosa", "iris versicolor" ou "iris virginica")

En travaillant sur ce jeu de données, on peut obtenir le graphique suivant (en abscisse la longueur du pétale et en ordonnée la largeur du pétale) :

<img src="https://dav74.github.io/site_nsi_prem/img/c32c_4.png">
<br style="clear:both">

Nous obtenons des "nuages" de points, on remarque ces points sont regroupés par espèces d'iris (pour "iris virginica" et "iris versicolor", les points ont un peu tendance à se mélanger).

Imaginez maintenant qu'au cours d'une promenade vous trouviez un iris, n'étant pas un spécialiste, il ne vous est pas vraiment possible de déterminer l'espèce. En revanche, vous êtes capables de mesurer la longueur et la largeur des pétales de cet iris. Partons du principe qu'un pétale fasse 0,5 cm de large et 2 cm de long. Plaçons cette nouvelle donnée sur notre graphique (point en noir) :

<img src="https://dav74.github.io/site_nsi_prem/img/c32c_5.png">
<br style="clear:both">

Il y a de fortes chances que votre iris soit de l'espèce "iris setosa".


### III. Algorithme des k plus proches voisins

Il est possible de rencontrer des cas plus difficiles, par exemple : largeur du pétale = 0,75 cm ; longueur du pétale = 2,5 cm :

<img src="https://dav74.github.io/site_nsi_prem/img/c32c_6.png">
<br style="clear:both">

Dans ce genre de cas, il peut être intéressant d'utiliser l'algorithme des "k plus proches voisins", mais en quoi consiste cet algorithme ?

- on calcule la distance entre notre point (largeur du pétale = 0,75 cm ; longueur du pétale = 2,5 cm) et chaque point issu du jeu de données "iris" (à chaque fois c'est un calcul de distance entre 2 points)
- on sélectionne uniquement les k distances les plus petites (les k plus proches voisins) 
- parmi les k plus proches voisins, on détermine quelle est l'espèce majoritaire. On associe à notre "iris mystère" cette espèce majoritaire parmi les k plus proches voisins.

Exemple avec **k = 3**
<img src="https://dav74.github.io/site_nsi_prem/img/c32c_7.png">
<br style="clear:both">
Les 3 plus proches voisins sont signalés ci-dessus avec des flèches : nous avons deux "iris setosa" (point vert) et un "iris versicolor" (point rouge). D'après l'algorithme des "k plus proches voisins", notre "iris mystère" appartient à l'espèce "setosa".

Le choix de la valeur de k est important, il faut souvent effectuer plusieurs essais.

<br style="clear:both">

<span style="color:red; font-size:2em">Activité 1</span>

Vous allez importer dans ce document le fichier "iris.csv" (disponible sur l'ENT).

Vous trouverez dans ce fichier :
- la longueur des pétales
- la largeur des pétales
- l'espèce de l'iris (0 pour "iris setosa", 1 pour "iris versicolor" et 2 pour "iris virginica").


In [9]:
import pandas # importer la bibliothèque Pandas pour la manipulation des données
import matplotlib.pyplot as plt  # importer le module pyplot de matplotlib, renommé plt, qui permet de tracer des graphiques

iris=pandas.read_csv("iris.csv") # stocker les données du CSV dans la variable iris

x=iris.loc[:,"petal_length"] # la variable x contient la longueur des pétales
y=iris.loc[:,"petal_width"] # la variable y contient la largeur des pétales
lab=iris.loc[:,"species"] # la variable lab contient l'espèce de l'iris (0, 1 ou 2)

plt.figure() #pour créer une nouvelle figure, automatique normalement mais bug sous basthon
plt.axis('equal') # pour obtenir un repère orthonormé
plt.scatter(x[lab == 0], y[lab == 0], color='g', label='setosa')
plt.scatter(x[lab == 1], y[lab == 1], color='r', label='versicolor')
plt.scatter(x[lab == 2], y[lab == 2], color='b', label='virginica')

"""
plt.scatter permet de tracer un lot de points. Pour la première ligne, pour tous les x et les y qui ont "lab == 0" (la condition est dans les crochets)
Ensuite on défini la couleur, puis enfin l'étiquette (label) associé au groupe de point.
"""

plt.legend() #afficher la légende
plt.show() #affiche le graphique

1  -  Ligne 3, sous quelle forme sont stockés les données du csv dans iris ? Donner le type et un exemple

Réponse : 




1  -  Ligne 4 et 5, sous quelle forme sont stockés les données des longueurs et largeurs dans les variables x et y ? Donner le type et un exemple

Réponse : 




<br>
<hr>

<span style="color:red; font-size:2em">Activité 2</span>


In [15]:
import pandas
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier #importer bibliothèque de Machine Learning

#traitement CSV
iris=pandas.read_csv("iris.csv")
x=iris.loc[:,"petal_length"]
y=iris.loc[:,"petal_width"]
lab=iris.loc[:,"species"]
#fin traitement CSV

#valeurs
longueur=2.5
largeur=0.75
k=3
#fin valeurs

#graphique
plt.figure()
plt.axis('equal')
plt.scatter(x[lab == 0], y[lab == 0], color='g', label='setosa')
plt.scatter(x[lab == 1], y[lab == 1], color='r', label='versicolor')
plt.scatter(x[lab == 2], y[lab == 2], color='b', label='virginica')
plt.scatter(longueur, largeur, color='k') # la k correspond à du noir -> CMJN = CMYK
plt.legend()
#fin graphique

#algo knn
d=list(zip(x,y)) #zip pour regrouper (Tuple), list pour donner le type list à d (tableau)
model = KNeighborsClassifier(n_neighbors=k)
model.fit(d,lab)
prediction= model.predict([[longueur,largeur]])
#fin algo knn

#Affichage résultats
txt="Résultat : "
if prediction[0]==0:
  txt=txt+"setosa"
if prediction[0]==1:
  txt=txt+"versicolor"
if prediction[0]==2:
  txt=txt+"virginica"
plt.text(3,0.5, f"largeur : {largeur} cm longueur : {longueur} cm", fontsize=12)
plt.text(3,0.3, f"k : {k}", fontsize=12)
plt.text(3,0.1, txt, fontsize=12)
#fin affichage résultats

plt.show()

La bibliothèque Python Scikit Learn propose un grand nombre d'algorithmes lié au machine learning (c'est sans aucun doute la bibliothèque la plus utilisée en machine learning). Parmi tous ces algorithmes, Scikit Learn propose l'algorithme des k plus proches voisins.

Le programme ci-dessus n'est pas très complexe à comprendre, nous allons tout de même nous attarder sur la partie "knn" :

- **d=list(zip(x,y))**

*permet de passer des 2 listes x et y :*
<em>
<span style="color:green"><br>
x = [1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, ...]<br>
y = [0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.4,....]<br>
</span>
à un tableau de tuples d :<br>
<span style="color:green">
d = [(1.4, 0.2), (1.4, 0.2), (1.3, 0.2) (1.5, 0.2), (1.4, 0.2), (1.7, 0.2), (1.4, 0.4), ...]
</span></em>

- **model = KNeighborsClassifier(n_neighbors=k)**

*défini le nombre de voisin à prendre en compte*

- **model.fit(d,lab)**

*permet d'associer les valeurs de "d" avec le lab correspondant.
même si ce sont 2 variables distinctes, elles sont encore classées dans le même ordre.*

- **prediction= model.predict([[longueur,largeur]])**

*Permet de récupérer une prédiction (sous forme d'un tableau d'une cellule) en fonction de la largeur et la longueur de l'iris à classer.*

Testez l'algorithme avec un k différent, que se passe t-il si vous choisissez un k à 5 ? pourquoi ?

Réponse : 

