# Algorithme des plus proches voisins

# Table des matières
**[Chapitre 0 - Introduction](#M0)**  

**[Chapitre 1 - Le module Pandas](#M1)**  
 
**[Chapitre 2. Déterminer le plus proche voisin d'un point](#M2)**.   

**[Chapitre 3 - Le module Scikit-learn](#M3)**  

**[Exercice 1](#M4)**


## <font color=#3876C2> Chapitre 0 - Introduction</font> <a name="M0"></a>

Nous allons travailler sur un algorithme d'apprentissage automatique, souvent appelé, même en français, algorithme de machine learning. L'idée est d'utiliser un grand nombre de données afin "d'apprendre à la machine" à résoudre un certain type de problème (nous verrons un exemple un peu plus loin).

Cette idée d'apprentissage automatique ne date pas d'hier, puisque le terme de machine learning a été utilisé pour la première fois par l'informaticien américain Arthur Samuel en 1959. Pourquoi le machine learning est tant "à la mode" depuis quelques années ? Simplement parce que le nerf de la guerre dans les algorithmes de machine learning est la qualité et la quantité des données (les données qui permettront à la machine d'apprendre à résoudre un problème), or, avec le développement d'internet, il est relativement simple de trouver des données sur n'importe quel sujet (on parle de "big data"). 

Nous allons étudier un algorithme d'apprentissage assez simple à appréhender : l'algorithme des "k plus proches voisins" (en anglais "k nearest neighbors" : knn)

Nous allons utiliser un jeu de données relativement connu dans le monde du machine learning : le jeu de données "iris". En 1936, Edgar Anderson a collecté des données sur 3 espèces d'iris : "iris setosa", "iris virginica" et "iris versicolor"

Pour chaque iris étudié, Anderson a mesuré (en cm) :

*   la longueur des sépales
*   la largeur des pétales
*   la longueur des pétales

Par souci de simplification, nous nous intéresserons uniquement à la largeur et à la longueur des pétales.

Pour chaque iris mesuré, Anderson a aussi noté l'espèce ("iris setosa", "iris virginica" ou "iris versicolor")

Vous trouverez 50 de ces mesures dans le fichier iris.csv

Vous devez savoir que ce jeu de données a, aujourd'hui, un intérêt purement pédagogique. En effet, il est exclusivement utilisé par des personnes désirant s'initier aux algorithmes de machine learning.

Avant d'entrer dans le vif du sujet (algorithme knn), nous allons chercher à obtenir une représentation graphique des données contenues dans le fichier iris.csv

## <font color=#3876C2> Chapitre 1 - Le module Pandas</font> <a name="M1"></a>

Après avoir placé le fichier iris.csv dans le même répertoire que votre fichier Python, étudiez et testez le code suivant :

x correspond à la longueur des pétales, y correspond à la largeur des pétales et lab correspond à l'espèce d'iris (0,1 ou 2)

In [None]:
import pandas
import matplotlib.pyplot as plt
iris=pandas.read_csv("iris.csv")
x=iris.loc[:,"petal_length"]
y=iris.loc[:,"petal_width"]
lab=iris.loc[:,"species"]
plt.scatter(x[lab == 0], y[lab == 0], color='g', label='setosa')
plt.scatter(x[lab == 1], y[lab == 1], color='r', label='virginica')
plt.scatter(x[lab == 2], y[lab == 2], color='b', label='versicolor')
plt.legend()
plt.show()

Nous utilisons ensuite la bibliothèque matplotlib qui permet de tracer des graphiques très facilement. "plt.scatter" permet de tracer des points, le "x[lab == 0]" permet de considérer uniquement l'espèce "iris setosa" (lab==0). Le premier "plt.scatter" permet de tracer les points correspondant à l'espèce "iris setosa", ces points seront vert (color='g'), le deuxième "plt.scatter" permet de tracer les points correspondant à l'espèce "iris virginica", ces points seront rouge (color='r'), enfin le troisième "plt.scatter" permet de tracer les points correspondant à l'espèce "iris versicolor", ces points seront bleu (color='b'). Nous aurons en abscisse la longueur du pétale et en ordonnée la largeur du pétale.

Nous obtenons des "nuages" de points, on remarque ces points sont regroupés par espèces d'iris (sauf pour "iris virginica" et "iris versicolor", les points ont un peu tendance à se mélanger).

Imaginez maintenant qu'au cours d'une promenade vous trouviez un iris, n'étant pas un spécialiste, il ne vous est pas vraiment possible de déterminer l'espèce. En revanche, vous êtes capables de mesurer la longueur et la largeur des pétales de cet iris. Partons du principe qu'un pétale fasse 0,5 cm de large et 2 cm de long. Plaçons cette nouvelle donnée sur notre graphique (il nous suffit d'ajouter la ligne "plt.scatter(2.0, 0.5, color='k')", le nouveau point va apparaitre en noir (color='k')) :

In [None]:
plt.scatter(x[lab == 0], y[lab == 0], color='g', label='setosa')
plt.scatter(x[lab == 1], y[lab == 1], color='r', label='virginica')
plt.scatter(x[lab == 2], y[lab == 2], color='b', label='versicolor')
plt.legend()
plt.scatter(2.0, 0.5, color='k')
plt.show()

Le résultat est sans appel : il y a de fortes chances que votre iris soit de l'espèce "iris setosa".

Dans ce genre de cas, il peut être intéressant d'utiliser l'algorithme des "k plus proches voisins", en quoi consiste cet algorithme :

*   on calcule la distance entre notre point (largeur du pétale = 0,75 cm ; longueur du pétale = 2,5 cm) et chaque point issu du jeu de données "iris" (à chaque fois c'est un calcul de distance entre 2 points tout ce qu'il y a de plus classique)
*   on sélectionne uniquement les k distances les plus petites (les k plus proches voisins)
parmi les k plus proches voisins, on détermine quelle est l'espèce majoritaire. 
*   On associe à notre "iris mystère" cette "espèce majoritaire parmi les k plus proches voisins"

Prenons k = 3

## <font color=#3876C2> Chapitre 2 - Déterminer le plus proche voisin d'un point</font> <a name="M2"></a>

Avant toute chose, il nous faut définir une fonction qui mesure la distance entre deux données.

In [None]:
import math

In [None]:
def distance (a, b):
    if (len (a) != len (b)):
        return (-1)
    somme = 0
    for i in range (len (a)):
        somme += (a [i] - b [i]) * (a [i] - b [i])
    return (math.sqrt (somme))

In [None]:
distance((x[0],y[0]),(x[1],y[1]))

In [None]:
distance((x[0],y[0]),(x[2],y[2]))

fonction lePlusProcheVoisin qui prend en paramètre une donnée (une liste de 2 nombres, pas forcément un élément de iris) et renvoie l'indice dans iris du plus proche voisin (situé à une distance non nulle). 
Abandonnons Pandas momentanément et créons une liste dataset.

In [None]:
import csv
csvfile = open ("iris.csv", "r")
lines = csv.reader(csvfile)
dataset = list (lines)

In [None]:
dataset

In [None]:
# On convertit en réel
for x in range(1,len(dataset)):
    for y in range (2):
        dataset[x][y] = float(dataset[x][y])

In [None]:
 dataset [1] 

In [None]:
def lePlusProcheVoisin (x):
    lePlusPres = 0
    distanceMin = float("inf")
    for i in range(1,len(dataset)):
        di = distance (x, dataset[i][0:2])
        if di != 0 and di < distanceMin:
            lePlusPres = i
            distanceMin = di
    return (lePlusPres)

In [None]:
lePlusProcheVoisin ((5, 3))

In [None]:
dataset [115]

fonction *lesKplusProchesVoisins* qui prend en paramètre une donnée (une liste de 2 nombres, pas forcément un élément de dataset) et une valeur de k et renvoie la liste des indices dans *dataset* des k plus proches voisins. 
Quand on prend k=1, cette fonction doit renvoyer le même résultat que la précédente, mis à part le fait que *lePlusProcheVoisin* renvoie une valeur numérique alors que *lesKplusProchesVoisins* renvoie une liste d'un élément. 

In [None]:
def lesKplusProchesVoisins(x, k):
    listeDesDistances = []
    for i in range (1,len (dataset)):
        listeDesDistances.append (distance (x, dataset[i][0:2]))
    Kppv = []
    for i in range (k):
        p = float ("inf")
        for j in range (1,len (dataset)-1):
            if listeDesDistances [j] != 0 and listeDesDistances [j] < p and j not in Kppv :
                p = listeDesDistances [j]
                indice = j
        Kppv.append(indice)
    return (Kppv)

In [None]:
lesKplusProchesVoisins ((5, 3), 3)

Fonction *predire* qui prend en paramètre une liste de numéro d'exemples (de dataset) et retourne l'étiquette qui est prédite. 
On décide de l'étiquette en appliquant un choix à la majorité. 


In [None]:
def predire (l):
    '''Prédire l'espèce d'un iris'''
    lesEtiquettes = ['0', '1', '2']
    decomptes = [0, 0, 0]
    for exemple in l :
        for i in range (3):
            if dataset [exemple] [2] == lesEtiquettes [i]:
                decomptes [i] += 1
    plusGrandDecompte = decomptes [0]
    indice = 0
    for i in range (1,2):
        if decomptes [i] > plusGrandDecompte:
            plusGrandDecompte = decomptes [i]
            indice = i
    return (lesEtiquettes[indice])

In [None]:
predire ([17, 4, 39])

In [None]:
predire ([142, 137, 87])

In [None]:
predire(lesKplusProchesVoisins(dataset[64][0:2], 3))

## <font color=#3876C2> Chapitre 3 - Le module Scikit-learn</font> <a name="M3"></a>

Il nous permet de faire tout cela bien plus simplement.

In [None]:
# On a modifié x
x=iris.loc[:,"petal_length"]
y=iris.loc[:,"petal_width"]
lab=iris.loc[:,"species"]

In [None]:
from sklearn.neighbors import KNeighborsClassifier

#valeurs
longueur=2.5
largeur=0.75
k=3
#fin valeurs

#graphique
plt.scatter(x[lab == 0], y[lab == 0], color='g', label='setosa')
plt.scatter(x[lab == 1], y[lab == 1], color='r', label='virginica')
plt.scatter(x[lab == 2], y[lab == 2], color='b', label='versicolor')
plt.scatter(longueur, largeur, color='k')
plt.legend()
#fin graphique

#algo knn
d=list(zip(x,y))
model = KNeighborsClassifier(n_neighbors=k)
model.fit(d,lab)
prediction= model.predict([[longueur,largeur]])
#fin algo knn

#Affichage résultats
txt="Résultat : "
if prediction[0]==0:
    txt=txt+"setosa"
if prediction[0]==1:
    txt=txt+"virginica"
if prediction[0]==2:
    txt=txt+"versicolor"
plt.text(3,0.5, f"largeur : {largeur} cm longueur : {longueur} cm", fontsize=12)
plt.text(3,0.3, f"k : {k}", fontsize=12)
plt.text(3,0.1, txt, fontsize=12)
#fin affichage résultats

plt.show()

La ligne "d=list(zip(x,y))" permet de passer des 2 listes x et y à une liste de tuples d.
les éléments des tableaux x et y ayant le même indice sont regroupés dans un tuple.

"KNeighborsClassifier" est une méthode issue de la bibliothèque scikit-learn (voir plus haut le "from sklearn.neighbors import KNeighborsClassifier"), cette méthode prend ici en paramètre le nombre de "plus proches voisins" (model = KNeighborsClassifier(n_neighbors=k))

"model.fit(d, lab)" permet d'associer les tuples présents dans la liste "d" avec les labels (0 : "iris setosa", 1 : "iris virginica" ou 2 : "iris versicolor"). Par exemple le premier tuple de la liste "d", (1.4, 0.2) est associé au premier label de la liste lab (0), et ainsi de suite...

La ligne "prediction= model.predict([[longueur,largeur]])" permet d'effectuer une prédiction pour un couple [longueur, largeur] (dans l'exemple ci-dessus "longueur=2.5" et "largeur=0.75"). La variable "prediction" contient alors le label trouvé par l'algorithme knn (dans notre exemple "prediction = 0")





## <font color=#3876C2> Exercice 1</font> <a name="M4"></a>

Modifiez le programme afin de tester l'algorithme knn avec un nombre "de plus proches voisins" différent (en gardant un iris ayant une longueur de pétale égale à 2,5 cm et une largeur de pétale égale à 0,75 cm). Tester k = 5.