#  <font color="darkred"> &#10070; Algorithme des k-moyennes</font>


Le but du notebook est de mettre en oeuvre en Python l'algorithme des k plus proches voisins afin de classer des vins suivant leur cépage.


## <font color="darkblue"> &diams; Le jeu de données</font>

On utilise dans ce notebook un jeu de données disponible sur le site de l'[UCI](https://archive.ics.uci.edu/dataset/109/wine). Ce jeu de données contient des données sur 178 variétés de vin tous produits en Italie mais issus de **trois** cépages différents. 
Sur chaque ligne du fichier de données, on trouvera :
* en première position le cépage d'où est issu le vin sous la forme d'un entier (de 1 à 3). On pourra donc tester la classification fourni par l'algorithme des k-moyennes.
* puis 13 autres valeurs correspondants à des valeurs d'analyse chimique du vin. La signification précise de ces données n'est pas utile pour la mise en oeuvre de l'algorithme mais on peut en consulter le [détail](https://archive.ics.uci.edu/dataset/109/wine)

Si vous utiliser ce notebook via Capytale, le jeu de données est déjà intégré. Dans le cas contraire vous devez le [télécharger](https://fabricenativel.github.io/cpge-info/itc/Notebook/wine.csv) et le sauvegarder *dans le même répertoire* que ce Notebook afin d'y avoir accès.

## <font color="darkblue"> &diams; Lecture des données</font>

## <font color=green> &#9998; Exercices </font>

1. <font color="green"> Ecrire un programme Python qui lit le fichier <code>wine.csv</code> et crée une liste `donnees_vins` contenant pour chaque iris le cépage (à l'indice 0) puis les caractéristiques chimiques.</font>

On rappelle qu'il faut suivre les étapes suivantes :
* ouvrir le fichier en donnant son nom (`wine.csv`) cette étape fournit un *descripteur de fichier* sur lequel s'appliqueront les fonctions suivantes
* lire le contenu du fichier et utiliser `split` afin d'obtenir sur chaque ligne les données d'un iris
* fermer le fichier

In [1]:
# Votre programme ici
reader = open("wine.csv")
donnees_vins = reader.read().strip().split('\n')
reader.close()

A la fin de cette étape  `donnees_vins[0]` devrait contenir: 

`1,14.23,1.71,2.43,15.6,127,2.8,3.06,.28,2.29,5.64,1.04,3.92,1065`. 

Comme vous pouvez le constater on doit donc effectuer de nouveau un `split` cette fois avec le caractère `,` de façon à récupérer chacun des champs de données (on rappelle que la *première donnée* est le cépage).

Remarquons aussi que *toutes les données* sont numériques, on peut donc directement les convertir en `float` au lieu de les conserver sous forme de chaine de caractère.

In [3]:
donnees_vins[0]

'1,14.23,1.71,2.43,15.6,127,2.8,3.06,.28,2.29,5.64,1.04,3.92,1065'

## <font color=green> &#9998; Exercices </font>

2. <font color="green"> Ecrire un programme Python qui crée la liste <code>vins</code> à partir de <code>donnees_vin</code> en effectuant un `split` sur chaque élément de cette liste et en convertissant chauqe élément en flottant.</font>

In [2]:
# Votre programme ici
vins = [[float(x) for x in d.split(',')] for d in donnees_vins]

A la fin de cette étape, `vins[0]` devrait contenir la liste `[1,14.23,1.71,2.43,15.6,127,2.8,3.06,.28,2.29,5.64,1.04,3.92,1065]`. (Remarquer l'absence de  ̀`"` puisque les données sont des flottants.

In [7]:
vins[28]

[1.0,
 13.87,
 1.9,
 2.8,
 19.4,
 107.0,
 2.95,
 2.97,
 0.37,
 1.76,
 4.5,
 1.25,
 3.4,
 915.0]

## <font color="darkblue"> &diams; Distance entre deux vins</font>

On prendra comme distance entre deux vins le carré de la distance euclidienne dans $\mathbb{R}^{13}$. 

**Attention**, on ne doit pas tenir compte de la première coordonnées (c'est le cépage) et utiliser uniquement les 13 autres. Par conséquent cette fonction prend en argument deux listes de 14 éléments mais renvoie le carré de la distance euclidienne sur les coordonnées d'indice 1 à 13.


In [3]:
# Votre fonction distance ici
def distance(vin1,vin2):
    s = 0
    for i in range(1,len(vin1)):
        s += (vin1[i]-vin2[i])**2
    return s

Tester votre fonction `distance` et vérifier que la distance entre `iris[28]` et `iris[42]` vaut bien environ $4.56$.

In [4]:
# Votre test ici
distance(vins[28],vins[42])

32456.9134

In [8]:
vins[42]

[1.0,
 13.88,
 1.89,
 2.59,
 15.0,
 101.0,
 3.25,
 3.56,
 0.17,
 1.7,
 5.43,
 0.88,
 3.56,
 1095.0]

## <font color=green> &#9998; Exercices </font>

3. <font color="green"> Ecrire une fonction <code>distance</code> qui prend en argument deux listes représentant des iris (voir exercice 6) et renvoie la distance entre ces deux iris telle que définie ci-dessus. Attention, penser à convertir car dans les données des iris les valeurs numériques sont des chaines de caractères.</font>

In [None]:
# Definition de la fonction de distance ici


## <font color="darkblue"> &diams; Implémentation de l'algorithme des k plus proches voisins </font>

On veut classer les iris suivants dont on ne connait que les caractéristiques :

<table>
    <tr>
        <th> Fleur </th>
        <th> longueur sépale</th>
        <th> largeur sépale</th>
        <th> longueur pétale</th>
        <th> largeur pétale</th>
    </tr>
    <tr>
        <td> Iris1 </td>
        <td> 4.8 </td>
        <td> 3.7 </td>
        <td> 1.9 </td>
        <td> 0.5 </td>
    </tr>
    <tr>
        <td> Iris2 </td>
        <td> 6.0 </td>
        <td> 2.2 </td>
        <td> 5.4 </td>
        <td> 1.6 </td>
    </tr>
    <tr>
        <td> Iris3 </td>
        <td> 5.5 </td>
        <td> 2.7 </td>
        <td> 4.0 </td>
        <td> 1.2 </td>
    </tr>
</table>

## <font color=green> &#9998; Exercices </font>

4. <font color="green">Définir les variables python `iris1`, `iris2` et `iris3` permettant de représenter ces trois nouveaux iris comme ceux lus à partir du fichier de données.</font>

In [None]:
# Votre réponse ici


5. <font color="green">Ecrire une fonction `tri_distance` qui prend en argument une liste d'iris <code>iris</code> ainsi qu'un iris à classer <code>nouvel_iris</code> et renvoie la liste  rangée par distance croissante par rapport à <code>nouvel_iris</code>. Pour cela, on pourra utiliser la fonction <code>sorted</code> de Python qui prend en argument une liste ainsi qu'une clé de tri (sous la forme d'une fonction). Notre clé de tri sera donc ici la distance avec <code>nouvel_iris</code>. </font>

In [None]:
# Votre réponse ici


6. <font color="green">Ecrire une fonction <code>knn</code> qui prend en argument une liste d'iris ainsi qu'un entier <code>k</code> et un iris à classer <code>nouvel_iris</code> et renvoie la classe majoritaire des <code>k</code> plus proches voisins de cet iris. On pourra représenter le nombre d'éléments de chaque classe par un dictionnaire (la clé est l'espèce, la valeur le nombre de fois où cette espèce apparait parmi les $k$ plus proches voisins)</font>

In [None]:
# Votre programme ici (ou à écrire dans VS-Code)


7. <font color="green">Tester votre fonction sur chacun des trois iris de la question 4.</font>

In [None]:
# Vos résultats ici


## <font color="darkblue"> &diams; Construction de la matrice de confusion </font>


Le but de cette partie est de construire la matrice de confusion pour $k=5$ pour des données *déjà classées* disponibles dans le fichier `iris30.csv`. Ce fichier est déjà intégré dans ce notebook (utilisation depuis capytale) ou sinon téléchargeable [ici](https://fabricenativel.github.io/cpge-info/itc/Notebook/iris30.csv). 
Un jeu de données est souvent réparties de la sorte entre un jeu permettant l'apprentissage supervisé (le fichier (`iris120.csv` dans cet exemple) et un jeu permettant de tester l'algorithme (`iris30.csv` dans notre exemple)

8. <font color="green">Créer une liste <code>iris_test</code> content les 30 iris déjà classés (on pourra reprendre ce qui a été fait pour créer la liste des 120 iris)</font>

In [None]:
# Votre réponse ici


On décide de représentrer la matrice de confusion *par un dictionnaire* dont les clés sont les couples de classe `(C1,C2)` (par exemple `('setosa','virginica')`) et les valeurs le nombre d'iris de la classe `C1` classé comme appartenant à la classe `C2`.

9. <font color="green">Créer ce dictionnaire en initialisant toutes les valeurs à 0</font>

In [None]:
# Votre réponse ici


10. <font color="green">Parcourir la liste <code>iris_test</code> et classer chaque iris rencontré avec la fonction <code>knn</code> écrite à la partie précédente. Modifier en conséquence le dictionnaire représentant la matrice de confusion.</font>

In [None]:
# Votre réponse ici


11. <font color="green">Afficher la matrice de confusion et déterminer le pourcentage d'erreur commis pour l'algorithme des $k$ plus proches voisins dans ce cas.</font>

In [None]:
# Votre réponse ici


## <font color="darkblue"> &diams; Pour aller plus loin </font>


On peut tester l'algorithme en modifiant les valeurs de $k$ ou encore en changeant de distance et tester l'impact de ces modifications sur l'efficatité de l'algorithme d des $k$ plus proches voisins

[La page wikipedia](https://fr.wikipedia.org/wiki/M%C3%A9thode_des_k_plus_proches_voisins) sur la méthode des k plus proches voisins. 