# Algorithme des k plus proches voisins
## Un algorithme pour l'intelligence artificielle

L’algorithme des k plus proches voisins  (abrégé par kPPV) est l’un des __algorithmes utilisés dans le domaine de l’intelligence artificielle (IA)__. Il intervient dans de nombreux domaines de l’apprentissage automatique.

> __Remarques :__ 
- __IA veut dire Intelligence Artificielle__ en français. En réalité, il s'agit de la traduction de _Artificial Intelligence_. Or _Intelligence_ en Anglais ne veut pas vraiment dire intelligence en Français !
- Par exemple, _Intelligence Service_ veut dire Service de Renseignements, les services secrets en gros.
- Et c'est ainsi qu'il faut comprendre __IA__: c'est un __ensemble de programmes qui ont pour but d'analyser un ensemble de données__ pour en tirer une conclusion. Il s'agit donc bien d'un travail d'analyse de données.

Cet algorithme est, par exemple, utilisé par des entreprises d'Internet comme Amazon, netflix, Spotify ou iTunes afin de __prévoir__ si vous seriez ou non intéressés par un produit __en utilisant vos données__ et en les comparant à celles des clients ayant acheté ce produit particulier.

Son principe peut être résumé par cette phrase : __Dis-moi qui sont tes amis (ou les personnes ayant les mêmes goûts) et je te dévoilerai tes désirs__.

> __Remarques :__ 
- Cet algorithme a été introduit en __1951__ par Fix et Hodges dans un rapport de la faculté de médecine aéronautique de la US Air Force.
- En anglais, on parle de l'algorithme "k Nearest Neighbors", que l'on abrège par __kNN__.

## Quel joueur de rugby seriez-vous ?

Nous allons voir __comment l'algorithme des kPPV peut nous aider à prévoir quel poste pourrait être proposé à un nouveau joueur de rugby, uniquement d'après sa stature (masse et taille)__.

Avant toute chose, il peut-être important d'énumérer les __différents postes existants au rugby__. Cette illustration peut y contribuer :

![BD Rugbymen, de Beka et Poupard, édition Bambou](BD_rugby.jpg)

Cet algorithme nécessite un jeu de données, le plus large possible. Nous utiliserons les __données mises à disposition par l'organisation ["Six Nations Rugby Limited"](https://www.sixnationsrugby.com/fr/team/france-fr/#l'équipe)__. Ces données concernent les équipes des hommes sur la saison 2020-2021, et sont compilées dans le fichier "Joueurs_rugby_6_nations.csv".

Si on simplifie la variété des __postes en 3 catégories (Avants, Charnière, Arrières)__ et que l'on __traite ces données graphiquement__ (avec un tableur ou le module matplotlib de Python), on obtient cela :

![Répartition des 3 grands postes au rugby](3_postes_rugbymen.png)

On constate à l'oeil nu que __certaines caractéristiques se détachent__ :
- Les avants sont plutôt __grands et massiques__.
- La charnière (demi de mêlée et demi-d'ouverture) sont des joueurs plus __petits et légers__.
- Les arrières se situent "à cheval" sur les caractéristiques des deux postes précédents.

On peut donc déjà se convaincre que, dans le cas d'un gabarit extrême, il est assez évident qu'on pourra définir naturellement un poste : il paraîtrait très risqué de proposer un poste d'avant à un homme de 70 kg par exemple.

Pour des gabarits plus "intermédiaires", le choix est plus complexe , surtout si on prend en compte la diversité des postes du rugby :

![Répartition des postes au rugby](Tous_postes_Rugbymen_normalisé.png)

> __Remarque__ : les plus observateurs d'entre-vous auront remarqué un changement d'échelle sur ce second graphique. En effet, le premier graphe avait comme défaut de conserver un certain déséquilibre entre les deux grandeurs (masse et taille). Ce déséquilibre aurait pu entraîner des erreurs lors des calculs de distances dont nous auront besoin plus tard. Les deux grandeurs ont donc été "ré-équilibrées" par une méthode de __normalisation__, expliquée brièvement dans le notebook d'approfondissement 4_13.

Si on excepte les très lourds piliers (que l'on appelle d'ailleurs traditionnellement "les gros"), les très grands 2ème ligne et les très petits et legers demi- de mêlée (oui, tout est relatif au rugby...),  les autres postes sont plus difficiles à cerner.

Si on ne devait s'en tenir qu'à la stature (ce qui serait stupide...), l'algorithme des kPPV pourrait alors nous être utile.

## Le principe : chercher ses voisins !

__Un nouveau joueur, Caliméro, vient intégrer l'équipe__ et l'entraîneur ne le connait pas. Il faut __lui trouver un poste__ : quelles sont ses options ?

__Caliméro mesure 1m89 et pèse 102 kg__.

Voici sa position (croix noire) sur un zoom du précédent graphique :

![Zoom sur Caliméro](Zoom_Caliméro_normalisé.png)

Nous allons __chercher ses plus proches voisins__ et lui __proposer un poste__ en fonction de ses k plus proches voisins.

### Un seul voisin :  k = 1

Le plus proche voisin de Caliméro est symbolisé par un point orange, c'est donc un ailier.

On pourrait simplement en déduire que __Caliméro a la stature d'un ailier__ ?

### Trois voisins : k = 3

> __Remarques :__ 
- nous n'étudierons pas toutes les valeurs de k mais uniquement les plus caractéristiques.
- nous privilégierons les k impairs pour éviter autant que possible les cas d'égalité.

![Zoom sur Caliméro k=3](Zoom_Caliméro_k3_normalisé.png)

Parmi les 3 plus proches voisins de Caliméro, on trouve :
- 1 ailier
- 2 3ème lignes

On pourrait maintenant en déduire que __Caliméro a la stature d'un 3ème ligne__ ?

### Seize voisins : k = 9

![Zoom sur Caliméro k=9](Zoom_Caliméro_k9_normalisé.png)

Parmi les 9 plus proches voisins de Caliméro, on trouve :
- 2 ailiers
- 3 3ème lignes
- 4 centres

On pourrait maintenant en déduire que __Caliméro a la stature d'un centre__ ?

### Tous ses voisins !

Inutile de consulter le graphique dans ce cas, il suffit de trouver quel poste est le plus présent dans la base de donnée et on pourrait alors en déduire que __Caliméro sera parfaitement à sa place au poste de... Pilier !?__

En effet, nos données contiennent les informations sur des postes inégalement répartis :

|Poste|Nombre de joueurs|
|:---:|:---:|
|Pilier|45|
|3ème lignes|44|
|2ème ligne|31|
|Centre|30|
|Talonneur|21|
|Demi de mêlée|21|
|Demi d'ouverture|21|
|Ailier|21|
|Arrière|13|

Si on prend une valeur de k maximale, n'importe quel profil de joueur aura donc une majorité de voisins piliers !

On comprend facilement l'absurdité de ce dernier exemple extrême.

### Bon... on le met où Caliméro ?

On a vu que la détermination d'une catégorie à l'aide de __l'algorithme des kNN dépend pour beaucoup du choix de k__, le nombre de voisins.

Pour être pertinent, __le choix de k est déterminant__. Il peut être fait...

- __par tatonnement__, en fonction de l'expérience que l'on a sur un jeu de données et des résultats obtenus. Cette méthode est par essence risquée.
- __par validation croisée__, une procédure plus rigoureuse qui sera expliqué dans le notebook d'approfondissement 4_13A.

Pour la suite de notre étude, nous considérerons arbitrairement que la valeur __k = 3 est acceptable__.

## L'algorithme des kPPV, pas à pas
### Une structure de données équitable

Comme on l'a vu de façon extrême lorsque que k prend une valeur maximale, le résultat dépend du nombre d'éléments présents dans chaque catégorie (chaque poste). Si une catégorie est majoritaire, il est évident qu'elle pourra être statistiquement plus souvent voisine de notre cible que tout autre catégorie.

Ce problème peut être partiellement résolu en équilibrant notre base de donnée, ce qui sera expliqué dans le notebook d'approfondissement 4_13A.

Dans notre exemple, ce rééquilibre pouvant se révéler complexe, on gardera notre effectif de joueurs intact pour notre activité. 

### Le voisinage, une question de distance

Pour connaître les plus proches voisins, il y a une notion de proximité, donc de distance.

Sur les graphiques précédents, on a symbolisé cette distance par un cercle. Sur le suivant, on symbolise chaque distance par un segment noir.

![Zoom sur Caliméro k=3](Zoom_Caliméro_k3_normalisé_distances.png)

On a donc utilisé ce que l'on appelle une distance euclidienne. 

> __Remarque :__ il existe d'autres méthodes pour calculer des distances. Vous pourrez les découvrir dans le notebook d'approfondissement 4_13A.

La __distance euclidienne__ est calculée ainsi :

On considère deux points $M_1$ et $M_2$ dans un plan.

- Les coordonnées de $M_1$ sont ($x_1$, $y_1$).
- Les coordonnées de $M_2$ sont ($x_2$, $y_2$).

La distance euclidienne de $M_1$ à $M_2$ correspond à la valeur obtenue en réalisant le calcul suivant :

![Distance euclidienne](formule_distance.png)

> __Remarques :__ 
- même si dans notre cas on mesure une distance dans un repère à deux dimensions, rien d'empêche d'__utiliser la distance euclidienne pour un nombre de dimension supérieure__. Ce pourrait être utile si on souhaite ajouter des caractéristiques aux profils des éléments à comparer (ex: vitesse de course, age,...).
- avec Python, on peut utiliser la racine carré en...
  - élevant à la puissance 1/2 (ex : `45 ** 0.5`)
  - utilisant la méthode `sqrt()` du module `math` (ex : `math.sqrt(45)`)

### A quelles distances sont situés tous les voisins de Caliméro ?

Pour connaître les plus proches voisins de Caliméro, il faut donc __calculer les distances qui le séparent de chacun des autres joueurs__.

Ces distances peuvent être __conservées dans une structure de données__ adaptée.

### Qui sont ses k plus proches voisins ?

Une fois les distances calculées et conservées, il suffit d'en __sortir les k plus petites distances__ pour connaître les __k plus proches voisins__.

Le plus simple pour cela est de __trier les distances__ par ordre croissant.

### Au final... on le met où Caliméro ?

Connaissant ses k plus proches voisins, il suffit maintenant d'__affecter Caliméro au poste majoritaire parmi ses k plus proches voisins__.

> __Remarque :__ pour limiter les cas d'égalité, on rappelle qu'il est intéressant de choisir une valeur de k impaire, surtout dans les situations où l'on a que deux catégories à différencier.

## Caliméro passe au foot ?

La pertinence des données est déterminante pour espérer une bonne prédiction.

Le fait que les __caractéristiques permettent de bien différencier les différentes catégories__ est primordial.

Voici un graphique basé sur les mêmes critères que précédemment, appliqué aux __joueurs de football__ ayant participé à la dernière coupe d'Europe.

![Graphique des footeux](Footeux.png)

> __Commentaires :__

## Caliméro à Poudlard ?

Appliquer cet algorithme des k plus proches voisins au __mini-projet de Choixpeau magique__.

## Que retenir ?
### À minima...

- Pour prédire la catégorie d’un nouvel élément à l'aide de l'algorithme des k plus proches voisins, il faut :
  - Un échantillon de données suffisamment large et varié.
  - Un nouvel élément dont on connaît les caractéristiques et dont on veut prédire la catégorie.
  - La valeur de k, le nombre de voisins à conserver.
- L'algorithme des kPPV se modélise ensuite ainsi :
  - Calculer les distances entre le nouvel élément et tous les éléments de l'échantillon.
  - Trouver, dans l’échantillon, les k plus proches voisins de l'élément à catégoriser.
  - Parmi ces proches voisins, trouver la catégorie majoritaire.
  
### Au mieux...

- Le choix de k est déterminant pour obtenir des résultats pertinents :
  - avec un trop petit k, l'effet loupe est trop important, ce qui laisse une trop grande part à l'aléatoire de la répartition des éléments
  - avec un trop grand k, on perd l'intérêt d'avoir un bon profil de cible et le résultat tendra vers la catégorie globalement majoritaire.

---
[![Licence CC BY NC SA](https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png "licence Creative Commons CC BY-NC-SA")](http://creativecommons.org/licenses/by-nc-sa/3.0/fr/)
<p style="text-align: center;">Auteur : David Landry, Lycée Clemenceau - Nantes</p>
<p style="text-align: center;">D'après des documents partagés par...</p>
<p style="text-align: center;"><a  href=http://www.monlyceenumerique.fr/index_nsi.html#premiere>JC. Gérard, T. Lourdet, J. Monteillet, P. Thérèse, sur le site monlyceenumerique.fr</a></p>
<p style="text-align: center;"><a  href=https://www.infoforall.fr/act/algo/k-plus-proches-voisins/>Infoforall</a></p>
<p style="text-align: center;"><a  href=https://www.sixnationsrugby.com/>Les données des rugbymen ont été trouvées sur le site officiel sixnationsrugby.com</a></p>
<p style="text-align: center;"><a  href=http://www.bamboo.fr/lesrugbymen/>L'image des positions des joueurs est tirée de la BD Rugbymen, de Beka et Poupard</a></p>

<p style="text-align: center;">David Cobac, enseignant au lycée Jean Moulin, Angers</p>