# $k$ plus proches voisins ($k$ nearest neighbours)
## appliqué à l'affectation des joueurs de rugby

In [None]:
import doctest #permet d'automatiser des tests unitaires

### Structure de la base de données
La bibliothèque `pandas` permet (entre autre) de faire des réquêtes sur une base de données.

Ici la base est simple, c'est une table au format `.csv`

- l'attribut `.shape` contient le tuple (nb lignes, nb colonnes) de la table
- la méthode `.head(10)` affiche les 10 premières lignes de la table
- la fonction `set` transforme une liste (`list`) en ensemble (`set`), ce qui a pour effet de supprimer les redondances.
- `joueurs["Poste"]` est une projection de la table (on ne garde que la colonne `"Poste"`)


In [None]:
%matplotlib inline
import pandas
import matplotlib.pyplot as plt
joueurs=pandas.read_csv("joueurs_rugby.csv")
print(joueurs.shape)
print(joueurs.head(10))
print(set(joueurs["Poste"]))

### Affichage du nuage de points

Nous allons afficher trois nuages de points : les piliers, les 2ème ligne et les arrières.

Ces postes correspondent à des profils de joueurs très spécifiques, ce qui se traduit sur le graphique par des nuages clairement identifiés.

In [None]:
for pst in {"Pilier","2ème ligne","Arrière"}:
    plt.scatter(joueurs.loc[joueurs["Poste"]==pst,"Taille"],
                joueurs.loc[joueurs["Poste"]==pst,"Poids"], 
                marker='.', alpha=0.2, label=pst)
plt.legend()
plt.show()

### Préparation des listes
On extrait de la table les rugbymans jouant à ces trois postes pour les ranger dans des listes

In [None]:
taille = list(joueurs.loc[joueurs['Poste'].isin({"Pilier","2ème ligne","Arrière"}),"Taille"])
poids = list(joueurs.loc[joueurs['Poste'].isin({"Pilier","2ème ligne","Arrière"}),"Poids"])
étiquette = list(joueurs.loc[joueurs['Poste'].isin({"Pilier","2ème ligne","Arrière"}),"Poste"])
print(taille[:3], poids[:3], étiquette[:3])

### Séparation des données en un jeu de test et un jeu d'apprentissage
**à faire** : conserver les 3/4 des listes dans des listes nommées `taille_train, poids_train...` (entrainement)
et le quart restant dans des listes nommées`*_test`

Ainsi l'apprentissage supervisé sera fait sur une partie de la liste (`*_train`), et les tests, sur une autre partie(`*_test`).

In [None]:
taille_train = 
poids_train = 
étiquette_train = 
taille_test = 
poids_test = 
étiquette_test = 

### Fonction `distance`
**à faire :** Fonction de calcul de distance dans le plan $(taille \times poids)$

In [None]:
def distance(A, B):
    """Calcul la distance entre les points A et B
    >>> distance([1,2],[4,6])
    5.0"""
    
    
    return 
    
doctest.run_docstring_examples(distance, globals())        

### Algorithme des $k$ plus proches voisins
**à faire** : une fonction qui renvoie les étiquettes des k plus proches voisins au sens de la distance définie plus haut.

In [None]:
def knn(k, point, taille, poids, étiquette):
    """renvoie les étiquettes des k plus proches joueurs de 'point'
    >>> knn(10, [180,80], taille_train, poids_train, étiquette_train)
    ['Arrière', 'Arrière', 'Arrière', 'Arrière', 'Arrière', 'Arrière', 'Arrière', 'Arrière', 'Arrière', 'Arrière']"""

doctest.run_docstring_examples(knn, globals())     