# Algorithme des k plus proches voisins

## 1. Introduction

À l'entrée de l'école de Poudlard, le Choixpeau magique répartit les élèves dans les différentes maisons (Gryffondor, Serpentard, Serdaigle et Poufsouffle) en fonction de leur courage, leur loyauté, leur sagesse et leur malice.   

Le Choixpeau magique dispose d'un fichier CSV (``choixpeau.csv``) dans lequel sont répertoriés les données d'un échantillon d'élèves.

Voici les 6 premières lignes de ce fichier :   

|    Nom   | Courage | Loyauté | Sagesse | Malice |   Maison   |
|:--------:|:-------:|:-------:|:-------:|:------:|:----------:|
|  Adrian  |    9    |    4    |    7    |   10   | Serpentard |
|  Andrew  |    9    |    3    |    4    |    7   | Gryffondor |
| Angelina |    10   |    6    |    5    |    9   | Gryffondor |
|  Anthony |    2    |    8    |    8    |    3   |  Serdaigle |
|  Arthur  |    10   |    4    |    2    |    5   | Gryffondor |

Et voici les élèves que le Choixpeau magique souhaite orienter :   

|    Nom   | Courage | Loyauté | Sagesse | Malice |
|:--------:|:-------:|:-------:|:-------:|:------:|
| Hermione |    8    |    6    |    6    |    6   |
|   Drago  |    6    |    6    |    5    |    8   |
|    Cho   |    7    |    6    |    9    |    6   |
|  Cédric  |    7    |    10   |    5    |    6   |

L'objectif de ce projet est d'aider le Choixpeau à déterminer la maison des nouveaux élèves.

## 2. Modéliser un élève

On décide de modéliser un élève par un dictionnaire avec les données à disposition. Par exemple :

In [3]:
adrian = {"nom": "Adrian", "courage": 9, "loyauté": 4,
          "sagesse": 7, "malice": 10, "maison": "Serpentard"}

In [4]:
hermione = {"nom": "Hermione", "courage": 8, "loyauté": 6,
            "sagesse": 6, "malice": 6}

1. Donner la modélisation de l'élève Anthony.

In [5]:
# Répondre dans cette cellule
anthony = {"nom": "Anthony", "courage": 2, "loyauté": 8,
          "sagesse": 8, "malice": 3, "maison": "Serdaigle"}

2. On décide d'utiliser la distance de Manhattan pour calculer la distance entre deux élèves, c'est-à-dire (avec des notations évidentes) :

``distance(eleve1, eleve2) = |C1 - C2| + |L1 - L2| + |S1 - S2| + |M1 - M2|``

a. Vérifier que la distance entre Hermione et Adrian est égale à $8$.

distance(hermione, adrian) = |8-9| + |6-4| + |6-7| + |6-10| = 1 + 2 + 1 + 4 = 8

b. Quelle est la distance entre Arthur et Drago ?

distance(arthur, drago) = |10-6| + |4-6| + |2-5| + |5-8| = 12

c. Écrire une fonction ``distance`` qui prend en paramètres deux élèves (représentés chacun par un dictionnaire) et qui renvoie la distance (de Manhattan) entre ces deux élèves.

In [6]:
# À vous de jouer
def distance(eleve1, eleve2):
    c1 = eleve1["courage"]
    c2 = eleve2["courage"]
    l1 = eleve1["loyauté"]
    l2 = eleve2["loyauté"]
    s1 = eleve1["sagesse"]
    s2 = eleve2["sagesse"]
    m1 = eleve1["malice"]
    m2 = eleve2["malice"]
    d = abs(c1 - c2) + abs(l1 - l2) + abs(s1 - s2) + abs(m1 - m2)
    return d

In [7]:
assert distance(hermione, adrian) == 8
assert distance(hermione, hermione) == 0

## 3. Fichier CSV

3. Écrire une fonction ``lire_csv`` qui prend en paramètre un fichier CSV contenant les données d'élèves et qui renvoie une liste contenant ces données. Plus précisément, la fonction ``lire_csv`` renvoie une liste de dictionnaires, chaque dictionnaire modélisant un élève.   

   *Aide 1 : la fonction ``strip`` pourra être utile...*   
   *Aide 2 : attention, certaines valeurs de chaque dictionnaire sont des entiers !*

In [8]:
'Serpentard\n'.strip()

'Serpentard'

In [9]:
# À vous de jouer
def lire_csv(fichier):
    eleves = []
    # on lit le fichier
    with open(fichier, "r") as f:
        for ligne in f:
            liste = ligne.strip().split(";")
            if liste[0] != "Nom":
                eleves.append({"nom": liste[0], "courage": int(liste[1]),
                               "loyauté": int(liste[2]), "sagesse": int(liste[3]),
                               "malice": int(liste[4]), "maison": liste[5]})
    return eleves

In [10]:
# Test
lire_csv("choixpeau.csv")

[{'nom': 'Adrian',
  'courage': 9,
  'loyauté': 4,
  'sagesse': 7,
  'malice': 10,
  'maison': 'Serpentard'},
 {'nom': 'Andrew',
  'courage': 9,
  'loyauté': 3,
  'sagesse': 4,
  'malice': 7,
  'maison': 'Gryffondor'},
 {'nom': 'Angelina',
  'courage': 10,
  'loyauté': 6,
  'sagesse': 5,
  'malice': 9,
  'maison': 'Gryffondor'},
 {'nom': 'Anthony',
  'courage': 2,
  'loyauté': 8,
  'sagesse': 8,
  'malice': 3,
  'maison': 'Serdaigle'},
 {'nom': 'Arthur',
  'courage': 10,
  'loyauté': 4,
  'sagesse': 2,
  'malice': 5,
  'maison': 'Gryffondor'},
 {'nom': 'Bellatrix',
  'courage': 10,
  'loyauté': 4,
  'sagesse': 9,
  'malice': 9,
  'maison': 'Serpentard'},
 {'nom': 'Bole',
  'courage': 7,
  'loyauté': 4,
  'sagesse': 6,
  'malice': 10,
  'maison': 'Serpentard'},
 {'nom': 'Colin',
  'courage': 10,
  'loyauté': 7,
  'sagesse': 4,
  'malice': 7,
  'maison': 'Gryffondor'},
 {'nom': 'Cormac',
  'courage': 9,
  'loyauté': 6,
  'sagesse': 5,
  'malice': 4,
  'maison': 'Gryffondor'},
 {'nom': 'D

## 4. Trouver la maison majoritaire

4. Écrire une fonction ``occurrence_maisons`` qui prend en paramètre une liste d'élèves et qui renvoie un dictionnaire dont :
   - les clés sont les maisons (chaînes de caractères) ;
   - les valeurs sont le nombre de fois où chaque maison apparaît.

In [11]:
# À vous de jouer
def occurrence_maisons(liste):
    maisons = {"Serpentard": 0,
               "Gryffondor": 0,
               "Serdaigle": 0,
               "Poufsouffle": 0}
    # on parcourt la liste d'élèves (de dictionnaires)
    for eleve in liste:
        maison = eleve["maison"]
        maisons[maison] = maisons[maison] + 1    
    return maisons

In [12]:
# Test
liste = lire_csv("choixpeau.csv")
assert occurrence_maisons(liste) == {"Serpentard": 12, "Gryffondor": 17, "Serdaigle": 11, "Poufsouffle": 10}

5. Écrire une fonction ``maison_majoritaire`` qui prend en paramètre une liste d'élèves et qui renvoie le nom de la maison la plus représentée.

In [19]:
# À vous de jouer
def maison_majoritaire(liste):
    maisons = occurrence_maisons(liste)
    # on parcourt le dictionnaire maisons
    # pour trouver la maison majoritaire
    maison_maj = ""
    occurrence_max = 0
    for maison in maisons: # ou maisons.keys()
        if maisons[maison] > occurrence_max:
            maison_maj = maison
            occurrence_max = maisons[maison]
    return maison_maj

In [20]:
# Test
assert maison_majoritaire(liste) == "Gryffondor"

## 5. Les sept plus proches voisins

6. Écrire une fonction ``sept_plus_proches_voisins`` qui prend en paramètres :
   - une liste d'élèves ``table`` ;
   - un nouvel élève ``nouveau`` qui n'a pas encore de maison,    
et qui renvoie la liste des 7 plus proches voisins du nouvel élève.

In [22]:
# À vous de jouer
def sept_plus_proches_voisins(table, nouveau):
    # on parcourt table
    table_avec_distance = []
    for eleve in table:
        eleve["distance"] = distance(nouveau, eleve)
        table_avec_distance.append(eleve)
    # on trie la liste table_avec_distance de la plus petite
    # distance à la plus grande distance
    #/!\ : le critère de tri est donc la distance
    table_avec_distance.sort(key=lambda eleve: eleve["distance"])
    resultat = []
    for i in range(7):
        resultat.append(table_avec_distance[i])
    return resultat

In [30]:
sept_plus_proches_voisins(liste, adrian)

[{'nom': 'Adrian',
  'courage': 9,
  'loyauté': 4,
  'sagesse': 7,
  'malice': 10,
  'maison': 'Serpentard',
  'distance': 0},
 {'nom': 'Bole',
  'courage': 7,
  'loyauté': 4,
  'sagesse': 6,
  'malice': 10,
  'maison': 'Serpentard',
  'distance': 3},
 {'nom': 'Bellatrix',
  'courage': 10,
  'loyauté': 4,
  'sagesse': 9,
  'malice': 9,
  'maison': 'Serpentard',
  'distance': 4},
 {'nom': 'Marcus',
  'courage': 6,
  'loyauté': 5,
  'sagesse': 8,
  'malice': 10,
  'maison': 'Serpentard',
  'distance': 5},
 {'nom': 'Angelina',
  'courage': 10,
  'loyauté': 6,
  'sagesse': 5,
  'malice': 9,
  'maison': 'Gryffondor',
  'distance': 6},
 {'nom': 'Harper',
  'courage': 6,
  'loyauté': 3,
  'sagesse': 5,
  'malice': 10,
  'maison': 'Serpentard',
  'distance': 6},
 {'nom': 'Andrew',
  'courage': 9,
  'loyauté': 3,
  'sagesse': 4,
  'malice': 7,
  'maison': 'Gryffondor',
  'distance': 7}]

## 6. Attribuer une maison

7. Écrire une fonction ``attribuer_maison`` qui prend en paramètres :
   - une liste d'élèves ``table`` ;
   - un nouvel élève ``nouveau`` qui n'a pas encore de maison,     
   et qui renvoie la maison du nouvel élève (la maison majoritaire parmi les 7 plus proches voisins du nouvel élève)

In [31]:
# À vous de jouer
def attribuer_maison(table, nouveau):
    # on cherche d'abord les 7 plus proches voisins de nouveau
    voisins = sept_plus_proches_voisins(table, nouveau)
    # on renvoie la maison majoritaire de ces 7 plus proches voisins
    return maison_majoritaire(voisins)    

In [32]:
nouvel_eleve = {"nom": "Yann", "courage": 9, "loyauté": 4,
                "sagesse": 7, "malice": 10}
liste = lire_csv("choixpeau.csv")
attribuer_maison(liste, nouvel_eleve)

'Serpentard'