# Le Choixpeau magique
## Les 4 maisons de Poudlard


Dans la saga « Harry Potter » de J. K. Rowling, l’école Poudlard a été fondée, au moyen âge, par 4 sorciers :

- Godric Gryffondor (en anglais Gryffindor),
- Helga Poufsouffle (Hufflepuff),
- Rowena Serdaigle (Ravenclaw),
- Salazar Serpentard (Slytherin).
    
Lors de leur première rentrée scolaire, __les jeunes élèves sorciers sont répartis en quatre équipes ou « Maisons »__, portant chacune le nom d’un de ces fondateurs.

![Maisons](maisons.png)

## Le rôle du Choixpeau magique


__Cette répartition est assurée par un personnage en forme de chapeau, appelé « Choixpeau magique »__ (« Sorting hat » en anglais).

Pour notre étude, nous allons considérer que __le Choixpeau magique analyse les qualités de « courage », d'« ambition », d'« intelligence », et de « tendance au bien » de l’élève__.

Puis __le Choixpeau magique assigne l’élève à la « Maison » qui semble correspondre le mieux à son "profil"__.

![Choixpeau](choixpeau.png)

Pendant l'année, vous aurez régulièrement des activités de cours, des exercices qui porteront sur ce thème. __L'objectif final de ce projet consiste à créer votre propre "Choipeaux magique"__.

Ce projet étant assez ambitieux, il est nécessaire de le __découper en plusieurs parties__.

Nous commencerons par __importer les différents personnages de ce roman, ainsi que leurs caractéristiques__. Pour cela, nous devons déterminer __quelle structure informatique est la meilleure__ pour une utilisation ultérieure facilitée.

## Un profil par maison

Là encore, pour procéder par étapes progressives, nous essayerons d'importer le contenu d'un fichier plus léger : "Houses.csv".

Voici le contenu du fichier "Houses.csv" :

```
House;Courage;Ambition;Intelligence;Good
Gryffindor;9;6;5;9
Ravenclaw;7;5;9;8
Slytherin;5;9;7;2
Hufflepuff;8;4;7;9
```
> __Remarques :__ pour une meilleure cohérence avec les données brutes des personnages et dans l'objectif hypothétique d'un meilleur partage sur [les plateformes de forge, de type GitLab](https://framagit.org/), la langue anglaise sera privilégiée.

__Ce fichier "Houses.csv" contient donc un "profil" pour chaque Maison__. Ce profil a été fait de façon subjective et, même s'il sera bien évidemment possible de le changer à l'avenir, il est préférable que nous gardions tous les mêmes données initiales pour mieux travailler ensemble.

## Le format CSV

__Le format de fichier CSV, pour l’anglais Comma-separated values__, soit « données séparées par des virgules », est un __format texte ouvert__, représentant des données sous forme de __valeurs séparées par des séparateurs__, éventuellement sur plusieurs lignes.
Initialement le séparateur était « , », il peut aussi être « ; » ou « | ».

Le format CSV est un __format très utilisé pour représenter des données structurées, notamment pour importer ou exporter des données à partir d'une feuille de calculs d'un tableur__. C'est un fichier texte dans lequel __chaque ligne correspond à une ligne du tableau__.

## Du CSV vers un tableau

> __Remarques :__ Même si les notebooks le permettent, il sera préférable d'__utiliser un IDE plus complet__ pour élaborer un projet tel que celui que nous commençons. L'utilisation de Visual Studio Code peut être un choix judicieux mais il n'est pas obligatoire, simplement recommandé.

Coder un script permettant de lire le fichier "Houses.csv" et de créer un tableau sous la forme :

```python
houses_list = ['House;Courage;Ambition;Intelligence;Good',
               'Gryffindor;9;6;5;9',
               'Ravenclaw;7;5;9;8',
               'Slytherin;5;9;7;2',
               'Hufflepuff;8;4;7;9']
```

In [None]:
with open("Houses.csv", mode='r', encoding='utf-8') as f:
    house_list = f.readlines()
    
# Necessite un "nettoyage" pour retirer les \n en fin de chaîne
# la méthode strip() supprime les \n en début et fin de chaîne de caractères

for i, chaine in enumerate(house_list):
    house_list[i] = chaine.strip()       
print(house_list)

> __Commentaires :__ 
- la méthode `.readlines()` ne doit pas avec confondue avec la méthode `.readline()`.
- la méthode `.readlines()` renvoit une liste contenant l'ensemble du fichier. Chaque valeur de cette liste est une ligne du fichier, de type chaîne de caractères.
- on rappelle que la méthode `enumerate()` permet d'itérer sur le couple `(indice, valeur)` d'une liste Python. Cela peut être utile pour modifier chacune des valeurs de la liste.

A partir de votre tableau, extraire puis afficher :

- la valeur de courage des Gryffindor
- la valeur d'intelligence des Slytherin
- la valeur d'ambition des Hufflepuff

In [None]:
print(f"La valeur de courage des Gryffindor est {house_list[1][11]}")
print(f"La valeur d'intelligence des Slytherin est {house_list[3][14]}")
print(f"La valeur d'ambition des Hufflepuff est {house_list[4][13]}")

Résumer comment il faut indicer le tableau pour retrouver de l'information sous ce format :

- le premier indice de `house_list` est celui de la maison.
- le second indice permet d'aller chercher une valeur de caractère.

> __Commentaires :__  c'est vraiment très incommode de s'y retrouver ainsi ! En particulier car le second indice dépend de la longueur du nom de la maison. Bref, c'est quasiment ingérable.

## Du CSV vers un tableau à deux dimensions

Coder un script permettant de lire le fichier "Houses.csv" et de créer un tableau sous la forme :

```python
houses_2Dlist = 
[['House', 'Courage', 'Ambition', 'Intelligence', 'Good'],
 ['Gryffindor', '9', '6', '5', '9'], 
 ['Ravenclaw', '7', '5', '9', '8'],
 ['Slytherin', '5', '9', '7', '2'], 
 ['Hufflepuff', '8', '4', '7', '9']
]
```

In [None]:
house_2Dlist = []
with open("Houses.csv", mode='r', encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        house_2Dlist.append(line.split(";"))
    
# Necessite un "nettoyage" pour retirer les \n

for i, tab in enumerate(house_2Dlist):
    house_2Dlist[i][-1] = tab[-1].strip()  # seule la dernière valeur (fin de ligne) contient un \n
print(house_2Dlist)

> __Commentaires :__
- on traite chaque ligne (`line`) de la liste complète (`lines`) avec la méthode `split(";")`.
- chaque ligne ainsi transformée en liste est ajoutée dans la liste `house_2Dlist`.
- l'indice `-1` permet d'aller chercher la dernière valeur des listes contenant une ligne. Seule cette dernière valeur est suceptible de contenir un retour à la ligne `\n`.

A partir de votre tableau, extraire puis afficher :

- la valeur de courage des Hufflepuff
- la valeur d'intelligence des Griffindor
- la valeur d'ambition des Ravenclaw

In [None]:
print(f"La valeur de courage des Hufflepuff est {house_2Dlist[4][1]}")
print(f"La valeur d'intelligence des Griffindor est {house_2Dlist[1][3]}")
print(f"La valeur d'ambition des Ravenclaw est {house_2Dlist[2][2]}")

Résumer comment il faut indicer le tableau pour retrouver de l'information sous ce format :

- le premier indice de `house_2Dlist` est à nouveau celui de la maison.
- le second indice permet d'aller chercher une valeur de caractère de façon plus simple.

> __Commentaires :__ cette fois-ci, la valeur de l'indice correspondant au caractère est beaucoup plus simple à gérer (1 : courage, 2 : ambition, ...)

## Du CSV vers une table

On appelle __table__ une structure de donnée, un conteneur, composée d'un tableau d'enregistrements. Ici, nous souhaitons créer une table structurée comme un __tableau de dictionnaires__.

```python
houses_tab = 
[{'House': 'Gryffindor', 'Courage': '9', 'Ambition': '6', 'Intelligence': '5', 'Good': '9'},
 {'House': 'Ravenclaw', 'Courage': '7', 'Ambition': '5', 'Intelligence': '9', 'Good': '8'},
 {'House': 'Slytherin', 'Courage': '5', 'Ambition': '9', 'Intelligence': '7', 'Good': '2'},
 {'House': 'Hufflepuff', 'Courage': '8', 'Ambition': '4', 'Intelligence': '7', 'Good': '9'}]

```

In [None]:
house_tab = []
with open("Houses.csv", mode='r', encoding='utf-8') as f:
    lines = f.readlines()
    key_line = lines[0].strip()
    keys = key_line.split(";")
    for line in lines[1:]:
        line = line.strip()
        values = line.split(';')
        dico = {}
        for i in range(len(keys)):
            dico[keys[i]] = values[i]
        house_tab.append(dico)
    
print(house_tab)

A partir de votre tableau, extraire puis afficher :

- la valeur de courage des Slytherin
- la valeur d'ambition des Griffindor
- la valeur de "tendance au bien" des Ravenclaw

In [None]:
print(f"La valeur de courage des Slytherin est {house_tab[2]['Courage']}")
print(f"La valeur d'intelligence des Griffindor est {house_tab[0]['Intelligence']}")
print(f"La valeur d'ambition des Ravenclaw est {house_tab[1]['Ambition']}")

Résumer comment il faut indicer le tableau pour retrouver de l'information sous ce format :

- le premier indice de `house_tab` est à nouveau celui de la maison. Cette fois en partant de 0.
- on utilise maintenant une clé pour aller chercher une valeur de caractère.

> __Commentaires :__ la fait d'utiliser une clé permet une bien meilleure lisibilité du code. Si on veut trouver la valeur de courage, il suffit d'utiliser la clé 'Courage'.

## Import des élèves à partir d'un fichier CSV

#### Choisir la meilleure structure de données pour importer tous les personnages contenus dans le fichier "Characters.csv"

> __Remarques :__ 
- le fichier "Characters.csv", contenant les personnages du roman _Harry Potter_ est tiré du [site Kaggle](https://www.kaggle.com/gulsahdemiryurek/harry-potter-dataset), qui répertorie de nombreuses données.
- ce fichier était probablement codé en latin1 (ou autre format proche).  Sa lecture en utf-8 pose des problèmes d'affichage et le fichier qui vous est fourni a été préalablement converti en utf-8 pour faciliter votre travail.

In [None]:
characters_tab = []
with open("Characters.csv", mode='r', encoding='utf-8') as f:
    lines = f.readlines()
    key_line = lines[0].strip()
    keys = key_line.split(";")
    for line in lines[1:]:
        line = line.strip()
        values = line.split(';')
        dico = {}
        for i in range(len(keys)):
            dico[keys[i]] = values[i]
        characters_tab.append(dico)
    
print(characters_tab)

A partir de votre tableau, extraire puis afficher :

- la Maison de Rose Granger-Weasley
- le Patronus de Seamus Finnigan
- la couleur des cheveux d'Hermione Jean Granger

In [None]:
for character in characters_tab:
    if character['Name'] == 'Rose Granger-Weasley':
        print(f"La maison de Rose Granger-Weasley est {character['House']}")    
    if character['Name'] == 'Seamus Finnigan':
        print(f"Le patronus de Seamus Finnigan est {character['Patronus']}")
    if character['Name'] == 'Hermione Jean Granger':
        print(f"""La couleur des cheveux d'Hermione Jean Granger est {character['Hair colour']}""")

> __Commentaires :__
- il est maintenant assez facile de s'y retrouver en n'utilisant que des clés et non plus des indices.
- on est obligé de parcourir tout le tableau pour trouver le dictionnaire du personnage voulu, ce qui n'est pas très pratique ni efficace. Pour remédier à cela, lorsque l'on sait que nos recherches se feront par le nom du personnage, on peut faire un indexage par personnage. Voir ci-dessous...

In [None]:
# Création 'un index par personnage, c'est à dire un dictionnaire de dictionnaires.

characters_index = {character['Name'] : character for character in characters_tab}

# Affichage de l'index pour vérification

print(characters_index)

# Utilisation de cet index pour répondre aux questions précédentes
print(f"\nLa maison de Rose Granger-Weasley est {characters_index['Rose Granger-Weasley']['House']}")    
print(f"Le patronus de Seamus Finnigan est {characters_index['Seamus Finnigan']['Patronus']}")
print(f"""La couleur des cheveux d'Hermione Jean Granger est {characters_index['Hermione Jean Granger']['Hair colour']}""")

__Conclusion :__ 
- on a vu qu'il existait de nombreuses façon de stocker des données.
- la méthode choisie a des répercussions sur la facilité de leur traitement.
- la méthode choisie a des répercussions sur la performance de leur traitement.
- il faut donc choisir la structure de données avec soin !

---
[![Licence CC BY NC SA](https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png "licence Creative Commons CC BY-NC-SA")](http://creativecommons.org/licenses/by-nc-sa/3.0/fr/)
<p style="text-align: center;">Auteurs :</p>
<p style="text-align: center;">David Landry, Lycée Clemenceau - Nantes</p>
<p style="text-align: center;">Hervé Favry, Lycée Léonard de Vinci - Montaigu</p>