# Atelier 6

## Introduction

Au cours de cet atelier, nous explorerons le moyen de lire un fichier contenant des données, pour les manipuler et les visualiser.

D'une manière plus détaillée, cet atelier permettra d'aborder les notions suivantes :

- Lecture & écriture de fichiers
- Utilisation de boucles et fonctions pour manipuler et préparer des données
- Bases de la visualisation de données

## Ressources

Les fichiers qui se trouvent au coeur de cet atelier sont des fichiers CSV (Comma Separated Values) qu'on peut trouver dans le dépôt GitHub des Ateliers HyPhD : https://github.com/HackYourPhd/ateliers-open-geek/tree/master/Atelier%236

Ces fichiers compilent le résultat d'études détaillées ci-dessous :

- ms212.csv : Pulse Rates before and after Exercise - http://www.statsci.org/data/oz/ms212.html
- cholestg.csv : Cholesterol Levels after Heart Attack : http://www.statsci.org/data/general/cholest.html
- discover.csv : Discours et conceptions sur l'ouverture de la science : ...

Ces fichier de données CSV sont des fichiers comportant du texte, formaté (organisé) de telle manière à représenter un "tableau". Sur la première ligne, on y retrouve donc les entêtes des colonnes, entre `"` et séparées par des `,`. Chaque ligne suivante correspond à une entrée de données (un individu, une réponse, une prise de mesure ...), chaque valeur (correspondant aux entêtes) se trouvant entre `"` et séparées par des `,`.

## Mise en pratique

### Lecture du fichier

Basiquement, pour lire un fichier, on ouvre ce fichier avec la commande `open`, puis on le parcours de haut en bas, ligne par ligne ou caractère par caractère.

Par exemple, lançons Python et ouvrons le fichier `ms212.csv` et affichons les 3 premières lignes :

In [21]:
# TODO REMOVE THIS CELL
import csv

with open("Atelier_6/cholestg.txt", "r") as input_f:
    with open('Atelier_6/cholestg.csv', 'w') as output_f:
        reader = csv.reader(input_f, delimiter='\t')
        writer = csv.writer(output_f, delimiter=',', quotechar='"', quoting=csv.QUOTE_ALL)
        for row in reader:
            writer.writerow(row)

In [23]:
# Le bloc "with open" ouvre le fichier, puis le ferme automatiquement quand on sort de ce bloc
# Le paramètre "r" passé à open indique qu'on souhaite "lire" ("r" pour "read") ce fichier, et non le modifier
with open("Atelier_6/ms212.csv", "r") as datafile:
    # On créé un compteur pour compter le nombre de ligne qu'on a parcouru
    lines_read = 0
    # On parcours le fichier ligne par ligne
    for line in datafile:
        # On affiche la ligne avec print
        print(line)
        # On augmente le compteur de 1
        lines_read += 1
        # Et si ce compteur dépasse 3, on arrête la lecture
        if lines_read >= 3:
            break

"Height","Weight","Age","Gender","Smokes","Alcohol","Exercise","Ran","Pulse1","Pulse2","Year"

"173","57","18","2","2","1","2","2","86","88","93"

"179","58","19","2","2","1","2","1","82","150","93"



On observe bien la première ligne, contenant les entêtes, puis les lignes suivantes, contenant les données.
Si l'on veut manipuler ces données, il va falloir maintenant décomposer ces lignes, pour les stocker dans des variables, que nous pourrons par la suite manipuler ou plotter.

On appelle l'étape de "décomposition" d'un fichier en variables manipulables le `parsing`.

### Parsing d'un fichier

In [24]:
# On prépare des variables dans lesquelles on va stocker les valeurs du fichier :
heights = []
weights = []

# Lecture du fichier
with open("Atelier_6/ms212.csv", "r") as datafile:
    # On parcours le fichier ligne par ligne, en utilisant enumerate pour compter la ligne, en même temps
    for line_number, line in enumerate(datafile):
        if line_number == 0:
            # Si la ligne est la première, on l'ignore et on passe au tour de boucle suivante
            # On ne va traiter que les données
            continue
        # On découpe la ligne en ses différents éléments
        values = line.split(",")
        # On ajoute la première valeur aux tailles
        heights.append(values[0])
        # On ajoute la deuxième valeur aux poids
        weights.append(values[1])
        # etc ...

# On vérifie qu'on a bien fait le boulot en affichant les 3 premières tailles :
print(heights[0:3])

['"173"', '"179"', '"167"']


Bien ... mais pas top : ça reste des chaînes de caractère et non des nombres, qui en plus contiennent des `"` qui ne nous servent à rien.

In [29]:
# On prépare des variables dans lesquelles on va stocker les valeurs du fichier :
heights = []
weights = []

# Lecture du fichier
with open("Atelier_6/ms212.csv", "r") as datafile:
    # On parcours le fichier ligne par ligne, en utilisant enumerate pour compter la ligne, en même temps
    for line_number, line in enumerate(datafile):
        if line_number == 0:
            # Si la ligne est la première, on l'ignore et on passe au tour de boucle suivante
            # On ne va traiter que les données
            continue
        # On découpe la ligne en ses différents éléments
        values = line.split(",")
        # On récupère la première valeur : une taille, et on la convertit en nombre
        height = values[0]
        # On enlève les guillemets inutiles aux extrémités
        height = height.strip('"')
        # On convertit cette taille en nombre
        height = float(height)
        # Et on l'ajoute aux tailles
        heights.append(height)
        
        # On recommence pour le poids
        weight = values[1]
        weight = weight.strip('"')
        weight = float(weight)
        weights.append(weight)
        # etc ...

# On vérifie qu'on a bien fait le boulot en affichant les 3 premières tailles :
print(heights[0:3])

[173.0, 179.0, 167.0]


C'est mieux ! Mais ... c'est pénible, non ?
Heureusement, pour de nombreuses tâches, simples ou moins simples, des "bibliothèques" existent, comprenant des fonctions qui font ce genre de choses à votre place.

Pour le cas des fichiers CSV, il y a donc le module standard de Python : `csv`

In [38]:
# On importe ce module pour pouvoir l'utiliser
import csv

# Lecture du fichier
with open("Atelier_6/ms212.csv", "r") as datafile:
    # On construit un lecteur de CSV, paramétré pour notre fichier
    csv_reader = csv.reader(datafile, delimiter=',', quotechar='"')
    for line in csv_reader:
        # Puis on le parcours ligne à ligne, comme un fichier
        print(line)
        if csv_reader.line_num >= 3:
            # Le reader contient une variable pour suivre la ligne à laquelle on se trouve ! Pratique ;)
            break

['Height', 'Weight', 'Age', 'Gender', 'Smokes', 'Alcohol', 'Exercise', 'Ran', 'Pulse1', 'Pulse2', 'Year']
['173', '57', '18', '2', '2', '1', '2', '2', '86', '88', '93']
['179', '58', '19', '2', '2', '1', '2', '1', '82', '150', '93']


On constate que, contrairement à plus haut, les lignes sont ici directement des tableaux Python contenant les valeurs.
C'est toujours une étape de gagnée !

Mais on peut faire mieux !

In [39]:
import csv

# Lecture du fichier
with open("Atelier_6/ms212.csv", "r") as datafile:
    # On construit un lecteur de CSV, paramétré pour notre fichier
    csv_reader = csv.DictReader(datafile, delimiter=',', quotechar='"')
    for line in csv_reader:
        # Puis on le parcours ligne à ligne, comme un fichier
        print(line)
        if csv_reader.line_num >= 3:
            # Le reader contient une variable pour suivre la ligne à laquelle on se trouve ! Pratique ;)
            break

{'Pulse1': '86', 'Pulse2': '88', 'Alcohol': '1', 'Ran': '2', 'Height': '173', 'Exercise': '2', 'Gender': '2', 'Smokes': '2', 'Year': '93', 'Weight': '57', 'Age': '18'}
{'Pulse1': '82', 'Pulse2': '150', 'Alcohol': '1', 'Ran': '1', 'Height': '179', 'Exercise': '2', 'Gender': '2', 'Smokes': '2', 'Year': '93', 'Weight': '58', 'Age': '19'}


Cette fois, on obtient non plus des tableaux, mais des dictionnaires, contenant les données toute bien `parsée` et facilitant la manipulation !
Ce qui nous facilite la vie, par exemple, si l'on souhaite afficher les âges :

In [41]:
import csv

# Lecture du fichier
with open("Atelier_6/ms212.csv", "r") as datafile:
    # On construit un lecteur de CSV, paramétré pour notre fichier
    csv_reader = csv.DictReader(datafile, delimiter=',', quotechar='"')
    for line in csv_reader:
        # Puis on le parcours ligne à ligne, comme un fichier
        print(line['Age'])

18
19
18
18
18
22
20
18
19
23
20
19
22
18
18
22
19
18
21
19
19
34
20
26
19
18
18
21
19
21
20
19
19
23
19
20
18
19
18
18
20
23
21
19
19
18
26
20
19
22
20
20
20
18
20
20
20
18
19
20
18
20
18
20
21
19
20
21
19
22
23
19
20
19
20
20
20
20
18
19
18
41
21
25
28
21
18
45
19
18
19
19
21
21
23
28
20
20
20
19
24
19
20
20
23
19
19
22
18
19


Il ne nous reste donc plus qu'à stocker ces dictionnaires au fur et à mesure de la lecture pour les manipuler plus tard.

In [42]:
import csv

data = []

# Lecture du fichier
with open("Atelier_6/ms212.csv", "r") as datafile:
    # On construit un lecteur de CSV, paramétré pour notre fichier
    csv_reader = csv.DictReader(datafile, delimiter=',', quotechar='"')
    for line in csv_reader:
        # Puis on le parcours ligne à ligne, comme un fichier
        data.append(line)

On a donc bien maintenant les données dans une variable `data`. Par exemple, l'age de la première ligne :

In [44]:
print(data[0]['Age'])

18
