# Un jeu de données

## Description

Nous disposons d’un jeu de données, consigné dans un fichier intutulé `notes.csv`. L’extension `.csv` indique que nous sommes en présence d’un fichier au format CSV (*comma-separated values*) ou chaque ligne est un enregistrement et où, pour chaque enregistrement, il existe plusieurs valeurs séparées les unes des autres par un délimiteur.

Le fichier peut se représenter par un tableau à deux dimensions :

|date|note|discipline|
|:-:|:-:|:-|
|2021-03-11|10|Mathématiques|
|2020-11-15|13|Histoire et géographie|
|2020-09-12|8|Sciences de la vie et de la terre|
|2021-01-15|12|Mathématiques

Si la structure se comprend facilement (une note dans une discipline à une date donnée), remarquons d’emblée que les enregistrements ne sont pas triés : la première note de 10 en mathématiques, obtenue le 11 mars 2021 apparaît dans le fichier **avant** la seconde, obtenue presque deux mois plus tôt.

Signalons enfin que les notes vont de 0 à 20 et qu’elles ont été consignées entre le 3 septembre 2020 et le 7 juin 2021.

## Charger un fichier

La première étape de notre programme consiste à charger le fichier CSV dans la mémoire de l’ordinateur sous une forme compréhensible pour le langage que nous utilisons, Python.

Pour réaliser cette opération, nous allons tout d’abord charger une librairie spécifique qui permet de manipuler facilement un objet CSV. Sachant que la librairie s’appelle `csv`, que l’on importe un module par son nom avec le mot-clé `import`, essayons d’effectuer l’opération :

In [None]:
# Syntaxe : mot-clé nom-du-module


Si l’importation du module a réussi, l’instruction ci-dessous ne devrait pas lever d’exception :

In [None]:
help(csv)

Le module `csv` offre des facilités pour manipuler des fichiers au format CSV. L’appel au module permet de charger en mémoire tous les outils sous forme de fonctions que l’on peut appeler par leurs noms.

Dans un second temps, nous devons définir une ressource à travers laquelle le fichier CSV sera interrogé :

In [None]:
# Chargement de la ressource dans une variable 'fichier'
with open('notes.csv') as fichier:

    # La suite des instructions sera saisie à l'intérieur de ce bloc,
    # comme l'instruction print() ci-dessous :
    print('Le fichier a bien été trouvé dans le système. Il est disponible sous forme d’objet :\n', fichier)

Il reste maintenant à récupérer le contenu du fichier :

In [None]:
# Chargement de la ressource dans une variable 'fichier'
with open('notes.csv') as fichier:

    # Création d'un lecteur de fichier
    lecteur = csv.reader(fichier)

In [None]:
# Chargement de la ressource dans une variable 'fichier'
with open('notes.csv') as fichier:

    # Création d'un lecteur de fichier
    lecteur = csv.reader(fichier)

Le lecteur en lui-même ne reflète pas directement le contenu du fichier. Il s’agit d’un objet qui met à disposition des outils pour disposer du contenu. L’un de ces outils est ce que l’on appelle un itérateur : il permet de parcourir la structure du contenu pas à pas. En l’occurrence, le fichier est composé de plusieurs lignes, aussi l’unité de l’itérateur sera la ligne :

In [None]:
# Chargement de la ressource dans une variable 'fichier'
with open('notes.csv') as fichier:

    # Création d'un lecteur de fichier
    lecteur = csv.reader(fichier)
    
    # Appel de l'itérateur…
    for ligne in lecteur:
        # … pour afficher ligne par ligne
        print(ligne)

On observe que les lignes n’ont pas été importées correctement. En effet, si on en choisit une au hasard, on remarque l’écriture suivante :

```py
['2021-01-10\t6\tFrançais']
```

Un motif bien étrange (`\t`) s’intercale entre les éléments de l’enregistrement. Ce motif représente pour le langage Python une tabulation et son apparition au sein d’un enregistrement indique simplement qu’il n’a pas été interprété comme un séparateur de champ, sa fonction réelle, mais comme n’importe quel autre caractère.

Pour comprendre cette fonctionnalité, il faut avant tout savoir que le format CSV vaut pour *comma-separated values*, où *comma* en anglais signifie *virgule* en français. Le format CSV est donc un format structuré où la virgule matérialise la séparation entre les différents champs (colonnes) d’un enregistrement.

Or, dans le fichier *notes.csv*, les champs ne sont pas séparés par une virgule, mais par une tabulation. Il s’agit d’un paramètre à configurer dans notre lecteur :

In [None]:
# Chargement de la ressource dans une variable 'fichier'
with open('notes.csv') as fichier:

    # Création d'un lecteur de fichier
    lecteur = csv.reader(fichier, delimiter='\t')

    # Appel de l'itérateur…
    for ligne in lecteur:
        # … pour afficher ligne par ligne
        print(ligne)

## Charger un fichier (avancé)

Dans l’exemple précédent, nous avons chargé un lecteur simple où chaque ligne du fichier est une liste d’éléments qui décrivent un enregistrement (la date, la note, la discipline). Avec un peu plus d’attention, nous remarquons que la première ligne est spéciale : il ne s’agit pas d’un enregistrement, mais du nom des colonnes du fichier, autrement dit son en-tête.

```py
# 1e ligne du fichier pour Python :
['date', 'note', 'discipline']
```

Pour obtenir ce résultat, nous avons appelé une méthode `reader` du module `csv`.

```py
# Création d'un lecteur de fichier
lecteur = csv.reader(fichier, delimiter='\t')
```

Il existe une autre méthode, nommée `DictReader()` qui permet, tout comme `reader()`, de récupérer le contenu du fichier, mais sous forme de dictionnaire où l’en-tête du fichier fournit le nom des clés.

À toi de reprendre les étapes précédentes et d’afficher toutes les lignes du fichier grâce à la méthode `DictReader()` :

In [None]:
# Chargement de la ressource dans une variable 'fichier'


    # Création d'un lecteur de fichier
    
    
    # Appel de l'itérateur…
    
        # … pour afficher ligne par ligne
        

## Enregistrer les données dans une structure

À l’étape précédente, tu as simplement affiché le contenu du fichier ligne par ligne mais, une fois l’instruction terminée, tout a disparu : aucune donnée n’a été sauvegardée en mémoire !

Pour remédier à ce problème, on a plutôt pour habitude d’enregistrer les données dans une variable (une espèce de carton dans lequel on dispose plein de choses), disponible à une certaine adresse dans la mémoire vive de l’ordinateur.

Avant d’en arriver là, nous allons apprendre à créer une structure de données de type `list()` à l’intérieur de laquelle nous allons ranger des éléments. Pour les besoins de l’exercice, nous allons partir d’un mot afin de constituer une liste de lettres.

In [None]:
# Un mot
mot = 'Bazinga'

# Un mot est une chaîne de caractères
print(type(mot))

Les chaînes de caractères, comme tout à l’heure pour le lecteur que nous avions créé, disposent d’un itérateur qui permet de lister leurs éléments. En l’occurrence, l’unité est le caractère :

In [None]:
# Appel de l'itérateur sur le mot
for lettre in mot:
    # Affichage de chaque unité (le caractère)
    print(lettre)

Grâce à une compréhension de liste, nous allons maintenant créer un objet dans lequel sera stocké la liste des lettres :

In [None]:
# Création d'une liste des lettres du mot
lettres = [ lettre for lettre in mot ]

# Affichage de la liste des lettres
print(lettres)

Essaie d’afficher le type de l’objet que nous venons de créer :

In [None]:
# L'objet "lettres" est de type…


Modifie à présent ton code pour obtenir au final une variable `data` qui sera une liste des lignes du fichier :

In [None]:
# Chargement de la ressource dans une variable 'fichier'


    # Création d'un lecteur de fichier
    
    
    # Sauvegarde des lignes du fichier
    

Vérifions le résultat :

In [None]:
# Affichage des dix premiers éléments de la liste "data"
data[:10]