# Données au format CSV

[Vidéo d'accompagnement](https://vimeo.com/534374962)

**Utilisez la table des matières**

## Le format CSV - *Comma Separated Values*

*Comma*: virgule; *CSV*: valeurs séparées par des virgule.

Il s'agit d'un format de fichier simple et très répandu pour stocker et transmettre des données structurées «en table». On peut l'utiliser en lien avec un tableur.

Son objectif est de «transcrire» des données qu'on présente souvent dans un tableau comme celui-ci (mais souvent bien plus grand):

| nom   | prenom           | date_naissance  |
| ------------- |:-------------:| -----:|
| Durand      | Jean-Pierre | 23/05/1985 |
| Dupont      | Christophe      |   15/12/1967 |
| Tertra | Henry   |    12/06/1978 |

CSV est un format **textuel** (par opposition à *binaire*) qui sert donc à conserver des **une collection (ou jeu) de données** dans un fichier dont l'extension est *.csv*. 

Un tel fichier contient une chaîne de caractères *formatées* comme suit:

```
nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978
```

1. La *première ligne* (optionnelle) contient les **descripteurs** (ou *attributs*) des données: ils servent à préciser le sens des *valeurs* trouvées aux lignes suivantes.

   Ici, ces descripteurs sont `nom`, `prenom`, `date_naissance`.

2. Les *lignes suivantes* correspondent chacune à un individu différent dans cet exemple; ce sont elles qui contiennent effectivement les données. Chaque ligne correspond à un **enregistrement** \[ *record* \]; on parle aussi parfois d'*objet* ou d'*entité*.

   > Chaque « *enregistrement* » (ici individu) correspond à une ligne: les **valeurs** qu'on y trouve sont associées aux *descripteurs* de **même position**.

Cet exemple comporte trois enregistrements qui correspondent chacun à un individu: Jean-Pierre Durand né le 23 mai 1985; Christophe ...

Ce format admet de *nombreuses variantes* (ou *dialect*); par exemple:
- le **séparateur** de valeurs peut être autre chose qu'une virgule `,`. En France, on choisit souvent le *point-virgule* `;` pour préserver le séparateur décimal,
- lorsqu'une une valeur peut contenir le séparateur, par exemple des coordonnées de géolocalisation `<latitude>, <longitude>`, on *quote* la valeur avec `"` ou `'` ce qui donne `"<latitude>, <longitude>"`.

## Représenter des données CSV avec Python

Pour pouvoir *utiliser* les données d'un fichier CSV, il est nécessaire d'effectuer un travail préparatoire afin de les mettre sous une forme «manipulable» par programmation:
- **au départ**: une simple chaîne de caractère au format CSV
- **après transformation**: un type de donnée manipulable.

Du fait des nombreuses variantes du format CSV (on parle de «dialectes»), cette «transformation» peut être délicate. 

Ici, nous supposons le cas simple: le séparateur est `,` et pas de quotes.

### Première solution: une liste de tuples

En lisant un fichier CSV, nous obtenons une chaîne. L'objectif ici est de transformer cette chaîne en une **liste de tuples** où chaque tuple correspond à un enregistrement ou objet du jeu de données.

         chaîne au format CSV                                         liste de tuples
                                                      
     """nom,prenom,date_naissance                        [('Durand', 'Jean-Pierre', '23/05/1985'),
     Durand,Jean-Pierre,23/05/1985    transformation      ('Dupont', 'Christophe' , '15/12/1967'),
     Dupont,Christophe,15/12/1967        ------->         ('Terta' , 'Henry'      , '12/06/1978')]
     Terta,Henry,12/06/1978"""                  

Notez que nous perdons les descripteurs.

#### Exercice 1

Si `donnees` est le nom choisi pour la liste de tuples de l'exemple ci-dessus, que faut-il écrire pour récupérer:
1. le nombre des individus de ce jeu de donnée?
2. la date de naissance du deuxième individu?
3. la liste des noms des individus de ce jeu de données?

In [None]:
donnees = [('Durand', 'Jean-Pierre', '23/05/1985'), ('Dupont', 'Christophe' , '15/12/1967'), ('Terta' , 'Henry', '12/06/1978')]

In [None]:
#1

In [None]:
#2

In [None]:
#3

In [None]:
#1
len(donnees)
#2
donnees[1][2]
#3
[d[0] for d in donnees]

________

Pour tranformer la chaîne d'entrée au format CSV en une liste de tuples, on peut utiliser `<chaine>.split(<sep>)` qui découpe la chaine en utilisant le `sep`arateur fourni et renvoie la liste des «morceaux». 

*Exemple* `"a->b->c".split("->")` renvoie `["a", "b", "c"]`.

In [None]:
csv = """nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978"""

**Étape 1** `str -> [str]`: On commence par découper sur le caractère séparateur `\n` (fin les ligne):

In [None]:
# à compléter
etape1 = __.split(__)
etape1

In [None]:
etape1 = csv.split('\n')
etape1

On obtient une liste dont chaque élément correspond à une ligne.

**Étape 2** `[str] -> [[str]]`: Ensuite, on découpe chaque ligne de cette liste sur le caractère séparateur `,` afin de produire une liste de liste:

In [None]:
# à compléter
etape2 = [ligne.split(___) for ___ in etape1]
etape2 # est une liste de listes

In [None]:
etape2 = [ligne.split(',') for ligne in etape1]
etape2

**Étape 3** `[[str]] -> [tuple(str)]`:  Transformons chaque liste interne en tuple à l'aide de la fonction prédéfinie `tuple`:

In [None]:
etape3 = [tuple(enr) for enr in etape2]
etape3 # une liste de tuples

**Étape 4**: Enfin, supprimons la 1ère ligne qui correspond aux descripteurs des données car nous ne les conservons pas dans cette représentation.

In [None]:
fin = etape3[1:] # un petit slice (du n°1 jusqu'au dernier)
fin # sans l'en-tête

#### Rappels sur les «slices»

`liste[i_dep:i_fin]` produit la *sous-liste* des éléments dont les index vont de `i_dep` (inclus) à `i_fin` (exclus). Par *exemple* `["a", "b", "c", "d"][1:3]` produit `["b", "c"]`.

Si on ne précise pas `i_dep`, on part du *début* (0), si on ne précise par `i_fin` on va jusqu'à la fin:

In [None]:
l = ["a", "b", "c", "d"]
print(l[1:3]) # de 1 à 3 (exclu)
print(l[:3])  # du début (0) jusqu'à 3 (exclu)
print(l[1:])  # de 1 jusqu'au bout

#### Exercice 2

1. On peut parvenir à `fin` à partir de `donnees_CSV` en **une seule fois** par *composition* ... essais! Il est conseillé de faire `deux_en_un` (csv→etape2), puis `trois_en_un` (csv→etape3) avant de faire `quatre_en_un`.

In [None]:
# deux_en_un = ____ 
# trois_en_un = ____
# quatre_en_un = ____

In [None]:
# pour tester
assert quatre_en_un == fin

In [None]:
deux_en_un = [ligne.split(',') for ligne in donnee_CSV.split('\n')]
trois_en_un = [tuple(ligne.split(',')) for ligne in donnee_CSV.split('\n')]
quatre_en_un = [tuple(ligne.split(',')) for ligne in donnee_CSV.split('\n')][1:]

2. Écris une fonction `csv_vers_tuples(csv)` qui construit et renvoie la liste des tuples qui représente le jeu de données fourni par `csv`.

In [None]:
# à faire et à tester

In [None]:
def csv_vers_tuples(csv):
    lignes = csv.split('\n')
    lignes = lignes[1:] # oublions les descripteurs
    lignes = [ligne.split(',') for ligne in lignes]
    return [tuple(ligne) for ligne in lignes]

csv_vers_tuples(csv)

___

L'inconvénient de cette représentation est qu'elle «oublie» les descripteurs.

On ne les conserve pas pour éviter d'avoir un tableau *hétérogène* c'est-à-dire dont la structure ne serait pas régulière; cela complique les traitements qu'on souhaite souvent réaliser sur le jeu de données.

### Deuxième solution: un tableau de *n-uplets nommés*

On appelle **n-uplets (ou tuples) nommés** une séquence de paires descripteur-valeur.

Malheureusement Python ne possède pas un tel type par défaut (il existe toutefois dans la bibliothèque standard).

Pour représenter ce type, nous utiliserons un **dictionnaire dont les clés sont les descripteurs**; voici un exemple:
```python
{'nom': 'Durand', 'prenom': 'Jean-Pierre', 'date_naissance': '23/05/1985'}
```

Ainsi nous souhaiterions effectuer la transformation suivante:

**En entrée**: une chaîne au format CSV
```python
"""nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978"""
```

**En sortie**: une liste de *tuples nommés*:
```python
[
 {'nom': 'Durand', 'prenom': 'Jean-Pierre', 'date_naissance': '23/05/1985'},
 {'nom': 'Dupont', 'prenom': 'Christophe', 'date_naissance': '15/12/1967'},
 {'nom': 'Terta', 'prenom': 'Henry', 'date_naissance': '12/06/1978'},
]
```


L'avantage de cette description est que, sans oublier les descripteurs, le tableau obtenu est homogène (ses lignes ont la même forme).

#### Exercice 3

Si `personnes` désigne la liste de *tuples nommés* qui précède, que faut-il écrire pour:
1. connaître le nombre d'enregistrements du jeu de données?
2. récupérer le nom de la 3ème personne,
3. récupérer la liste des prénoms des individus de ce jeu de donnée?

In [None]:
personnes = [
 {'nom': 'Durand', 'prenom': 'Jean-Pierre', 'date_naissance': '23/05/1985'},
 {'nom': 'Dupont', 'prenom': 'Christophe', 'date_naissance': '15/12/1967'},
 {'nom': 'Terta', 'prenom': 'Henry', 'date_naissance': '12/06/1978'},
]

In [None]:
#1

In [None]:
#2

In [None]:
#3

In [None]:
# 1
len(personnes)
# 2
personnes[2]["nom"]
# 3
[p["prenom"] for p in personnes]

_____________

Cette transformation - chaîne CSV vers liste de n-uplets nommés - est un peu plus délicate que la précédente. Voici les grandes lignes de l'algorithme correspondant en *pseudo-code*:

<pre>
    <strong>Entrée</strong>: une chaîne au format csv (on suppose que le séparateur est la virgule)
    
    <strong>Sortie</strong>: un tableau de n-uplets nommés.

    <strong>Traitement</strong>:
        lignes: <em>liste de listes</em> ← découper la chaîne fournie suivant «\n» puis suivant «,»
        descripteurs: <em>liste</em> ← récupérer la première ligne (de lignes)
        enregistrements: <em>liste de listes</em> ← récupérer les lignes suivantes de lignes
        
        nuplets_nommes ← liste vide (à remplir et à renvoyer)
        
        <strong>Pour</strong> chaque enregistrement<strong>:</strong>
            dico: <em>dict</em> ← initialiser un dictionnaire vide
            
            <strong>Pour</strong> chaque position (index) dans descripteurs<strong>:</strong>
                cle ← recupérer le descripteur ayant cette position
                valeur ← récupérer la valeur <em>de même position</em> dans l'enregistrement courant 
                créer la paire «cle: valeur» dans dico
            
            Insérer dico dans nuplets_nommes
        
        <strong>Renvoyer</strong> nuplets_nommes
</pre>

#### Exercice 4

Implémenter cet algorithme sous la forme d'une fonction `csv_vers_nuplets_nommes(csv)`.

In [None]:
def csv_vers_nuplets_nommes(csv):
    """Transforme la chaine csv en tableau de n-uplets nommés qu'on renvoie."""
    # récupérer la liste des lignes
    pass
    # récupérer la liste des descripteurs 
    pass
    # puis celles des enregistrements
    pass
    # initialiser l'«accumulateur»
    pass
    
    # parcours des enregistrements
    for enr in enregistrements:
        # pour chaque enregistrement initialiser un dictionnaire
        pass
        
        # parcours *indirect* (avec range) des descripteurs
        for j in range(___):
            # associer le descripteur de position j 
            # avec la valeur de même position 
            # dans l'enregistrement courant
            pass
        
        # ajouter le dictionnaire à l'accumulateur 
        pass
    
    return ___



In [None]:
# pour tester
ex_csv = """nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978"""

csv_vers_nuplets_nommes(ex_csv)

In [None]:
def csv_vers_nuplets_nommes(csv):
    """Transforme la chaine csv en tableau de n-uplets nommés qu'on renvoie."""
    # récupérer la liste des lignes
    lignes = csv.split('\n')
    lignes = [ligne.split(',') for ligne in lignes]
    # récupérer la liste des descripteurs 
    descripteurs = lignes[0]
    # puis celles des enregistrements
    enregistrements = lignes[1:]
    # initialiser l'«accumulateur»
    nuplets_nommes = []
    # parcours des enregistrements
    for enr in enregistrements:
        # pour chaque enregistrement initialiser un dictionnaire
        dico = {}
        # parcours *indirect* (avec range) des descripteurs
        #      car la position du descripteur est aussi celle de la valeur associée
        for j in range(len(descripteurs)):
            # associer le descripteur de position j 
            # avec la valeur de même position 
            # dans l'enregistrement courant
            descripteur = descripteurs[j]
            dico[descripteur] = enr[j]
        nuplets_nommes.append(dico)
    return nuplets_nommes

csv_vers_nuplets_nommes(ex_csv)

____________

## Compléments Python

### *Unpacking* (déballage)

L'objectif de cette syntaxe originale est de permettre de récupérer facilement des éléments et des «portions» de listes. Voilà à quoi ça ressemble:

In [None]:
# exemple1 d'unpacking
tete, *queue = [1, 2, 3, 4]
print(f"La tête: {tete} et la queue: {queue}")

In [None]:
# exemple2 d'unpacking
un, deux, *reste = [1, 2, 3, 4]
print(f"un: {un}\ndeux: {deux}\nreste: {reste}")

In [None]:
# exemple3 d'unpacking
tete, *corps, pied = [1,2,3,4]
print(f"tete: {tete}\ncorps: {corps}\npied: {pied}")

#### Exercice 5

Utiliser l'*unpacking* pour mettre le code qui suit sur une ligne:
```python
descripteurs = lignes[0]
enregistrements = lignes[1:]
```


In [None]:
descripteurs, *enregistrements = lignes

____

### Apparier deux séquences - `zip`

On a souvent besoin d'apparier - grouper par paires - deux séquences de *même longueur*.

*Exemple*: je **dispose** de `['a', 'b', 'c']` et `[3, 2, 1]`

j'ai **besoin de** `[('a', 3), ('b', 2), ('c', 1)]`.

#### Exercice 6

La fonction `apparier(t1, t2)` prend deux tableaux de même taille en argument et renvoie un tableau obtenue en appararillant les éléments de `t1` et `t2` de même index (position). Termine son implémentation.

In [None]:
def apparier(t1, t2):
    assert len(t1) == len(t2)
    N = len(t1)
    t = [] # accumulateur
    # parcourt indirect puis extraction des valeurs pour former les couples
    pass

In [None]:
def apparier(t1, t2):
    assert len(t1) == len(t2)
    t = []
    for i in range(len(t1)):
        v1 = t1[i]
        v2 = t2[i]
        couple = v1, v2
        t.append(couple)
    return t

In [None]:
# vérifier votre solution
tab1 = ['a', 'b', 'c']
tab2 = [3, 2, 1]
assert apparier(tab1, tab2) == [('a', 3), ('b', 2), ('c', 1)]

___

Un cas d'utilisation fréquent de l'appariement est la lecture des paires dans une boucle. 

On peut alors utiliser une paire de variables de boucles pour récupérer chaque composante de la paire:

In [None]:
# tester moi
tab1 = ['a', 'b', 'c']
tab2 = [3, 2, 1]
for a, b in apparier(tab1, tab2):
    print(f'a vaut "{a}" et b vaut "{b}"')

Python dispose d'une fonction *prédéfinie* `zip(seq1, seq2, ...)` qui fait la même chose avec des «séquences» (une `list` est un cas particulier de séquence).

*Note*: `zip`?? penser à une «fermeture-éclair» (d'un blouson ...)

In [None]:
z = zip(tab1, tab2)
print(z)
print(list(z))

Elle renvoie un objet spécial de type `zip` qui est une sorte de liste de paires qu'on peut parcourir directement dans une boucle (un peu comme avec `range`)

In [None]:
# tester moi
tab1 = ['a', 'b', 'c']
tab2 = [3, 2, 1]
for a, b in zip(tab1, tab2):
    print(f'a vaut "{a}" et b vaut "{b}"')

#### Exercice 7

On dispose d'un tableau d'enregistrements `enregs` ainsi que de la liste des descripteurs associés `descrs`.

In [None]:
enregs = [["Alice", 16, 9],["Basile", 8, 15]]
descrs = ["nom", "note1", "note2"]

Pour construire le tableau de 3-uplets correspondants, on sait qu'on peut utiliser les boucles imbriquées:

In [None]:
tab = []
for enr in enregs:
    d = {}
    for i in range(len(descrs)):
        cle = descrs[i]
        val = enr[i]
        d[cle] = val
    tab.append(d)
print(tab)

«Simplifier» la boucle interne de ce code en utilisant `zip`

In [None]:
tab = []
for enr in enregs:
    d = {}
    # boucle interne à «simplifier» avec zip
    pass
    tab.append(d)
print(tab)

In [None]:
tab = []
for enr in enregs:
    d = {}
    for cle, val in zip(descrs, enr):
        d[cle] = val
    tab.append(d)
print(tab)

### Syntaxe en compréhension des `dict`ionnaires

Voici un exemple simple:

In [None]:
{desc: None for desc in descripteurs}

Bien noter que la partie *avant* `for` est de la forme `<cle>: <val>`. Mise à part ce point et l'utilisation des accolades, la syntaxe est similaire à celle des listes en compréhension.

On utilise généralement cela avec `zip`:

In [None]:
cles = ("cle1", "cle2", "cle3")
valeurs = ("ah", "oh", "hein")
{cle: val for cle, val in zip(cles, valeurs)} # zip fonctionne aussi avec des tuples de même longueur!

Voici encore un exemple bien utile pour réaliser un tableau de n-uplets nommés à partir de données CSV. 

On veut une liste de dictionnaires ... Alors combinons l'écriture en compréhension des listes et celle des dictionnaires!

In [None]:
cles = ("cle1", "cle2", "cle3")
liste_valeurs = [("ah", "oh", "hein"), ('riri', 'fifi', 'loulou')]
# on veut un tableau de n-uplets nommés
[{c: v for c, v in zip(cles, valeurs)} for valeurs in liste_valeurs]

#### Exercice de synthèse

On rappelle le code de la fonction `csv_vers_nuplets_nommes(csv)` ainsi que le jeu de données test ci-dessous (à ouvrir/refermer).

In [None]:
def csv_vers_nuplets_nommes(csv):
    """Transforme la chaine csv en tableau de n-uplets nommés qu'on renvoie."""
    lignes = csv.split('\n')
    lignes = [ligne.split(',') for ligne in lignes]
    descripteurs = lignes[0]
    enregistrements = lignes[1:]
    nuplets_nommes = []
    for enr in enregistrements:
        dico = {}
        for j in range(len(descripteurs)):
            descripteur = descripteurs[j]
            dico[descripteur] = enr[j]
        nuplets_nommes.append(dico)
    return nuplets_nommes

csv_vers_nuplets_nommes(csv)

In [None]:
csv = """nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978"""

 En utilisant l'*unpacking*, `zip` et la *syntaxe en compréhension des dictionnaires*, *simplifier le plus possible* le code de la fonction `csv_vers_nuplet_nommes`:

In [None]:
def csv_vers_nuplets_nommes(chaine_csv):
    """Transforme la chaine csv en tableau de n-uplets nommés qu'on renvoie."""
    pass

# pour tester
csv_vers_nuplets_nommes(csv)

#### Solution

In [None]:
def csv_vers_tuples_nommes(chaine_csv):
    """Transforme la chaine csv en tableau de n-uplets nommés qu'on renvoie."""
    lignes = [ligne.split(',') for ligne in chaine_csv.split('\n')]
    descripteurs, *enregistrements = lignes
    tuples_nommes = []
    for enr in enregistrements:
        dico = {cle: valeur for cle, valeur in zip(descripteurs, enregistrements)}
        tuples_nommes.append(dico)
    return tuples_nommes

csv_vers_tuples_nommes(csv)

On peut même améliorer encore en combinant les deux syntaxes en compréhension:

In [None]:
def csv_vers_tuples_nommes(chaine_csv):
    """Transforme la chaine csv en tableau de n-uplets nommés qu'on renvoie."""
    lignes = [ligne.split(',') for ligne in chaine_csv.split('\n')]
    descripteurs, *enregistrements = lignes
    return [
        { cle: valeur for cle, valeur in zip(descripteurs, enregistrement) }
        for enregistrement in enregistrements
    ]

csv_vers_tuples_nommes(csv)