# Découverte du format CSV - *Comma-Separated values*

**Plan du document**
- Le format **CSV**
- Représenter des données CSV avec Python
    - Première solution: un tableau de tuples
    - **Deuxième solution**: un tableau de *tuples nommés* (dictionnaires)
        - l'*unpacking*,
        - l'opération *zip*
        - syntaxe en *compréhension des dictionnaires*
        - **synthèse**: CSV -> tableau de tuples nommés

## Le format CSV

*Comma*: virgule; *CSV*: valeurs séparées par des virgule.

CSV est un format **textuel** (par opposition à *binaire*) qui sert à représenter des **données en tables**; voici à quoi cela ressemble:

```
nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978       
```

On devine qu'il s'agit d'informations à propos d'individus: Jean pierre Durand né le 23 mai 1985, etc. En informatique on parle de **collection de données**.

La première ligne précise le sens des valeurs trouvées aux lignes suivantes; ses valeurs `nom`, `prenom`, `date_naissance` sont appelées **descripteurs** ou encore **attributs**.

Les lignes suivantes correspondent à des individus différents; en informatique on parle souvent d'**objets** ou d'**entités**.

Chaque «*objet*» (ici individu) correspond à une ligne: les **valeurs** qu'on y trouve sont associées aux *descripteurs* de même position.

On peut (re)présenter la même information plus agréablement avec un rendu table:

| nom   | prenom           | date_naissance  |
| ------------- |:-------------:| -----:|
| Durand      | Jean-Pierre | 23/05/1985 |
| Dupont      | Christophe      |   15/12/1967 |
| Tertra | Henry   |    12/06/1978 |

## Représenter des données CSV avec Python

### Première solution: une liste de tuples

Cela donnerait `[('Durand', 'Jean-Pierre', '23/05/1985'), ('Dupont',..),(..)]`

On y parvient assez simplement à l'aide de `str.split(..)`:

In [None]:
donnees_CSV = """nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978"""

In [None]:
etape1 = donnees_CSV.split('\n')
etape1

In [None]:
etape2 = [obj.split(',') for obj in etape1]
etape2 # une liste de liste

In [None]:
etape3 = [tuple(obj) for obj in etape2]
etape3 # une liste de tuple

In [None]:
fin = etape3[1:] # un petit slice
fin # sans l'en-tête

#### À faire toi-même

On peut parvenir à `fin` à partir de `donnees_CSV` en **une seule fois** par *composition* ... essais!

In [None]:
# deux_en_un = ____
# trois_en_un = ____
quatre_en_un = ___ # tu peux essayer de faire deux_en_un, puis trois_en_un avant.

In [None]:
# pour tester
assert quatre_en_un == fin

___

L'inconvénient de cette représentation c'est qu'elle «oublie» les descripteurs.

Pourquoi ne pas les conserver comme à l'étape3? Pour éviter d'avoir un tableau *hétérogène*: le premier élément ne serait pas un «objet». De tels tableaux sont plus difficile à manipuler.

### Deuxième solution: un tableau de *tuples nommés*

**n-uplet (ou tuples) nommés**: tuple dont chaque valeur est associée à un descripteur.

Malheureusement Python ne possède pas un tel type par défaut (il existe toutefois dans la bibliothèque standard).

Pour représenter ce type, nous utiliserons un dictionnaire dont les clés sont les descripteurs; voici un exemple:
```python
{'nom': 'Durand', 'prenom': 'Jean-Pierre', 'date_naissance': '23/05/1985'}
```

Pour y parvenir, nous partons de:

In [None]:
donnees_CSV = """nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978"""

Les étapes qui suivent servent à **séparer les descripteurs et les objets**:

In [None]:
tmp = donnees_CSV.split('\n')
tmp

In [None]:
descripteurs_str = tmp[0]
descripteurs = tuple(descripteurs_str.split(','))
print(f"le tuple des descripteurs: {descripteurs}")

In [None]:
donnees_str = tmp[1:]
donnees_str

In [None]:
objets = [tuple(obj.split(',')) for obj in donnees_str]
print(f"la liste des objets (des personnes ici):\n {objets}")

**Récapitulatif**: nous avons bien séparé:
 - les **descripteurs** (1ère ligne des données csv source) sous la forme d'*un tuple*,
 - les **objets** (autres lignes) sous la forme d'une *liste de tuples*.

#### À faire toi-même

Peux-tu compléter les parties manquantes pour obtenir le même résultat plus rapidement?

In [None]:
descripteurs = ___( donnees_CSV.split('\n')[___].________ )
objets = [ ____ for ligne in donnees_CSV.____ ]
print(f"- les descripteurs:\n\t {descripteurs}\n- les objets:\n\t {objets}")

______

#### À faire toi-même - *découverte de l'**unpacking** (déballage)*

Peux-tu réaliser le traitement précédent en **vraiment** une seule ligne? Pour cela observe les trois exemples qui suivent:

In [None]:
# exemple1 d'unpacking
tete, *queue = [1, 2, 3, 4]
print(f"La tête: {tete} et la queue: {queue}")

In [None]:
# exemple2 d'unpacking
un, deux, *reste = [1, 2, 3, 4]
print(f"un: {un}\ndeux: {deux}\nreste: {reste}")

In [None]:
# exemple3 d'unpacking
tete, *corps, pied = [1,2,3,4]
print(f"tete: {tete}\ncorps: {corps}\npied: {pied}")

Si tu as suivi, tu dois pouvoir compléter ce qui suit:

In [None]:
# À toi de jouer!
descripteurs, *objets = [___ for ligne in donnees_CSV.__)]
print(f"les descripteurs:\n\t {descripteurs}\nles objets:\n\t {objets}")

____

Arrivé à ce stade nous voudrions combiner:
- `('descr1', 'descr2', ...)` et `('v1', 'v2', ...)` en ...
- `{'descr1': 'v1', 'descr2': 'v2', ..}` (n-uplet nommé) 

#### Apparier deux séquences - `zip`

On a souvent besoin de grouper par paires deux séquences de même longueur `len`.

*Ex*: je **dispose** de `['a', 'b', 'c']` et `[3, 2, 1]`

j'ai **besoin de** `[('a', 3), ('b', 2), ('c', 1)]`.

#### À faire toi-même

La fonction `apparier(t1, t2)` prend deux tableaux de même taille en argument et renvoie un tableau obtenue en appararillant les éléments de `t1` et `t2` de même index.

Compléter le code qui suit pour résoudre ce problème

In [None]:
def apparier(t1, t2):
    assert len(t1) == len(t2)
    t = []
    for i in range(len(t1)):
        pass

In [None]:
# vérifier votre solution
tab1 = ['a', 'b', 'c']
tab2 = [3, 2, 1]
assert apparier(tab1, tab2) == [('a', 3), ('b', 2), ('c', 1)]

___

Un cas d'utilisation fréquent de l'appariement est la lecture dans une boucle des paires

In [None]:
# tester moi
tab1 = ['a', 'b', 'c']
tab2 = [3, 2, 1]
for a, b in apparier(tab1, tab2):
    print(f'a vaut "{a}" et b vaut "{b}"')

en fait, Python dispose d'une fonction prédéfinie `zip(seq1, seq2, ...)` qui fait la même chose avec des «séquences» (`list` est un cas particulier de séquence).

*note*: `zip`?? penser à la «fermeture-éclair» d'un blouson ...

In [None]:
z = zip(tab1, tab2)
print(z)
print(list(z))

*note*: elle renvoie un objet spécial de type `zip` car on l'utilise souvent dans une boucle directement c'est-à-dire sans mémoriser le zip (un peu comme avec `range`)

In [None]:
# tester moi
tab1 = ['a', 'b', 'c']
tab2 = [3, 2, 1]
for a, b in zip(tab1, tab2):
    print(f'a vaut "{a}" et b vaut "{b}"')

#### Découverte: la syntaxe en compréhension est aussi valable pour les `dict`

Voici un exemple simple:

In [None]:
modele_tuple_nomme = {desc: None for desc in descripteurs}
modele_tuple_nomme

Bien Noter que la partie avant `for` est de la forme `<cle>: <val>`.

On utilise généralement cela avec `zip`:

In [None]:
cles = ("cle1", "cle2", "cle3")
valeurs = ("ah", "oh", "hein")
{c: v for c, v in zip(cles, valeurs)} # zip fonctionne aussi avec des tuples de même longueur!

Voici encore un exemple bien utile pour réaliser un tableau à partir de données CSV.

In [None]:
cles = ("cle1", "cle2", "cle3")
liste_valeurs = [("ah", "oh", "hein"), ('riri', 'fifi', 'loulou')]
# on veut un tableau de tuples nommés
[{c: v for c, v in zip(cles, valeurs)} for valeurs in liste_valeurs]

### Synthèse: retour au problème des données au format CSV

En combinant tout ce que tu as appris et les exemples précédents, tu devrais être capable d'obtenir notre liste de n-uplets nommés en quelques lignes ... Non?

*rappel*: au départ, on **dispose de**
```python
donnees_CSV = """nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978"""
```

au final, on veut **produire** une liste de *tuples nommés*:
```python
[
 {'nom': 'Durand', 'prenom': 'Jean-Pierre', 'date_naissance': '23/05/1985'},
 {'nom': 'Dupont', 'prenom': 'Christophe', 'date_naissance': '15/12/1967'},
 {'nom': 'Terta', 'prenom': 'Henry', 'date_naissance': '12/06/1978'}
]
```


Voici comment y parvenir en deux «compréhensions»

In [None]:
descripteurs, *objets = [tuple(strs.split(',')) for strs in donnees_CSV.split('\n')]
objets = [ # sur plusieurs ligne pour plus de clarté.
    {
        desc: val for desc, val in zip(descripteurs, obj)
    }
    for obj in objets
]
objets

#### À faire toi-même

La syntaxe en compréhension des listes et des dictionnaires est utile et puissante mais nécessite pas mal d'investissement pour être bien maîtrisée.

Pour cette raison, reprend le problème en écrivant une fonction `csv_vers_objets(csv_str)` qui prend en argument la chaîne au format csv et renvoie le tableau de n-uplets nommés correspondant.

Nous la réutiliserons dans le 05_applications...

In [None]:
def csv_vers_objets(csv_str):
    pass

In [None]:
assert csv_vers_objets(donnees_CSV) == objets