# Données en table

## Format CSV - *Comma Separated Values*

Chaîne - `str` - au format CSV:
```
nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978       
```

*1ère ligne*: les **descripteurs** des données

*lignes suivantes*: les **objets** de la **collection** de données

**chaque «objet»** est formé de **valeurs** séparées (le plus souvent) par des `,` ...

... ces **valeurs** correspondent aux **descripteurs** de même position.

**Avantages**: simplicité et universalité

**Inconvénients**: format monolithique, pénible à manipuler directement par programme.

## Format tableau de tuples (ou n-uplet) nommés

Liste -`list` - dont les éléments sont des dictionnaires - `dict` - de la forme `{descr1: val1, descr2: val2, ...}`

```python
[
 {'nom': 'Durand', 'prenom': 'Jean-Pierre', 'date_naissance': '23/05/1985'},
 {'nom': 'Dupont', 'prenom': 'Christophe', 'date_naissance': '15/12/1967'},
 {'nom': 'Terta', 'prenom': 'Henry', 'date_naissance': '12/06/1978'}
]
```

si `t` désigne ce tableau, on peut *accéder à* (get) ou *modifier* (set) une valeur via la syntaxe:
- *get* - `t[n_ligne][descripteur]` - pour «**lire**» une valeur 
- *set* - `t[n_ligne][descripteur] = nouvelle_valeur` - pour «**écrire**» une valeur 

**Avantages**: Facile à manipuler par programme - du moins avec Python

**Inconvénients**: Utilise des types spécifiques à Python - `list` et `dict` (pas universel)

## Syntaxe de l'affectation multiple - Unpacking

**But de l'unpacking**: affecter - *assignement* - plusieurs variables simplement en utilisant un «conteneur»

In [None]:
# basique - autant de variable que de valeurs
a, b, c = 1, 2, 3 # même résultat pour (1, 2, 3) ou [1, 2, 3]
print(f"a vaut {a}, b vaut {b}, c vaut {c}")

In [None]:
# 1. «syntaxe *»: Moins de variables que de valeurs
a, *b = 1, 2, 3 # même résultat pour (1, 2, 3) ou [1, 2, 3]
print(f"a vaut {a}, b vaut {b}")

In [None]:
# 2. «syntaxe *»: ... suite
a, *b, c, d = ( i for i in range(10) )
print(f"a vaut {a}, b vaut {b}, c vaut {c}, d vaut {d}")

## «Zipper» deux ou plusieurs «conteneur» - `zip(l1, l2)`

**zip**: action qui consiste à appareiller des valeurs de même position - *index* - de deux «conteneurs»

In [None]:
# exemple:
l1 = ['str', 'list', 'dict', 'int']
l2 = ["ahah", [5, 6], {'prenom': 'etienne', 'age': 12}, 3]
list(zip(l1, l2))

S'utilise souvent dans les boucles `for`:
```python
for v1, v2 in zip(liste1, liste2):
    # v1 contient une valeur de liste1 tandis que ...
    # v2 contient la valeur de même position de liste2.
```

In [None]:
# APPLICATION 1 - penser l1 - les descripteurs, l2 - un objet (qui est lui-même formé de valeurs)
{ k: v for k, v in zip(l1, l2)}

In [None]:
# APPLICATION 2 - produit scalaire (spé maths) - xx'+yy'
v1, v2 = (5, -6), (-2, 3)
print(
    f"Le produit scalaire des vecteurs de coordonnées {v1} et {v2} est { sum([ x1*x2 for x1, x2 in zip(v1, v2) ]) }"
)

## Syntaxe en compréhension des dictionnaires

**Syntaxe**:
```python
{ expr1: expr2 for var in conteneur }
```

**Expression** qui produit un *dictionnaire*.

À chaque tour de boucle, les expressions `expr1` et `expr2` sont évaluées en tenant compte de la valeur courante de la variable `var` ...

... cela produit une nouvelle paire `cle: valeur` pour le dictionnaire en cours de construction.

In [None]:
# exemple1
{ x**2: x**3 for x in [-i for i in range(4)] }

**Rappel**: 
- `for k, v in dictionnaire.items()` - à chaque tour de boucle, `k` est une clé du dictionnaire et `v` la valeur correspondante.
- `for k in dictionnaire` - à chaque tour de boucle, `k` est une clé du dictionnaire.

In [None]:
# exemple2
{ k.lower(): int(v) for k, v in {"A": "1", "B": "2"}.items() }

In [None]:
# exemple3 - pour (faire) pousser les neurones
{
    k.title() + " carrés": [i**2 for i in range(n)] 
    for k, n in {"deux": 2 , "quatre": 4}.items()
}

In [None]:
# APPLICATION aux données
descripteurs, objet = ("nom", "prénom", "age"), ("DIXNEUF", "Sébastien", 46)

{ k.title(): v for k, v in zip(descripteurs, objet) }

## Conversion: CSV $\mapsto$ tableau de tuples nommés 

Tout en utilisant judicieusement la **syntaxe en compréhension**:

1. `str.split(sep)`: **Couper** la chaîne CSV suivant les *séparateurs* de lignes `\n` puis recommencer suivant les *séparateurs* de valeurs `,`  

2. Unpacking: **Séparer** les descripteurs (1ère ligne) des objets (les autres)

3. **zip**: appareiller les descripteurs au valeurs correspondantes

In [None]:
csv = "a,b,c\nd,e,f\ng,h,i"
# 1 Couper - split
decoupe = [ligne.split(',') for ligne in csv.split('\n')] # -> de type «[[str]]»
# 2 Séparer - unpacking
ds, *objs = decoupe # -> de type «[str]» pour ds et «[[str]]» pour objs
# 3 Appareiller - zip
tableau = [ {d: v for d, v in zip(ds, obj)} for obj in objs] # -> de type [{str: str}]
tableau