# Traitement des données en tables

[Vidéo d'accompagnement 2](https://vimeo.com/534400395)

Dans cette section, nous supposons disposer d'une table de n-uplets nommés (à l'aide de dictionnaires) et donc de la forme:

```python
[
    {"descr1": "val1", "descr2": "val2",...},
    {"descr1": "val'1", ...}, 
    ...
]
```

qui représente un **tableau** de données de la forme:

| descr1   | descr2           | ...  |
| :-------------:|:-------------:|:-----:|
| val1      | val2 | ... |
| val'1      | ...      |   ... |
| ... | ...   |    ... |

**Notre objectif est** d'apprendre à réaliser certaines **opérations incontournables** sur ce genre de données:
- **«pré-traitements»**: adapter le **type** de certaines données,
- **projection**: sélectionner certaines «**colonnes**» ou descripteurs,
- **sélection**: sélectionner certaines «**lignes**» ou enregistrements,
- **trier** les lignes ou enregistrements,
- **fusionner**: produire un tableau sur la base de deux autres. 

Voici la table que nous utiliserons pour illustrer/tester ces opérations.

In [None]:
table_test = [
    {'n_client': '1212', 'nom': 'Lacasse'  , 'prenom': 'Aubrey'   , 'ville': 'Annecy'  , 'position': '45.900000,6.116667'},
    {'n_client': '1343', 'nom': 'Primeau'  , 'prenom': 'Angelette', 'ville': 'Tours'   , 'position': '47.383333,0.683333'},
    {'n_client': '2454', 'nom': 'Gabriaux' , 'prenom': 'Julie'    , 'ville': 'Bordeaux', 'position': '44.833333,-0.566667'},
    {'n_client': '895' , 'nom': 'Gaulin'   , 'prenom': 'Dorene'   , 'ville': 'Lyon'    , 'position': '45.750000,4.850000'},
    {'n_client': '2324', 'nom': 'Jobin'    , 'prenom': 'Aubrey'   , 'ville': 'Bourges' , 'position': '47.083333,2.400000'},
    {'n_client': '34'  , 'nom': 'Boncoeur' , 'prenom': 'Kari'     , 'ville': 'Nantes'  , 'position': '47.216667,-1.550000'},
    {'n_client': '1221', 'nom': 'Parizeau' , 'prenom': 'Olympia'  , 'ville': 'Metz'    , 'position': '49.133333,6.166667'},
    {'n_client': '1114', 'nom': 'Paiement' , 'prenom': 'Inès'     , 'ville': 'Bordeaux', 'position': '44.833333,-0.566667'},
    {'n_client': '3435', 'nom': 'Chrétien' , 'prenom': 'Adèle'    , 'ville': 'Moulin'  , 'position': '46.566667,3.333333'},
    {'n_client': '5565', 'nom': 'Neufville', 'prenom': 'Ila'      , 'ville': 'Toulouse', 'position': '43.600000,1.433333'},
    {'n_client': '2221', 'nom': 'Larivière', 'prenom': 'Alice'    , 'ville': 'Tours'   , 'position': '47.383333,0.683333'},
]

#### Exercice 1

Quels sont les descripteurs de cette table? **réponse**: ______

In [None]:
# combien comporte-t-elle de lignes? de colonnes? réponses: ____

Quel est le type commun de toutes les valeurs? **réponse**: ______
_____

## Complément Python: Parcours d'un dictionnaire

Lorsqu'on utilise la syntaxe `for <var> in <dictionnaire>`, la variable de boucle contient une nouvelle **clé** du dictionnaire à chaque *itération*.

In [None]:
test = {"un": 1, "deux": 2, "3": "trois"}
for var in test:
    print(var)

À partir de la clé, on peut facilement récupérer la valeur associée dans la paire clé-valeur avec la syntaxe `dico[cle]`:

In [None]:
test = {"un": 1, "deux": 2, "3": "trois"}
for var in test:
    print(test[var])

Mais il est plus pratique de récupérer directement **la clé et la valeur** dans la variable de boucle. On peut faire cela en utilisant la méthode `dict.items()` dans la boucle:

In [None]:
test = {"un": 1, "deux": 2, "3": "trois"}
for var in test.items():
    print(var)

Comme vous le constatez, à chaque itération la variable de boucle reçoit un *tuple de taille 2*, on peut récupérer directement chaque composante comme suit:

In [None]:
test = {"un": 1, "deux": 2, "3": "trois"}
for cle, val in test.items():
    print(f"{cle} => {val}")

**Retenir**

> si `d` est un dictionnaire, `for cle, val in d.items()` récupère une nouvelle paire clé-valeur à chaque itération de la boucle.

On peut utiliser cela dans l'écriture en compréhension pour «transformer» un dictionnaire.

In [None]:
test = {"entier":"13", "chaine": "python", "flottant": "3.14", "booleen": "Oui", "tuple_entiers": "4,5,6"}

On peut vouloir «oublier» certaines paires:

In [None]:
{c: v for c, v in test.items() if c not in ["chaine", "booleen"]}

On peut vouloir *adapter* les **types** de certaines valeurs. Par exemple, dans le dictionnaire `test` la valeur associé à la clé "entier" est de type *str* et on voudrait un *int*:

In [None]:
def conv(c, v):
    if c == "entier":
        return int(v)
    else:
        return v

{c: conv(c,v) for c, v in test.items()}

Il est très courant de vouloir faire cela; pour cette raison (et d'autres...) Python propose l'opérateur *ternaire* `e1 if cond else e2` qui produit la valeur `e1` si `cond` vaut «vrai» et produit `e2` sinon:

In [None]:
{ 
  c: (float(v) if c == "flottant" else v) 
  for c, v in test.items()
}

Néanmoins, s'il y a trop de cas à traiter, l'écriture d'une fonction reste utile. Examinez attentivement cet exemple:

In [None]:
def adapter_types(c, v):
    if c == "entier":
        return int(v)
    elif c == "flottant":
        return float(v)
    elif c == "booleen":
        return (True if v == "Oui" else False)
    elif c == "tuple_entiers":
        # découper
        vs = v.split(',')
        # puis convertir chaque composante
        vs = [int(v) for v in vs]
        # puis tranformer la liste en tuple
        return tuple(vs)
    else:
        return v

{c:adapter_types(c, v) for c, v in test.items()}

*Astuce*: il est possible d'utiliser une «compréhension de tuple» `tuple(...)` pour raccourcir le cas "tuple_entiers".
Plus précisément, on pourrait remplacer cette partie par `return tuple( int(x) for x in v.split(',') )`. Essayez...

> **Retenir**: Si `d` est un dictionnaire, on peut utiliser l'écriture en compréhension pour le *transformer*; notamment «oublier» certaines paires clé valeur avec `if` ou ajuster le type de certaines valeurs sur la base de leur clé.

## Pré-traitement

Pour rappel notre table de test est:

In [None]:
table_test = [
    {'n_client': '1212', 'nom': 'Lacasse'  , 'prenom': 'Aubrey'   , 'ville': 'Annecy'  , 'position': '45.900000,6.116667'},
    {'n_client': '1343', 'nom': 'Primeau'  , 'prenom': 'Angelette', 'ville': 'Tours'   , 'position': '47.383333,0.683333'},
    {'n_client': '2454', 'nom': 'Gabriaux' , 'prenom': 'Julie'    , 'ville': 'Bordeaux', 'position': '44.833333,-0.566667'},
    {'n_client': '895' , 'nom': 'Gaulin'   , 'prenom': 'Dorene'   , 'ville': 'Lyon'    , 'position': '45.750000,4.850000'},
    {'n_client': '2324', 'nom': 'Jobin'    , 'prenom': 'Aubrey'   , 'ville': 'Bourges' , 'position': '47.083333,2.400000'},
    {'n_client': '34'  , 'nom': 'Boncoeur' , 'prenom': 'Kari'     , 'ville': 'Nantes'  , 'position': '47.216667,-1.550000'},
    {'n_client': '1221', 'nom': 'Parizeau' , 'prenom': 'Olympia'  , 'ville': 'Metz'    , 'position': '49.133333,6.166667'},
    {'n_client': '1114', 'nom': 'Paiement' , 'prenom': 'Inès'     , 'ville': 'Bordeaux', 'position': '44.833333,-0.566667'},
    {'n_client': '3435', 'nom': 'Chrétien' , 'prenom': 'Adèle'    , 'ville': 'Moulin'  , 'position': '46.566667,3.333333'},
    {'n_client': '5565', 'nom': 'Neufville', 'prenom': 'Ila'      , 'ville': 'Toulouse', 'position': '43.600000,1.433333'},
    {'n_client': '2221', 'nom': 'Larivière', 'prenom': 'Alice'    , 'ville': 'Tours'   , 'position': '47.383333,0.683333'},
]

On observe que certains **descripteurs** pourrait avoir un **type** plus précis que `str`, par exemple le descripteur `n_client` gagnerait a être de type `int`.

Améliorons cela à l'aide de *l'écriture en compréhension*:

In [None]:
table_test_2 = [ # liste en compréhension: produit une liste de ...
    { # ... dictionnaires ...
        c: int(v) if c == 'n_client' else v # conversion de la valeur si le descripteur est 'n_client'
        for c, v in enr.items() 
    }
    # ... pour chaque enregistrement de la table d'origine.
    for enr in table_test
]
# observe bien la valeur du descripteur 'n_client'
table_test_2[:2]

C'est encore un peu difficile à lire probablement? l'opérateur ternaire `e1 if cond else e2` n'est pas encore parfaitement clair? ni l'écriture en compréhension?

Alors voici l'équivalent dans une fonction avec une boucle imbriquée.

In [None]:
def conversion1(table):
    tc = []  # table à construire
    # pour chaque enregistrement
    for l in table:
        enr = {} # nouvel enregistrement
        # pour chaque paire clé-valeur de l'enregistrement courant
        for c, v in l.items():
            # doit-on convertir en int?
            if c == 'n_client':
                enr[c] = int(v)
            else:
                enr[c] = v
        # ajouter le nouvel enregistrement à la table en consruction
        tc.append(enr)
    return tc

conversion1(table_test)

Mais il y a un autre descripteur qui pose problème: `position`

Son type est `str` au format `'<float>,<float>'`

Nous voudrions que son type soit «`tuple` de `float`» c'est-à-dire passer par exemple de `'45.900000,6.116667'` à `(45.900000, 6.116667)`.

#### Exercice 2

En t'inspirant de la conversion résolue précédente, transforme le descripteur `position` en un tuple de 2 floats.

In [None]:
# avec une fonction
def conversion2(table):
    pass

In [None]:
# avec la syntaxe en compréhension (tu peux utiliser plusieurs étapes)


_________

## Projection

L'opération de **projection** consiste à «oublier» certaines «colonnes» du jeu de données.

On repart de la table ci-dessous:

In [None]:
table_test = [
    {'n_client': 1212, 'nom': 'Lacasse'  , 'prenom': 'Aubrey'   , 'ville': 'Annecy'  , 'position': (45.900000,6.116667)},
    {'n_client': 1343, 'nom': 'Primeau'  , 'prenom': 'Angelette', 'ville': 'Tours'   , 'position': (47.383333,0.683333)},
    {'n_client': 2454, 'nom': 'Gabriaux' , 'prenom': 'Julie'    , 'ville': 'Bordeaux', 'position': (44.833333,-0.566667)},
    {'n_client': 895 , 'nom': 'Gaulin'   , 'prenom': 'Dorene'   , 'ville': 'Lyon'    , 'position': (45.750000,4.850000)},
    {'n_client': 2324, 'nom': 'Jobin'    , 'prenom': 'Aubrey'   , 'ville': 'Bourges' , 'position': (47.083333,2.400000)},
    {'n_client': 34  , 'nom': 'Boncoeur' , 'prenom': 'Kari'     , 'ville': 'Nantes'  , 'position': (47.216667,-1.550000)},
    {'n_client': 1221, 'nom': 'Parizeau' , 'prenom': 'Olympia'  , 'ville': 'Metz'    , 'position': (49.133333,6.166667)},
    {'n_client': 1114, 'nom': 'Paiement' , 'prenom': 'Inès'     , 'ville': 'Bordeaux', 'position': (44.833333,-0.566667)},
    {'n_client': 3435, 'nom': 'Chrétien' , 'prenom': 'Adèle'    , 'ville': 'Moulin'  , 'position': (46.566667,3.333333)},
    {'n_client': 5565, 'nom': 'Neufville', 'prenom': 'Ila'      , 'ville': 'Toulouse', 'position': (43.600000,1.433333)},
    {'n_client': 2221, 'nom': 'Larivière', 'prenom': 'Alice'    , 'ville': 'Tours'   , 'position': (47.383333,0.683333)},
]

Le problème est le suivant: étant donnée une liste de **descripteurs** *à oublier* (car chaque descripteur correspond à une «colonne» du jeu de données), produire la table de donnée correspondante.

*Exemple*: si `a_oublier = ['n_client', 'prenom', 'position']` alors l'enregistrement:

    {'n_client': 1212, 'nom': 'Lacasse', 'prenom': 'Aubrey',
     'ville': 'Annecy', 'position': (45.900000,6.116667)}
doit être transformé en 

    {'nom': 'Lacasse', 'ville': 'Annecy'}`
et ainsi de suite pour chaque enregistrement.

Voici une solution qui utilise une fonction:

In [None]:
def projection_par_oubli(tableau, a_oublier):
    tsel = [] # pour notre nouveau tableau
    # pour chaque enregistrement
    for ligne in tableau:
        enr = {} # pour notre nouvel enregistrement
        # pour chaque paire clé-valeur de l'enregistrement courant
        for c, v in ligne.items():
            if not c in a_oublier:
                # on conserve cette paire
                enr[c] = v
        # ajoutons notre nouvel enregistrement
        tsel.append(enr)
    return tsel

projection_par_oubli(table_test, ['n_client', 'prenom', 'position'])

Mais il est bien plus simple d'utiliser l'*écriture en compréhension* dans ce cas...

#### Exercice 3

1. Peux-tu réaliser la même chose avec la notation en compréhension en complétant ce qui suit?

In [None]:
a_oublier = ['n_client', 'prenom', 'position']
[
    { ... } 
    for enr in table_test
]

In [None]:
a_oublier = ['n_client', 'prenom', 'position']
[
    { c: v for c, v in enr.items() if c not in a_oublier } 
    for enr in table_test
]

2. Écris une fonction `projection(tableau, a_conserver)` qui prend en argument le tableau de données et la liste des descripteurs **à conserver**; elle renvoie le tableau «projeté».

In [None]:
def projection(tableau, a_conserver):
    return [
        { c:v for c, v in enr.items() if c in a_conserver }
        for enr in tableau
    ]

#test
projection(table_test, ['nom', 'ville'])

_____

## Sélection

On souhaite à présent transformer le tableau en ne conservant que les *enregistrements* qui respectent *un certain critère*; autrement dit on veut **sélectionner certaines lignes** (et abandonner les autres).

In [None]:
table_test = [
    {'n_client': 1212, 'nom': 'Lacasse'  , 'prenom': 'Aubrey'   , 'ville': 'Annecy'  , 'position': (45.900000,6.116667)},
    {'n_client': 1343, 'nom': 'Primeau'  , 'prenom': 'Angelette', 'ville': 'Tours'   , 'position': (47.383333,0.683333)},
    {'n_client': 2454, 'nom': 'Gabriaux' , 'prenom': 'Julie'    , 'ville': 'Bordeaux', 'position': (44.833333,-0.566667)},
    {'n_client': 895 , 'nom': 'Gaulin'   , 'prenom': 'Dorene'   , 'ville': 'Lyon'    , 'position': (45.750000,4.850000)},
    {'n_client': 2324, 'nom': 'Jobin'    , 'prenom': 'Aubrey'   , 'ville': 'Bourges' , 'position': (47.083333,2.400000)},
    {'n_client': 34  , 'nom': 'Boncoeur' , 'prenom': 'Kari'     , 'ville': 'Nantes'  , 'position': (47.216667,-1.550000)},
    {'n_client': 1221, 'nom': 'Parizeau' , 'prenom': 'Olympia'  , 'ville': 'Metz'    , 'position': (49.133333,6.166667)},
    {'n_client': 1114, 'nom': 'Paiement' , 'prenom': 'Inès'     , 'ville': 'Bordeaux', 'position': (44.833333,-0.566667)},
    {'n_client': 3435, 'nom': 'Chrétien' , 'prenom': 'Adèle'    , 'ville': 'Moulin'  , 'position': (46.566667,3.333333)},
    {'n_client': 5565, 'nom': 'Neufville', 'prenom': 'Ila'      , 'ville': 'Toulouse', 'position': (43.600000,1.433333)},
    {'n_client': 2221, 'nom': 'Larivière', 'prenom': 'Alice'    , 'ville': 'Tours'   , 'position': (47.383333,0.683333)},
]

Par exemple, on pourrait vouloir sélectionner les clients qui habitent à tours. Avec une fonction, cela donne:

In [None]:
def selection_exemple(tableau):
    tsel = []
    for enr in tableau:
        if enr['ville'] == 'Tours':
            tsel.append(enr)
    return tsel

selection_exemple(table_test)

mais l'écriture en compréhension est bien plus simple!

In [None]:
[ enr for enr in table_test if enr['ville'] == 'Tours' ]

#### Exercice 4

1. Écris une fonction `selection2` qui renvoie le tableau en ne conservant que les enregistrements dont le numéro de client `"n_client"` est dans l'intervalle `[1000;3000]`.

In [None]:
def selection2(tableau):
    pass

selection2(table_test)

In [None]:
def selection2(tableau):
    tsel = []
    for enr in tableau:
        if 1000 <= enr['n_client'] <= 3000:
            tsel.append(enr)
    return tsel

# ou mieux!
def selection2_bis(tableau):
    return [e for e in tableau if 1000 <= e['n_client'] <= 3000]

selection2(table_test)

2. Écris une fonction `selection3` qui sélectionne les enregistrements dont la longitude est positive - `"position": <(lat., long.)>` - et dont le `prenom` débute par un 'A'.

   *Note*: les caractères d'un `str` sont *indexés*. si `c="Python"` alors `c[0]` vaut "P".

In [None]:
def selection3(tableau):
    pass

selection3(table_test)

In [None]:
def selection3(tableau):
    tsel = []
    for enr in tableau:
        if enr['position'][1] >= 0 and enr['prenom'][0] == 'A':
            tsel.append(enr)
    return tsel

def selection3_bis(tableau):
    return [
        e for e in tableau
        if e['position'][0] >= 0 and e['prenom'][0] == 'A'
    ]

selection3(table_test)

____

### Une fonction qui prend en argument une autre fonction!

Il est simple d'adapter le code précédent pour sélectionner selon un autre critère, mais il faut observer qu'*on fait toujours la même chose*:

<pre>
    <strong>Pour</strong> chaque enregistrement du jeu de donnees:
        <strong>Si</strong> cet enregistrement vérifie le <strong>critère</strong>:
            l'ajouter a l'accumulateur
</pre>

Seul le **critère** change!

On peut faire bien mieux en suivant ces étapes:
1. *Définir un* **filtre**: une fonction qui, *étant donné un enregistrement*, renvoie un **booléen**:
   - `True` si l'enregistrement respecte un certain critère, `False` autrement.
2. *Adapter* la fonction de **sélection** de façon à ce qu'elle puisse *recevoir la fonction **filtre** en argument*.

Commençons par l'**étape 2** :-o

In [None]:
def selection(tableau, filtre_fn):
    tsel = []
    for enr in tableau:
        # rappel: filtre_fn est une fonction qui
        # s'attend à recevoir un enregistrement
        # et qui renvoie `True` ou `False`
        if filtre_fn(enr):
            tsel.append(enr)
    return tsel

Pour l'**étape 1**, une «micro fonction» suffit bien souvent:

In [None]:
a_tours = lambda enregistrement: enregistrement['ville'] == 'Tours'

Finalement, on combine les deux:

In [None]:
selection(table_test, a_tours)

En fait, tout l'intérêt des «micro fonctions» `lambda`, parfois appelée *fonctions anonymes*, est de pouvoir les utiliser «en place»:

In [None]:
# sur plusieurs lignes pour plus de clarté; remettre sur une ligne. 
selection(
    table_test,
    # ici on attend une fonction et une lambda est une fonction!
    lambda e: e['ville'] == 'Tours'
)

Si le filtre est plus compliqué, rien n'empêche d'utiliser une fonction «normale»

In [None]:
def filtre_tordu(enr):
    condition1 = enr['ville'] == 'Tours'
    condition2 = enr['nom'][0] in ['P', 'B']
    return condition1 or condition2

selection(table_test, filtre_tordu)

In [None]:
# ... mais on peut encore utiliser une «micro-fonction» dans ce cas.
selection(
    table_test,
    lambda e: e['ville'] == 'Tours' or e['nom'][0] in ['P', 'B']
)

On peut même simplifier le code de la fonction `selection` en utilisant une compréhension:

In [None]:
def selection(tableau, filtre_fn):
    return [e for e in tableau if filtre_fn(e)]

selection(
    table_test,
    lambda e: e['ville'] == 'Tours' or e['nom'][0] in ['P', 'B']
)

#### Exercice 5

Utilise la fonction `selection` conjointement avec des «micros fonctions» pour résoudre les sélections de l'exercice 4; sélectionner les enregistrements dont:
1. le numéro de client `"n_client"` est dans l'intervalle `[1000;3000]`,
2. la longitude est positive - "position": <(lat., long.)> - et dont le prenom débute par un 'A'.

In [None]:
#1

In [None]:
#1
selection(table_test, lambda e: 1000 <= e["n_client"] <= 3000)

In [None]:
#2

In [None]:
#2
selection(table_test, lambda e: e["position"][1] >= 0 and e["prenom"][0] == "A")

_____

Rencontrer pour la première fois «une fonction qui prend en argument une autre fonction» - parfois appelée **fonction d'ordre supérieur** - est souvent déroutant.

Pour «passer le cap», voici un exercice complémentaire.

#### Exercice 6 - ma première fonction d'ordre supérieur

Écrire une fonction `appliquer(liste, fn)` qui prend en argument:
- une liste d'éléments de type 'a': ce type est arbitraire, l'important c'est que tous les éléments de la liste aient le même type,
- une fonction `fn` qui prend en argument un élément de type 'a' et renvoie un élément de type 'b'.

Finalement, la fonction `appliquer` renvoie une liste d'éléments de type 'b'.

**En résumé**: `appliquer` reçois `liste: "[a]"` et `fn: "a -> b"` et elle produit `"[b]"`...

Par *exemple*, `appliquer(["1", "2", "3"], int)` renvoie `[1, 2, 3]`

Aide-toi des assertions qui suivent et de l'exemple de la fonction `selection` pour résoudre le problème.

In [None]:
def appliquer(liste, fn):
    # à toi de jouer!

In [None]:
l = [1,2,3]
f = lambda x: x**2 # f: int -> int
assert appliquer(l, f) == [1,4,9]
l = ["un", "deux", "trois"]
f = lambda ch: len(ch) # f: str -> int
assert appliquer(l, f) == [2,4,5]
f = lambda ch: ch.upper() # f: str -> str
assert appliquer(l, f) == ["UN", "DEUX", "TROIS"]

_____

## Trier le tableau selon un ou plusieurs descripteurs

[Vidéo d'accompagnement 3](https://vimeo.com/535451191)

In [None]:
table_test = [
    {'n_client': 1212, 'nom': 'Lacasse'  , 'prenom': 'Aubrey'   , 'ville': 'Annecy'  , 'position': (45.900000,6.116667)},
    {'n_client': 1343, 'nom': 'Primeau'  , 'prenom': 'Angelette', 'ville': 'Tours'   , 'position': (47.383333,0.683333)},
    {'n_client': 2454, 'nom': 'Gabriaux' , 'prenom': 'Julie'    , 'ville': 'Bordeaux', 'position': (44.833333,-0.566667)},
    {'n_client': 895 , 'nom': 'Gaulin'   , 'prenom': 'Dorene'   , 'ville': 'Lyon'    , 'position': (45.750000,4.850000)},
    {'n_client': 2324, 'nom': 'Jobin'    , 'prenom': 'Aubrey'   , 'ville': 'Bourges' , 'position': (47.083333,2.400000)},
    {'n_client': 34  , 'nom': 'Boncoeur' , 'prenom': 'Kari'     , 'ville': 'Nantes'  , 'position': (47.216667,-1.550000)},
    {'n_client': 1221, 'nom': 'Parizeau' , 'prenom': 'Olympia'  , 'ville': 'Metz'    , 'position': (49.133333,6.166667)},
    {'n_client': 1114, 'nom': 'Paiement' , 'prenom': 'Inès'     , 'ville': 'Bordeaux', 'position': (44.833333,-0.566667)},
    {'n_client': 3435, 'nom': 'Gabriaux' , 'prenom': 'Adèle'    , 'ville': 'Moulin'  , 'position': (46.566667,3.333333)},
    {'n_client': 5565, 'nom': 'Neufville', 'prenom': 'Ila'      , 'ville': 'Toulouse', 'position': (43.600000,1.433333)},
    {'n_client': 2221, 'nom': 'Larivière', 'prenom': 'Alice'    , 'ville': 'Tours'   , 'position': (47.383333,0.683333)},
]

Supposer que nous souhaitions **ordonner** les enregistrements selon leur descripteur `n_client` du plus petit numéro au plus grand.

Pour faire cela, nous utiliserons la fonction *prédéfinie* \[ *builtin* \] de python `sorted`.

Appliquée à une liste de valeurs comparables, elle fait ce qu'on attend: 

In [None]:
sorted([3, 6, 2, 7, 1, 8])

In [None]:
sorted(["un", "deux", "trois", "quatre"]) # ordre du dictionnaire (lexicographique)

In [None]:
sorted([(1, 2), (2, 3), (2, 1), (1, 3)])

Mais comment pourrait-elle trier nos enregistrements? Il faudrait qu'elle puisse savoir par rapport à quel(s) descripteurs(s) on souhaite les trier.

Pour cette raison, la fonction `sorted` admet un deuxième *paramètre* optionnel `key`.

On peut l'utiliser pour préciser **une fonction** qui, à un «objet» de la liste, fait correspondre **la (ou les) valeurs par rapport à laquelle (auxquels) on souhaite effectuer le tri**.

Par exemple, *pour trier nos enregistrements* **suivant le n° de client**, on va lui passer la fonction `lambda e: e["n_client"]`:

In [None]:
sorted(table_test, key=lambda e: e['n_client'])

*Autre exemple*: si nous souhaitons trier les enregistrement (clients) suivant leur *nom*, **puis** leur *prénom*, notre fonction devra renvoyée un tuple avec ces valeurs dans le même ordre:

In [None]:
sorted(
    table_test,
    key=lambda e: (e['nom'], e['prenom']) # attention; parenthèses autour du tuples obligatoires
)

Voyez-vous la différence si nous trions seulement sur le nom? (observez bien).

À «noms égaux» (voir "Gabriaux"), les enregistrements sont ordonnées suivant le "prénom" (donc "Adèle" avant "Julie" contrairement à l'ordre initial...)

#### Exercice 7

1. Trier la table selon la première lettre du prénom puis selon la longitude.

   *Rappel*: position=(lat,long)

In [None]:
sorted(table_test, key=lambda e: (e["prenom"][0], e["position"][1]))

2. Sachant que `sorted` possède un troisième paramètre optionnel nommé `reverse` et qui vaut `False` par défaut, trier la table selon le numéro de client dans l'ordre décroissant (plus grand en premier).

In [None]:
sorted(table_test, key=lambda e: e["n_client"], reverse=True)

## Fusionner deux tableaux ayant un descripteur commun

En pratique, les données sont souvent «dispatchées» dans plusieurs tableaux. Par exemple, supposez qu'on trouve les deux «tableaux» qui suivent dans un jeu de données au format CSV.

Vous devinez peut-être que cela signifie par exemple: 
> Jean-Pierre Durand, né le 23/05/1985 *habite* au 7 rue Georges Courteline à Tours (37000).

On obtient cela en «rapprochant» les enregistrements des deux tableaux dont les valeurs associées aux descripteurs `id` et `id_personne` coincident. Cet opération de rapprochement est appelée **jointure** ou **fusion**.

Elle permet de produire un tableau sur la base de deux autres en s'appuyant sur des descripteurs «commun» aux deux tableaux.

In [None]:
personnes = [
    {"id": 0, "nom": "Durand", "prenom": "Jean-Pierre", "date_naissance": "23/05/1985"},
    {"id": 1, "nom": "Dupont", "prenom": "Christophe", "date_naissance": "15/12/1967"},
    {"id": 2, "nom": "Terta", "prenom": "Henry", "date_naissance": "12/06/1978"}
]

adresses = [
    {"rue": "32 rue Général De Gaulle", "cp": "27315", "ville": "Harquency", "id_personne": 2},
    {"rue": "7 rue Georges Courteline", "cp": "37000", "ville": "Tours", "id_personne": 0}
]

#### Exercice 8

Écrire une fonction `fusionner(tab1, tab2, d1, d2)` qui à partir de deux tableaux (de n-uplets nommés), d'un descripteur du premier et d'un descripteur du second, renvoie un tableau qui «fusionne» les deux tableaux donnés.

Plus précisément, chaque **couple d'enregistrements** des tableaux en entrée *ayant la même valeur pour les descripteurs `d1` et `d2`* produit un enregistrement pour le tableau en sortie. Les descripteurs du tableau en sortie sont les descripteurs des deux tableaux *hormis* `d1` et `d2`.

*Par exemple*, `fusionner(personnes, adresses, "id", "id_personne")` produit:

        [{'nom': 'Durand',
          'prenom': 'Jean-Pierre',
          'date_naissance': '23/05/1985',
          'rue': '7 rue Georges Courteline',
          'cp': '37000',
          'ville': 'Tours'},
         {'nom': 'Terta',
          'prenom': 'Henry',
          'date_naissance': '12/06/1978',
          'rue': '32 rue Général De Gaulle',
          'cp': '27315',
          'ville': 'Harquency'}]

*Aide*: Utiliser deux boucles imbriquées pour considérer tous les couples d'enregistrements possibles; lorsque les enregistrements du couple possèdent la même valeur pour `d1` et `d2`, produire un nouveau dictionnaire en copiant les paires clés-valeurs adéquates, puis l'ajouter à l'accumulateur ...

In [None]:
def fusionner(tab1, tab2, d1, d2):
    tab = [] # l'accumulateur
    pass

fusionner(personnes, adresses, "id", "id_personne")

In [None]:
def fusionner(tab1, tab2, d1, d2):
    tab = []
    for e1 in tab1:
        for e2 in tab2:
            if e1[d1] == e2[d2]:
                d = {}
                for c in e1:
                    if c != d1:
                        d[c] = e1[c]
                for c in e2:
                    if c != d2:
                        d[c] = e2[c]
                tab.append(d)
    return tab
                
fusionner(personnes, adresses, "id", "id_personne")