# Réunion et jointure de tables

## Sommaire 
[**1. Réunion de tables**](#reunion)  
[**2. Jointure de tables**](#jointure)  
[**3. Synthèse**](#synthese)  

Lorsqu'on travaille avec des données (en particulier des données tabulées, c'est-à-dire des données en tables), il est fréquent de se retrouver avec plusieurs jeux de données. Une question que l'on peut se poser naturellement est &laquo; comment combiner ces jeux de données en une seule table ? &raquo;. En effet, une fois ces données combinées en une seule table, il est possible de les filtrer, de les trier, de sélectionner des colonnes etc.

Il existe plusieurs façons de &laquo; fusionner &raquo; des données en tables. Selon l'opération qu'on souhaite effectuer, des précautions particulières sont à prendre pour ne pas introduire d'incohérences dans les données.

## 1. Réunion de tables <a id="reunion"></a>
Si on dispose de deux tables de données <font style="color:red">avec la même structure</font> (même nombre d'attributs avec noms et domaines de valeurs identiques), il est possible de les fusionner en construisant <font style="color:red">leur réunion</font> : il s'agit simplement de concaténer dans une même table les lignes/enregistrements des deux tables.  

L'opérateur ``+`` de concaténation de tableaux permet de réaliser facilement cette opération en Python.


<font style="color:rgb(113,65,224)">**Exercice 1**   
Essayer par exemple le code suivant.</font>

In [None]:
premiere1 = [{'élève': 'Donald', 'note': 18}, {'élève': 'Ada', 'note': 20}]
premiere2 = [{'élève': 'Alan', 'note': 19}, {'élève': 'Guido', 'note': 12}]
reunion_1_et_2 = premiere1 + premiere2
reunion_1_et_2

On peut manipuler le résultat obtenu comme table.

<font style="color:rgb(113,65,224)">**Exercice 2**   
Essayer maintenant le code de la cellule suivante.</font>

In [None]:
premiere3 = [
             {'prénom': 'Brian', 'nom': 'Kernighan', 'note': 14}, 
             {'prénom': 'Linus', 'nom': 'Torvalds', 'note': 8}
            ]

reunion_1_et_3 = premiere1 + premiere3
reunion_1_et_3

On remarque qu'on ne peut pas manipuler le résultat obtenu comme une table.

### 2. Jointure de tables <a id="jointure"></a>

Si deux tables <font style="color:red">n'ont pas la même structure (différence sur certains attributs) mais partagent un ou plusieurs attributs</font>, on peut les fusionner en construisant <font style="color:red">leur jointure</font> : on rapproche les enregistrements des deux tables qui ont la même valeur sur le(s) attribut(s) commun(s).

Par exemple, on peut construire la jointure des deux tables ci-dessous :

|      nom     |  prénom  |   pseudo  |
|:------------:|:--------:|:---------:|
|    'knuth'   | 'donald' | 'knuth69' |
| 'van rossum' |  'guido' | 'guido42' |  

|   pseudo  | points |
|:---------:|:------:|
| 'knuth69' |   120  |
| 'guido42' |   10   |

On obtient alors la table suivante :

|      nom     |  prénom  |   pseudo  | points |
|:------------:|:--------:|:---------:|:------:|
|    'knuth'   | 'donald' | 'knuth69' |   120  |
| 'van rossum' |  'guido' | 'guido42' |   10   |

<font style="color:rgb(113,65,224)">**Exercice 3**</font>

<font style="color:rgb(113,65,224)">1. Le fichier ``films.csv`` recense les films détenus en DVD par un cinéphile, et le fichier ``realisateurs.csv`` recense des informations sur les réalistaeurs des films de ``films.csv``. Les tables sont séparées pour éviter les redondances car un même réalisateur peut avoir tourné plusieurs films.  
 
Charger les deux tables dans les variables `films` et `realisateurs` puis afficher les 5 premières lignes de ces 2 fichiers.</font>

In [None]:
# À vous de jouer !

<font style="color:rgb(113,65,224)">2. On veut fusionner les tables ``films.csv`` et ``realisateurs.csv`` par jointure sur l'attribut ``'nom'`` du réalisateur. Compléter le code ci-dessous :
</font>

In [None]:
# À vous de jouer !
def fusion_enregistrement(f, r):
    return {'titre': f['titre'], 'année': f['année'],
            'nom réalisateur': r['nom'], 
            'prénom réalisateur': r['prénom'],
            'pays réalisateur': r['pays']
           }


def fusion_tables(films, realisateurs):
    fusion = []
    for f in films:
        for r in realisateurs:
            ...
            ...
    return fusion

In [None]:
# À essayer
jointure = fusion_tables(films, realisateurs)
jointure

<font style="color:rgb(113,65,224)">3. Exécuter les instructions ci-dessous. Quelle incohérence peut-on observer ? Explication ?
</font>

In [None]:
print([enreg for enreg in jointure if enreg['titre'] == 'CQ'])
print(len(jointure), len(films))

<font style="color:rgb(113,65,224)">4. Exécuter les instructions ci-dessous. Quelle incohérence peut-on observer ? Explication ?
</font>

In [None]:
print([enreg for enreg in films if enreg['titre'] == 'Autant en emporte le vent'])
print([enreg for enreg in jointure if enreg['titre'] == 'Autant en emporte le vent'])

<font style="color:rgb(113,65,224)">5. Ouvrir les fichiers ``films_idr.csv`` et ``realisateurs_id.csv``. On a rajouté dans le fichier des réalisateurs un identifiant unique (le numéro de l'enregistrement) qu'on a reporté dans le fichier des films à la place du nom du réalisateur.
    
Compléter le code ci-dessous pour réaliser la fusion par jointure des tables ``films_idr.csv`` et ``realisateurs_id.csv``.
</font>

In [None]:
# À vous de jouer
films_idr = ...
realisateurs_id = ...


def fusion_tables_id(films, realisateurs):
    pass


jointure_id = fusion_tables_id(films_idr, realisateurs_id)
jointure_id

<font style="color:rgb(113,65,224)">6. Les incohérences repérées dans les questions précédentes sont-elles toujours présentes ? Quels sont les avantages de l'identifiant unique ?
</font>

*Répondre ici*

### 3. Synthèse <a id="synthese"></a>
La fusion de tables peut se faire de plusieurs façons. 
- Si les tables ont <font style="color:red">les mêmes attributs</font> alors on peut les concaténer (il s'agit de <font style="color:red">la réunion</font>). 
- Sinon, si les tables ont <font style="color:red">un ou plusieurs attributs communs</font>, on peut réaliser <font style="color:red">une jointure</font> qui rapproche les enregistrements qui ont les mêmes valeurs sur les attributs partagés.


Avec les bases de données, étudiées en terminale, des opérations de jointure permettront de créer de nouvelles tables pour rassembler des informations issues de plusieurs tables.