# Chapitre 7 : Tables de données

***Importation d'une table depuis un fichier CSV, recherche dans une table, tri d'une table, fusion de tables***

## Partie A - Représentation de données en tables

Une  des  utilisations  principales  de  l’informatique  de  nos  jours  est  le  **traitement  de  quantités  importantes  de  données**  dans  des domaines très variés. Par exemple, un site de commerce en ligne peut avoir à gérer des bases de données pour des dizaines de milliers d’articles en vente, de clients, de commandes. Un hopital doit pouvoir accéder efficacement à tous les détails de traitements de ses patients, etc.

Mais si les logiciels de traitement de base de données sont des programmes hautement spécialisés pour effectuer ce genre de tâches le plus efficacement possible, il est facile de mettre en œuvre les opérations de base dans un langage de programmation comme Python. C'est l'objectif de ce chapitre.

### Format CSV

Le **format CSV** (pour *comma separated values*, c'est-à-dire *valeurs séparées par des virgules*) est un format de fichier texte très pratique pour représenter des données structurées. Dans ce format, chaque ligne représente un **enregistrement** et chaque colonne représente un **champ** de l’enregistrement. Les champs sont séparés par une virgule, d’où le nom CSV.

En pratique, on peut choisir le caractère utilisé pour  séparer  les  différents  champs  et  on  utilise  parfois, plutôt qu'une virgule,  un  point-virgule,  une  tabulation, deux  points ou une barre verticale.
Nous pouvons enfin remarquer que la première ligne d’un tel fichier est généralement utilisée pour indiquer le **nom des différents champs**. Dans ce cas, le premier enregistrement apparaît sur la deuxième ligne du fichier et non sur la première.

Dans tout ce chapitre, nous utiliserons les données contenues dans le fichier ``prefectures.csv``, dont voici les 20 premières lignes :

`dep,ville,dep_nom,lat,long,CL_reg`<br>
`1,Bourg-en-Bresse,Ain,46.202500000000001,5.221944444444444,0`<br>
`2,Laon,Aisne,49.562222222222225,3.622500000000000,0`<br>
`3,Moulins,Allier,46.568333333333335,3.334444444444444,0`<br>
`4,Digne-les-Bains,Alpes-de-Haute-Provence,44.092222222222219,6.238055555555555,0`<br>
`5,Gap,Hautes-Alpes,44.557499999999997,6.076111111111111,0`<br>
`6,Nice,Alpes-Maritimes,43.696388888888890,7.275000000000000,0`<br>
`7,Privas,Ardèche,44.735277777777775,4.599444444444444,0`<br>
`8,Charleville-Mézières,Ardennes,49.761388888888888,4.720000000000000,0`<br>
`9,Foix,Ariège,42.967222222222219,1.605833333333333,0`<br>
`10,Troyes,Aube,48.297777777777775,4.078333333333333,0`<br>
`11,Carcassonne,Aude,43.214722222222221,2.353333333333333,0`<br>
`12,Rodez,Aveyron,44.349444444444444,2.574722222222222,0`<br>
`13,Marseille,Bouches-du-Rhône,43.290277777777774,5.380000000000000,1`<br>
`14,Caen,Calvados,49.180000000000000,-0.365277777777778,0`<br>
`15,Aurillac,Cantal,44.929166666666667,2.446944444444445,0`<br>
`16,Angoulême,Charente,45.645833333333336,0.156944444444444,0`<br>
`17,La Rochelle,Charente-Maritime,46.157499999999999,-1.157222222222222,0`<br>
`18,Bourges,Cher,47.081111111111113,2.395277777777778,0`<br>
`19,Tulle,Corrèze,45.271111111111111,1.768888888888889,0`

**Question 1 :** Ouvrir avec un éditeur de texte le fichier ``prefectures.csv`` et décrire quel est le contenu du fichier. En particulier, quel est le nombre d'enregistrements, à quoi correspondent-ils, et quels en sont les différents champs ?

### Importation d'une table depuis un fichier CSV

Pour pouvoir manipuler avec Python les données enregistrées dans le fichier CSV, il faut commencer par **importer** ces données et les **stocker dans un tableau**. Pour réaliser cette opération, on peut définir la fonction ``importer_donnees`` :

In [None]:
import csv

def importer_donnees(nom_de_fichier):
    tab = []
    with open(nom_de_fichier, 'r', encoding = 'utf-8') as fichier:
        donnees = csv.DictReader(fichier, delimiter = ',')
        for enregistrement in donnees:
            tab.append(dict(enregistrement))
    return tab

In [None]:
pref = importer_donnees('prefectures.csv')

**Question 2 :** Ecrire la spécification de la fonction ``importer_donnees``.

**Question 3 :** Après avoir exécuté la cellule suivante et affiché les cinq premiers éléments de ``pref``, dire quel est le type de ces éléments.

In [None]:
for k in range(5):
    print(pref[k])

On constate que, lors de l'importation, **tous les champs sont des chaînes de caractères**. Pour faire en sorte que la latitude et la longitude des différentes préfectures soit de type numérique, exécuter la cellule ci-dessous :

In [None]:
for k in range(len(pref)):
    pref[k]['lat'] = float(pref[k]['lat'])
    pref[k]['long'] = float(pref[k]['long'])

**Question 4 :** Ecrire des lignes de code permettant de faire en sorte que le champ ``'CL_reg'`` soit de type booléen.

<div class="rq">
    Après l'<b>importation</b> d'une table de données, cette étape de modification des types fait partie de ce que l'on appelle la <b>validation</b> des données. C'est une étape nécessaire pour pouvoir utiliser efficacement la table.</div>

## Partie B - Recherche dans une table

Une fois que la table est stockée en mémoire sous la forme d'un tableau de dictionnaires, il est possible d'effectuer des recherches dans la table.

### Affichage de données

Par exemple, voici des lignes de code permettant d'afficher le nom des 101 départements français :

In [None]:
for k in range(len(pref)):
    print(pref[k]['dep_nom'], end = '  ')

**Question 5 :** Ecrire des lignes de code permettant d'afficher le nom des villes préfectures.

**Question 6 :** Ecrire des lignes de code permettant d'afficher le nom des départements dont la préfecture contient la lettre X.

**Question 7 :** Ecrire des lignes de code permettant d'afficher les préfectures dont la latitude est comprise entre 44° et 46° et dont la longitude est comprise entre 2° et 4°.

**Question 8 :** Ecrire des lignes de code permettant d'afficher le nom et les coordonnées géographiques des 18 capitales de région (arrondies à deux chiffres après la virgule).

### Comptage de données

**Question 9 :** Ecrire des lignes de code permettant compter le nombre de villes préfectures situées à l'ouest du méridien de Greenwich, c'est-à-dire dont la longitude est négative.

**Question 10 :** Ecrire des lignes de code permettant compter le nombre de villes préfectures situées au nord de Paris.

## Partie C - Tri d'une table

Pour exploiter les données, il peut être intéressant de les trier. Une utilisation possible est l’obtention du classement des entrées selon tel ou tel critère.

On ne peut pas directement trier le tableau `pref`. Il faut indiquer selon quels critères on veut effectuer ce tri. Pour cela, on commence par définir une fonction qui renvoie la valeur utilisée pour le tri.

Concrètement, si on souhaite trier la table `pref` en fonction de la latitude de la ville préfecture, on commence par définir la fonction suivante :

In [None]:
def cle_latitude(d):
    """
    Retourne la valeur associée à la clé 'lat' dans le dictionnaire d
    - Entrée : d (dictionnaire contenant au moins la clé 'lat')
    - Sortie : (nombre)
    """
    return d['lat']

Pour trier la table, il suffit alors d'utiliser la commande `.sort()` avec l'argument `key` égal à la fonction de tri définie précédemment :

In [None]:
pref.sort(key = cle_latitude)

On peut alors afficher la liste des préfectures dans l'ordre croissant de leur latitude, c'est-à-dire du sud au nord :

In [None]:
for k in range(len(pref)):
    print(pref[k]['ville'], end = '  ')

Si l'on préfère afficher les villes du nord au sud, et donc par ordre décroissant des latitudes, on rajoute à la commande `.sort()` l'argument supplémentaire `reverse = True` :

In [None]:
pref.sort(key = cle_latitude, reverse = True)

In [None]:
for k in range(len(pref)):
    print(pref[k]['ville'], end = '  ')

**Question 11 :** Ecrire des lignes de code permettant d'afficher les préfectures françaises d'ouest en est.

**Question 12 :** Ecrire des lignes de code permettant d'afficher les capitales régionales françaises du nord au sud.

En utilisant la commande `.sort()`, nous avons modifié la table `pref` en mémoire : l'index de chaque dictionnaire a été modifié dans le tableau `pref`. Si on souhaite garder intacte la table initiale, il faut utiliser la fonction `sorted()` à la place de la commande `.sort()` :

In [None]:
pref = importer_donnees('prefectures.csv')

for k in range(len(pref)):
    pref[k]['lat'] = float(pref[k]['lat'])
    pref[k]['long'] = float(pref[k]['long'])
    pref[k]['CL_reg'] = bool(int(pref[k]['CL_reg']))

pref2 = sorted(pref, key = cle_latitude, reverse = True)

In [None]:
for k in range(len(pref)):
    print(pref[k]['ville'], end = '  ')

In [None]:
for k in range(len(pref2)):
    print(pref2[k]['ville'], end = '  ')

**Question 13 :** Ecrire des lignes de code permettant d'afficher les noms des départements français dans l'ordre alphabétique, sans modifier la table `pref` :

**Question 14 :** Ecrire des lignes de code permettant d'afficher les préfectures dans l'ordre alphabétique, sans modifier la table `pref` :

## Partie D - Fusion de deux tables

Le fichier `population.csv` (créé à partir de données récoltées sur le site de l'INSEE) contient la population estimée de chaque département français au 1er janvier 2020, ainsi que la répartition de cette population par tranche d'âge :

<div>
    		<table align = "center">
			<tr>
                <th><center>Tranche</center></th>
                <th><center>Population</center></th>
            </tr>
            <tr>
                <td><center>A</center></td>
                <td><center>0 à 19 ans</center></td>
            </tr>
            <tr>
                <td><center>B</center></td>
                <td><center>20 à 39 ans</center></td>
            </tr>
            <tr>
                <td><center>C</center></td>
                <td><center>40 à 59 ans</center></td>
            </tr>
            <tr>
                <td><center>D</center></td>
                <td><center>60 à 74 ans</center></td>
            </tr>
            <tr>
                <td><center>E</center></td>
                <td><center>plus de 75 ans</center></td>
            </tr>
		</table>
</div>

**Question 15 :** Ecrire des lignes de code permettant d'importer les données du fichier `population.csv` dans un tableau `pop` composé de dictionnaires. Les populations seront stockées sous forme d'entiers.

Puisque les deux tables `pref` et `pop` possèdent en commun le champ `dep`, il semble intéressant de pouvoir créer une table unique regroupant les données présentes dans chacune des deux tables. On parle de **jointure** des deux tables.

On commence par créer une fonction `fusion` dont le rôle est de fusionner deux dictionnaires en un seul :

In [None]:
def fusion(d1, d2):
    """
    Fusionne deux dictionnaires
    - Entrées : d1 (dictionnaire contenant les clés 'dep', 'dep_nom', 'ville', 'lat' et 'long')
                d2 (dictionnaire contenant les clés 'dep', 'popA', 'popB', 'popC', 'popD', 'popE' et 'pop')
    - Sortie : (dictionnaire unique contenant toutes les clés citées précédemment)
    """
    return {'dep' : d1['dep'], 'dep_nom' : d1['dep_nom'], 'ville' : d1['ville'], 'lat' : d1['lat'], 'long' : d1['long'],
           'popA' : d2['popA'], 'popB' : d2['popB'], 'popC' : d2['popC'], 'popD' : d2['popD'], 'popE' : d2['popE'],
           'pop' : d2['pop']}

La jointure des deux tables d'effectue alors à l'aide d'une double boucle :

In [None]:
table = []
for d1 in pref:
    for d2 in pop:
        if d1['dep'] == d2['dep']:
            table.append(fusion(d1, d2))

Voici les cinq premiers éléments de la table ainsi obtenue :

In [None]:
for k in range(5):
    print(table[k])

<div class="rq">
    On constate que chaque élément de <code>table</code> est un dictionnaire possédant à la fois les clés issues des enregistrements du tableau <code>pref</code> et du tableau <code>pop</code>.</div>

Il est enfin possible d'enregistrer la nouvelle table dans un ficher CSV, grâce à la fonction suivante :

In [None]:
import csv

def exporter_donnees(nom_de_fichier, tab):
    """
    Exporte les données de tab vers un fichier CSV
    - Entrée : nom_de_fichier (chaîne de caractères correspondant à un nom de fichier CSV), tab (tableau de dictionnaires)
    - Effet de bord : écriture dans un fichier texte
    Attention : le fichier texte est écrasé, son contenu précédent est effacé
    """
    with open(nom_de_fichier, 'w', encoding = 'utf-8') as fichier:
        donnees = csv.DictWriter(fichier, ['dep', 'dep_nom', 'ville', 'lat', 'long', 'popA', 'popB', 'popC',
                                           'popD', 'popE', 'pop'], delimiter = ',')
        donnees.writeheader() # Ecriture des clés sur la première ligne du fichier CSV
        donnees.writerows(tab) # Ecriture des enregistrements à partir de la deuxième ligne du fichier CSV

In [None]:
exporter_donnees('nouveau.csv', table)

## Ce que vous devez savoir

<div class="rq2">
    <ul>
        <li>Importer une table de données depuis un fichier CSV, et stocker le résultat sous forme de tableau de dictionnaires.</li>
        <li>Valider les données, c'est-à-dire modifier leur type pour les rendre utilisables.</li>
        <li>Afficher des données sélectionnées dans une table.</li>
        <li>Compter des données sélectionnées dans une table.</li>
        <li>Définir une fonction de tri utilisable comme argument de la commande <code>.sort()</code> ou de la fonction <code>sorted</code>.</li>
        <li>Utiliser l'argument <code>reverse = True</code> pour effectuer un tri dans l'ordre décroissant.</li>
        <li>Choisir entre la commande <code>.sort()</code> et la fonction <code>sorted</code> en fonction du contexte.</li>
        <li>Fusionner les données contenues dans deux tables.</li>
        <li>Exporter les données dans un fichier CSV.</li>
    </ul>
</div>

## Exercices bilan

### Exercice 1

Ecrire des lignes de code permettant de calculer la population française totale estimée au 1er janvier 2020.

Ecrire des lignes de code permettant d'afficher la liste des dix départements les plus peuplés et leur population, par ordre décroissant de population.

Ecrire des lignes de code permettant d'afficher la liste des dix départements dont la proportion de moins de 20 ans est la plus forte, puis la liste des dix départements pour lesquels cette proportion est la plus faible.

Ecrire des lignes de code permettant d'afficher la liste des dix départements dont la proportion de plus de 75 ans est la plus forte, puis la liste des dix départements pour lesquels cette proportion est la plus faible.

### Exercice 2

Le fichier `emissions_CO2.csv` (créé à partir de données récoltées sur le site de la Banque mondiale) contient les quantités de CO2, en tonnes par habitant, émises par chaque pays de l'Union Européenne, pour les années 2000 et 2010.

Ecrire des lignes de code permettant d'importer les données du fichier. Les quantités de CO2 émises seront stockées sous forme de nombre flottant.

Ecrire des lignes de code permettant d'afficher la liste des pays de l'UE qui ont diminué leurs émissions de CO2 par habitant entre 2000 et 2010.

Ecrire des lignes de code permettant d'afficher le nom des cinq pays qui émettent le plus de CO2 par habitant en 2010, puis le nom des cinq pays qui en émettent le moins.

Ecrire des lignes de code permettant d'afficher, pour chaque pays, le taux d'évolution de ses émissions de CO2 par habitant entre 2000 et 2010. Les pays seront classés de celui qui a le taux d'évolution le plus négatif à celui qui a le taux d'évolution le plus positif.

On rappelle qu'un taux d'évolution se calcule avec la formule suivante : `taux_evolution = (valeur_finale - valeur_initiale) / valeur_initiale`.

Ecrire des lignes de code permettant de stocker dans un nouveau fichier CSV la liste des pays de l'UE et leur taux d'évolution des émissions de CO2 par habitant.