# CH11       LE TRAITEMENT DE DONNEES EN TABLE

Il existe une multitude de façon de représenter les données produites par l'homme : graphiquement, sous forme d'image, de texte, de listes, de tableaux, ... etc. 
Voir cette vidéo sur le *big data* : https://youtu.be/ye-DsD_EHKk

Une façon simple de représenter les données sont les **tables de données** au format CSV, que l’on peut facilement manipuler.

## 1. Structure des données CSV


Les fichiers CSV (ou Comma separator Value) sont des fichiers textes dont des collections d’éléments (ou données)  séparées les une des autres par un séparateur (« ; » ou « , » ou « tabulation » ou autre...). **Chaque ligne du fichier contient une donnée** (ou jeu de données).  Ainsi, les données sont représentées par des lignes et des colonne définies par le séparateur et les retours à la ligne. 
De nombreux logiciels permettent d’éditer, d'exporter et importer des fichiers CSV, comme Excel / Calc, Notepad++, etc.

**Exemple :** 	Un top 10, vu sur deux éditeurs
<table><tr>
        <td><img src="img/mousepad.png"></td>
        <td><img src="img/calc.png" width="80%"></td>
</tr></table>

  - Chaque ligne représente un ensemble des **valeurs** de la donnée, c’est à dire un *p-uplet*.
  - Chaque colonne représente un **attribut** de la donnée ; le type est le même sur toute la colonne.
  - La **table** de données est formée par l’ensemble des lignes. Au croisement ligne/colonne, on a donc la valeur d’un attribut pour une donnée.
    
La 1ère ligne contient les en-têtes, c’est à dire les *descripteurs* de chaque attribut. 

**Exemple :** 
<table><tr>
        <td><img src="img/mousepad.png"></td>
        <td>A la lecture de la ligne N°1, on attend 4 colonnes, donc 4 attributs :

            « Album » et « groupe » → type texte
            « année » et « classement » → type int
La donnée est donc constituée du nom de l’album, du nom du groupe, de l’année de sortie et du classement.
           
Pour la ligne N° 3 : 
            
        La donnée est le tuple ("Paranoid","Black Sabbath",1970,2)
            
        La valeur de l’attribut « année » est 1970.
            



**Remarque :**

Chaque ligne est séparée par un saut de ligne **« \n »** qui n’apparaît pas ici.

Pour que le fichier soit valable et exploitable, il faut impérativement que chaque valeur soit séparée par une **« , »** et que toutes les données aient le même nombre de valeurs.


## 2. Lire / Ecrire des données CSV

### Accéder au contenu
Pour lire dans un fichier de données valide (cf. remarque au-dessus), on peut utiliser le langage python :

In [13]:
import csv
fichier = open("exemple1.csv", encoding="utf-8")
table = list(csv.reader(fichier))

In [14]:
# -*- coding: utf-8 -*-

Cette méthode n'est pas satisfaisante pour deux raisons : 
- la 1ère ligne apparaît alors que ce ne sont pas des données, mais seulement les *descripteurs* des attributs.
- Chaque ligne est représentée par un tableau (liste) : pour obtenir l'année de sortie de l'album "Paranoid", il faut saisir l'instruction :

In [15]:
table[2][2]
# cette instruction manque de lisibilité

'1970'

### Organiser le contenu

Une alternative courante pour organiser le contenu d'une table est la méthode **csv.DictReader()** qui permet d'obtenir un tableau de dictionnaires ordonnés :

In [16]:
fichier = open("exemple1.csv", encoding="utf-8")
table = list(csv.DictReader(fichier))

[OrderedDict([('Album', 'Master of Puppets'),
              ('groupe', 'Metallica'),
              ('année', '1986'),
              ('classement', '1')]),
 OrderedDict([('Album', 'Paranoid'),
              ('groupe', 'Black Sabbath'),
              ('année', '1970'),
              ('classement', '2')]),
 OrderedDict([('Album', 'Rage against the machine'),
              ('groupe', 'Rage against the machine'),
              ('année', '1992'),
              ('classement', '3')]),
 OrderedDict([('Album', 'Ride the lightning'),
              ('groupe', 'Metallica'),
              ('année', '1984'),
              ('classement', '4')]),
 OrderedDict([('Album', 'Rust in peace'),
              ('groupe', 'Megadeth'),
              ('année', '1990'),
              ('classement', '5')]),
 OrderedDict([('Album', 'Metallica'),
              ('groupe', 'Metallica'),
              ('année', '1991'),
              ('classement', '6')]),
 OrderedDict([('Album', 'Toxicity'),
              ('groupe', 'Sy

Les en-têtes n'apparaissent plus et ont été utilisés pour créer des clés de dictionnaire.
Ici, "Album" est la 1ère clé du dictionnaire, "groupe" la 2nde, et ainsi de suite...

Pour obtenir l'année de sortie de l'album "Paranoid", il faut donc maintenant saisir l'instruction plus parlante :


In [17]:
table[1]["année"]

'1970'

**Remarque :**  On peut utiliser d'autres séparateurs, comme **" "** ou **";"**, en ajoutant la commande suivante :

In [18]:
table = list(csv.DictReader(fichier, delimiter=";"))   # pour le ;
table = list(csv.DictReader(fichier, delimiter=" "))   # pour l'espace

### Valider la table

Un problème subsiste cependant :


**OrderedDict([('Album', 'Master of Puppets'),('groupe', 'Metallica'),('année', '1986'), ('classement', '1')])**


On constate que "année" et "classement" sont traités comme des chaînes de caractères, et non des nombres entiers.

Pour valider la table, nous avons une transformation à effectuer : 

In [22]:
def valide(element):
    """ Fonction de validation : transforme les chaînes en int si besoin """
    album = element["Album"]      # on ne change rien sur les 1er et 2dn attributs
    groupe = element["groupe"]
    
    annee = int(element["année"])  # on change le type sur le 3ème et 4ème attributs
    classement = int(element["classement"])
    
    # on renvoie le dictionnaire modifié
    return {"Album": album, "groupe": groupe, "année": annee, "classement": classement}

table_valide = [valide(element) for element in table]

Cette méthode permet de conserver la table originale **table** et de créer une sconde table validée **table_valide**

On peut également modifier *en place* la table originale. Cette est plus rapide, mais l'inconvénient est que les modifications écrasent les données précédentes :

In [19]:
for element in table:
    element["année"] = int(element["année"])
    element["classement"] = int(element["classement"])

### Ecrire dans une table

Le module CSV permet également d'écrire simplement dans une table.

In [23]:
sortie = open("nouveau.csv", "w", encoding="utf-8")   # ouverture & création d'un nouveau fichier CSV en mode écriture ("w")

fichier = csv.DictWriter(sortie, fieldnames=["Album", "groupe", "année", "classement"])
fichier.writeheader()

# écriture de chaque élément de la table dans une ligne du fichier CSV
for element in table_valide:    
    fichier.writerow(element)

sortie.close()

La méthode *writeheader()* permet de saisir les attributs et le méthode *writerow()* va compléter les lignes unes à unes. 
Par défaut, le séparateur est ",".

On peut donc rajouter des lignes dans une table déjà créée avec : 

In [24]:
sortie = open("nouveau.csv", "a", encoding="utf-8")   # ouverture du fichier CSV en mode ajout ("a")

fichier = csv.DictWriter(sortie, fieldnames=["Album", "groupe", "année", "classement"])

# ajout d'une ligne dans le fichier CSV
fichier.writerow({'Album': 'Ripley From Mars', 'groupe': 'Ripley From Mars', 'année': 2021, 'classement': 1 })

sortie.close()

## 3. Recherche dans une table

<img src="img/table.jpg">

**Recherches simples**


Stocker et organiser les données a comme intérêt de pouvoir y accéder efficacement.
En python, nous pouvons lire les données d'une table avec les méthodes précédentes, et y rechercher une information particulière :

In [None]:
# Est-ce que "Metallica" appartient à la table ?
def appartient(objet, tab):
    """ True si objet est une valeur de la clé "groupe" de la table tab 
        False sinon"""
    for x in tab:
        if x["groupe"] == objet:
            return True
        return False

In [None]:
# Quelle est le classement de l'album "From mars to sirius" ?
def classement_de(objet, tab):
    """ Renvoie le classement de l'album objet de la table tab"""
    for x in tab:
        if x["Album"] == objet:
            return x["classement"]

In [None]:
# Combien de fois "Metallica" revient-il dans la table ?
def comptage(objet, tab):
    """ renvoie le nombre de fois qu'une valeur de la clé "groupe" vaut objet de la table tab """
    compteur = 0
    for x in tab:
        if x["groupe"] == objet:
            compteur = compteur + 1
    return compteur

<img src="https://ih0.redbubble.net/image.371730022.8106/flat,550x550,075,f.u1.jpg" width="20%" >

**<u>Application :</u>** Voir Exercices 1 et 2

**Recherche de doublons** 

On dit qu'il y a doublon lorsque l'on trouve *plusieurs fois la même ligne dans un fichier CSV*, c'est à dire que la donnée apparait 2 fois au mmoins.

Cela peut être plus ou moins gênant suivant l'utilisation de la table. Par exemple, si il s'agit d'une table contenant les albums musicaux écoutés par un utilisateur, il n'y a pas de gros risque en cas de doublon. Par contre, si il s'agit d'une table de transaction bancaire, une opération comptée deux fois peut avoir de lourdes conséquences...

Si il y en a, le plus simple est donc de le supprimer :   ***seek and destroy !***

In [26]:
# Recherche de doublon
def doublon(tab):
    """ renvoie True si il existe plus d'un fois la même ligne dans la table (doublon) """
    
    for i in range(len(tab)):  # balaye l'ensemble des lignes de la table
        
        double = tab[i]       
        for j in range(i+1, len(tab)):   # balaye les lignes suivantes
            
            if tab[j] == double:    # si une ligne est égale à la première, c'est un doublon
                return True
    return False

*(l'algo de recherche de doublon doit être connue, mais vous n'avez pas à savoir le faire)*

Y a-t-il des doublons dans la table *exemple1.csv* ??

In [27]:
doublon(table)

False

... Et dans la table *exemple2.csv* ?

In [28]:
fichier = open("exemple2.csv", encoding="utf-8")
table2 = list(csv.DictReader(fichier))
doublon(table2)

True

... Et dans la table *exemple3.csv* ?

In [29]:
fichier = open("exemple3.csv", encoding="utf-8")    
table3 = list(csv.DictReader(fichier))
doublon(table3)

True

Lorsque qu'un doublon est trouvé, on peur le supprimer dans la foulée : 

In [30]:
# Recherche & destruction d'un doublon
def doublon_nettoyage(tab):
    """ supprime la ligne si elle existe deux fois dans la table (doublon) """

    liste_doublons = []   # liste des doublons et de leur indice
    indices_doublons = []

    for i in range(len(tab)):  # balaye l'ensemble des lignes de la table
        for j in range(i+1, len(tab)):   # balaye les lignes suivantes de la ligne en cours
            if tab[j] == tab[i]: ## si une ligne est égale à la première, c'est un doublon
                liste_doublons.append(tab[j])
                indices_doublons.append(j)

    # boucle de suppression
    liste_propre = []
    for i in range(len(tab)):
        if not(i in indices_doublons):
            liste_propre.append(tab[i])

    return liste_propre

doublon_nettoyage(table3)   # on détruit les doublons de table3

[OrderedDict([('Album', 'Master of Puppets'),
              ('groupe', 'Metallica'),
              ('année', '1986'),
              ('classement', '1')]),
 OrderedDict([('Album', 'Paranoid'),
              ('groupe', 'Black Sabbath'),
              ('année', '1970'),
              ('classement', '2')]),
 OrderedDict([('Album', 'Rage against the machine'),
              ('groupe', 'Rage against the machine'),
              ('année', '1992'),
              ('classement', '3')]),
 OrderedDict([('Album', 'Ride the lightning'),
              ('groupe', 'Metallica'),
              ('année', '1984'),
              ('classement', '4')]),
 OrderedDict([('Album', 'Rust in peace'),
              ('groupe', 'Megadeth'),
              ('année', '1990'),
              ('classement', '5')]),
 OrderedDict([('Album', 'Metallica'),
              ('groupe', 'Metallica'),
              ('année', '1991'),
              ('classement', '6')]),
 OrderedDict([('Album', 'Toxicity'),
              ('groupe', 'Sy

Mais attention : les objet *table* utilisés dans ces programmes python sont des listes de dictionnaires (= des dictionnaires ordonnés), ce ne sont pas des fichiers CSV.

Autrement dit, **supprimer un doublon dans *table* ne le supprime pas du fichier CSV !**

In [31]:
# on créée un nouveau fichier à partir de table3 qui ne contient plus les doublons
sortie = open("exemple4.csv", "w", encoding="utf-8" )   

fichier = csv.DictWriter(sortie, fieldnames=["Album", "groupe", "année", "classement"])
fichier.writeheader()
for element in table3:
    fichier.writerow(element)

sortie.close()

**Remarque :**

Un doublon peut se produire lors de la fusion de deux fichiers CSV. Il peut aussi y avoir doublon sur certains attributs uniquement, mais ce sont des cas plus spécifiques.

## 4. Tri et fusion de tables

Il est fréquent de travailler avec plusieurs tables : comment combiner ces tables en une seule ?
On parle alors de **fusion de tables**. Mais cette opération est facilement applicable si auparavant les tables sont triées suivant la même clé.

### Tri d'une table

La fonction *sorted()* de python renvoie un tableau (ou une liste) trié. On peut l'appliquer dans notre cas :


In [32]:
table_trie = sorted(table)

... C'est une une erreur car **table** est une liste de dictionnaires qui ne sont pas *comparables* entre eux comme peuvent l'être des entiers par exemple.
Il faut donc indiquer quelles valeurs la fonction *sorted()* doit comparer, c'est à dire les *valeurs* d'une clé des dictionnaires.

Si on veut trier par date de sortie par exemple :

In [None]:
# ETAPE 1 : création d'une fonction qui renvoie la valeur de la clé "année"
def date_sortie(tab):   
    return tab["année"]

In [None]:
# ETAPE 2 : application du tri sorted() à la table avec l'argument key pointant la valeur souhaitée
table_trie = sorted(table, key=date_sortie)   # key vaut le nom de la fonction

Dans la même idée, si on veut trier par date puis par classement, on créé une fonction qui renvoie un tuple :

In [None]:
def date_puis_classement(tab):   
    return tab["année"], tab["classement"]

table_trie2 = sorted(table, key=date_puis_classement)   # key vaut le nom de la fonction

**<u>Application :</u>** Voir Exercice 3

### Fusion

<img src="https://static0.cbrimages.com/wordpress/wp-content/uploads/2018/04/Fusion-Dragon-Ball-Z-Goten-Trunks-Fusion-Dance.jpg" width="30%" >

Lors de la fusion de table, le cas le plus simple est que les 2 tables possèdent les mêmes attributs.

Par exemple, la liste des prénoms de naissance donnés à Nantes en 2020 et 2019.
(tiré de <a href="https://www.data.gouv.fr/fr/datasets/prenoms-des-enfants-nes-a-nantes-1/#_">ce lien</a>)

Soit **prenom2020.csv** et **prenom2019.csv** nos deux tables à regrouper en une seule :

In [36]:
# On ouvre les fichiers
fichier1 = open("prenom2019.csv", encoding="utf-8")   
fichier2 = open("prenom2020.csv", encoding="utf-8") 
pr_2019 = list(csv.DictReader(fichier1))
pr_2020 = list(csv.DictReader(fichier2))

# On regroupe simplement par une somme (= concaténation):
prenom = pr_2019 + pr_2020

In [37]:
#  et on écrit dans prenom.csv
sortie = open("prenom.csv", "w", encoding="utf-8")   # création du nouveau fichier
fichier = csv.DictWriter(sortie, fieldnames=["prenom", "sexe", "annee_naissance", "occurrence"])
fichier.writeheader()

# écriture de chaque élément de la table dans une ligne du fichier CSV
for element in prenom:   
    fichier.writerow(element)
sortie.close()

**<u>Application :</u>** Voir Exercices 4 et 5