# Format de données

Dans ce TP, nous allons mettre en œuvre les fonctionnalités liées aux fichiers pour écrire des fonctions de sauvegarde et de chargement de données dans différents formats.

## Travail préliminaire

Dans un travail préliminaire, il vous est demandé de produire un code permettant de transformer un structure de données de type dictionnaire où les valeurs associées à chaque clé $k$ sont des listes $l_k$ de même taille $n$, en une liste de taille $n$ dont tous les éléments sont des dictionnaires de clés $k$ et pour lesquelles les valeurs associées sont les différentes valeurs des listes $l_k$.

Ainsi votre code devra par exemple être capable de transformer la structure suivante :

    {"colonne 1":[12, 36, 32], "colonne 2":[25.4, 78.2, 46.2], "colonne 3":['A', 'B', 'C']}
    
en la structure de données suivante :

    [
        {"colonne 1":12, "colonne 2":25.4, "colonne 3":'A'},
        {"colonne 1":36, "colonne 2":78.2, "colonne 3":'B'},
        {"colonne 1":32, "colonne 2":46.2, "colonne 3":'C'}
    ]
    
Il devra également être opérant sur la structure de donnée suivante :

   {"Nom": ['Shannon', 'Turing', 'Love lace'], "Prénom":['Claude', 'Alan', 'Ada']}
    
pour la transformer en 
    
    [
        {"Nom":'Shannon', "Prénom":'Claude'},
        {"Nom":'Turing', "Prénom":'Alan'},
        {"Nom":'Lovelace', "Prénom":'Ada'}
    ]


In [1]:
import numpy as np
def DicaList(dictionnaire):
    keys=dictionnaire.keys()
    liste=[]
    for i in range(len(keys)):
        element={}
        for key in keys:
            element[key]= dictionnaire[key][i]
        liste.append(element)
    return liste

    
#test
dictionnaire={"colonne 1":[12, 36, 32], "colonne 2":[25.4, 78.2, 46.2], "colonne 3":['A', 'B', 'C']}
dictionnaire1={"Nom": ['Shannon', 'Turing', 'Love lace'], "Prénom":['Claude', 'Alan', 'Ada']}
print(DicaList(dictionnaire))
print(DicaList(dictionnaire1))

[{'colonne 1': 12, 'colonne 2': 25.4, 'colonne 3': 'A'}, {'colonne 1': 36, 'colonne 2': 78.2, 'colonne 3': 'B'}, {'colonne 1': 32, 'colonne 2': 46.2, 'colonne 3': 'C'}]
[{'Nom': 'Shannon', 'Prénom': 'Claude'}, {'Nom': 'Turing', 'Prénom': 'Alan'}]


In [2]:
#Par compréhension de liste
def transform(dictionnaire):
    L=[{k:dictionnaire[k][j] for k in list(dictionnaire.keys())} for j in range(len(list(dictionnaire.values())[0]))]
    return L

In [3]:
#Test
dictionnaire={"colonne 1":[12, 36, 32], "colonne 2":[25.4, 78.2, 46.2], "colonne 3":['A', 'B', 'C']}
print(transform(dictionnaire))

[{'colonne 1': 12, 'colonne 2': 25.4, 'colonne 3': 'A'}, {'colonne 1': 36, 'colonne 2': 78.2, 'colonne 3': 'B'}, {'colonne 1': 32, 'colonne 2': 46.2, 'colonne 3': 'C'}]


## Le format CSV

CSV est l'acronyme de *Comma Separated Values* qui signifie *valeurs séparées par des virgules*. C'est un format utilisé pour sauvegarder des données tabulaires. Il s'agit d'un format texte. La première ligne contient les intitulés (chaînes de caractères) des colonnes séparées par des virgules.
Les lignes suivantes du fichier représentent les différents lignes du tableau de données. Au sein de chaque ligne, les valeurs correspondant aux colonnes sont séparées par des vigules.

Le fichier [exemple.csv](exemple.csv) montre un exemple de fichier avec le format `.csv`.

Ecrire la fonction de sauvegarde dans un fichier `.csv` pour les deux types de structures de données utilisés précédemment (dictionnaire de listes, liste de dictionnaires).

In [4]:
from pandas import DataFrame

In [5]:
#Pour cette question, chaque clé du dictionnaire correspond à une colonne du tableau csv 
#les éléments de la colonne sont ceux de dictionaire[clé] 
def sauvegarde(dictionnaire):
    donnée = DataFrame(dictionnaire, columns= dictionnaire.keys())
    donnée = donnée.to_csv('fichier.csv')

In [6]:
#test
dictionnaire={"colonne 1":[12, 36, 32], "colonne 2":[25.4, 78.2, 46.2], "colonne 3":['A', 'B', 'C']}
sauvegarde(dictionnaire)
#sauvegarde(dictionnaire1)

In [7]:
def sauvegarde1(dico):
    data = DataFrame(dico, columns= dico.keys())
    data = data.to_csv('fichier1.csv')

In [8]:
#test pour dictionnaire1
dico={"Nom": ['Shannon', 'Turing', 'Love lace'], "Prénom":['Claude', 'Alan', 'Ada']}
sauvegarde1(dico)

In [9]:
#Résolution avec csv à la main
import csv
def sauvegarde2(dictionnaire):
    with open('Notes.csv','w', newline='') as Notes:
        writer=csv.DictWriter(Notes, list(dictionnaire.keys()))
        writer.writeheader()
        for i in transform(dictionnaire):
            writer.writerow(i)

#test
dictionnaire={"Nom": ['Shannon', 'Turing', 'Love lace'], "Prénom":['Claude', 'Alan', 'Ada']}
sauvegarde2(dictionnaire)


In [10]:
#Pour une liste de dictionnaire
def sauvegarde3(liste_dico):
    with open('Notes1.csv','w', newline='') as Notes1:
        writer=csv.DictWriter(Notes1, list(liste_dico[0].keys()))
        writer.writeheader()
        for i in liste_dico:
            writer.writerow(i)


In [11]:
liste_dico=[
        {"colonne 1":12, "colonne 2":25.4, "colonne 3":'A'},
        {"colonne 1":36, "colonne 2":78.2, "colonne 3":'B'},
        {"colonne 1":32, "colonne 2":46.2, "colonne 3":'C'}
    ]
sauvegarde3(liste_dico)

Ecrire des fonctions de chargement, c'est-à-dire de lecture des fichiers csv. 

Dans une version initiale, l'ensemble des données seront lues comme des chaînes de caractères. Dans une seconde version, le type de la données devra être interprété de sa syntaxe, en se limitant aux données de type chaînes de caractères et numériques.

In [94]:
#Pour la lecture du fichier sauvegarde(dictionnaire)
def lecture_fichier(fichier):
    data=[]
    with open(fichier,'r') as fichier_csv:
        lines = fichier_csv.readlines()
        for line in lines:
            data.append(line.strip().split(","))
    print(data)

#test
fichier = "fichier.csv"
lecture_fichier(fichier)

[['', 'colonne 1', 'colonne 2', 'colonne 3'], ['0', '12', '25.4', 'A'], ['1', '36', '78.2', 'B'], ['2', '32', '46.2', 'C']]


In [95]:
#Pour la lecture du fichier1 sauvegarde(dictionnaire1)
fichier = "fichier1.csv"
lecture_fichier(fichier)

[['', 'Nom', 'Prénom'], ['0', 'Shannon', 'Claude'], ['1', 'Turing', 'Alan'], ['2', 'Love lace', 'Ada']]


In [96]:
#Dans une seconde version, le type de la données devra être interprété de sa syntaxe,
#en se limitant aux données de type chaînes de caractères et numériques.
def chargement_fichier(fichier):
    donnée=[]
    with open(fichier,'r') as fichier_csv:
        lines = fichier_csv.readlines()
        for line in lines:
            elements=line.strip().split(",")
            for element in elements:
                if element.isdecimal():
                    element = int(element)
                elif element.replace(".","",1).isnumeric():
                    element = float(element)
                else:
                    element = str(element)
                donnée.append(element)
    return donnée

#Test
fichier="fichier.csv"   
print(chargement_fichier(fichier))

['', 'colonne 1', 'colonne 2', 'colonne 3', 0, 12, 25.4, 'A', 1, 36, 78.2, 'B', 2, 32, 46.2, 'C']


### Optionnel

Ecrire les variantes suivantes : 
- La variante française dans laquelle les valeurs sont séparées par des points-virgules et la virgule est utilisée à la place du point comme séparateur entre la partie entière et la partie fractionnaire des données numériques.
- Le format TSV (ou TAB) dans lequel le caractère de séparation des valeurs n'est ni le point, ni le point-virgule, mais la tabulation

In [114]:
#Ecrire les variantes suivantes : 
#La variante française dans laquelle les valeurs sont séparées par des points-virgules
#et la virgule est utilisée à la place du point comme séparateur entre la partie entière
#et la partie fractionnaire des données numériques.


def chargement_variante_française(fichier):
    data=[]
    with open(fichier,'r') as fichier_csv:
        lines = fichier_csv.readlines()
        for line in lines:
            data.append(line.strip().split(";"))
    print(data)

#test
fichier = "test_fr.csv"
chargement_variante_française(fichier)

[['Nom', 'Prénom', 'Valeur1', 'Valeur2'], ['NomPersonne1', 'PrenomPersonne1', '12,4', '31,2'], ['NomPersonne2', 'PrenomPersonne2', '8,3', '21,5'], ['NomPersonne3', 'PrenomPersonne3', '11,3', '14,7']]


In [116]:
#Le format TSV (ou TAB) dans lequel le caractère de séparation 
#des valeurs n'est ni le point, ni le point-virgule, mais la tabulation
def chargement_format_tsv(fichier):
    data=[]
    with open(fichier,'r') as fichier_tsv:
        lines = fichier_tsv.readlines()
        for line in lines:
            data.append(line.strip().split("\t"))
    print(data)

#test
fichier = "test.tsv"
lecture_fichier(fichier)

[['Nom', 'Prénom', 'Valeur1', 'Valeur2'], ['NomPersonne1', 'PrenomPersonne1', '12.4', '31.2'], ['NomPersonne2', 'PrenomPersonne2', '8.3', '    21.5'], ['NomPersonne3', 'PrenomPersonne3', '11.3', '14.7']]


## JSON

Le format JSON (pour *JavaScript Object Notation*) est un format léger pour l'échange de données. Il est notamment documenté sur le [site officiel](https://www.json.org/).

Les objets JSON sont délimités par des accolades et contiennent des données membres. Les données membres sont des couples clés-valeurs, séparés par des virgules. Les clés sont des chaînes de caractères délimités par des guillemets `"`. Les valeurs peuvent être des données numériques, des chaines de caractères délimitées par des guillemets `"`, d'autres objets (comme définis précédemment) ou des tableaux. Un tableau est une liste de valeurs séparées par des virgules et délimitée par des crochets `[` et `]`.

Implémentez une fonction de sauvegarde d'une structure de données de type dictionnaire au format JSON ainsi qu'une fonction de chargement. 

In [74]:
def sauvegarde_json(dictionnaire):
    fichier_json= "exemple_json.json"
    dico_json={}
    with open(fichier_json, 'w') as f:
        f.write("{\n")
        def render(string : str):
            if string.isalpha() :
                return f"\"{string}\""
            else:
                return string
            
        for idx, d in enumerate(dictionnaire.items()):
            if type(d[1]) == list:
              listv = "["
              for id, i in enumerate(d[1]):
                  listv += render(str(i)) +  (""  if id == len(d[1])-1 else "," )
              listv += "]"
              f.write("\t \"" + d[0] + "\":" + listv + (""  if idx == len(dictionnaire)-1 else ",\n" ))
            else: 
                f.write("\t \"" + d[0] + "\":\"" + d[1] + ("\""  if idx == len(dictionnaire)-1 else "\",\n" ))
        f.write("\n}")

#test
dictionnaire={"colonne 1":[12, 36, 32], 
              "colonne 2":[25.4, 78.2, 46.2],
                "colonne 3":['A', 'B', 'C']}
sauvegarde_json(dictionnaire)

Prenez en main le module `json` de python qui permet aisément la sauvegarde via la méthode `json.dump()` et le chargement via la méthode `json.load()` ou `json.loads()`.

In [124]:
#code de la sauvegarde via la méthode `json.dump()`
import json
def save_json(dictionnaire):
    fichier_json = "fichier_json.json"
    with open(fichier_json, 'w') as f:
        json.dump(dictionnaire,f)

#test
dictionnaire={"colonne 1":[12, 36, 32], 
              "colonne 2":[25.4, 78.2, 46.2], "colonne 3":['A', 'B', 'C']}
save_json(dictionnaire)


In [134]:
#code de la lecture d'un fichier json avec json.load() ou json.loads()

def read_json(fichier_json):
    with open(fichier_json, 'r') as f:
        data=json.load(f)
    print(data)

#test
fichier_json="exemple_json.json"
read_json(fichier_json)

{'colonne 1': [12, 36, 32], 'colonne 2': [25.4, 78.2, 46.2], 'colonne 3': ['A', 'B', 'C']}
