# Format de données

Dans ce TP, nous allons mettre en œuvre les fonctionnalités liées aux fichiers pour écrire des fonctions de sauvegarde et de chargement de données dans différents formats.

## Travail préliminaire

Dans un travail préliminaire, il vous est demandé de produire un code permettant de transformer un structure de données de type dictionnaire où les valeurs associées à chaque clé $k$ sont des listes $l_k$ de même taille $n$, en une liste de taille $n$ dont tous les éléments sont des dictionnaires de clés $k$ et pour lesquelles les valeurs associées sont les différentes valeurs des listes $l_k$.

Ainsi votre code devra par exemple être capable de transformer la structure suivante :

    {"colonne 1":[12, 36, 32], "colonne 2":[25.4, 78.2, 46.2], "colonne 3":['A', 'B', 'C]}
    
en la structure de données suivante :

    [
        {"colonne 1":12, "colonne 2":25.4, "colonne 3":'A'},
        {"colonne 1":36, "colonne 2":78.2, "colonne 3":'B'},
        {"colonne 1":32, "colonne 2":46.2, "colonne 3":'C'}
    ]
    
Il devra également être opérant sur la structure de donnée suivante :

    {"Nom": ['Shannon', 'Turing', 'Lovelace'], "Prénom":['Claude', 'Alan', 'Ada']}
    
pour la transformer en 
    
    [
        {"Nom":'Shannon', "Prénom":'Claude'},
        {"Nom":'Turing', "Prénom":'Alan'},
        {"Nom":'Lovelace', "Prénom":'Ada'}
    ]


In [8]:
dico =  {"colonne 1":[12, 36, 32], "colonne 2":[25.4, 78.2, 46.2], "colonne 3":['A', 'B', 'C']}

def transform_data(dico : dict):
    #en_data = dico.items()[0][1]
   
    len_data = list(dico.values())
    len_data = len(len_data[0])
    assert all(len(value) == len_data for value in dico.values())
    res = []

    for i in range(len_data):
        d = {key : dico[key][i] for key in dico.keys()}
        res.append(d)
    return res
    
    

transform_data(dico)

[{'colonne 1': 12, 'colonne 2': 25.4, 'colonne 3': 'A'},
 {'colonne 1': 36, 'colonne 2': 78.2, 'colonne 3': 'B'},
 {'colonne 1': 32, 'colonne 2': 46.2, 'colonne 3': 'C'}]

## Le format CSV

CSV est l'acronyme de *Comma Separated Values* qui signifie *valeurs séparées par des virgules*. C'est un format utilisé pour sauvegarder des données tabulaires. Il s'agit d'un format texte. La première ligne contient les intitulés (chaînes de caractères) des colonnes séparées par des virgules.
Les lignes suivantes du fichier représentent les différents lignes du tableau de données. Au sein de chaque ligne, les valeurs correspondant aux colonnes sont séparées par des vigules.

Le fichier [exemple.csv](exemple.csv) montre un exemple de fichier avec le format `.csv`.

Ecrire la fonction de sauvegarde dans un fichier `.csv` pour les deux types de structures de données utilisés précédemment (dictionnaire de listes, liste de dictionnaires).

True

In [33]:
def save_list_csv(liste : list, filename="output_liste.csv"):
  
    # for i , j in liste:
    #     assert len(i) == len(j)
    #     assert i.keys() == j.keys()

    headers = list(liste[0].keys())
    # try:
    with open(filename , "w") as f:
        f.writelines(",".join(headers))
        f.writelines("\n")
        for dics in liste:
            row = [ str(word) for word in dics.values() ]
            f.writelines(",".join(row))
            f.writelines("\n")
        return True
    # except Exception:
    #     return False


save_list_csv( [
        {"colonne 1":12, "colonne 2":25.4, "colonne 3":'A'},
        {"colonne 1":36, "colonne 2":78.2, "colonne 3":'B'},
        {"colonne 1":32, "colonne 2":46.2, "colonne 3":'C'}
    ])

True

In [None]:
def save_list_csv(liste : list, filename="output.csv"):
    chaine = ""
    chaine += ";".join(liste)
    try:
        with open(filename , "w") as f:
            f.write(chaine)
            return True
    except:
        return False

Ecrire des fonctions de chargement, c'est-à-dire de lecture des fichiers csv. 

Dans une version initiale, l'ensemble des données seront lues comme des chaînes de caractères. Dans une seconde version, le type de la données devra être interprété de sa syntaxe, en se limitant aux données de type chaînes de caractères et numériques.

In [5]:
def save_dict_csv(dico : dict, filename="output.csv"):
    len_data = list(dico.values())
    len_data = len(len_data[0])
    assert all(len(value) == len_data for value in dico.values())
    print(dico.keys())
    with open(filename , "w") as f:
        headers = ",".join(list(dico.keys()))
        f.writelines(headers)
        f.writelines("\n")
        for i in range(len_data):
            row = [str(dico.get(key)[i]) for key in dico]
            row = ",".join(row)
            f.writelines(row)
            f.writelines("\n")
        return True
    return False


save_dict_csv(dico)

dict_keys(['colonne 1', 'colonne 2', 'colonne 3'])


True

### Optionnel

Ecrire les variantes suivantes : 
- La variante française dans laquelle les valeurs sont déparées par des points-virgules et la virgule est utilisée à la place du point comme séparateur entre la partie entière et la partie fractionnaire des données numériques.
- Le format TSV (ou TAB) dans lequel le caractère de séparation des valeurs n'est ni le point, ni le point-virgule, mais la tabulation

In [6]:
def save_dict_csv_fr(dico : dict, filename="output_fr.csv"):
    len_data = list(dico.values())
    len_data = len(len_data[0])
    assert all(len(value) == len_data for value in dico.values())
    print(dico.keys())
    with open(filename , "w") as f:
        headers = ";".join(list(dico.keys()))
        f.writelines(headers)
        f.writelines("\n")
        for i in range(len_data):
            row = [str(dico.get(key)[i]) for key in dico]
            row = [word.replace(".", ",") for word in row]
            row = ";".join(row)
            f.writelines(row)
            f.writelines("\n")
        return True
    return False


save_dict_csv_fr(dico)

dict_keys(['colonne 1', 'colonne 2', 'colonne 3'])


True

In [7]:
def save_dict_csv_tab(dico : dict, filename="output_tab.csv"):
    len_data = list(dico.values())
    len_data = len(len_data[0])
    assert all(len(value) == len_data for value in dico.values())
    print(dico.keys())
    with open(filename , "w") as f:
        headers = "\t".join(list(dico.keys()))
        f.writelines(headers)
        f.writelines("\n")
        for i in range(len_data):
            row = [str(dico.get(key)[i]) for key in dico]
            row = "\t".join(row)
            f.writelines(row)
            f.writelines("\n")
        return True
    return False


save_dict_csv_tab(dico)

dict_keys(['colonne 1', 'colonne 2', 'colonne 3'])


True

## JSON

Le format JSON (pour *JavaScript Object Notation*) est un format léger pour l'échange de données. Il est notamment documenté sur le [site officiel](https://www.json.org/).

Les objets JSON sont délimités par des accolades et contiennent des données membres. Les données membres sont des couples clés-valeurs, séparés par des virgules. Les clés sont des chaînes de caractères délimités par des guillemets `"`. Les valeurs peuvent être des données numériques, des chaines de caractères délimitées par des guillemets `"`, d'autres objets (comme définis précédemment) ou des tableaux. Un tableau est une liste de valeurs séparées par des virgules et délimitée par des crochets `[` et `]`.

Implémentez une fonction de sauvegarde d'une structure de données de type dictionnaire au format JSON ainsi qu'une fonction de chargement. 

Prenez en main le module `json` de python qui permet aisément la sauvegarde via la méthode `json.dump()` et le chargement via la méthode `json.load()` ou `json.loads()`.

In [26]:
import json

def save_json(dico : dict, filename="output.json"):
    for key in dico:
        if type(dico[key]) == list:
            dico[key] = list(dico[key])

    stringified_dict = json.dumps(dico)
    with open(filename, "w") as f:
        f.write(stringified_dict)
    print("[+] Done")


save_json(dico)



[+] Done


In [25]:
def load_json(filename : str):
    with open(filename, "r") as f:
        stringified_dict = f.read()
        dico = json.loads(stringified_dict)
    return dico

print(load_json("output.json"))

{'colonne 1': [12, 36, 32], 'colonne 2': [25.4, 78.2, 46.2], 'colonne 3': ['A', 'B', 'C']}
