# Manipulation de données en table , csv



 <img src="datascientist.jpg" alt="Data scientist" style="width:400px;"> 

Notions Introduites : 

    1. Conversion de fichier csv en table
    2. Sauvegarde de  table au format csv
    3. Interrogation , tri, selection de table
    4. Fusion de tables
    
Avec l'évolution des technologies, la masse de données enregistrées évolue sans cesse (sciences de l'ingénieur, intelligence artificielle, économie, finances). Le traitement de ces données est un enjeu majeur dans ces domaines. Les informaticiens qui manipulent et analysent ces données sont appelés des **Data Scientits** . 
Les données collectées sont d'une importance telle qu'il n'est plus possible de les exploiter dans un tableur.



Le format csv (pour comma separated values, soit en français valeurs séparées par des virgules) est un format très pratique pour représenter des données structurées. Dans ce format, chaque ligne représente un enregistrement et, sur une même ligne, les différents champs de l’enregistrement sont séparés par une virgule (d’où le nom). En pratique, on peut spécifier le caractère utilisé pour séparer les différents champs et on utilise fréquemment un point-virgule (car la virgule est destinée au chiffre décimal en France), une tabulation ou deux points pour cela. Notons enfin que la première ligne d’un tel fichier est souvent utilisée pour indiquer le nom des différents champs. Dans ce cas, le premier enregistrement apparaî en deuxième ligne du fichier.

Dans la suite, nous allons utiliser un fichier nommé countries.csv qui contient quelques données sur les différents pays du monde. En voici les premières lignes :

---

> 1  iso;name;area;population;continent;currency_code;currency_name;capital
>
> 2  AD;Andorra;468.0;84000;EU;EUR;Euro;6
>
> 3  AE;United Arab Emirates;82880.0;4975593;AS;AED;Dirham;21
>
> 4  AF;Afghanistan;647500.0;29121286;AS;AFN;Afghani;81

---

Les champs sont clairement séparés par des points-virgules. Les données sont issues du site http://www.geonames.org  et ont été légèrement simplifiées.

### 1) Conversion de fichier csv en table

Une façon de charger un fichier csv en Python est d’utiliser la bibliothèque du même nom. Voici une portion de code permettant de charger le fichier countries.csv avec des points-virgules comme délimitations : 

In [None]:
import csv
pays = []
with open('countries.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=';')
    for row in spamreader:
        pays.append(row)
print(pays [:4])

#### A faire 1 : 

1. Explorer le contenu de la variable pays 

2. Créer une fonction permettant de prendre en entrée le chemin d'un fichier csv et qui retourne une table. Vous pourrez tenir compte des délimitations.

In [None]:
# Réponse :
import csv
def transforme_en_table(fichier,delimitation):
    ''' indiquer le programme à effectuer '''

On s’aperçoit que lors de la lecture du fichier, la première ligne n’a pas été utilisée comme descriptions des champs et le premier enregistrement, concernant Andorre, apparaît dans pays[1] . PLus gênant, le lien entre les valeurs du tableau pays[1] et le nom des enregistrements, contenus dans pays[0] , n’est pas direct.
Pour y remédier, nous allons utiliser DictReader qui retourne un dictionnaire pour chaque enregistrement, la première ligne étant utilisée pour nommer les différents champs.

In [None]:
pays = []
with open('countries.csv', newline='', encoding="utf8") as csvfile:
    spamreader = csv.DictReader(csvfile, delimiter=';')
    for row in spamreader:
        pays.append(dict(row))
print(pays [:5])

#### A faire 2 :

1. Explorer le contenu de la variable pays

2. Créer une fonction permettant de prendre en entrée le chemin d'un fichier csv et qui retourne une table contenant des dictionnaires. Vous pourrez tenir compte des délimitations.

In [None]:
# Réponse :

def transforme_table_dictionnaire(fichier,delimitation):
    '''     indiquer le programme à effectuer '''

    

### 2) Sauvegarde d'une table au format csv

A l'inverse, Une fois les données traîtées, il est important de pouvoir les exporter au format csv. Le code suivant permettra de sauvegarder les données :


In [None]:
en_tetes = list(pays[0].keys())

with open('stocks2.csv','w', newline='') as f:
    f_csv = csv.DictWriter(f, en_tetes, delimiter= ';')
    f_csv.writeheader()
    f_csv.writerows(pays)


#### A faire 3 :
Créer une fonction permettant de prendre en entrée une table de dictionnaire et qui sauvegarde ces données dans un fichier.

In [None]:
# Réponse :

def transforme_table_fichier(table_dict, nom_fichier, separateur):
        ''' indiquer le Programme à effectuer '''
        

### 3) Interrogation , tri, selection de table

#### a) Interrogation 

1. Déterminer le nombre et la liste des pays dont la monnaie est en euros.

2. Déterminer le nombre et la liste des pays dont le nombre d'habitants est compris entre 10 et 50 milions .

3. Déterminer le nombre de ville dont la latitude est proche de celle de Paris ( au centième de degré près)


In [None]:
# Réponses 




#### b) Tri

Pour exploiter les données, il peut être intéressant de les trier. Une utilisation possible est l’obtention du classement des entrées selon tel ou tel critère. Une autre utilisation vient du fait que, comme présenté dans la partie algorithmique du programme, la recherche dichotomique dans un tableau trié est bien plus efficace que la recherche séquentielle dans un tableau quelconque.

**Tri selon un unique critère**

On ne peut pas directement trier le tableau pays ... car cela ne veut rien dire. Il faut indiquer selon quels critères on veut effectuer ce tri. Pour cela, on appelle la fonction sorted ou la méthode sort avec l’argument supplémentaire key qui est une fonction renvoyant la valeur utilisée pour le tri 

**Remarque** : la méthode sort trie la liste en place, alors que la fonction sorted renvoie une nouvelle liste correspondant la liste triée, la liste initiale étant laissée intacte.


##### A faire 4 :

1. Créer une nouvelles table contenant la liste triée des 10 plus grands pays en superficie. On affichera ensuite le résultat sous la forme : [(vill1,superficie1),(ville2,superficie2).....]

2. Trier la table des pays par continent puis par nom du pays dans l'ordre décroissant



In [None]:
# Réponse 1




In [None]:
# Réponse 2 




Cependant, dans ce tri, les deux critères ont été utilisés pour un ordre croissant. Supposons maintenant que l’on veuille trier les pays
par continent et, pour chaque continent, avoir les pays par population décroissante. La méthode précédente n’est pas applicable,
car on a utilisé une unique clé (composée de deux éléments) pour un tri croissant. À la place, nous allons procéder en deux étapes :
1. trier tous les pays par population décroissante ;
2. trier ensuite le tableau obtenu par continent croissant.

Cette fois, on utilisera la méthode sort afin de modifier la table donnée

**Remarque :**  Pour que cela soit possible, la fonction de tri de Python vérifie une propriété très importante : la stabilité. Cela signifie que lors d’un tri, si plusieurs enregistrements ont la même clé, l’ordre initial des enregistrements est conservé. Ainsi, si on a trié les pays par ordre décroissant de nom puis par continent, les pays d’un même continent seront regroupés en conservant l’ordre précédent, ici les noms sont dans l'ordre décroissant.

### 3) Fusion de table



**Objectif :**   Dans la table des pays, la capitale est indiquée par un numéro... qui correspond au champ 'id' de la table des villes. Pour récupérer le nom de la capitale de chaque pays, <b>nous allons fusionner les tables en effectuant une jointure</b>. Ainsi, nous allons faire correspondre le champ capital de pays et le champ id de villes.
[{'countyName':'France' , 'capital':'Paris'} ,  ......]

On pourra utiliser la fonction deepCopy de la bibliothèque copy pour créer des copies de dictionnaires

    

In [None]:
pays=transforme_table_dictionnaire('Countries.csv',';')
villes=transforme_table_dictionnaire('Cities.csv',';')

print(pays[:2])
print(villes[:2])

In [None]:
# Réponses : 

# Méthode1 ( sans fonction)
from copy import deepcopy







In [None]:
# Méthode 2 ( généralisation avec fonctions)

def jointure(table1, table2, cle1, cle2=None):

    
    
    




### L'année prochaine : Bases de données SQL 
Les bases de données SQL simplifient le traitement de toutes ces questions.

Exemple avec la jointure :

SELECT * FROM Pays 
INNER JOIN Villes ON Pays.id_capital = ville.id

ou 

SELECT * FROM Pays, Villes
where Pays.id_capital = ville.id



