# Des fichiers CSV comme listes de listes ou dictionnaires

Version du 7 avril 2022


## Documentation Python

* https://www.geeksforgeeks.org/load-csv-data-into-list-and-dictionary-using-python/
* https://code-paper.com/python/examples-csv-separator-python

## Fichier pour l'exercice

Le fichier "Z.22b Etudiants par université, genre et origine, de 1891/92 à 1990/91" utilisé pour cet exercice est tiré du site web [Statistique historique de la Suisse](https://hsso.ch/de/2012/z/22b). Il contient des données agrégées concernant la fréquentation des Universités suisses et les effectifs des étudiant·e·s.

Outre la table contenant les données, le fichier mis à disposition sous licence CC BY-NC-SA contient le titre, les sources du tableau etc. Après téléchargement du fichier à partir du site web indiqué, il doit tout d'abord être nettoyé et préparé pour les traitements. 
* On l'ouvrira donc dans un tableur (Excel, Calc, etc.) afin d'effacer les lignes superflues. Toute ligne autre que le tableau de données, et même les lignes vides entre les noms des colonnes et le tableau des données doivent être supprimées
* On doit ensuite sauvegarder le fichier au format texte séparé par virgule et en l'enregistrant à cette adresse: */donnees/etudiantes_universites_suisses.csv* (dans le dossier où ce trouve le présent carnet Jupyter). Pour exporter le  fichier, nous avons choisi comme séparateur entre les cellules le tabulateur, et non la virgule, pour prendre conscience des différentes possibilités: '\t' donc comme séparateur, sigle: tab.
* Ajouter : ", encoding='utf-8' " dans la fonction d'ouverture des fichiers, en lecture et en écriture, si des problèmes d'encodage de caractères se posent


----


## Ouverture et exploration du fichier

Une fois le fichier CSV (séparé par tab) enregistré dans le dossier *'donnees'*, on peut l'ouvrir et l'inspecter, puis exécuter les traitements présentés ci-dessous

In [None]:
import csv

In [None]:
###  Ajouter : ", encoding='utf-8' " dans la fonction d'ouverture des fichiers, 
# en lecture et en écriture, si des problèmes d'encodage de caractères se posent

file = 'donnees/etudiantes_universites_suisses.csv'
with open(file, 'r', encoding='utf-8') as f:
    reader = csv.reader(f, delimiter='\t')
    my_list = list(reader)
len(my_list)

In [None]:
### Afficher les deux premières lignes
my_list[:2]

In [None]:
### Valeur de la deuxième cellule de la deuxième ligne
my_list[1][1]

In [None]:
colonnes = my_list[0]
colonnes

### Renommer les colonnes pour éviter les répétitions de noms de colonnes


In [None]:
# Documentation Cf. le livre Python pour les SHS, 2.7.1 et 2.7.2
nouvelles_colonnes = []
i = 1
for e in colonnes:
    if i < 10:
        nouvelles_colonnes.append(e)
    if i >= 10 and i <= 17:
        nouvelles_colonnes.append(e + '_f')
    if i > 17:
        nouvelles_colonnes.append(e + '_e')
    i += 1
nouvelles_colonnes    

In [None]:
### Ecrire un nouveau fichier avec les nouveaux 
file_1 = 'donnees/etudiantes_universites_suisses_v1.csv'

In [None]:
### Documentation : 
#  https://docs.python.org/3.9/library/csv.html#module-contents
with open(file_1, 'w') as f:
    fw = csv.writer(f, delimiter='\t')
    fw.writerow(nouvelles_colonnes)
    for r in my_list[1:]:
        fw.writerow(r)

### Ouvrir le nouveau fichier sous forme de dictionnaire

Inspecter ensuite son contenu et le comparer au fichier précédent

In [None]:
with open(file_1, 'r') as data:
      a = csv.DictReader(data, delimiter='\t')
      print(type(a))
      b = list(a)  

In [None]:
len(b),b[0]

In [None]:
for l in b:
    print(l['Année'])

In [None]:
for r in b:
    if r['Année'] == '1915/16':
        print(r)

### Ajouter une colonne avec le total des hommes

In [None]:
### Documentation:
#  https://docs.python.org/3.9/tutorial/datastructures.html#dictionaries
for r in b:
    r['Total_h'] = int(r['Total']) - int(r['Total_f'])
b[0]

In [None]:
### Ecrire un nouveau fichier avec les nouveaux 
file_2 = 'donnees/etudiantes_universites_suisses_v2.csv'

In [None]:
colonnes = list(b[0].keys())

In [None]:
### Documentation : 
#  https://docs.python.org/3/library/csv.html#csv.DictWriter
with open(file_2, 'w') as f:
    fw = csv.DictWriter(f, fieldnames=colonnes,delimiter='\t')
    
    fw.writeheader()
    for r in b:
        fw.writerow(r)

### Ajouter une colonne avec le total des suisses

Procéder de la même manière que par rapport aux femmes mais en partant cette fois de la colonne du total des étudiant·e·s étrangers·ères. Ajouter une colonne puis écrire une nouvelle version du fichier contenant cette nouvelle colonne.

Attention aux données qui manquent! Il faut un traitement spécial pour cette colonne utilisant une condition "if".