# Des fichiers CSV comme listes de listes ou dictionnaires

## Documentation Python

* https://www.geeksforgeeks.org/load-csv-data-into-list-and-dictionary-using-python/
* https://code-paper.com/python/examples-csv-separator-python

## Fichier pour l'exercice

Le fichier "Z.22b Etudiants par université, genre et origine, de 1891/92 à 1990/91" utilisé pour cet exercice est tiré du site web [Statistique historique de la Suisse](https://hsso.ch/de/2012/z/22b). Il contient des données agrégées concernant la fréquentation des Universités suisses et les effectifs des étudiant·e·s.

Outre la table contenant les données, le fichier mis à disposition sous licence CC BY-NC-SA contient le titre, les sources du tableau etc. Après téléchargement du fichier à partir du site web indiqué, il doit tout d'abord être nettoyé et préparé pour les traitements. 
* On l'ouvrira donc dans un tableur (Excel, Calc, etc.) afin d'effacer les lignes superflues. Toute ligne autre que le tableau de données, et même les lignes vides entre les noms des colonnes et le tableau des données doivent être supprimées
* On doit ensuite sauvegarder le fichier au format texte séparé par virgule et en l'enregistrant à cette adresse: */donnees/etudiantes_universites_suisses.csv* (dans le dossier où ce trouve le présent carnet Jupyter). Pour exporter le  fichier, nous avons choisi comme séparateur entre les cellules le tabulateur, et non la virgule, pour prendre conscience des différentes possibilités: '\t' donc comme séparateur, sigle: tab.

----


## Ouverture et exploration du fichier

Une fois le fichier CSV (séparé par tab) enregistré dans le dossier *'donnees'*, on peut l'ouvrir et l'inspecter, puis exécuter les traitements présentés ci-dessous

In [1]:
import csv

In [2]:
file = 'donnees/etudiantes_universites_suisses.csv'
with open(file) as f:
    reader = csv.reader(f, delimiter='\t')
    my_list = list(reader)
len(my_list)

101

In [4]:
### Afficher les deux premières lignes
my_list[:2]

[['Année',
  'Zürich',
  'Basel',
  'Genf',
  'Bern',
  'Lausanne',
  'Freiburg',
  'Neuenburg',
  'Total',
  'Zurich',
  'Bâle',
  'Genève',
  'Berne',
  'Lausanne',
  'Fribourg',
  'Neuchâtel',
  'Total',
  'Zürich',
  'Basel',
  'Genf',
  'Bern',
  'Lausanne',
  'Freiburg',
  'Neuenburg',
  'Total'],
 ['1891/92',
  '543',
  '401',
  '536',
  '534',
  '289',
  '168',
  '60',
  '2531',
  '67',
  '1',
  '89',
  '80',
  '5',
  '0',
  '0',
  '242',
  '192',
  '75',
  '347',
  '126',
  '89',
  '56',
  '1',
  '886']]

In [6]:
### Valeur de la deuxième cellule de la deuxième ligne
my_list[1][1]

'543'

In [10]:
colonnes = my_list[0]
colonnes

['Année',
 'Zürich',
 'Basel',
 'Genf',
 'Bern',
 'Lausanne',
 'Freiburg',
 'Neuenburg',
 'Total',
 'Zurich',
 'Bâle',
 'Genève',
 'Berne',
 'Lausanne',
 'Fribourg',
 'Neuchâtel',
 'Total',
 'Zürich',
 'Basel',
 'Genf',
 'Bern',
 'Lausanne',
 'Freiburg',
 'Neuenburg',
 'Total']

### Renommer les colonnes pour éviter les répétitions de noms de colonnes


In [11]:
# Documentation Cf. le livre Python pour les SHS, 2.7.1 et 2.7.2
nouvelles_colonnes = []
i = 1
for e in colonnes:
    if i < 10:
        nouvelles_colonnes.append(e)
    if i >= 10 and i <= 17:
        nouvelles_colonnes.append(e + '_f')
    if i > 17:
        nouvelles_colonnes.append(e + '_e')
    i += 1
nouvelles_colonnes    

['Année',
 'Zürich',
 'Basel',
 'Genf',
 'Bern',
 'Lausanne',
 'Freiburg',
 'Neuenburg',
 'Total',
 'Zurich_f',
 'Bâle_f',
 'Genève_f',
 'Berne_f',
 'Lausanne_f',
 'Fribourg_f',
 'Neuchâtel_f',
 'Total_f',
 'Zürich_e',
 'Basel_e',
 'Genf_e',
 'Bern_e',
 'Lausanne_e',
 'Freiburg_e',
 'Neuenburg_e',
 'Total_e']

In [12]:
### Ecrire un nouveau fichier avec les nouveaux 
file_1 = 'donnees/etudiantes_universites_suisses_v1.csv'

In [13]:
### Documentation : 
#  https://docs.python.org/3.9/library/csv.html#module-contents
with open(file_1, 'w') as f:
    fw = csv.writer(f, delimiter='\t')
    fw.writerow(nouvelles_colonnes)
    for r in my_list[1:]:
        fw.writerow(r)

### Ouvrir le nouveau fichier sous forme de dictionnaire

Inspecter ensuite son contenu et le comparer au fichier précédent

In [14]:
# créer une liste vide
result_file = []

with open(file_1, 'r') as data:
      a = csv.DictReader(data, delimiter='\t')
      print(type(a))
      b = list(a)  

<class 'csv.DictReader'>


In [15]:
len(b),b[0]

(100,
 {'Année': '1891/92',
  'Zürich': '543',
  'Basel': '401',
  'Genf': '536',
  'Bern': '534',
  'Lausanne': '289',
  'Freiburg': '168',
  'Neuenburg': '60',
  'Total': '2531',
  'Zurich_f': '67',
  'Bâle_f': '1',
  'Genève_f': '89',
  'Berne_f': '80',
  'Lausanne_f': '5',
  'Fribourg_f': '0',
  'Neuchâtel_f': '0',
  'Total_f': '242',
  'Zürich_e': '192',
  'Basel_e': '75',
  'Genf_e': '347',
  'Bern_e': '126',
  'Lausanne_e': '89',
  'Freiburg_e': '56',
  'Neuenburg_e': '1',
  'Total_e': '886'})

In [16]:
for l in b:
    print(l['Année'])

1891/92
1892/93
1893/94
1894/95
1895/96
1896/97
1897/98
1898/99
1899/00
1900/01
1901/02
1902/03
1903/04
1904/05
1905/06
1906/07
1907/08
1908/09
1909/10
1910/11
1911/12
1912/13
1913/14
1914/15
1915/16
1916/17
1917/18
1918/19
1919/20
1920/21
1921/22
1922/23
1923/24
1924/25
1925/26
1926/27
1927/28
1928/29
1929/30
1930/31
1931/32
1932/33
1933/34
1934/35
1935/36
1936/37
1937/38
1938/39
1939/40
1940/41
1941/42
1942/43
1943/44
1944/45
1945/46
1946/47
1947/48
1948/49
1949/50
1950/51
1951/52
1952/53
1953/54
1954/55
1955/56
1956/57
1957/58
1958/59
1959/60
1960/61
1961/62
1962/63
1963/64
1964/65
1965/66
1966/67
1967/68
1968/69
1969/70
1970/71
1971/72
1972/73
1973/74
1974/75
1975/76
1976/77
1977/78
1978/79
1979/80
1980/81
1981/82
1982/83
1983/84
1984/85
1985/86
1986/87
1987/88
1988/89
1989/90
1990/91


In [17]:
for r in b:
    if r['Année'] == '1915/16':
        print(r)

{'Année': '1915/16', 'Zürich': '1798', 'Basel': '980', 'Genf': '1027', 'Bern': '1447', 'Lausanne': '957', 'Freiburg': '461', 'Neuenburg': '217', 'Total': '6887', 'Zurich_f': '203', 'Bâle_f': '52', 'Genève_f': '225', 'Berne_f': '126', 'Lausanne_f': '114', 'Fribourg_f': '28', 'Neuchâtel_f': '64', 'Total_f': '812', 'Zürich_e': '513', 'Basel_e': '252', 'Genf_e': '649', 'Bern_e': '257', 'Lausanne_e': '474', 'Freiburg_e': '225', 'Neuenburg_e': '34', 'Total_e': '2404'}


### Ajouter une colonne avec le total des hommes

In [18]:
### Documentation:
#  https://docs.python.org/3.9/tutorial/datastructures.html#dictionaries
for r in b:
    r['Total_h'] = int(r['Total']) - int(r['Total_f'])
b[0]

{'Année': '1891/92',
 'Zürich': '543',
 'Basel': '401',
 'Genf': '536',
 'Bern': '534',
 'Lausanne': '289',
 'Freiburg': '168',
 'Neuenburg': '60',
 'Total': '2531',
 'Zurich_f': '67',
 'Bâle_f': '1',
 'Genève_f': '89',
 'Berne_f': '80',
 'Lausanne_f': '5',
 'Fribourg_f': '0',
 'Neuchâtel_f': '0',
 'Total_f': '242',
 'Zürich_e': '192',
 'Basel_e': '75',
 'Genf_e': '347',
 'Bern_e': '126',
 'Lausanne_e': '89',
 'Freiburg_e': '56',
 'Neuenburg_e': '1',
 'Total_e': '886',
 'Total_h': 2289}

### Ajouter une colonne avec le total des suisses

Procéder de la même manière que par rapport aux femmes mais en partant cette fois de la colonne du total des étudiant·e·s étrangers·ères