# Répertoire des professeurs et principaux de la faculté des arts de Paris aux XVIIe et XVIIIe siècles – exploration des données

## Introduction

Les données utilisées dans cet exercice ont été produites par  Boris Noguès.


Boris Noguès, «Répertoire des professeurs et principaux de la faculté des arts de Paris aux XVIIe et XVIIIe siècles», novembre 2008 [en ligne] http://rhe.ish-lyon.cnrs.fr/?q=pfap (consulté le 12 Mai 2020)
Droits d'auteur : Creative Commons by-nc-sa 3.0 FR (http://creativecommons.org/licenses/by-nc-sa/3.0/fr/)




Préalablement à l'exploration avec ce carnet:

* Ouvrir le fichier Excel ('exemples/pfap.csv') dans Libre Office
* Sauvegarder une copie du fichier au format CSV
* Bien paramétrer la sortie CSV: encodage caractères UTF-8, ',' ou '|' comme séparateur de champ, '"' comme séparateur de châine de caractères

## Documentation Python

La finalité de l'exercice est d'apprendre à explorer un fichier au format CSV on utilisant les listes Python et outils associés.

Cf. ces pages:

* https://docs.python.org/3.6/library/csv.html
* https://docs.python.org/3.6/tutorial/introduction.html#lists
  
Ultérieurement on présentera les mêmes opérations effectuées avec la librairie Pandas

## Gestion des librairies

Utiliser l'environnement Conda : 'atelier', activer le kernel relatif

Cf. cette page de documentation : Créer et gérer un environnement Conda (http://phn-wiki.ish-lyon.cnrs.fr/doku.php?id=python:environnement_conda)

In [None]:
import csv
import matplotlib.pyplot as plt

from collections import Counter
from operator import itemgetter

import matplotlib.pyplot as plt

## Importation du fichier CSV

In [None]:
chemin_f = 'exemples/pfap.csv'
# chemin_f = 'exemples/pfap.xls'  -- > UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0: invalid continuation byte

In [None]:
def print_n_rows(file, n):
    i = 0
    for row in file:
        if i < n:
            print(row)
        i += 1    
    return 'Done !'

In [None]:
csv_list = []
with open(chemin_f, 'r') as f:
    ### Documentation de sniffer -> mettre valeur plus élevée de caractères
    #  https://docs.python.org/3.6/library/csv.html#csv.Sniffer
    # dialect = csv.Sniffer().sniff(f.read(6000))
    delimiter = dialect.delimiter
    print(delimiter)
    f.seek(0) ### revenir au début du fichier
    csv_f = csv.reader(f, dialect ) ### delimiter=delimiter
    print_n_rows(csv_f, 5)
    
# dir(csv_f)

In [None]:
csv_list = []
with open(chemin_f, 'r') as f:
    csv_f = csv.reader(f, delimiter='|')
    for r in csv_f:
        csv_list.append(r)

In [None]:
csv_list[0]

## Les 'Nations'

In [None]:
nations = []
for r in csv_list[1:]:
    nations.append(r[4].strip())

In [None]:
print(len(nations))
nations[:3]

In [None]:
nations.sort()

In [None]:
counter_nations = Counter(nations)
grouped_nations = list(zip(counter_nations.keys(), counter_nations.values()))

In [None]:
grouped_nations = [[gn[0], gn[1]] if gn[0] else ['_no_value', gn[1]] for gn in grouped_nations]

In [None]:
grouped_nations

In [None]:
objects = [l[0] for l in grouped_nations]
eff = [l[1] for l in grouped_nations]

p1 = plt.bar(objects, eff) # , yerr=menStd

plt.ylabel('Effectif')
plt.title('Personnes par nation')
#plt.xticks(objects)
#plt.yticks(np.arange(0, 81, 10))
# plt.legend(eff)
# supported formats: eps, pdf, pgf, png, ps, raw, rgba, svg, svgz
#plt.savefig('exported_pictures/effectifs_naissances_par_annee.png', dpi=100, bbox_inches = "tight") #pdf, svg
plt.show()


## Exploration des dates de naissance

In [None]:
naissances = []
for r in csv_list[1:]:
    naissances.append(r[3].strip())

In [None]:
print(len(naissances))
naissances[:5]

In [None]:
naissances.sort()

In [None]:
values_naissances = ['_value' if n else '_no_value' for n in naissances]

In [None]:
counter_values_naissances = Counter(values_naissances)
counter_values_naissances

## Exploration des dates de référence

"La « 1ère date de référence » correspond à l’année de demande officielle d’une régence devant la nation (qui marque le début théorique de la carrière) ou bien, par défaut, la première année où l’exercice est attesté sur un poste, ou encore, en l’absence de l’une de ces deux informations, l’année où l’individu est mentionné pour la première fois dans une source. Si le contenu de la rubrique est donc hétérogène, ceci a semblé la moins mauvaise solution pour situer chronologiquement chaque individu, la présentation d’une notice sans aucune date étant exclue." (http://rhe.ish-lyon.cnrs.fr/?q=pfap)

In [None]:
annees_reference = []
for r in csv_list[1:]:
    ### manquent deux valeurs
    if r[7]:
        annees_reference.append(r[7].strip())

In [None]:
print(len(annees_reference))
annees_reference[:3]

In [None]:
annees_reference.sort()

In [None]:
max(annees_reference), min(annees_reference)

In [None]:
counter_annees_reference = Counter(annees_reference)
grouped_annees_reference = list(zip(counter_annees_reference.keys(), counter_annees_reference.values()))

In [None]:
grouped_annees_reference = [[int(i[0]), i[1]] for i in grouped_annees_reference]
grouped_annees_reference[:5]

In [None]:
objects = [l[0] for l in grouped_annees_reference]
eff = [l[1] for l in grouped_annees_reference]

p1 = plt.bar(objects, eff) # , yerr=menStd

#plt.xticks('objects')
plt.ylabel('Effectif')
plt.title('Références par annee')
#plt.yticks(np.arange(0, 81, 10))
# plt.legend(eff)
plt.gcf().set_size_inches(16, 8)
plt.gca().axes.get_xaxis().set_visible(False)
# supported formats: eps, pdf, pgf, png, ps, raw, rgba, svg, svgz
#plt.savefig('exported_pictures/effectifs_naissances_par_annee.png', dpi=100, bbox_inches = "tight") #pdf, svg
plt.show()


In [None]:
### Documentation:
# https://stackoverflow.com/questions/6294179/how-to-find-all-occurrences-of-an-element-in-a-list
    
selected = [i for i in grouped_annees_reference if  i[1] > 30]
selected

In [None]:
selected = [i for i in csv_list if i[7] == str(1652)]
[[i[0],i[1],i[8],i[9]] for i in selected[:5]]

In [None]:
d_list = []
period = 20
d_start = 1551
i = 0
d_list = []
d_list.append(d_start)

while i < 12:
    d_start = d_start + period
    d_list.append(d_start)
    i += 1

In [None]:
d_list

In [None]:
i_list = []
for i in d_list:
    i_n = 0
    for l in grouped_annees_reference:
        if l[0] >= i and l[0] < (i + 20):
            i_n = i_n + l[1]
    i_list.append([i, i_n])        

In [None]:
i_list

In [None]:
objects = [str(l[0]) for l in i_list]
eff = [l[1] for l in i_list]

p1 = plt.bar(objects, eff) # , yerr=menStd

plt.ylabel('Effectif')
plt.title('Naissances par annee')
#plt.xticks(objects)
#plt.yticks(np.arange(0, 81, 10))
# plt.legend(eff)
plt.gcf().set_size_inches(16, 8)
plt.gca().axes.get_xaxis().set_visible(True)
# supported formats: eps, pdf, pgf, png, ps, raw, rgba, svg, svgz
plt.savefig('exported_pictures/effectifs_annees_reference_par_periode.png', dpi=100, bbox_inches = "tight") #pdf, svg
plt.show()
