# Structure de données en table

On peut considérer qu'une table est une __collection d'éléments__. Chaque élément ayant les mêmes __attributs__ que les autres, on catégorise ces attributs par un __descripteur__. L'ensemble des attributs d'un élément est appelé un __enregistrement__.

Concrètement, un table est donc, le plus souvent, un __tableau de tableaux__ ou, encore plus souvent, un __tableau de dictionnaires__.

Dans le cas du tableau de dictionnaires, __chaque dictionnaire est un enregistrement qui contient les attributs d'un élément__. 

__Les clés des dictionnaires sont les descripteurs__ des attributs. Les valeurs sont les attributs eux-mêmes.

## Rappels sur le format CSV

__Le format de fichier CSV, pour l’anglais Comma-separated values__, soit « données séparées par des virgules », est un __format texte ouvert__, représentant des données sous forme de __valeurs séparées par des séparateurs__, éventuellement sur plusieurs lignes.
Initialement le séparateur était « , », il peut aussi être « ; » ou « | ».

Le format CSV est un __format très utilisé pour représenter des données structurées, notamment pour importer ou exporter des données à partir d'une feuille de calculs d'un tableur__. C'est un fichier texte dans lequel __chaque ligne correspond à une ligne du tableau__.

## Open data
### L'open data, c'est quoi ?

L'open data désigne l'effort que font les institutions, notamment gouvernementales, qui __partagent les données__ dont elles disposent. Ce partage doit être __gratuit__, dans des __formats ouverts__, et __permettre la réutilisation des données__. La politique du Gouvernement s'appuie notamment sur le droit d'accès aux documents administratifs (loi Cada 1978), qui considère que les données produites ou détenues par les administrations, dans le cadre de leurs missions de service public, doivent être mises à disposition du public. __Cela ne concerne ni les informations personnelles, ni celles touchant à la sécurité nationale, ni celles couvertes par les différents secrets légaux__.

Source : [Gouvernement.fr](https://www.gouvernement.fr/action/l-ouverture-des-donnees-publiques)

### L'open data, pourquoi ?

L'open data est un outil au service de __trois objectifs__ :
 
- améliorer le __fonctionnement démocratique__, non seulement par la transparence mais par la concertation et l'ouverture à de nouveaux points de vue.
- améliorer l'__efficacité__ de l'action publique.
- proposer de nouvelles ressources pour l'__innovation__ économique et sociale : les données partagées trouvent des réutilisateurs qui les intègrent dans de nouveaux services à forte valeur ajoutée économique ou sociale.

Source : [Gouvernement.fr](https://www.gouvernement.fr/action/l-ouverture-des-donnees-publiques)

### L'open data, comment ?

De nombreux états et collectivités ont ouvert une partie de leur données publiques.

En France, le site [data.gouv.fr](https://www.data.gouv.fr/fr/) est une référence incontournable.

Pour cette activité, nous nous tournerons vers un site plus local : [data.nantesmetropole.fr](https://data.nantesmetropole.fr/explore)

## Quels sont les prénoms nantais les plus populaires ?
### Création de la table de données à partir du fichier CSV

__Consulter les informations__ décrivant le jeu de données mis à disposition par Nantes Métropole à cette adresse : [data.nantesmetropole.fr](https://data.nantesmetropole.fr/explore/dataset/244400404_prenoms-enfants-nes-nantes/information/?disjunctive.prenom&disjunctive.sexe)

> __Remarque :__ on note que, pour des raisons de confidentialité, seuls les prénoms dont l'occurrence annuelle est supérieure à 5 sont répertoriés dans ce jeu de données.

__Télécharger__ ces données au __format CSV__, en cliquant sur l'onglet __Export__.

__Créer une table à partir du fichier CSV__. Pour cela, reprendre le __notebook NSI_P1__ au besoin. Comme nous l'avons vu dans ce notebook, il est plus judicieux de créer un tableau de dictionnaires.

Vous devriez obtenir une table `table_prenoms`, comme celle-ci :

```
[{'Prénom': 'IRIS', 'Sexe': 'FILLE', 'Année de naissance': '2019', 'Occurence': '25.0'}, {'Prénom': 'ROMY', 'Sexe': 'FILLE', 'Année de naissance': '2019', 'Occurence': '19.0'}, {'Prénom': 'MARGOT', 'Sexe': 'FILLE', 'Année de naissance': '2019', 'Occurence': '13.0'}, ...
{'Prénom': 'TIMOTHÉE', 'Sexe': 'GARCON', 'Année de naissance': '2001', 'Occurence': '6.0'}]
```

### Vocabulaire des tables

Dans la table que vous venez de construire, repérer et donner un exemple...

- d'enregistrement : 
- de descripteur : 
- d'attribut : 

> __Remarque :__ 
- pour un descripteur donné, les attributs de tous les enregistrements doivent être de même type.
- il aurait sans doute été plus judicieux que les attributs du descripteur `'Occurence'` soit du type `int`.
- il aurait été encore plus judicieux de ne pas faire de faute d'orthographe au mot occurrence...

### Recherches dans une table

En premier lieu, on peut afficher __combien de données ont été saisies__.

In [None]:
len(table_prenoms)

Pour le reste, ce sera un peu plus compliqué : comme nous ne connaissons pas les indices correspondants à chaque saisie (1 prénom, 1 année), __il faudra faire des recherches sur l'ensemble du tableau__.

On rappelle que seuls les prénoms ayant été donnés au moins 5 fois dans l'année ont été saisis. __Rechercher un prénom rare__ (ex : Jean-Michel, Thaïs, Bob, Aya, Lilwenn, Casimir,...) dans la table, pour savoir s'il a déjà été répertorié au moins une année. 

> __Remarque :__ 
- Privilégier la création d'une fonction. Ex : `recherche_prenom(prenom)`
- Les prénoms étant saisis en majuscule, l'utilisation de la méthode [`.upper()`](https://www.programiz.com/python-programming/methods/string/upper) peut être utile.

In [None]:
def recherche_prenom(prenom):

    

recherche_prenom('Thaïs')

Améliorer la fonction pour qu'elle prenne également en paramètre la table de prénoms : `recherche_prenom(table, prenom)`

In [None]:
def recherche_prenom(table, prenom):


recherche_prenom(table_prenoms, 'Thaïs')

Améliorer la fonction pour qu'elle renvoie le nombre d'années où ce prénom a dépassé les 5 occurrences.

In [None]:
def recherche_prenom(table, prenom):


recherche_prenom(table_prenoms, 'Bob')

Créer une fonction `occurrence_prenom(table, prenom)` qui renvoie le nombre de fois où ce prénom a été donné (en ne comptant que les années où il a dépassé les 5 occurrences bien sûr).

In [None]:
def occurrence_prenom(table, prenom):


occurrence_prenom(table_prenoms, 'Swann')

Créer une fonction `occurrence_prenom_fille(table, prenom)` qui renvoie le nombre de fois où ce prénom a été donné à une fille (en ne comptant que les années où il a dépassé les 5 occurrences bien sûr).

Faire un essai sur un prénom épicène, comme Swann par exemple.

In [None]:
def occurrence_prenom_fille(table, prenom):
    occurence=0


occurrence_prenom_fille(table_prenoms, 'Swann')

Créer une fonction `annees_prenom(table, prenom)` qui renvoie une liste triée contenant les années où ce prénom a été donné (en ne comptant que les années où il a dépassé les 5 occurrences bien sûr).

In [None]:
def annees_prenom(table, prenom):


annees_prenom(table_prenoms, 'Swann')

Modifier la fonction `annees_prenom(table, prenom)` pour renvoyer une liste triées contenant des tuples (année, occurrence) où ce prénom a été donné (en ne comptant que les années où il a dépassé les 5 occurrences bien sûr).

In [None]:
def annees_prenom(table, prenom):


annees_prenom(table_prenoms, 'Ernest')

Créer une fonction `annees_prenom(table, prenom, annee=2001)` qui renvoie une liste triée contenant  des tuples (année, occurrence) où ce prénom a été donné (en ne comptant que les années où il a dépassé les 5 occurrences bien sûr), à partir de l'année entrée en paramètre seulement.

In [None]:
def annees_prenom(table, prenom, annee=2001):


annees_prenom(table_prenoms, 'Jules', 2015)

> __Remarque :__ la syntaxe `annee=2001` (sans espaces autour du signe `=`) permet de donner une valeur par défaut au paramètre `annee`, dans le cas où l'utilisateur ne mettrait que deux paramètres : la table et le prénom.

In [None]:
annees_prenom(table_prenoms, 'Jules')

Créer une fonction `occurrences_par_annees(table)` qui renvoie un dictionnaire ayant pour clés les années et pour valeur le nombre de naissances sur l'année.

In [None]:
def occurrences_par_annees(table):


occurrences_par_annees(table_prenoms)

Créer une fonction `meilleure_annees_naissance(table)` qui renvoie l'année où il y a eu le plus de naissances à Nantes et ce nombre de naissances (dans un tuple).

In [None]:
def meilleure_annees_naissance(table):

    
meilleure_annees_naissance(table_prenoms)

Créer une fonction `meilleure_annees_prenom(table, prenom)` qui renvoie l'année où un prénom a été le plus de fois donné, et ce nombre de naissances (dans un tuple).

In [None]:
def meilleure_annees_prenom(table, prenom):

    
meilleure_annees_prenom(table_prenoms, 'Lucie')

## Utilisation de la bibliothèque csv pour créer une table

A partir de maintenant, il sera autorisé d'utiliser une bibliothèque Python qui facilite l'import et l'export de fichiers csv. Ce module (avec Python, on utilise indistinctement le terme bibliothèque ou module) est bien nommé `csv`.

La fonction __`reader()` du module `csv`__ renvoie un objet itérable. Chaque élément de cet objet est une __liste__.

La fonction __`DictReader()`__ du module `csv` renvoie un objet itérable aussi. Chaque élément de cet objet est un __dictionnaire dont les clés sont les descripteurs__.

Le plus simple est encore de faire des essais pour s'en rendre compte...

### Création d'un tableau de tableaux avec `reader()`, du module csv

In [None]:
# Ici on importe l'ensemble du module directement
# Il faudra donc bien penser à faire précéder toutes les fonctions du module par csv.
import csv

with open("244400404_prenoms-enfants-nes-nantes.csv", mode='r', encoding='utf-8') as f:
    listes_reader = csv.reader(f)

print(listes_reader)

A ce stade, on constate que l'on a bien crée un objet de type csv.reader

Voyons ce qu'il contient...

In [None]:
with open("244400404_prenoms-enfants-nes-nantes.csv", mode='r', encoding='utf-8') as f:
    listes_reader = csv.reader(f)

for liste in listes_reader:
    print(liste)

> __Remarque :__ vous constaterez que que l'objet de type csv.reader n'est utilisable que lorsque le fichier est ouvert, ce qui n'est pas toujours très pratique.

Une indentation devrait résoudre ce problème...

In [None]:
with open("244400404_prenoms-enfants-nes-nantes.csv", mode='r', encoding='utf-8') as f:
    listes_reader = csv.reader(f)
    for liste in listes_reader:
        print(liste)

On voit que l'objet crée n'est pas une table mais un itérable contenant des listes de chaînes de caractères.

Ces chaînes de caractères restent peu exploitables en soit et il faut utiliser le caractère séparateur (ici, le `;`) pour séparer les différents attributs :

In [None]:
with open("244400404_prenoms-enfants-nes-nantes.csv", mode='r', encoding='utf-8') as f:
    listes_reader = csv.reader(f, delimiter=';')
    for liste in listes_reader:
        print(liste)

Ceci commence à ressembler à ne table mais nous n'y sommes pas encore...

In [None]:
with open("244400404_prenoms-enfants-nes-nantes.csv", mode='r', encoding='utf-8') as f:
    table_via_csv_reader = []
    listes_reader = csv.reader(f, delimiter=';')
    for liste in listes_reader:
        table_via_csv_reader.append(liste)

print(table_via_csv_reader)

Voilà, nous avons __une table, sous la forme d'un tableau de tableaux__.

Elle n'est toutefois __pas très pratique à utiliser car les descripteurs sont isolés dans le premier tableau__, mais cela reste exploitable.

> __Remarque :__ on peut aussi créer cette table en compréhension, c'est encore plus rapide. A votre tour de vous entraîner dans la cellule ci-dessous...

### Création d'un tableau de dictionnaires avec `DictReader()`, du module csv

Testons maintenant la fonction `DictReader()`, en sautant quelques étapes pour obtenir directement une table.

In [None]:
with open("244400404_prenoms-enfants-nes-nantes.csv", mode='r', encoding='utf-8') as f:
    table_via_csv_dictreader = []
    dico_reader = csv.DictReader(f, delimiter=';')
    for dictionnaire in dico_reader:
        table_via_csv_dictreader.append(dictionnaire)

print(table_via_csv_dictreader)

Nous obtenons la __même table que celle que nous avions précédemment (`table_prenoms`) : un tableau de dictionnaires__. 

Le module `csv` permet d'aboutir à ce résultat de façon __plus simple et plus rapide__.

> __Remarque :__ si, comme moi, vous préférez __créer la table en compréhension__, faites-vous plaisir ci-dessous.

## Que retenir ?
### À minima...

- Un enregistrement réunit une série de descripteurs et d'attributs.
- Une table est un tableau d'enregistrements ayant tous les mêmes descripteurs.
- En Python, une table est le plus souvent une liste de dictionnaires.
- Un fichier texte au format CSV est une suite de lignes :
  - la première contient les descripteurs, séparés par un caractère spécial (ex : `;`).
  - les suivantes contient les attributs, séparés par le même caractère spécial.
- Pour faire une recherche dans une table...
  - il faut la parcourir entièrement pour trouver le bon enregistrement (ex : `for element in table: if element == ... :`).
  - sélectionner le bon attribut dans cet enregistrement.
- Si l'enregistrement est un dictionnaire, on retrouve l'attribut voulu à l'aide de la clé correspondant au bon descripteur (ex : `element['Prénom']`)
- Certains modules permettent de simplifier la programmation :
  - l'exportation des données d'un fichier CSV vers une table est facilitée par le module csv.
  - pour utiliser un module, il faut...
    - auparavant importer ce module (ex : `import csv`).
    - précéder le nom d'une fonction par le nom de ce module (ex : `csv.DictReader()`)
  
### Au mieux...

- Savoir coder l'ensemble du processus d'export des données d'un fichier CSV vers une table, avec ou sans le module csv.
- Savoir sélectionner des données présentes dans une table à partir de critères multiples.

---
[![Licence CC BY NC SA](https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png "licence Creative Commons CC BY-NC-SA")](http://creativecommons.org/licenses/by-nc-sa/3.0/fr/)
<p style="text-align: center;">Auteur : David Landry, Lycée Clemenceau - Nantes</p>