[Accueil](../../index.ipynb) > [NSI Premiere](../index.ipynb)

# Traitement de données en tables : indexation

## Le format CSV

Le format csv pour "**C**omma **S**eparated **V**alues" (valeurs séparées par virgule) est un format de fichier texte très courant pour le **stockage de données tabulées**.

Chaque ligne du fichier correspond à une ligne du tableau et les virgules sont les séparations entre les colonnes.

Exemple de contenu d’un fichier csv
```
Sexe,Prénom,Année de naissance
M,Alphonse,1932
F,Béatrice,1964
F,Charlotte,1988
```
<div class="alert alert-info">
Il n’existe pas vraiment de spécifications de format.
Parfois les séparateurs sont des points virgules. (pour éviter les , qui sont utilisés comme signe de la décimale en France)
Parfois les champs sont délimités par des guillemets.
</div>

Exemple de contenu d'un fichier csv où les données sont séparées par des ;

```
"Michel";"Durand";"89 av. de la Ferme";"Chateaulin";"France"
"Robert";"Dugenou";"2 rue des oiseaux";"Saint-Segal";"France"
"Gertrude";"Dupond";"rue de la goye";"Muflin";"Groland (du bas)"
```
De nombreuses données sont présentes sur le web sous cette forme :
- [data.gouv.fr](data.gouv.fr]) : Plateforme ouverte des données publiques françaises
- [kaggle.com](https://www.kaggle.com/datasets) : une base de données pour la science
- [stats.nz](https://www.stats.govt.nz/large-datasets/csv-files-for-download/)  : Le site de statistiques du gouvernement néo zélandais
- ...

## Ouverture par un tableur

- Allez sur cette url : [https://www.data.gouv.fr/fr/datasets/colleges-du-finistere/](https://www.data.gouv.fr/fr/datasets/colleges-du-finistere/)
- Téléchargez le fichier
- Ouvrez le avec libre office calc
  - Précisez le bon encodage (UTF-8)
  - Précisez le bon séparateur : les points virgules

![](img/csv-libreoffice.png)

Les tableurs peuvent **importer** des fichiers csv mais également **exporter** au format csv.

- Quels sont les descripteurs des colonnes ?
- Combien de lignes sont dans cette collection ?
- Quel est le caractère pour délimiter les colonnes ?
- Trouvez votre lycée.

## Ouverture avec un éditeur de texte

Ouvrez ce même fichier avec un éditeur de texte.

Vous devriez obtenir ce type de résultat.

![](img/csv-editeur.png)

## Python

Lorsque nous traitons des données avec Python (listes, tuples, dictionnaires....) lorsque  le programme s'arrête les données sont perdues.

Le **stockage** des données dans un **fichier csv** permet de **conserver les données de façon pérenne**.

Voici les étapes que nous allons réaliser avec Python :

- Téléchargement d'un fichier csv
- Ouverture du fichier csv (les données sont alors écrites en mémoire RAM)
- Utilisation d'une librairie Python adaptée pour le csv
- Lecture des données
- Modification des données
- Fermeture du fichier

Utiliser un IDE Python pour l'ensemble de ces actions.

### librairies request,  open et os

Pour télécharger un fichier csv depuis une URL, nous allons utiliser la librairie [requests](https://docs.python-requests.org/en/latest/).
Ensuite nous allons ouvir un fichier vide en mode **écriture** 'w' : voir la fonction native [open](https://docs.python.org/fr/3/library/functions.html#open)
Puis nous allons écrire les données dans ce fichier.

In [17]:
import requests
import os

url = "https://www.data.gouv.fr/fr/datasets/r/a1075259-09ca-4c22-9e35-b2cd6bbf5c36"
data = requests.get(url).content


local_file = "college_finistere.csv"
with open(local_file, 'wb') as file: #on ouvre en écriture 'w' et en mode bytes 'b' le fichier nommé college_finistere.csv
    file.write(data)


['TP.ipynb', 'img', '2_recherche.ipynb', '3_tri.ipynb', '.ipynb_checkpoints', '4_fusion.ipynb', 'datas.zip', '1_indexation_tables.ipynb', 'college_finistere.csv']


**Remarques**

- Le fichier que l'on ouvre est en mode bytes car nous recevons les données sous forme d'un flux d'octets et non de caractères.
- On utilise l'instruction *with* qui garantit que si une erreur se produit dans le with, le fichier sera correctement fermé. [voir l'instruction with](https://docs.python.org/fr/3/reference/compound_stmts.html#the-with-statement)

**A Faire**

- Dans le module [os](https://docs.python.org/fr/3/library/os.html), trouver une solution pour ne pas télécharger l'URL et écrire dans le fichier si ce fichier est déjà présent dans le dossier courant.

### librairie csv

Python possède une librairie csv qui permet de lire et écrire des données au format csv

Voir la document sur la [librairie csv](https://docs.python.org/fr/3/library/csv.html).

In [23]:
import csv
with open(local_file) as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

{'commune_et': 'BREST', 'nom_et': 'Anne-Marie Javouhey (St Sauveur)', 'statut': 'Privé', 'adresse': '4 rue du Rempart - BP 60417', 'code_postal': '29604', 'telephone': '02.98.45.17.70', 'fax': '02 98 05 28 11', 'courriel': 'grp29.rd-javouhey.brest@enseignement-catholique.bzh', 'point_geo_ban': '48.383137,-4.502319'}
{'commune_et': 'BREST', 'nom_et': 'La Croix Rouge', 'statut': 'Privé', 'adresse': '2 rue Mirabeau  -  CS 62925', 'code_postal': '29229', 'telephone': '02.98 47 81 00', 'fax': '02 98 47 81 35', 'courriel': 'grp29.croix-rouge.brest@enseignement-catholique.bzh', 'point_geo_ban': '48.407544,-4.489177'}
{'commune_et': 'MORLAIX', 'nom_et': 'Pierre Mendès-France', 'statut': 'Public', 'adresse': 'Rue Paul Sérusier', 'code_postal': '29600', 'telephone': '02.98.88.48.65', 'fax': '02 98.62.02.56', 'courriel': 'ce.0291104t@ac-rennes.fr', 'point_geo_ban': '48.582697,-3.819954'}
{'commune_et': 'MOELAN-SUR-MER', 'nom_et': "Parc ar C'hoat", 'statut': 'Public', 'adresse': "Parc Ar C'Hoat", 

- Quel est le type des lignes ?
- Combien d'éléments possède chaque ligne ?
- Quel est l'origine du problème sur le nombre d'éléments de chaque ligne ?
- Modifier votre code pour obtenir le nombre correct d'éléments.
- Modifier votre code afin d'obtenir les lignes sous forme de dictionnaires.

La [librairie csv](https://docs.python.org/fr/3/library/csv.html) est assez complète mais pour des besoins d'apprentissage nous allons maintenant utiliser une **librairie d'analyse de données**, [la librairie pandas](https://pandas.pydata.org/) qui va nous simplifier la vie.

In [26]:
import pandas as pd
url="https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


- La colonne **PClass** *Passenger class* signifie *La classe du passager (première, deuxième...)*.
- La colonne **SibSp** *Sibling spouses* signifie *conjoint*.
- La colonne **Parch** *Parent Children* signifie *Parent Enfants*.
- La colonne **Fare** désigne le *tarif* payé pour embarquer.