[Accueil](../../index.ipynb) > [NSI Premiere](../index.ipynb)

# Traitement de données en tables : indexation

## Le format CSV

Le format csv pour "**C**omma **S**eparated **V**alues" (valeurs séparées par virgule) est un format de fichier texte très courant pour le **stockage de données tabulées**.

Chaque ligne du fichier correspond à une ligne du tableau et les virgules sont les séparations entre les colonnes.

Exemple de contenu d’un fichier csv
```
Sexe,Prénom,Année de naissance
M,Alphonse,1932
F,Béatrice,1964
F,Charlotte,1988
```
<div class="alert alert-info">
Il n’existe pas vraiment de spécifications de format.
Parfois les séparateurs sont des points virgules. (pour éviter les , qui sont utilisés comme signe de la décimale en France)
Parfois les champs sont délimités par des guillemets.
</div>

Exemple de contenu d'un fichier csv où les données sont séparées par des ;

```
"Michel";"Durand";"89 av. de la Ferme";"Chateaulin";"France"
"Robert";"Dugenou";"2 rue des oiseaux";"Saint-Segal";"France"
"Gertrude";"Dupond";"rue de la goye";"Muflin";"Groland (du bas)"
```
De nombreuses données sont présentes sur le web sous cette forme :
- [data.gouv.fr](data.gouv.fr]) : Plateforme ouverte des données publiques françaises
- [kaggle.com](https://www.kaggle.com/datasets) : une base de données pour la science
- [stats.nz](https://www.stats.govt.nz/large-datasets/csv-files-for-download/)  : Le site de statistiques du gouvernement néo zélandais
- ...

## Ouverture par un tableur

- Allez sur cette url : [https://www.data.gouv.fr/fr/datasets/colleges-du-finistere/](https://www.data.gouv.fr/fr/datasets/colleges-du-finistere/)
- Téléchargez le fichier
- Ouvrez le avec libre office calc
  - Précisez le bon encodage (UTF-8)
  - Précisez le bon séparateur : les points virgules

![](img/csv-libreoffice.png)

Les tableurs peuvent **importer** des fichiers csv mais également **exporter** au format csv.

- Quels sont les descripteurs des colonnes ?
- Combien de lignes sont dans cette collection ?
- Quel est le caractère pour délimiter les colonnes ?
- Trouvez votre lycée.

## Ouverture avec un éditeur de texte

Ouvrez ce même fichier avec un éditeur de texte.

Vous devriez obtenir ce type de résultat.

![](img/csv-editeur.png)

## Python

Lorsque nous traitons des données avec Python (listes, tuples, dictionnaires....) lorsque  le programme s'arrête les données sont perdues.

Le **stockage** des données dans un **fichier csv** permet de **conserver les données de façon pérenne**.

Voici les étapes que nous allons réaliser avec Python :

- Téléchargement d'un fichier csv
- Ouverture du fichier csv (les données sont alors écrites en mémoire RAM)
- Utilisation d'une librairie Python adaptée pour le csv
- Lecture des données
- Modification des données
- Fermeture du fichier

Utiliser un IDE Python pour l'ensemble de ces actions.

### librairies request,  open et os

Pour télécharger un fichier csv depuis une URL, nous allons utiliser la librairie [requests](https://docs.python-requests.org/en/latest/).
Ensuite nous allons ouvir un fichier vide en mode **écriture** 'w' : voir la fonction native [open](https://docs.python.org/fr/3/library/functions.html#open)
Puis nous allons écrire les données dans ce fichier.

In [None]:
import requests
import os

url = "https://www.data.gouv.fr/fr/datasets/r/a1075259-09ca-4c22-9e35-b2cd6bbf5c36"
data = requests.get(url).content


local_file = "college_finistere.csv"
with open(local_file, 'wb') as file: #on ouvre en écriture 'w' et en mode bytes 'b' le fichier nommé college_finistere.csv
    file.write(data)


**Remarques**

- Le fichier que l'on ouvre est en mode bytes car nous recevons les données sous forme d'un flux d'octets et non de caractères.
- On utilise l'instruction *with* qui garantit que si une erreur se produit dans le with, le fichier sera correctement fermé. [voir l'instruction with](https://docs.python.org/fr/3/reference/compound_stmts.html#the-with-statement)

**A Faire**

- Dans le module [os](https://docs.python.org/fr/3/library/os.html), trouver une solution pour ne pas télécharger l'URL et écrire dans le fichier si ce fichier est déjà présent dans le dossier courant.

### librairie csv

Python possède une librairie csv qui permet de lire et écrire des données au format csv

Voir la document sur la [librairie csv](https://docs.python.org/fr/3/library/csv.html).

In [None]:
import csv
with open(local_file) as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

- Quel est le type des lignes ?
- Combien d'éléments possède chaque ligne ?
- Quel est l'origine du problème sur le nombre d'éléments de chaque ligne ?
- Modifier votre code pour obtenir le nombre correct d'éléments.
- Modifier votre code afin d'obtenir les lignes sous forme de dictionnaires.

La [librairie csv](https://docs.python.org/fr/3/library/csv.html) est assez complète mais pour des besoins d'apprentissage nous allons maintenant utiliser une **librairie d'analyse de données**, [la librairie pandas](https://pandas.pydata.org/) qui va nous simplifier la vie.

### La librairie pandas

In [None]:
import pandas as pd
url="https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv"
#url="https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
df

- La colonne **PClass** *Passenger class* signifie *La classe du passager (première, deuxième...)*.
- La colonne **SibSp** *Sibling spouses* signifie *conjoint*.
- La colonne **Parch** *Parent Children* signifie *Parent Enfants*.
- La colonne **Fare** désigne le *tarif* payé pour embarquer.