[Accueil](../../index.ipynb) > [NSI Premiere](../index.ipynb)

# Traitement de données en tables : indexation

## Le format CSV

Le format csv pour "**C**omma **S**eparated **V**alues" (valeurs séparées par virgule) est un format de fichier texte très courant pour le **stockage de données tabulées**.

Chaque ligne du fichier correspond à une ligne du tableau et les virgules sont les séparations entre les colonnes.

Exemple de contenu d’un fichier csv
```
Sexe,Prénom,Année de naissance
M,Alphonse,1932
F,Béatrice,1964
F,Charlotte,1988
```
<div class="alert alert-info">
Il n’existe pas vraiment de spécifications de format.
Parfois les séparateurs sont des points virgules. (pour éviter les , qui sont utilisés comme signe de la décimale en France)
Parfois les champs sont délimités par des guillemets.
</div>

Exemple de contenu d'un fichier csv où les données sont séparées par des ;

```
"Michel";"Durand";"89 av. de la Ferme";"Chateaulin";"France"
"Robert";"Dugenou";"2 rue des oiseaux";"Saint-Segal";"France"
"Gertrude";"Dupond";"rue de la goye";"Muflin";"Groland (du bas)"
```
De nombreuses données sont présentes sur le web sous cette forme :
- [data.gouv.fr](https://www.data.gouv.fr) : Plateforme ouverte des données publiques françaises
- [kaggle.com](https://www.kaggle.com/datasets) : une base de données pour la science
- [stats.nz](https://www.stats.govt.nz/large-datasets/csv-files-for-download/)  : Le site de statistiques du gouvernement néo zélandais
- ...

### Ouverture par un tableur

- Allez sur cette url : [https://www.data.gouv.fr/fr/datasets/colleges-du-finistere/](https://geobretagne.fr/geoserver/cd29/wfs?SERVICE=WFS&REQUEST=GetFeature&VERSION=2.0.0&TYPENAMES=cd29%3Acolleges_29&OUTPUTFORMAT=csv)
- Téléchargez le fichier
- Ouvrez le avec libre office calc
  - Précisez le bon encodage (UTF-8)
  - Précisez le bon séparateur : les points virgules

![](img/csv-libreoffice.png)

Les tableurs peuvent **importer** des fichiers csv mais également **exporter** au format csv.

- Quels sont les descripteurs des colonnes ?
- Combien de lignes sont dans cette collection ?
- Quel est le caractère pour délimiter les colonnes ?
- Trouvez votre lycée.

### Ouverture avec un éditeur de texte

Ouvrez ce même fichier avec un éditeur de texte.

Vous devriez obtenir ce type de résultat.

![](img/csv-editeur.png)

### CSV avec Python

Lorsque nous traitons des données avec Python (listes, tuples, dictionnaires....) lorsque  le programme s'arrête les données sont perdues.

Le **stockage** des données dans un **fichier csv** permet de **conserver les données de façon pérenne**.

Voici les étapes que nous allons réaliser avec Python :

- Téléchargement d'un fichier csv
- Ouverture du fichier csv (les données sont alors écrites en mémoire RAM)
- Utilisation d'une bibliothèque Python adaptée pour le csv
- Lecture des données
- Modification des données
- Fermeture du fichier

Utiliser un IDE Python pour l'ensemble de ces actions.

#### Accéder aux données avec le module request

Pour télécharger un fichier csv depuis une URL, nous allons utiliser la bibliothèque [requests](https://docs.python-requests.org/en/latest/).
Ensuite nous allons ouvir un fichier vide en mode **écriture** 'w' : voir la fonction native [open](https://docs.python.org/fr/3/library/functions.html#open)
Puis nous allons écrire les données dans ce fichier.

In [None]:
import requests

url = "https://www.data.gouv.fr/fr/datasets/r/a1075259-09ca-4c22-9e35-b2cd6bbf5c36"
data = requests.get(url).content
print(data)

#### utilisation du module csv
Python possède une [bibliothèque csv](https://docs.python.org/fr/3/library/csv.html) qui permet de lire et écrire des données dans ce format.


La [bibliothèque csv](https://docs.python.org/fr/3/library/csv.html) est assez complète mais pour des besoins d'**apprentissage** nous allons utiliser également une **bibliothèque d'analyse de données**, [la bibliothèque pandas](https://pandas.pydata.org/).

#### Utilisation de la bibliothèque pandas

In [8]:
import pandas as pd
url = "https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv"
df = pd.read_csv(url)
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.4500
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000


- La colonne **PClass** *Passenger class* signifie *La classe du passager (première, deuxième...)*.
- La colonne **SibSp** *Sibling spouses* signifie *conjoint*.
- La colonne **Parch** *Parent Children* signifie *Parent Enfants*.
- La colonne **Fare** désigne le *tarif* payé pour embarquer.

## D'autres formats

<div class="alert alert-info">
    
Les formats présentés ont une structure **arborescente** contrairement au csv qui possède une structure **tabulaire**.

</div>

### JSON

**J**ava**S**cript **O**bject **N**otation est à l’origine une description textuelle d’objets javascript. Il est utilisé pour transférer des données entre le serveur web et le client web et, à l’usage, s’est révélé très pratique pour le transfert de données dans d’autres contextes.

Voici un exemple de données au format JSON


```json
[
    {
        'nom': 'Machin',
        'numero': '0298552211',
        'adresse': '5, rue de la mouche Chateaulin'
    },
    {
        'nom': 'Truc',
        'numero': '0951245444',
        'adresse': '1, route de Quimerc’h Rosnoën'
    },
    {
        'nom': 'Bidule',
        'numero': '06548789',
        'adresse': '10, grand Rue Chateaulin'
    }
]
```

Il y a 6 types possibles:

1. Chaine de caractère
2. Nombre
3. Booléen
4. Type null
5. Tableau
6. Objet

Pas de commentaire possible en json

Le site du format [JSON](https://www.json.org/json-en.html)

### yaml

YAML, pour **Y**et **A**nother **M**arkup **L**anguage

voici les données en yaml

```yaml
personnes:
    - nom: Machin
      numero: 0298552211
      adresse: 5, rue de la mouche Châteaulin
    - nom: Truc
      numero: 0951245444
      adresse: 1, route de Quimerc'h Rosnoën
    - nom: Bidule
      numero: 06548789
      adresse: 10, grand Rue Chateaulin
```



Le format est plus riche que celui de JSON
- Inclusion de plusieurs documents dans un seul fichier
- Des types plus avancés

Le site de [YAML](https://yaml.org/)


## Webographie

- [CSV sur Wikipedia](https://fr.wikipedia.org/wiki/Comma-separated_values)
- [JSON sur Wikipedia](https://fr.wikipedia.org/wiki/JavaScript_Object_Notation)
- [YAML sur Wikipedia](https://fr.wikipedia.org/wiki/YAML)


<table style="width:100%">
    <tr>
        <td style="text-align:left;"></td>
        <td style="text-align:right;"><a href="2_recherche.ipynb">2. Rechercher des données >></a></td>
    </tr>
</table>

<table style="width:100%">
    <tr>
        <td style="text-align:left;"></td>
        <td style="text-align:right;"><a href="2_recherche.ipynb">2. Rechercher des données >></a></td>
    </tr>
</table>

[Retour au sommaire](../index.ipynb)