<h1 style="text-align: center;">Traitement des données structurées avec Python</h1>

D'après D. Roche https://pixees.fr/informatiquelycee/n_site/snt_donnees_trait.html

# 1. La bibliothèque Pandas

Pour traiter des données, nous allons utiliser la bibliothèque Python **Pandas**. Une bibliothèque Python permet de rajouter des fonctionnalités par rapport au langage de base. La bibliothèque Pandas est donc très utilisée pour tout ce qui touche au traitement des données.



## 1.1 Chargement d'un fichier CSV

Pour nos premiers pas avec Pandas, nous allons utiliser des données très simples au format CSV : ces données sont contenues dans un fichier `ident_virgule.csv` (directement chargé depuis **internet**).

**À faire vous-même 1**

- **Placez votre curseur dans la cellule ci-dessous puis appuyez sur les touches Ctrl+Entrée pour exécuter ce code Python.**
- **Ce code ne fait rien de visible ! Tout se passe "sous le capot" : ce code charge dans la mémoire de l'ordinateur ce que contient le fichier `ident_virgule.csv`. <ins>Observez juste</ins> l'affichage de `Entrée[*]` pendant le chargement du fichier (qui peut prendre quelques secondes) et qui se transforme ensuite en `Entrée[1]`. Le `1` se transfomera par la suite en `2`, puis `3` et ainsi de suite à chaque fois que vous exécuterez à nouveau le code contenu dans cette cellule.**

Le code Python ci-dessous est très simple :

- Avec la première ligne, nous importons la bibliothèque `pandas` afin de pouvoir l'utiliser : elle permet au langage Python de lire convenablement un fichier `csv`, et, nous le verrons par la suite, de réalser différents traitements sur ce type de fichier,
- À la deuxième ligne, nous créons une variable `iden` qui va contenir les données présentes dans le fichier `ident_virgule.csv`.

In [1]:
import pandas

iden = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/ident_virgule.csv")


## 1.2 Voir le contenu du fichier CSV

Pour voir le contenu de la variable `iden`, on peut demander à Python d'afficher son contenu à l'aide de la fonction `print`. 

**À faire vous-même 2**

**Exécutez la cellule ci-dessous avec Ctrl+Entrée en plaçant votre curseur dans cette cellule de code.**

In [2]:
print(iden)

      nom       prenom date_naissance
0  Durand  Jean-Pierre     23/05/1985
1  Dupont   Christophe     15/12/1967
2   Terta        Henry     12/06/1978


Vous devriez voir apparaitre les données contenues dans la variable `iden` rangées sous la forme d'un tableau, un peu comme ce que nous obtenions en ouvrant le fichier "ident_virgule.csv" avec un tableur. 

![image du tableau](https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/Capture1.PNG)

Vous avez peut-être remarqué qu'une colonne a été ajoutée par rapport à ce qu'on obtiendrait avec un tableur : 

![image du tableau avec marqueur](https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/Capture2.PNG)

Les nombres présents dans cette colonne sont appelés des index. Chaque ligne du tableau a un index (première ligne : index 0, deuxième ligne index 1...)

<BLOCKQUOTE style="background-color:#F9D5D2 ; color:#D62F22 ;">ATTENTION : les index commencent à 0 et pas à 1 !</BLOCKQUOTE>

Les colonnes possèdent également des index. Dans notre exemple, ces index correspondent au "nom" (index de la première colonne), au "prenom" (index de la deuxième colonne) et à "date_naissance" (index de la troisième colonne) qui sont les descripteurs de ce tableau.

<BLOCKQUOTE><ins>En résumé</ins> : <strong>les lignes possèdent des index (0, 1, 2, ...), les colonnes possèdent aussi des index ("nom", "prenom", ...).</strong></BLOCKQUOTE>


## 1.3 Sélection de lignes et de colonnes : l'attribut `loc`

Il est possible de récupérer certaines données du tableau ; par exemple, certaines lignes, certaines colonnes ou bien encore des valeurs uniques. Pour cela, il suffit d'utiliser l'attribut `loc` avec les index des lignes et les index des colonnes. Le principe de fonctionnement de `loc` est relativement simple puisque l'on aura une instruction de la forme `loc[index_ligne,index_colonne]`.

**À faire vous-même 3**

- **Exécutez le programme suivant** 
- **puis, dans la cellule suivante, utilisez la fonction `print` pour vérifier la variable `info` contient bien le prénom "Christophe".**

In [3]:
import pandas

iden = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/ident_virgule.csv")
info = iden.loc[1, 'prenom']

**À faire vous-même 4**

**On a recopié ci-dessous le programme du "À faire vous-même 3".** 

**<ins>Modifiez</ins> le pour que la variable `info` contienne "12/06/1978".**

In [None]:
import pandas

iden = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/ident_virgule.csv")
info = iden.loc[1, 'prenom']

Il est possible de récupérer toutes les lignes d'une colonne. Il suffit de remplacer la partie `index_ligne` de `loc` par le caractère`:`, autrement dit, d'écrire quelque chose de la forme `loc[:,index_colonne]`.

**À faire vous-même 5**

- **Exécutez le programme suivant**
- **Ajoutez une ligne pour afficher ce que contient la variable `info` : toutes les données de la colonne d'index "nom", autrement dit, tous les noms.**

In [None]:
import pandas

iden = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/ident_virgule.csv")
info = iden.loc[:, 'nom']

 
<ins>Remarque</ins> : vous verrez qu'à l'affichage, il est indiqué aussi `Name: nom, dtype: object`. Cela précise que les données viennent de la colonne `nom` et que leur type est `object` : c'est ce que indique la bibliothèque Pandas lorsque les données sont des chaînes de caractères (c'est à dire du texte) ou lorsque les données ne sont pas toutes du même type (ce qui n'est pas le cas ici).

<ins>Remarque</ins>: En fait, il est possible de faire la même chose plus simplement sans utiliser l'attribut `loc` :

In [None]:
import pandas

iden = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/ident_virgule.csv")
info = iden['nom']

 Il est possible de récupérer toutes les colonnes d'une ligne particulière, cette fois en remplaçant la partie `index_colonne` de `loc` par `:`, autrement dit, d'écrire quelque chose de la forme `loc[index_ligne, :]`.
 
**À faire vous-même 6**

- **Exécutez le programme suivant**
- **Ajouter une ligne pour afficher de contenu de la variable `info`: toutes les données de la dernière ligne (index 2).**

In [None]:
import pandas

iden = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/ident_virgule.csv")
info = iden.loc[2, :]

Vous remarquez par contre que les données de la dernière ligne sont affichées en colonne.

Il est aussi possible de récupérer seulement certaines lignes et certaines colonnes en utilisant la notation suivante : <br>`loc[[index_ligne_1, index_ligne_2, ...],[index_colonne_1, index_colonne_2, ...]]`. 

**À faire vous-même 7**

- **Exécutez le programme suivant.**
- **Ajoutez une ligne pour afficher ce que contient la variable `info` : un tableau avec uniquement les colonnes `nom` et `date_naissance` de la première ligne (index 0) et de la deuxième ligne (index 1).**

In [None]:
import pandas

iden = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/ident_virgule.csv")
info = iden.loc[[0, 1], ['nom', 'date_naissance']]

# 2. Application : traitement d'un fichier de renseignement sur les villes françaises

Afin d'avoir des exemples plus complexes à traiter, dans la suite, nous allons travailler sur les données contenues dans le fichier `ville_virgule.csv` (directement chargé depuis **internet**). Ce fichier regroupe certaines données sur les villes de France en 2012.


## 2.1 Chargement et visualisation (partielle)

**À faire vous-même 8**

- **Exécutez le programme suivant (attention : le chargement peut être long ; il est terminé lorsque `Entrée[*]` est remplacé par `Entrée[1]`).**
- **En utilisant la cellule d'après, vérifiez que la variable `info_villes` contient bien les données contenues dans le fichier `ville_virgule.csv` avec la fonction `print`.**

In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")

Comme vous pouvez le constater, il manque des données dans le tableau qui s'affiche (les données manquantes sont symbolisées par des ...), en effet, le tableau contient trop données pour qu'il soit entièrement affiché dans le notebook. 

 En explorant le tableau, vous devriez, notamment dans les colonnes `alt_min` et `alt_max`, voir apparaitre un étrange `NaN` pour les dernières villes du tableau. `NaN` signifie "not a number". Ici, cela veut tout simplement dire que certaines données sont manquantes.


## 2.2 Un exemple de traitement : sélection des villes dont l'altitude minimum est supérieure à 1500 m

Nous allons maintenant introduire des conditions dans la sélection des villes. Imaginez par exemple que vous désirez obtenir un tableau contenant toutes les villes qui ont une altitude minimum supérieure à 1500 m : 

**À faire vous-même 9**

- **Lisez le programme suivant et essayez de comprendre ce qu'il fait.** 
- **Exécutez le.**
- **Ajoutez une ligne pour afficher le contenu de la variable `nom_alt`**

In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
nom_alt = info_villes.loc[info_villes["alt_min"] > 1500, ["nom", "alt_min"]]

Dans le `loc`, l'expression `info_villes["alt_min"]>1500` est bien avant la virgule. Elle concerne donc les index des lignes du tableau : on sélectionnera uniquement les lignes qui auront la valeur du descripteur `alt_min` supérieure à 1500. Après la virgule, il y a `["nom", "alt_min"]`. Nous allons donc bien sélectionner les villes qui ont une altitude minimum supérieure à 1500 m et afficher leurs noms et altitude minimale.

**À faire vous-même 10**

**En vous inspirant de ce qui a été fait au "À faire vous-même 9", écrivez un programme qui permettra de faire afficher les villes qui ont une densité d'habitant (colonne d'index `dens`) inférieure à 50 (dans le tableau ainsi créé, on aura 3 colonnes : le nom de la ville, la densité de la population et l'altitude minimum)**

In [None]:
# A FAIRE

Il est également possible de sélectionner des lignes dont les valeurs d'un attribut est égal à une certaine valeur.

**Exécutez le programme suivant.**

In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
coord_Issoudun = info_villes.loc[info_villes['nom']=='Issoudun', ['long', 'lat']]

**À faire vous-même 11**

- **Ajoutez une ligne au programme précédent afin de faire afficher les coordonnées GPS de la ville d'Issoudun** 
- **puis cliquez deux fois dans la cellule ci-dessous pour l'éditer et y noter ces coordonnées**
(une fois cela fait, vous pourrez utiliser la combinaison de touches Ctrl+Entrée pour revenir au bel affichage initial).

Réponse : 

## 2.3 Autre exemple de traitement :  sélection de lignes multi-critères

Il est possible de combiner plusieurs facteurs de sélection en utilisant un "**et**" (caractère "&") ou un "**ou**" (caractère "|" obtenu par la combinaison des touches AltGr+"tiret du moins").

**À faire vous-même 12**

- **Lisez le programme suivant afin de comprendre ce que fait le programme suivant**
- **Ajoutez une ligne pour afficher le contenu de la variable `nom_alt`**


In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
nom_alt = info_villes.loc[(info_villes["alt_min"]>1500) & (info_villes["dens"]>50), ["nom", "dens","alt_min"]]

- **Rédiger ci-dessous brièvement une explication de ce qu'il fait.**

<ins>Réponse</ins> : 

- **Quelle est, en France, la seule ville avec une densité de population supérieure à 50 et une altitude minimum supérieure à 1500 m ? Indiquez-la ci-dessous.**

<ins>Réponse</ins> : 

## 2.4  Calculs sur des colonnes

Il est aussi possible d'effectuer des calculs sur des colonnes, par exemple des moyennes. Il suffit d'utiliser l'instruction "mean" pour effectuer une moyenne :

**À faire vous-même 13**

- **Lisez le programme ci-dessous afin de comprendre son rôle**
- **Ajoutez une ligne pour afficher le contenu de la variable `moyenne_alt_min` et puis exécutez le programme.**

In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
moyenne_alt_min = info_villes["alt_min"].mean()

- **Rédigez ci-dessous une brève description de ce qu'il fait.**

<ins>Réponse</ins>:

- **Quelle est l'altitude minimum moyenne des villes de France ?**

<ins>Réponse</ins> :

**À faire vous-même 14**

**Écrivez ci-dessous un programme permettant de calculer le nombre moyen d'habitants en 2012.**

In [None]:
# A FAIRE

 Pour l'instant nous avons calculé une moyenne sur l'ensemble des lignes, il est aussi possible d'imposer une condition sur les lignes qui seront utilisées pour le calcul.
 
**À faire vous-même 15**

- **Lisez le programme suivant pour comprendre ce qu'il fait**
- **Ajoutez une ligne pour afficher le contenu de la variable `nbe_hab` et exécutez le programme.**

In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
nbe_hab = info_villes.loc[info_villes["alt_min"] > 1500, "nb_hab_2012"].mean()

- **Quel est le nombre moyen d'habitants des villes dont l'altitude moyenne supérieure à 1500m ?**

<ins>Réponse</ins> : 

## 2.5 Autre traitement : trier les lignes en fonction des valeurs d'un descripteur

 Il est possible de trier le tableau en fonction des valeurs d'un descripteur. Il suffit d'utiliser l'instruction `sort_values`.
 
**À faire vous-même 16**

- **Lisez le programme suivant**
- **Ajouter une ligne pour faire afficher le contenu de la variable `tri_alt_min`**

In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
tri_alt_min = info_villes.sort_values(by=["alt_min"])

Vous devriez obtenir un nouveau tableau de données `tri_alt_min` trié dans l'ordre croissant des altitudes minimales. 

- **Quelle est la ville ayant l'altitude minimale la plus faible de France ?** 

<ins>Réponse</ins> : 

- **En s'aidant du "A faire vous-même 15", en utilisant `.min()`, écrire une ligne de code permettant de retrouver le résultat.**

Il est aussi possible de trier par ordre décroissant en ajoutant `ascending=False` :
 
**À faire vous-même 17**

- **Lisez et testez le programme suivant**
- **Ajoutez une ligne pour faire afficher le contenu de la variable `tri_alt_min`**

In [None]:
import pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
tri_alt_min = info_villes.sort_values(by=["alt_min"], ascending=False)

- **Quelle est la ville ayant l'altitude minimum la plus importante de France ?**

<ins>Réponse</ins> :

- **De même que pour la question précédente, écrire une ligne de code permettant de retrouver le résultat.**

**À faire vous-même 18**

**Écrivez un programme permettant de répondre à la question suivante : quelle est la ville ayant la densité de population la plus forte ?**

In [None]:
# A FAIRE

# 3. Traitement avancé : géolocalisation

Le fichier précédent donne la latitude et la longitude des villes de France. La bibliothèque Python Folium permet de créer des cartes interactives où on peut positionner des marqueurs à partir de leurs coordonnées GPS.

Le programme suivant :

- importe les bibliothèques `folium` et `pandas` (l.1)
- importe le fichier "villes_virgule.csv" (l.3)
- affecte la latitude et la longitude de la ville d'Issoudun aux variables `lat` et `long` (l.5)
- affecte la carte de la métropole centrée sur Issoudun à la variable `carte` : c'est le rôle du paramètre `location`. (l.7)
- affiche cette carte (l.9). 

Remarquez l'utilisation de `values[0]` à la fin de la ligne 5. C'est cela qui renvoie les valeurs (*values*) des attributs `lat` et `long` de la ligne `0` de la sélection réalisée avec `loc` (qui ne contient en fait qu'une seule ligne puisqu'une seule ville porte le nom d'Issoudun).

<ins>Attention</ins>: l'instruction `print(carte)` ne permet pas d'afficher la carte. Il faut seulement mettre `carte` comme *dernière instruction* d'un tel programme pour que la carte s'affiche dans le notebook. 


In [None]:
import folium, pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
# coordonnées GPS de la ville d'Issoudun
lat, long = info_villes.loc[info_villes['nom']=='Issoudun', ["lat", "long"]].values[0]
# carte de la métropole centrée sur Issoudun
carte = folium.Map(location=(lat, long), zoom_start=6) # mettre un nombre inférieur à 6 si on souhaite une carte moins zoomée sur la France métropolitaine
# affichage de la carte
carte

On peut remarquer qu'il est possible de zoomer/dézoomer sur cette carte avec le "+/-", ou encore avec la molette de la souris. Un clic gauche maintenu permet aussi de se déplacer. Pour information, la bibliothèque `folium` utilise à cette fin le projet libre [OpenStreetMap](https://www.openstreetmap.fr/) pour afficher cette carte.

Le programme suivant permet d'ajouter un marqueur à la carte correspondant à la ville d'Issoudun : une seule instruction a été ajouté au programme précédent : `folium.Marker(centre_Metropole, popup="Issoudun").add_to(carte)`.

En français, cela se traduit par "ajouter à la carte (*add_to(carte)*), le marqueur (*folium.Marker*) dont les corrdonnées GPS sont données par la variable `centre_Metropole`, (qui est un couple de type (latitude, longitude)) et avec une fenêtre surgissante (*popup*) contenant le nom de la ville d'Issoudun. Dans la pratique, un clic sur le marqueur fera apparaître cette fenêtre surgissante.

In [None]:
import folium, pandas

info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
# coordonnées GPS de la ville d'Issoudun
lat, long = info_villes.loc[info_villes['nom']=='Issoudun', ["lat", "long"]].values[0]
# carte de la métropole centrée sur Issoudun
carte = folium.Map(location=(lat, long), zoom_start=6)
# ajout d'un marqueur
folium.Marker((lat, long), popup="Issoudun").add_to(carte)
# affichage de la carte
carte

On peut ainsi réaliser une géolocalisation de villes vérifiant un certain critère : 

- on sélectionne les villes avec la méthode expliquée ci-dessus dans ce notebook, 
- pour chaque ville de la sélection (on fait donc uhne boucle): 
    - on récupère les valeurs des attributs `nom`, `lat` et `long`
    - et ajoute le marqueur correspondant.

Le programme suivant effectue une sélection de villes de France dont l'altitude minimale est supérieure à 1500m les géolocalise sur la carte.

In [None]:
import folium, pandas

# contruction de la carte
info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
# coordonnées GPS de la ville d'Issoudun
lat, long = info_villes.loc[info_villes['nom']=='Issoudun', ["lat", "long"]].values[0]
# carte de la métropole centrée sur Issoudun
carte = folium.Map(location=(lat, long), zoom_start=6)
# selection des villes dont l'altitude minimale est supérieure à 1500m
selection = info_villes.loc[info_villes['alt_min']>1500, ['nom', 'lat', 'long']]
# ajout des marqueurs à la carte
for ville in selection.values:
    nom, lat, long = ville
    folium.Marker((lat, long), popup=nom).add_to(carte)
# affichage de la carte   
carte

Il est possible d'affiner le traitement de façon à éviter que les marqueurs s'affichent les uns sur les autres. Le principe est d'ajouter à la carte une couche de "clusters" et d'ajouter les marqueurs non pas à la carte elle-même, mais aux clusters.

C'est ce que fait le programme suivant. On remarquera qu'on a importé un greffon (*plugin*) de la bibliothèque Folium nommé `MarkerCluster` (l.2).

In [None]:
import folium, pandas
from folium.plugins import MarkerCluster

# contruction de la carte avec des clusters de marqueurs
info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
# coordonnées GPS de la ville d'Issoudun
lat, long = info_villes.loc[info_villes['nom']=='Issoudun', ["lat", "long"]].values[0]
# carte de la métropole centrée sur Issoudun
carte = folium.Map(location=(lat, long), zoom_start=6)
clusters = MarkerCluster().add_to(carte) # ajout à la carte d'une couche de clusters de marqueurs
# selection des villes dont l'altitude minimale est supérieure à 1500m
selection = info_villes.loc[info_villes['alt_min']>1500, ['nom', 'lat', 'long']]
# ajout des marqueurs aux clusters
for nom, lat, long in selection.values: # pour chacune des valeurs des attributs nom, lat et long de la selection
    folium.Marker((lat, long), popup=nom).add_to(clusters) # on ajoute un marqueur aux clusters
# affichage de la carte   
carte

**À faire vous même 19**

**<ins>En modifiant</ins> le programme ci-dessous, écrivez un programme qui affiche la carte des villes de France dont le nombre d'habitants est supérieur à 100000 en 2012.**

In [None]:
import folium, pandas
from folium.plugins import MarkerCluster

# contruction de la carte avec des clusters de marqueurs
info_villes = pandas.read_csv("https://snt.erwandemerville.fr/donnees_structurees/src/traitement_donnees/villes_virgule.csv")
# coordonnées GPS de la ville d'Issoudun
lat, long = info_villes.loc[info_villes['nom']=='Issoudun', ["lat", "long"]].values[0]
# carte de la métropole centrée sur Issoudun
carte = folium.Map(location=(lat, long), zoom_start=6)
clusters = MarkerCluster().add_to(carte) # ajout à la carte d'une couche de clusters de marqueurs
# selection des villes dont l'altitude minimale est supérieure à 1500m
selection = info_villes.loc[info_villes['alt_min']>1500, ['nom', 'lat', 'long']]
# ajout des marqueurs aux clusters
for nom, lat, long in selection.values: # pour chacune des valeurs des attributs nom, lat et long de la selection
    folium.Marker((lat, long), popup=nom).add_to(clusters) # on ajoute un marqueur aux clusters
# affichage de la carte   
carte

**À faire vous-même 20**

**<ins>Ecrivez un programme</ins> qui affiche la carte des villes de France dont le nombre d'habitants est supérieur à 100000 en 2012 et dont la densité est supérieure à 5000.**

**À faire vous-même 21**

Sur le site [data.gouv.fr](https://www.data.gouv.fr), rechercher un fichier au format CSV donnant les coordonnées GPS des bornes de recharge pour les véhicules électriques en 2023, puis réaliser la carte avec Python la carte géographique donnant leur position pour celles qui se trouvent à Paris (attention : ne pas chercher à les positionner toutes : trop long à traiter dans Jupyter). 