# 👩‍💻 Activité 1 : Comment récupérer des données ? - PARTIE 1 : fichiers de données

<img src="https://cdn.pixabay.com/photo/2016/11/30/15/00/apples-1872997_1280.jpg" alt="rubik" width="400"/>

#### [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management

### Code pour indiquer l'importance des notions traitées dans cette activité

- #### 🥇 : connaissance fondamentale pour l'analyse de données
- #### 🥈 : connaissance importante pour l'analyse de données
- #### 🥉 : connaissance moins importante pour l'analyse de données

## 🔍 Recherche d'informations

En recherchant sur le web, trouver les réponses aux questions suivantes :

### - Quels sont les 2 types de structures de données que peut contenir un fichier JSON ?
___
Les fichiers JSON peuvent contenir deux types de structures de données : les **dictionnaires** (objet JSON) et les **listes** (array JSON).

Source : https://www.json.org/json-fr.html
___
### - Quels sont les différences entre des données contenues dans les structures Python et dans des structures JSON ?
___
Les JSON sont issues de la **syntaxe Javascript**, il y a donc les **différences** suivantes entre la syntaxe **JSON** et la syntaxe **Python** :

|**Syntaxe JSON**|**Syntaxe Python**|
|-|-|
|true|True|
|false|False|
|null|None|
|object|dict|
|array|list, tuple|
|string|str|
|number|int, float|

La **bibliothèque standard** Python possède le module **[json](https://docs.python.org/fr/3/library/json.html)** pour traiter les fichiers JSON.

Source :

- https://docs.python.org/fr/3/library/json.html#encoders-and-decoders
___
### - Comment sont construits les fichiers GeoJSON et TopoJSON ?
___
Le fichier GeoJSON est un format d'encodage de **données géospatiales** en utilisant un fichier JSON. Le fichier TopoJSON encode les données geographiques de façon **plus condensée** que le fichier GeoJSON.

Source :

- https://fr.wikipedia.org/wiki/GeoJSON

- https://fr.wikipedia.org/wiki/TopoJSON
___
### - Quelles différences y a-t-il entre un fichier JSON et un fichier CSV ?
___
Le fichier **JSON** est un format **léger de stockage de données** très utilisé par les **API**. Le format CSV est **plus verbeux** de le JSON et il stocke les données sous un **format tabulaire** à l'aide d'un **caractère de séparation** des données. La **bibliothèque standard** Python possède le module **[csv](https://docs.python.org/3/library/csv.html)** pour traiter les fichiers CSV.

Source :

- https://docs.python.org/3/library/csv.html
___

## ✏️ Activités

Un processus d'**analyse de données** commence par une étape de **collecte de données**. Si les données ne sont pas trop volumineuses (< quelques Go de données), on importe les données dans un dataframe Pandas. Si les données sont trop volumineuses, il faudra passer à des technologies big data (Hadoop, Spark...).
Dans cette partie, on effectuera la collecte des données mais aussi le **traitement des valeurs manquantes** et les premières **visualisations de données**.

Dans cette partie, on va étudier le **prix de vente des carburants** dans les différentes **stations service de France**. La données peuvent être récupérées à cette url : https://www.data.gouv.fr/fr/datasets/prix-des-carburants-en-france-flux-instantane/

Les données sont présentées **sous différents formats** (XML, CSV, JSON, GeoJSON, Shapefile). L'objectif de cette activité va être de récupérer les données de ces fichiers dans des **dataframes Pandas**.

<img src="https://cdn.pixabay.com/photo/2016/08/15/22/20/fuel-1596622_1280.jpg" alt="datagouv" width="400"/>

### 🥇 Fichiers CSV (Comma-separated values) 

Les **fichiers CSV** sont des fichiers au **format texte** contenant des données **séparées par des virgules**. Il existe des **variantes** utilisant d'**autres symboles** pour séparer les données (Delimiter-separated values - DSV) : le point virgule, la tabulation... Tous ces fichiers sont récupérables dans un dataframe Pandas grâce à la fonction [`read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) et au paramètre `sep` pour indiquer le délimiteur.

- Importer les bibliothèques Pandas, Matplotlib et Seaborn

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

- Récupérer les données du **fichier CSV** (https://www.data.gouv.fr/fr/datasets/r/64e02cff-9e53-4cb2-adfd-5fcc88b2dc09) dans un **dataframe Pandas**.

In [None]:
df = pd.read_csv("prix-carburants-fichier-instantane-test-ods-copie.csv", sep=";")
df.info()

- Afficher la **proportion des valeurs manquantes par colonne**.

In [None]:
(df.isna().sum()/df.shape[0]*100).round(2)

- Tracer le **graphique des valeurs manquantes** grâce à la bibliothèque Seaborn pour pouvoir les **localiser** (https://seaborn.pydata.org/generated/seaborn.heatmap.html). Analyser la **corrélation des valeurs manquantes**. Quelle conclusion en tirer sur le nettoyage des données ?

> ℹ️ La localisation des valeurs manquantes est aussi possible avec la bibliothèque [Missingno](https://github.com/ResidentMario/missingno) spécialisée dans l'analyse des données manquantes

In [None]:
plt.figure(figsize=(10,6))
sns.heatmap(df.isna(), cbar=False)
plt.show()

In [None]:
sns.heatmap(df.isna().corr().fillna(0))
plt.show()

On oberve **deux groupes** de données où les valeurs manquantes sont **très corrélées**. Au vu de la **faible proportion de données manquantes** et de leur **forte corrélation**, on peut **supprimer ces lignes de données**.

- Supprimer certaines **données manquantes** suite aux conclusions précédentes et réindexer les données (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html). Tracer le **graphique des données manquantes** pour **valider le bon traitement** 

In [None]:
drop_df = df.dropna(how="any", subset=[
    "prix_maj", "prix_id", "prix_valeur", "prix_nom", "com_arm_code",
    "com_arm_name", "epci_code", "epci_name", "dep_code", "dep_name",
    "reg_code", "reg_name", "com_code", "com_name",
])
drop_df = drop_df.reset_index()

In [None]:
plt.figure(figsize=(10,6))
sns.heatmap(drop_df.isna(), cbar=False)
plt.show()

### 🥇 Fichiers JSON (JavaScript Object Notation) 

Les **fichiers JSON** sont des fichiers au **format texte**. Il existe aussi 2 sous familles de fichiers **JSON** spécialisés pour la manipulation de **données géographiques** : [GeoJSON](https://fr.wikipedia.org/wiki/GeoJSON) et [TopoJSON](https://fr.wikipedia.org/wiki/TopoJSON)

- Récupérer les données du **fichier JSON** (https://www.data.gouv.fr/fr/datasets/prix-des-carburants-en-france-flux-instantane/) dans un **dataframe Pandas**.

In [None]:
df_json = pd.read_json("https://www.data.gouv.fr/fr/datasets/r/b3393fc7-1bee-42fb-a351-d7aedf5d5ff0")
df_json

- Séparer les différentes données de la **colonne "fields"** grâce à la fonction de Pandas [`json_normalize()`](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html)

In [None]:
df_json = pd.json_normalize(df_json["fields"])

- Analyser **statistiquement** et **graphiquement** la colonne "prix_valeur". Quelle **conclusion** faites-vous à partir de la **distribution des données** ? Valider cette conclusion statistiquement et graphiquement 

In [None]:
df_json[["prix_valeur"]].describe()

In [None]:
df_json[["prix_valeur"]].hist()
df_json[["prix_valeur"]].plot.kde()
plt.show()

La distribution présente **deux modalités** sûrement à cause des **différents types de carburants**.

In [None]:
df_json[["prix_nom", "prix_valeur"]].groupby(["prix_nom"]).agg(["mean", "std"])

In [None]:
plt.figure(figsize=(10, 5))
sns.histplot(data=df_json, x="prix_valeur", hue="prix_nom")
plt.show()

In [None]:
plt.figure(figsize=(10, 5))
sns.boxplot(data=df_json, x="prix_valeur", y="prix_nom", hue="pop")
plt.show()

### 🥈 Fichiers GeoJSON () 

Les **fichiers GeoJSON** sont des fichiers JSON avec un **formalisme spécifique** pour stocker des **données géographiques** donc ils peuvent contenir à la fois des **données "métier"** et des **données géographiques**.

- Récupérer les données du **fichier GeoJSON** (https://www.data.gouv.fr/fr/datasets/prix-des-carburants-en-france-flux-instantane/) dans un **dataframe Pandas**.

In [None]:
df_geojson = pd.read_json("https://www.data.gouv.fr/fr/datasets/r/b9a8d9cb-4dcf-41cc-b66e-dc0b49cd21d4")
df_geojson

- Afficher le contenu de la **colonne "features"** dans un dataframe grâce à la fonction de Pandas [`json_normalize()`](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html) et retrouver les différentes parties d'un GeoJSON ("type", "geometry" et "properties")

In [None]:
pd.json_normalize(df_geojson["features"])

- Installer dans l'**environnement virtuel** et importer la bibliothèque [GeoPandas](https://geopandas.org/en/stable/) 

> ℹ️ La bibliothèque **GeoPandas** est une bibliothèque de **manipulation de données cartographiques** en Python. Elle permet de manipuler des GeoDataFrames et des GeoSeries pour effectuer des calculs sur les données géographiques.

In [None]:
import geopandas

- Récupérer le **fichier GeoJSON** de la **région** de votre choix sur ce site : https://france-geojson.gregoiredavid.fr/. Créer un **geoDataFrame** de ces données

In [None]:
url_geojson_aura = "https://france-geojson.gregoiredavid.fr/repo/regions/auvergne-rhone-alpes/region-auvergne-rhone-alpes.geojson"
aura_gdf = geopandas.read_file(url_geojson_aura)
aura_gdf

- Récupérer les données du **fichier GeoJSON** (https://www.data.gouv.fr/fr/datasets/prix-des-carburants-en-france-flux-instantane/) dans un **Geodataframe GeoPandas**.

In [None]:
gdf = geopandas.read_file("https://www.data.gouv.fr/fr/datasets/r/b9a8d9cb-4dcf-41cc-b66e-dc0b49cd21d4")
gdf

- Effectuer une **jointure** entre les deux **GeoDataFrame** à l'aide de la fonction [`sjoin()`](https://geopandas.org/en/stable/docs/reference/api/geopandas.sjoin.html#geopandas.sjoin) de GeoPandas pour ne conserver que les stations de la région choisie

In [None]:
aura_gdf_small = geopandas.sjoin(gdf, aura_gdf)
aura_gdf_small = aura_gdf_small.reset_index(drop=True)
aura_gdf_small

- Sélectionner uniquement les **stations d'autoroute** (utiliser la colonne "pop")

In [None]:
aura_gdf_small = aura_gdf_small[aura_gdf_small["pop"]=="A"]

- **Exporter** le GeoDataFrame obtenu sous forme d'un fichier GeoJSON grâce à la méthode de GeoDataFrame [`to_file()`](https://geopandas.org/en/stable/docs/reference/api/geopandas.GeoDataFrame.to_file.html)

In [None]:
aura_gdf_small.to_file('aura_autoroute.geojson', driver='GeoJSON')

- Installer dans l'**environnement virtuel** et importer la bibliothèque [Folium](https://python-visualization.github.io/folium/) 

> ℹ️ La bibliothèque **Folium** est une des bibliothèques de **cartographie** en Python. Il s'agit d'un **"wrapper"** sur la bibliothèque Javascript [Leaflet.js](https://leafletjs.com/)

In [None]:
import folium

- Créer un **carte Folium vide** centrée sur le **centre de la France** (latitude : 46.227638, longitude : 2.213749) et avec un zoom de 6 (https://python-visualization.github.io/folium/quickstart.html)

In [None]:
m = folium.Map(location=[46.227638, 2.213749], zoom_start=6)
m

- Essayer d'afficher grâce l'object `GeoJson` de Folium toutes les stations services des autoroute de la région choisie à partir du fichier **GeoJSON créé précédemment**

In [None]:
folium.GeoJson('aura_autoroute.geojson', name="geojson").add_to(m)
m

### 🥈 Fichiers XML (Extensible Markup Language) 

Les **fichiers XML** sont des fichiers au **format texte**. Tous ces fichiers sont récupérables dans un dataframe Pandas grâce à la fonction [`read_xml()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_xml.html). Pour fonctionner correctement, la bibliothèque `lxml` doit être installée dans l'environnement virtuel.

- Récupérer les données d'un des **fichiers XML** (https://www.data.gouv.fr/fr/datasets/prix-des-carburants-en-france-flux-instantane/) dans un **dataframe Pandas**.

> ℹ️ Lors de l'utilisation de fonctions d'importation de données avec Pandas, il peut y avoir des erreurs dues à l'**encodage des données**. L'encodage "classique" d'un texte est l'**utf-8** mais il en existe beaucoup d'autres (ascii, utf-16, utf-32...) qui permettent de visualiser les différents alphabets ou encore les émojis. Dans les fonctions de Pandas, il faut en général utiliser le paramètre `encoding` pour définir l'encodage.

In [None]:
# A COMPLETER

- Vérifier que les **prix ont bien été récupérés** dans le dataframe. Si ce n'est pas le cas, essayer de construire le dataframe à partir de la **bibliothèque standard [`xml.etree.ElementTree`](https://docs.python.org/3/library/xml.etree.elementtree.html)**.

In [None]:
# A COMPLETER

- Calculer la **moyenne** des carburants par **carburants** et par **types de stations**

In [None]:
# A COMPLETER

### 🥇 Fichiers de tableur (Excel, Open Office...)

Les **fichiers de tableurs** sont très souvent utilisés. La bibliothèque **Pandas** possède la fonction [`pandas.read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) qui permet de lire ces fichiers.

> ℹ️ La bibliothèque Pandas a besoin de la bibliothèque [openpyxl](https://openpyxl.readthedocs.io/en/stable/) pour fonctionner, il faut donc l'installer.

- Récupérer dans un **dataframe Pandas** les données des musées des communes de France à cette url au format Excel [Liste des Musées de France (dernière version 2022)](https://www.data.gouv.fr/fr/datasets/liste-et-localisation-des-musees-de-france/)

In [None]:
# A COMPLETER

- Grâce à la bibliothèque **Folium** et au dataframe créé précédemment, afficher les **musées de France** sur une carte sous forme de cercles [`folium.vector_layers.CircleMarker()`](https://python-visualization.github.io/folium/modules.html#folium.vector_layers.CircleMarker) avec un **popup** qui affiche le nom du musée quand on clique sur un cercle

In [None]:
# A COMPLETER

## 🚀 Pour aller plus loin

- From XML to Pandas dataframes : https://medium.com/@robertopreste/from-xml-to-pandas-dataframes-9292980b1c1c
- CSV Files in Python || Python Tutorial || Learn Python Programming : https://www.youtube.com/watch?v=Xi52tx6phRU&t=460s


___
*👨‍🏫 [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management*
___
Source images d'illustration : Image par lumix2004 de Pixabay, Image par IADE-Michoko de Pixabay