Mise à jour du premier chapitre sur les figures (#553)

linogaliana · web-flow · commit 46f038a49151 · 2024-09-23T15:28:36.000+02:00
* Intro

* up

* up

* Go ggplot

* restructuration
diff --git a/content/manipulation/02_pandas_suite.qmd b/content/manipulation/02_pandas_suite.qmd
@@ -111,6 +111,7 @@ Le chapitre précédent utilisait quasi exclusivement la librairie `Pandas`. Nou
 
 Comme expliqué ci-dessous, nous allons utiliser une librairie nommée `pynsee` pour récupérer les données de l'Insee utiles à enrichir notre jeu de données de l'Ademe. Cette librairie n'est pas installée par défaut dans `Python`. Avant de pouvoir l'utiliser,
 il est nécessaire de l'installer, comme la librairie `great_tables` que nous verrons à la fin de ce chapitre:
+:::
 
 ::: {.content-visible when-profile="en"}
 ## Environment
@@ -1377,11 +1378,15 @@ To read this type of file optimally, it is recommended to use the `DuckDB` libra
 
 
 ::: {.content-visible when-profile="fr"}
+
 Bien sûr, pour aller plus loin, il faudrait mieux normaliser les données, vérifier que l'information recherchée n'est pas à cheval sur plusieurs colonnes et bien sûr faire de l'inspection visuelle pour détecter les jeux de mots cachés. Mais déjà, en quelques minutes, on a des statistiques partielles sur le phénomène des coiffeurs blagueurs.
+
 :::
 
 ::: {.content-visible when-profile="en"}
+
 Of course, to go further, it would be better to normalize the data more thoroughly, check that the information sought is not spread across multiple columns, and conduct visual inspections to detect hidden puns. But already, in just a few minutes, we have partial statistics on the phenomenon of punny hairdressers.
+
 :::
 
 ::: {.content-visible when-profile="fr"}
@@ -1399,9 +1404,11 @@ Pour pallier ce problème, a récémment été mis en oeuvre le [code statistiqu
 
 
 [^flou]: Autrement, on rentre dans le monde des appariements flous ou des appariements probabilistes. Les appariements flous sont des situations où on ne dispose plus d'un identifiant exact pour associer deux bases mais d'une information partiellement bruitée entre deux sources pour faire cette mise en relation. Par exemple, dans une base de données produit on aura `Coca Cola 33CL` et dans une autre `Coca Cola canette` mais sous ces deux noms sont cachés le même produit. Le chapitre d'[ouverture aux enjeux de recherche textuelle avec `ElasticSearch`](/content/modern-ds/elastic.qmd) est consacré à cette problématique. Les appariements probabilistes sont un autre type d'approche. Dans ceux-ci, on associe des observations dans deux bases non pas sur la base d'un identifiant mais sur la distance entre un ensemble de caractéristiques dans les deux bases. Cette technique est très utilisée dans les statistiques médicales ou dans l'évaluation de politiques publiques sur la base du [_propensity score matching_](https://en.wikipedia.org/wiki/Propensity_score_matching).
+
 :::
 
 ::: {.content-visible when-profile="en"}
+
 ### The social security number and the issue of individual identifiers' confidentiality
 
 For individuals, there exists a unique identifier that allows linking them across different data sources: the [NIR](https://www.cnil.fr/fr/definition/nir-numero-dinscription-au-repertoire), also known as the INSEE number or social security number.
@@ -1414,14 +1421,17 @@ This identifier is mainly present in management databases related to payroll, so
 To address this problem, the [non-significant statistical code (CSNS)](https://www.insee.fr/fr/information/7635825?sommaire=7635842) or hashed NIR, a non-identifying anonymous individual identifier, was recently implemented. The goal of this anonymized identifier is to reduce the dissemination of personal information that, although allowing civil servants and researchers to deterministically link numerous databases, provided analysts with non-essential information about the individuals in question.
 
 [^flou]: Otherwise, we enter the realm of fuzzy matching or probabilistic matching. Fuzzy matching occurs when we no longer have an exact identifier to link two databases but have partially noisy information between two sources to make the connection. For example, in a product database, we might have `Coca Cola 33CL` and in another `Coca Cola canette`, but these names hide the same product. The chapter on [Introduction to Textual Search with ElasticSearch](/content/modern-ds/elastic.qmd) addresses this issue. Probabilistic matching is another approach. In these, observations in two databases are associated not based on an identifier but on the distance between a set of characteristics in both databases. This technique is widely used in medical statistics or in the evaluation of public policies based on [_propensity score matching_](https://en.wikipedia.org/wiki/Propensity_score_matching).
+
 :::
 
 ::: {.content-visible when-profile="fr"}
+
 ## Exercices d'application
 
 ### Pourquoi a-t-on besoin d'un code commune quand on a déjà son nom ?
 
 Cet exercice va revenir un peu en arrière afin de saisir pourquoi nous avons pris comme hypothèse ci-dessus que le code commune était la clé de jointure.
+
 :::
 
 ::: {.content-visible when-profile="en"}
@@ -1436,24 +1446,33 @@ This exercise will take a step back to understand why we assumed above that the
 {{< include "02_pandas_suite/_exo3_solution.qmd" >}}
 
 ::: {.content-visible when-profile="fr"}
+
 Ce petit exercice permet donc de se rassurer car les libellés dupliqués
 sont en fait des noms de commune identiques mais qui ne sont pas dans le même département.
 Il ne s'agit donc pas d'observations dupliquées.
 On peut donc se fier aux codes communes, qui eux sont uniques.
+
 :::
 
 ::: {.content-visible when-profile="en"}
+
 This small exercise reassures us as the duplicated labels are actually the same commune names but in different departments. So, these are not duplicated observations. We can thus rely on the commune codes, which are unique.
+
 :::
 
 ::: {.content-visible when-profile="fr"}
+
 ### Calculer une empreinte carbone grâce à l'association entre des sources
+
 :::
 
 ::: {.content-visible when-profile="en"}
+
 ### Associating different sources to compute carbon footprints 
+
 :::
 
+
 {{< include "02_pandas_suite/_exo4.qmd" >}}
 {{< include "02_pandas_suite/_exo4_solution.qmd" >}}
 
@@ -1493,6 +1512,7 @@ directement. Nous allons repartir de ce jeu de données:
 :::
 
 ::: {.content-visible when-profile="en"}
+
 # Formatting descriptive statistics tables
 
 A `Pandas` DataFrame is automatically formatted when viewed from a notebook as a minimally styled HTML table. This formatting is convenient for viewing data, a necessary task for data scientists, but it doesn't go much beyond that.
@@ -1540,6 +1560,7 @@ To learn more about constructing tables with `great_tables`, you can replicate t
 :::
 
 ::: {.content-visible when-profile="fr"}
+
 # `Pandas`: vers la pratique et au-delà 
 
 ## `Pandas` dans une chaine d'opérations
@@ -1552,6 +1573,7 @@ Cette manière de procéder est le coeur de la syntaxe `dplyr` en `R` mais n'est
 :::
 
 ::: {.content-visible when-profile="en"}
+
 # `Pandas`: towards practice and beyond 
 
 ## `Pandas` in a chain of operations
diff --git a/content/visualisation/01_matplotlib/_exo1.qmd b/content/visualisation/01_matplotlib/_exo1.qmd
@@ -0,0 +1,21 @@
+::: {.exercise}
+## Exercice 1 : Produire un premier graphique
+
+Les données comportent plusieurs dimensions pouvant faire l'objet d'une analyse statistique. Nous allons commencer par nous focaliser sur le volume de passage à tel ou tel compteur. 
+
+Puisque nous avons comme objectif de synthétiser l'information présente dans notre jeu de données, nous devons d'abord mettre en oeuvre quelques agrégations _ad hoc_ pour produire un
+graphique lisible. 
+
+1. Garder les dix bornes à la moyenne la plus élevée. Comme pour obtenir un graphique ordonné du plus grand au plus petit avec les méthodes `plot` de `Pandas`, il faut avoir les données ordonnées du plus petit au plus grand (oui c'est bizarre mais c'est comme ça...), réordonner les données.
+
+2. En premier lieu, sans se préoccuper des éléments de style ni de la beauté
+du graphique, créer la structure du _barplot_ (diagramme en batons) de la
+[page d'analyse des données](https://opendata.paris.fr/explore/dataset/comptage-velo-donnees-compteurs/dataviz/?disjunctive.id_compteur&disjunctive.nom_compteur&disjunctive.id&disjunctive.name).
+
+3. Pour préparer le travail sur la deuxième figure, ne conserver
+que les 10 compteurs ayant comptabilisés le plus de vélos.
+
+4. Comme pour la question 2, créer un _barplot_
+pour reproduire la figure 2 de l'_open data_ parisien
+
+:::
diff --git a/content/visualisation/01_matplotlib/_exo1_solution.qmd b/content/visualisation/01_matplotlib/_exo1_solution.qmd
@@ -0,0 +1,75 @@
+```{python}
+df1 = (
+    df
+    .groupby('nom_compteur')
+    .agg({'sum_counts': "mean"})
+    .sort_values('sum_counts', ascending = False)
+    .head(10)
+    .sort_values('sum_counts')    
+)
+```
+
+Les 10 principales stations à l'issue de la question 1
+
+```{python}
+#| echo: false
+df1.head()
+```
+
+
+```{python}
+#| output: false
+
+# Question 2
+p1 = df1.plot(kind = "barh", color = 'red')
+```
+
+<details>
+
+<summary>
+
+Figure 1 sans travail sur le style:
+
+</summary>
+
+```{python}
+#| echo: false
+p1.figure
+```
+
+</details>
+
+```{python}
+# Question 4
+df2 = (
+    df
+    .groupby('nom_compteur')
+    .agg({'sum_counts': "sum"})
+    .sort_values('sum_counts', ascending = False)
+    .head(10)
+    .sort_values('sum_counts')
+)
+```
+
+```{python}
+#| output: false
+# Question 5
+p2 = df2.plot(kind = "barh", color = 'green')
+```
+
+::: {.cell .markdown}
+```{=html}
+<details>
+<summary>
+Figure 2 sans travail sur le style:
+</summary>
+```
+
+```{python}
+p2.figure
+```
+
+```{=html}
+</details>
+```
+:::
diff --git a/content/visualisation/01_matplotlib/_exo2.qmd b/content/visualisation/01_matplotlib/_exo2.qmd
@@ -0,0 +1,18 @@
+::: {.exercise}
+## Exercice 2: reproduire la première figure avec seaborn
+
+1. Réinitialiser l'index des _dataframes_ `df1` et `df2`
+pour avoir une colonne *'Nom du compteur'*. Réordonner les données
+de manière décroissante pour obtenir un graphique ordonné dans 
+le bon sens avec `seaborn`.
+
+2. Refaire le graphique précédent avec la fonction `catplot` de `seaborn`. Pour
+contrôler la taille du graphique vous pouvez utiliser les arguments `height` et
+`aspect`.
+
+3. Ajouter les titres des axes et le titre du graphique pour le premier graphique
+
+4. Essayez de colorer en rouge l'axe des `x`. Vous pouvez pré-définir un
+style avec `sns.set_style("ticks", {"xtick.color": "red"})`
+
+:::
diff --git a/content/visualisation/01_matplotlib/_exo2_solution.qmd b/content/visualisation/01_matplotlib/_exo2_solution.qmd
@@ -0,0 +1,66 @@
+```{python}
+#| output: false
+
+# Question 1. Reset index and order
+df1 = df1.reset_index().sort_values("sum_counts", ascending = False)
+df2 = df2.reset_index().sort_values("sum_counts", ascending = False)
+```
+
+```{python}
+#| output: false
+import seaborn as sns
+import matplotlib.pyplot as plt
+
+# 2. Graphique avec sns.catplot
+g = sns.catplot(
+    x='sum_counts', y='nom_compteur',
+    data=df1, kind = "bar",
+    height = 5, aspect = 4,
+    color = "red")
+```
+
+A l'issue de la question 2, c'est-à-dire en utilisant
+`seaborn` pour reproduire de manière minimale
+un _barplot_, on obtient :
+
+```{python}
+#| echo: false
+g
+plt.show()
+```
+
+Après quelques réglages esthétiques, à l'issue des questions 3 et 4,
+on obtient une figure proche de celle du portail _open data_ parisien. 
+
+```{python}
+#| output: false
+
+# Question 3
+g = sns.catplot(
+    x='sum_counts', y='nom_compteur',
+    data=df1,
+    kind = "bar", height = 5, aspect = 4, color = "red"
+)
+g.set_axis_labels('Moyenne du comptage par heure sur la période sélectionnée', 'Nom du compteur')
+plt.title('Les 10 compteurs avec la moyenne horaire la plus élevée')
+```
+
+Les paramètres supplémentaires proposés à la question 4 permettent finalement d'obtenir la figure
+
+```{python}
+#| output: false
+
+# Question 4
+sns.set_style("ticks", {"xtick.color": "red"})
+g = sns.catplot(x='sum_counts', y='nom_compteur', data=df1, kind = "bar", height = 10, aspect = 2, color = "red")
+g.set_axis_labels('Moyenne du comptage par heure sur la période sélectionnée', 'Nom du compteur')
+plt.title('Les 10 compteurs avec la moyenne horaire la plus élevée')
+plt.savefig('top10_sns.png', bbox_inches='tight')
+```
+
+```{python}
+#| echo: false
+g
+plt.show()
+```
+
diff --git a/content/visualisation/01_matplotlib/_exo3.qmd b/content/visualisation/01_matplotlib/_exo3.qmd
@@ -0,0 +1,9 @@
+::: {.exercise}
+## Exercice 3 (optionnel) : reproduire la figure 2 avec un _lollipop chart_
+
+En suivant l'approche graduelle de l'exercice 2,
+refaire le graphique *Les 10 compteurs ayant comptabilisé le plus de vélos*.
+
+💡 Ne pas hésiter à consulter [python-graph-gallery.com/](https://python-graph-gallery.com/) ou à demander de l'aide à `ChatGPT`
+
+:::
diff --git a/content/visualisation/01_matplotlib/_exo4.qmd b/content/visualisation/01_matplotlib/_exo4.qmd
@@ -0,0 +1,6 @@
+::: {.exercise}
+## Exercice 4: reproduire la première figure avec `plotnine`
+
+Ceci est le même exercice que l'exercice 2. L'objectif est de faire cette figure avec `plotnine`
+
+:::
diff --git a/content/visualisation/01_matplotlib/_exo4_solution.qmd b/content/visualisation/01_matplotlib/_exo4_solution.qmd
@@ -0,0 +1,21 @@
+```{python}
+df1["nom_compteur"] = pd.Categorical(
+    df1["nom_compteur"], categories = df1["nom_compteur"]
+)
+
+(
+    ggplot(df1, aes(x = "nom_compteur", y = "sum_counts")) +
+    geom_bar(stat = "identity", fill = "red") +
+    coord_flip() +
+    labs(
+        title = "Les 10 compteurs avec la moyenne horaire la plus élevée",
+        x = "Nom du compteur",
+        y = "Moyenne horaire"
+    ) +
+    theme(
+            axis_text_x = element_text(angle = 45, hjust = 1, color = "red"),
+            axis_title_x = element_text(color = "red"),
+            plot_title = element_text(hjust = 0.5)
+        )    
+)    
+```
diff --git a/content/visualisation/01_matplotlib/_exo5.qmd b/content/visualisation/01_matplotlib/_exo5.qmd
@@ -0,0 +1,13 @@
+
+::: {.exercise}
+## Exercice 5: barplot des comptages mensuels
+
+
+1. Créer une variable `month`
+dont le format respecte, par exemple, le schéma `2019-08` grâce à la bonne option de la méthode `dt.to_period`
+1. Appliquer les conseils précédents pour construire et améliorer
+graduellement un graphique afin d'obtenir une figure similaire
+à la 3e production sur la page de l'_open data_ parisien. Faire cette figure d'abord depuis début 2022 puis sur toute la période de notre historique 
+1. Question optionnelle: représenter la même information sous forme de _lollipop_
+
+:::
diff --git a/content/visualisation/01_matplotlib/_exo5_solution.qmd b/content/visualisation/01_matplotlib/_exo5_solution.qmd
diff --git a/content/visualisation/_prepare_data_bike.qmd b/content/visualisation/_prepare_data_bike.qmd
diff --git a/content/visualisation/matplotlib.qmd b/content/visualisation/matplotlib.qmd
diff --git a/reference.bib b/reference.bib