retire l'historique inutile des données velib (#638)

linogaliana · web-flow · commit 73043ee75c4d · 2025-08-20T14:50:30.000+02:00
diff --git a/_quarto.yml b/_quarto.yml
@@ -5,6 +5,7 @@ project:
     - 404.qmd
     - content/getting-started/index.qmd
     - content/modelisation/index.qmd
+    - content/visualisation/matplotlib.qmd
 
 profile:
   default: fr
diff --git a/content/manipulation/05_parquet_s3.qmd b/content/manipulation/05_parquet_s3.qmd
@@ -15,7 +15,9 @@ image: https://minio.lab.sspcloud.fr/lgaliana/generative-art/pythonds/python_clo
 
 ::: {.content-visible when-profile="fr"}
 
-Nous avons vu dans les chapitres précédents comment récupérer, et harmoniser, des données issues de multiples sources: fichiers type CSV, API, _webscraping_, etc.  Le panorama des manières possibles de consommer de la donnée serait incomplet sans évoquer un nouveau venu dans le paysage de la donnée, à savoir le format de données `Parquet`. Du fait de ses caractéristiques techniques pensées pour l'analyse de données, et de sa simplicité d'usage avec `Python`, ce format devient de plus en plus incontournable. Il s'agit d'ailleurs d'une pierre angulaire des infrastructures _cloud_ qui, depuis le milieu des années 2010, tendent à devenir l'environnement usuel dans le domaine de la _data science_ (pour plus de détails, voir le [cours de mise en production de Romain Avouac et moi](https://ensae-reproductibilite.github.io/website/chapters/big-data.html)).  
+Nous avons vu dans les chapitres précédents comment récupérer, et harmoniser, des données issues de multiples sources: fichiers type CSV, API, _webscraping_, etc.  Le panorama des manières possibles de consommer de la donnée serait incomplet sans évoquer un nouveau venu dans le paysage de la donnée, à savoir le format de données `Parquet`.
+
+Du fait de ses caractéristiques techniques pensées pour l'analyse de données, et de sa simplicité d'usage avec `Python`, ce format devient de plus en plus incontournable. Il s'agit d'ailleurs d'une pierre angulaire des infrastructures _cloud_ qui, depuis le milieu des années 2010, tendent à devenir l'environnement usuel dans le domaine de la _data science_ (pour plus de détails, voir le [cours de mise en production de Romain Avouac et moi](https://ensae-reproductibilite.github.io/website/chapters/big-data.html)).  
 
 :::
 
diff --git a/content/visualisation/01_matplotlib/_exo1_solution.qmd b/content/visualisation/01_matplotlib/_exo1_solution.qmd
@@ -1,4 +1,5 @@
 ```{python}
+#| label: exo1-df1
 df1 = (
     df
     .groupby('nom_compteur')
diff --git a/content/visualisation/01_matplotlib/_exo5_solution.qmd b/content/visualisation/01_matplotlib/_exo5_solution.qmd
@@ -103,26 +103,10 @@ If you prefer to represent this as a _lollipop_[^notecolor]:
 
 ::: {.content-visible when-profile="fr"}
 [^notecouleur]: J'ai retiré la couleur sur l'axe des ordonnées qui, je trouve, apporte peu à la figure voire dégrade la compréhension du message.
-
-Enfin, sur l'ensemble de la période, la série prendra plutôt cette forme :
 :::
 
 ::: {.content-visible when-profile="en"}
-[^notecouleur]: I removed the color on the y-axis as I find it adds little to the figure and may even degrade the clarity of the message.
-
-Finally, over the entire period, the series will look more like this:
+[^notecouleur]: I removed the color on the y-axis as I find it adds little to the figure and may even degrade message clarity
 :::
 
 
-```{python}
-count_by_month_since_start = (
-    df
-    .groupby('month')
-    .agg({'sum_counts':'mean'})
-    .reset_index()
-)
-count_by_month_since_start = count_by_month_since_start.rename(columns = {"sum_counts": "value"})
-figure3(count_by_month_since_start)
-```
-
-
diff --git a/content/visualisation/_prepare_data_bike.qmd b/content/visualisation/_prepare_data_bike.qmd
@@ -3,7 +3,7 @@
 #| code-fold: true
 #| code-summary: "Code pour importer les données à partir du format Parquet"
 #| label: download-bike-data
-
+#| output: false
 import os
 import requests
 from tqdm import tqdm
diff --git a/content/visualisation/matplotlib.qmd b/content/visualisation/matplotlib.qmd
@@ -22,6 +22,7 @@ bibliography: ../../reference.bib
 
 Ce chapitre est consacré à la visualisation de données et propose une tâche classique du quotidien des _data scientists_ et _data engineers_ : la construction de figures utiles à un tableau de bord (_dashboard_). Pour faire ceci, nous allons répliquer quelques figures disponibles en ligne - pas toujours parfaites - et utiliser plusieurs écosystèmes de visualisation disponibles en `Python` afin d'en mesurer les forces et faiblesses.  
 
+
 ::: {.callout-tip}
 ## Compétences à l'issue de ce chapitre
 
@@ -45,7 +46,7 @@ Les bonnes visualisations de données, comme celles du _New York Times_, reposen
 
 Transmettre une information synthétique de manière limpide à un public ne s'inventant pas, il est recommandé de réfléchir à la réception d'une visualisation et aux messages principaux que celle-ci est censée transmettre. Cette [présentation d'Eric Mauvière](https://ssphub.netlify.app/talk/2024-02-29-mauviere/) illustre, avec de nombreux exemples, la manière dont des choix de visualisation affectent la pertinence du message délivré. 
 
-Parmi les autres ressources que j'ai trouvées utiles par le passé, ce post de blog de `datawrapper`](https://blog.datawrapper.de/text-in-data-visualizations/) (une référence dans le domaine de la visualisation) est très intéressant. Ce [post de blog d'Albert Rapp](https://albert-rapp.de/posts/ggplot2-tips/10_recreating_swd_look/10_recreating_swd_look) est montre également comment construire graduellement une bonne visualisation de données et mérite d'être relu de temps en temps.
+Parmi les autres ressources que j'ai trouvées utiles par le passé, ce post de blog de [`datawrapper`](https://blog.datawrapper.de/text-in-data-visualizations/) (une référence dans le domaine de la visualisation) est très intéressant. Ce [post de blog d'Albert Rapp](https://albert-rapp.de/posts/ggplot2-tips/10_recreating_swd_look/10_recreating_swd_look) est montre également comment construire graduellement une bonne visualisation de données et mérite d'être relu de temps en temps.
 
 
 :::
@@ -154,7 +155,7 @@ Pour les chapitres de visualisation, il est vivement recommandé d’utiliser `P
 
 Cela permet de visualiser les graphiques immédiatement sous chaque cellule de code, de les ajuster facilement, et de tester des modifications en temps réel.
 
-À l’inverse, si l'on exécute des scripts depuis une console classique (par exemple en écrivant dans un fichier `.py` et en exécutant ligne à ligne avec <kbd>MAJ</kbd>+,<kbd>ENTREE</kbd> dans `VSCode`) les graphiques ne vont pas s'afficher dans une fenêtre popup_ ce qui nécessite de faire des commandes supplémentaires pour les enregistrer, avant d'ouvrir les exports manuellement et pouvoir corriger le cas échéant le code. L’expérience d’apprentissage en devient plus laborieuse.
+À l’inverse, si l'on exécute des scripts depuis une console classique (par exemple en écrivant dans un fichier `.py` et en exécutant ligne à ligne avec <kbd>MAJ</kbd>+,<kbd>ENTREE</kbd> dans `VSCode`) les graphiques ne vont pas s'afficher dans une fenêtre _popup_. Cela  nécessite de faire des commandes supplémentaires pour les enregistrer, avant d'ouvrir les exports manuellement et pouvoir corriger le cas échéant le code. L’expérience d’apprentissage en devient plus laborieuse.
 :::
 
 ::::
@@ -209,6 +210,7 @@ Pour importer les librairies graphiques que nous utiliserons dans ce chapitre, i
 
 ```{python}
 #| echo: true
+#| label: import-libs-fig
 import matplotlib.pyplot as plt
 import seaborn as sns
 from plotnine import * #<1>
@@ -230,6 +232,7 @@ To import the graphical libraries we will use in this chapter, execute
 
 ```{python}
 #| echo: true
+#| label: import-libs-fig-en
 import matplotlib.pyplot as plt
 import seaborn as sns
 from plotnine import * #<1>
@@ -332,7 +335,6 @@ These elements are the minimum required to understand the logic of `matplotlib`.
 
 {{< include "01_matplotlib/_exo1_solution.qmd" >}}
 
-
 ::: {.content-visible when-profile="fr"}
 On commence à avoir quelque chose qui commence à transmettre un message synthétique sur la nature des données. On peut néanmoins remarquer plusieurs éléments problématiques (par exemple les labels) mais aussi des éléments ne correspondant pas (les titres des axes, etc.) ou manquants (le nom du graphique...).
 
@@ -541,7 +543,6 @@ On va maintenant se concentrer sur la dimension temporelle de notre jeu de donn
 - Un diagramme en barre synthétisant l'information de notre jeu de données de manière mensuelle ;
 - Des séries instructives sur la dynamique temporelle. Cela sera l'objet de la prochaine partie.
 
-Avant cela, nous allons enrichir ces données pour bénéficier d'un historique plus long, permettant notamment d'avoir la période Covid dans nos données, ce qui présente un intérêt du fait de la dynamique particulière du trafic dans cette période (arrêt brutal, reprise très forte...).
 :::
 
 ::: {.content-visible when-profile="en"}
@@ -559,13 +560,8 @@ We will now focus on the temporal dimension of our dataset using two approaches:
 
 - A bar chart summarizing the information in our dataset on a monthly basis;
 - Informative series on temporal dynamics, which will be the subject of the next section.
-
-Before that, we will enhance this data to include a longer history, particularly encompassing the Covid period in our dataset. This is interesting due to the unique traffic dynamics during this time (sudden halt, strong recovery, etc.).
 :::
 
-{{< include "_historical_data_bike.qmd" >}}
-
-
 ::: {.content-visible when-profile="fr"}
 Pour commencer, reproduisons la troisième figure qui est, encore une fois, un _barplot_. Ici, sur le plan sémiologique, ce n'est pas justifié d'utiliser un _barplot_, une simple série suffirait à fournir une information similaire.
 

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	```{python}
	`2`	`+#\| label: exo1-df1`
`2`	`3`	`df1 = (`
`3`	`4`	`df`
`4`	`5`	`.groupby('nom_compteur')`