You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Une partie essentielle du travail du _data scientist_
19
20
consiste à synthétiser l'information que
20
21
contient ses
@@ -41,7 +42,36 @@ sur un _DataFrame_ `Pandas`, notre connaissance des données serait assez
41
42
limitée. La mise en oeuvre de tableaux stylisés à partir
42
43
de `great tables` constituait déjà un progrès dans cette démarche mais, en vérité,
43
44
notre cerveau se représente l'information de manière beaucoup plus intuitive
44
-
par le biais de visualisations graphiques simples.
45
+
par le biais de visualisations graphiques simples que dans un tableau.
46
+
:::
47
+
48
+
::: {.content-visible when-profile="en"}
49
+
An essential part of the work of a _data scientist_
50
+
is to synthesize the information contained
51
+
in their datasets in order to distinguish
52
+
what constitutes the signal, which they
53
+
can focus on, and what constitutes
54
+
the noise inherent in any dataset.
55
+
In the work of a _data scientist_, during an exploratory phase,
56
+
there is a constant back-and-forth between synthesized information
57
+
and disaggregated datasets. It
58
+
is therefore essential to know how to synthesize the information
59
+
in a dataset before grasping its structure, which
60
+
can then guide further analyses,
61
+
whether for a modeling phase or data correction
62
+
(anomaly detection or bad data retrieval).
63
+
64
+
We have already explored a key part of this work,
65
+
namely the construction of relevant
66
+
and reliable descriptive statistics. However, if we were content
67
+
to present information using raw outputs from the `groupby` and `agg`
68
+
combo on a `Pandas`_DataFrame_, our understanding of the data would be quite
69
+
limited. The implementation of stylized tables using
70
+
`great tables` was already a step forward in this process but, in truth,
71
+
our brain processes information much more intuitively
72
+
through simple graphical visualizations than through a table.
73
+
:::
74
+
45
75
46
76
## La visualisation des données, une part essentiel du travail de communication
47
77
@@ -53,7 +83,7 @@ de grands volumes d'information. En tant que _data scientist_, cela signifie
53
83
qu'utiliser nos compétences informatiques et statistiques pour obtenir
54
84
des représentations synthétiques de nos nombreux jeux de données est
55
85
essentiel pour être en mesure de répondre à nos besoins opérationnels ou
56
-
statistiques.
86
+
scientifiques.
57
87
L'ensemble des méthodes et des outils qui constituent la boîte à outil
58
88
des _data scientists_ vise à simplifier l'appréhension puis l'exploitation
59
89
de jeux de données dont le volume dépasse nos capacités cognitives.
@@ -72,7 +102,11 @@ une certaine mise en contexte pour porter du sens.
72
102
La visualisation de données joue un rôle crucial dans le
73
103
processus d'analyse de données en fournissant des moyens visuels pour explorer, interpréter et communiquer des informations.
74
104
Elle facilite la communication entre experts de la données, décideurs et grand public,
75
-
en permettant de raconter des histoires basées sur les données de manière plus convaincante et engageante.
105
+
en permettant aux derniers de bénéficier du travail rigoureux des premiers pour donner
106
+
sens aux données sans la connaissance des subtilités conceptuelles qui ont permis
107
+
de synthétiser l'information contenue dans celle-ci.
108
+
109
+
76
110
77
111
## La place de la visualisation dans le processus de valorisation de la donnée
78
112
@@ -392,7 +426,7 @@ en barre...) pour synthétiser certaines informations quantitatives ;
392
426
+ Les graphiques réactifs s'appuieront sur `Plotly`
393
427
- Dans un deuxième temps, nous présenterons les représentations
394
428
cartographiques:
395
-
+ Les cartes fixes avec `Geopandas` ou `Geoplot`
429
+
+ Les cartes figées à partir de `Geopandas` ou de `plotnine`
396
430
+ Les cartes réactives avec `Folium` (adaptation `Python` de la librairie `Leaflet.js`)
397
431
398
432
@@ -421,13 +455,14 @@ de l'année dans la veine du [_data scrollytelling_](https://makina-corpus-blog-
421
455
::: {.callout-tip}
422
456
## Quelques ressources sur `Streamlit` ou `Dash`
423
457
424
-
Outre notre[cours de 3e année](https://ensae-reproductibilite.github.io/website/),
458
+
Outre le[cours de 3e année](https://ensae-reproductibilite.github.io/website/) de l'ENSAE,
425
459
le lab de _data science_ de l'Insee a construit de nombreux tutoriels
426
460
pour s'appropier les écosystèmes d'applications réactives en `Python` qui
427
461
sont l'un des produits les plus attractifs de l'écosystème `Python`.
428
462
429
-
Voici par exemple un [tutoriel 101](https://inseefrlab.github.io/funathon2023_sujet4/) très détaillé sur `Streamlit` permettant de créer une [application type `Yuka`](https://myyuka.lab.sspcloud.fr/)
430
-
sur les données de l'_openfoodfacts_.
463
+
Voici par exemple un [tutoriel 101](https://inseefrlab.github.io/funathon2023_sujet4/) très détaillé sur `Streamlit` permettant de créer une [application type `Yuka`](https://myyuka.lab.sspcloud.fr/) sur les données de l'`openfoodfacts`. Un autre tutoriel pas à pas construit par l'Insee
464
+
est consacré à `streamlit` et vise à proposer la construction d'un [tableau de bord du trafic aérien](https://inseefrlab.github.io/funathon2024_sujet2/).
465
+
431
466
:::
432
467
433
468
Et quelques références supplémentaires, citées dans cette introduction :
0 commit comments