Skip to content

Commit 72d44dd

Browse files
committed
Force build for pandas chapters
1 parent 01e59fa commit 72d44dd

4 files changed

Lines changed: 51 additions & 13 deletions

File tree

.github/workflows/prod.yml

Lines changed: 7 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -14,23 +14,23 @@ jobs:
1414
-
1515
name: Set up QEMU
1616
if: ${{ github.repository == 'linogaliana/python-datascientist' }}
17-
uses: docker/setup-qemu-action@v1
17+
uses: docker/setup-qemu-action@v3
1818
-
1919
name: Set up Docker Buildx
2020
if: ${{ github.repository == 'linogaliana/python-datascientist' }}
21-
uses: docker/setup-buildx-action@v1
21+
uses: docker/setup-buildx-action@v3
2222
-
2323
name: Login to DockerHub
2424
if: ${{ github.repository == 'linogaliana/python-datascientist' }}
25-
uses: docker/login-action@v1
25+
uses: docker/login-action@v3
2626
with:
2727
username: ${{ secrets.DOCKERHUB_USERNAME }}
2828
password: ${{ secrets.DOCKERHUB_TOKEN }}
2929
-
3030
name: Build and push
3131
if: ${{ github.repository == 'linogaliana/python-datascientist' }}
3232
id: docker_build
33-
uses: docker/build-push-action@v2
33+
uses: docker/build-push-action@v6
3434
env:
3535
GITHUB_PAT: ${{ secrets.PAT }}
3636
with:
@@ -147,13 +147,14 @@ jobs:
147147
- name: Define matrix
148148
id: set-matrix
149149
run: |
150-
echo "::set-output name=matrix::$(find . -type f -name "*.ipynb" \
150+
echo "matrix=$(find . -type f -name "*.ipynb" \
151151
! -name "_*" \
152152
! -regex '.*/getting-started/.*' \
153153
! -regex '.*/modern-ds/.*' \
154154
! -regex '.*/manipulation/04a_webscraping_TP.*' \
155155
! -regex '.*/NLP/05_exo_supp.*' \
156-
| jq -R -s -c 'split("\n")[:-1]')"
156+
| jq -R -s -c 'split("\n")[:-1]')" >> $GITHUB_OUTPUT
157+
157158
158159
check:
159160
needs: define-matrix

content/manipulation/02_pandas_intro.qmd

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -24,6 +24,7 @@ links:
2424
name: Documentation Pandas
2525
url: https://pandas.pydata.org/docs/
2626
echo: false
27+
eval: false
2728
---
2829

2930
::: {.content-visible when-format="html"}

content/manipulation/02_pandas_suite.qmd

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -24,6 +24,7 @@ links:
2424
- icon: journal-text
2525
name: Documentation Pandas
2626
url: https://pandas.pydata.org/docs/
27+
eval: false
2728
---
2829

2930
::: {.content-visible when-format="html"}

content/visualisation/index.qmd

Lines changed: 42 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -15,6 +15,7 @@ bibliography: ../../reference.bib
1515

1616
# Introduction
1717

18+
::: {.content-visible when-profile="fr"}
1819
Une partie essentielle du travail du _data scientist_
1920
consiste à synthétiser l'information que
2021
contient ses
@@ -41,7 +42,36 @@ sur un _DataFrame_ `Pandas`, notre connaissance des données serait assez
4142
limitée. La mise en oeuvre de tableaux stylisés à partir
4243
de `great tables` constituait déjà un progrès dans cette démarche mais, en vérité,
4344
notre cerveau se représente l'information de manière beaucoup plus intuitive
44-
par le biais de visualisations graphiques simples.
45+
par le biais de visualisations graphiques simples que dans un tableau.
46+
:::
47+
48+
::: {.content-visible when-profile="en"}
49+
An essential part of the work of a _data scientist_
50+
is to synthesize the information contained
51+
in their datasets in order to distinguish
52+
what constitutes the signal, which they
53+
can focus on, and what constitutes
54+
the noise inherent in any dataset.
55+
In the work of a _data scientist_, during an exploratory phase,
56+
there is a constant back-and-forth between synthesized information
57+
and disaggregated datasets. It
58+
is therefore essential to know how to synthesize the information
59+
in a dataset before grasping its structure, which
60+
can then guide further analyses,
61+
whether for a modeling phase or data correction
62+
(anomaly detection or bad data retrieval).
63+
64+
We have already explored a key part of this work,
65+
namely the construction of relevant
66+
and reliable descriptive statistics. However, if we were content
67+
to present information using raw outputs from the `groupby` and `agg`
68+
combo on a `Pandas` _DataFrame_, our understanding of the data would be quite
69+
limited. The implementation of stylized tables using
70+
`great tables` was already a step forward in this process but, in truth,
71+
our brain processes information much more intuitively
72+
through simple graphical visualizations than through a table.
73+
:::
74+
4575

4676
## La visualisation des données, une part essentiel du travail de communication
4777

@@ -53,7 +83,7 @@ de grands volumes d'information. En tant que _data scientist_, cela signifie
5383
qu'utiliser nos compétences informatiques et statistiques pour obtenir
5484
des représentations synthétiques de nos nombreux jeux de données est
5585
essentiel pour être en mesure de répondre à nos besoins opérationnels ou
56-
statistiques.
86+
scientifiques.
5787
L'ensemble des méthodes et des outils qui constituent la boîte à outil
5888
des _data scientists_ vise à simplifier l'appréhension puis l'exploitation
5989
de jeux de données dont le volume dépasse nos capacités cognitives.
@@ -72,7 +102,11 @@ une certaine mise en contexte pour porter du sens.
72102
La visualisation de données joue un rôle crucial dans le
73103
processus d'analyse de données en fournissant des moyens visuels pour explorer, interpréter et communiquer des informations.
74104
Elle facilite la communication entre experts de la données, décideurs et grand public,
75-
en permettant de raconter des histoires basées sur les données de manière plus convaincante et engageante.
105+
en permettant aux derniers de bénéficier du travail rigoureux des premiers pour donner
106+
sens aux données sans la connaissance des subtilités conceptuelles qui ont permis
107+
de synthétiser l'information contenue dans celle-ci.
108+
109+
76110

77111
## La place de la visualisation dans le processus de valorisation de la donnée
78112

@@ -392,7 +426,7 @@ en barre...) pour synthétiser certaines informations quantitatives ;
392426
+ Les graphiques réactifs s'appuieront sur `Plotly`
393427
- Dans un deuxième temps, nous présenterons les représentations
394428
cartographiques:
395-
+ Les cartes fixes avec `Geopandas` ou `Geoplot`
429+
+ Les cartes figées à partir de `Geopandas` ou de `plotnine`
396430
+ Les cartes réactives avec `Folium` (adaptation `Python` de la librairie `Leaflet.js`)
397431

398432

@@ -421,13 +455,14 @@ de l'année dans la veine du [_data scrollytelling_](https://makina-corpus-blog-
421455
::: {.callout-tip}
422456
## Quelques ressources sur `Streamlit` ou `Dash`
423457

424-
Outre notre [cours de 3e année](https://ensae-reproductibilite.github.io/website/),
458+
Outre le [cours de 3e année](https://ensae-reproductibilite.github.io/website/) de l'ENSAE,
425459
le lab de _data science_ de l'Insee a construit de nombreux tutoriels
426460
pour s'appropier les écosystèmes d'applications réactives en `Python` qui
427461
sont l'un des produits les plus attractifs de l'écosystème `Python`.
428462

429-
Voici par exemple un [tutoriel 101](https://inseefrlab.github.io/funathon2023_sujet4/) très détaillé sur `Streamlit` permettant de créer une [application type `Yuka`](https://myyuka.lab.sspcloud.fr/)
430-
sur les données de l'_openfoodfacts_.
463+
Voici par exemple un [tutoriel 101](https://inseefrlab.github.io/funathon2023_sujet4/) très détaillé sur `Streamlit` permettant de créer une [application type `Yuka`](https://myyuka.lab.sspcloud.fr/) sur les données de l'`openfoodfacts`. Un autre tutoriel pas à pas construit par l'Insee
464+
est consacré à `streamlit` et vise à proposer la construction d'un [tableau de bord du trafic aérien](https://inseefrlab.github.io/funathon2024_sujet2/).
465+
431466
:::
432467

433468
Et quelques références supplémentaires, citées dans cette introduction :

0 commit comments

Comments
 (0)