Skip to content

Commit

Permalink
Démarche scientifique
Browse files Browse the repository at this point in the history
  • Loading branch information
linogaliana committed Aug 31, 2023
1 parent fb186dd commit 6dee48d
Showing 1 changed file with 45 additions and 21 deletions.
66 changes: 45 additions & 21 deletions content/getting-started/03_data_analysis.qmd
Expand Up @@ -20,17 +20,23 @@ categories:

Pour bien débuter des travaux sur une base de données,
il est nécessaire de se poser quelques questions de bon sens
et de suivre une démarche assez simple.

## Une démarche scientifique
et de suivre une démarche scientifique dont un certain
nombre de gestes sont assez simple.

Dans un projet sur des jeux de données, on peut schématiquement
séparer les étapes en quatre grandes parties :

* la récupération et structuration des données;
* leur analyse (notamment descriptive) ;
* la modélisation ;
* la valorisation finale des étapes précédentes.
1. La récupération et structuration des données;
2. L'analyse de celle-ci, notamment la production de statistiques descriptives indispensables pour orienter les exploitations ultérieures ;
3. La modélisation ;
4. La valorisation finale des étapes précédentes et la communication de résultats ou la mise en oeuvre d'une chaine de production.

Ce cours explore ces différentes étapes de manière progressive grâce à
l'écosystème `Python` qui est très complet. Chaque chapitre du cours
peut être vu comme une manière de progresser dans ce fil conducteur.
Dans ce chapitre, nous allons plutôt mettre en avant quelques réflexions
à avoir avant de se lancer dans chaque étape.



## Lors de la récupération des données
Expand Down Expand Up @@ -76,7 +82,7 @@ implique de faire attention à la manière dont certains producteurs
codent les valeurs manquantes: certains ont la facheuse tendance à
être imaginatifs sur les codes pour valeurs manquantes: _"-999"_, _"XXX"_, _"NA"_
- les __variables servant d'identifiants__ sont bien les mêmes d'une table à l'autre (notamment dans le cas de jointure) : même format, même modalités
- pour des __variables textuelles__, qui peuvent etre mal saisies, avoir corrigé les éventuelles fautes (ex "Rolland Garros" > "Roland Garros")
- pour des __variables textuelles__, qui peuvent etre mal saisies, avoir corrigé les éventuelles fautes (ex "Rolland Garros" -> "Roland Garros")
- créer des variables qui synthétisent l'information dont vous avez besoin
- supprimer les éléments inutiles (colonne ou ligne vide)
- renommer les colonnes avec des noms compréhensibles
Expand Down Expand Up @@ -143,7 +149,12 @@ publics. Une visualisation de données dynamiques parlera à des publics
moins experts de la donnée mais est plus dure à mettre en oeuvre
qu'un graphique standard.

{{% box status="hint" title="Conseil" icon="fa fa-lightbulb" %}}
::: {.cell .markdown}
```{=html}
<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>
```


Les Notebooks `Jupyter` ont eu beaucoup de succès dans le monde de
la _data-science_ pour valoriser des travaux. Pourtant il ne s'agit
Expand All @@ -152,21 +163,29 @@ de _notebooks_ tentent à empiler des pavés de code et du texte, ce
qui les rend difficilement lisibles.

Sur un projet conséquent, il vaut mieux reporter le plus de code
possible dans des scripts bien structurés et avoir un notebook
possible dans des scripts bien structurés et avoir un _notebook_
qui appelle ces scripts pour produire des outputs. Ou alors ne
pas utiliser un notebook et privilégier un autre format (un
tableau de bord, un site web, une appli réactive...)
{{% /box %}}
tableau de bord, un site web, une appli réactive...).

Dans le cours de dernière année de
l'ENSAE, [Mise en production de projets data science]((https://ensae-reproductibilite.github.io/website/)), Romain
Avouac et moi revenons sur les moyens de communication et de partage de code alternatifs au _notebook_.

::: {.cell .markdown}
```{=html}
</div>
```



# Ethique et responsabilité du data-scientist
## Ethique et responsabilité du data-scientist

## La reproductibilité est importante
### La reproductibilité est importante

Les données sont une représentation synthétique de la vie des gens et les
Les données sont une représentation synthétique de la réalité et les
conclusions de certaines analyses peuvent avoir un vrai impact sur
leur vie. Les chiffres erronés de
la vie des citoyens. Les chiffres erronés de
Reinhart et Rogoff ont ainsi pu servir de justification théorique à des
politiques d'austérité qui ont pu avoir des conséquences violentes
pour certains citoyens de
Expand Down Expand Up @@ -202,7 +221,7 @@ substituait les chiffres officiels, les résultats n'étaient plus valides.
[cet article](https://www.lemondeinformatique.fr/actualites/lire-un-mauvais-usage-d-excel-evince-16-000-cas-positifs-covid-19-en-uk-80607.html) ou [celui-là](https://www.bbc.com/news/technology-54423988)


## Lutter contre les biais cognitifs
### Lutter contre les biais cognitifs

La transparence sur les intérêts et limites d'une méthode mise en oeuvre
est donc importante.
Expand All @@ -226,11 +245,16 @@ radar sont par exemple
à exclure car l'oeil humain perçoit mal ces formes circulaires. Pour une raison
similaire, les cartes avec aplat de couleur (cartes
choroplèthes) sont trompeuses.
Les _posts_ de blog pour [_datawrapper_](https://blog.datawrapper.de/)
de Lisa Charlotte Muth ou ceux d'Eric Mauvière sont d'excellentes ressources
pour apprendre les bonnes et mauvaises pratiques de
visualisation (voir la [partie visualisation](../visualisation/index.qmd) de ce cours
pour plus de détails).

[^5]: On suppose ici que le message erroné est transmis sans volonté de
manipulation. La manipulation manifeste est un problème encore plus grave.

## Réglementation desc données
### Réglementation des données

Le cadre réglementaire de protection des données a évolué ces dernières
années avec le __RGPD__. Cette réglementation a permis de mieux faire
Expand Down Expand Up @@ -265,7 +289,7 @@ sert une action publique basée sur la discrimination entre catégories
de la population.


## Partager les moyens de reproduire une analyse
### Partager les moyens de reproduire une analyse

Un [article récent de `Nature`](https://www.nature.com/articles/d41586-022-01692-1),
qui reprend les travaux d'une équipe d'épidémiologistes [@gabelica2022many]
Expand Down Expand Up @@ -312,7 +336,7 @@ par ([l'avis 20230314 de la CADA](https://www.cada.fr/20230314)))
n'ont pas vocation à être partagés.


## Adopter une approche écologique
### Adopter une approche écologique

Le numérique constitue une part croissante des
émissions de gaz à effet de serre.
Expand Down Expand Up @@ -378,7 +402,7 @@ les _data-scientists_ et ainsi permettre un
meilleur partage des ressources.


# Références
## Références

::: {#refs}
:::

0 comments on commit 6dee48d

Please sign in to comment.