Skip to content

Commit

Permalink
Ajoute avis CADA
Browse files Browse the repository at this point in the history
  • Loading branch information
linogaliana committed Aug 31, 2023
1 parent 17a238f commit fb186dd
Show file tree
Hide file tree
Showing 2 changed files with 38 additions and 2 deletions.
31 changes: 29 additions & 2 deletions content/getting-started/03_data_analysis.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -230,10 +230,10 @@ choroplèthes) sont trompeuses.
[^5]: On suppose ici que le message erroné est transmis sans volonté de
manipulation. La manipulation manifeste est un problème encore plus grave.

## Réglementation
## Réglementation desc données

Le cadre réglementaire de protection des données a évolué ces dernières
années avec le RGPD. Cette réglementation a permis de mieux faire
années avec le __RGPD__. Cette réglementation a permis de mieux faire
saisir le fait que la collecte de données se justifie au nom
de finalités plus ou moins bien identifiées. Prendre conscience que
la confidentialité des données se justifie pour éviter la dissémination
Expand Down Expand Up @@ -277,6 +277,11 @@ de celles-ci est rare :
![](https://media.nature.com/lw800/magazine-assets/d41586-022-01692-1/d41586-022-01692-1_23176470.png)
Graphique issu de l'article de _Nature_

Ce constat, quelque peu inquiétant, est confirmé par une étude récente
de @samuel2023computational qui a tenté d'exécuter un peu moins de
30 000 _notebooks_ associés à des études scientifiques. Seuls 3%
des _notebooks_ reproduisent les résultats espérés.

Afin de partager les moyens de reproduire des publications sans diffuser des
données potentiellement confidentielles, les jeux de données synthétiques
sont de plus en plus utilisés. Par le biais de modèles de _deep learning_,
Expand All @@ -285,6 +290,28 @@ qui permettent de reproduire les principales caractéristiques d'un jeu de donn
tout en évitant, si le modèle a été bien calibré, de diffuser une information
individuelle.

Dans l'administration française, les codes sources sont
considérés comme des documents administratifs et peuvent
donc être mis à disposition de tout citoyen sur demande à la
Commission d'accès aux documents administratifs (CADA):

> « Sont considérés comme documents administratifs, au sens des titres Ier, III et IV du présent livre, quels que soient leur date, leur lieu de conservation, leur forme et leur support, les documents produits ou reçus, dans le cadre de leur mission de service public, par l'État, les collectivités territoriales ainsi que par les autres personnes de droit public ou les personnes de droit privé chargées d'une telle mission. Constituent de tels documents notamment les dossiers, rapports, études, comptes rendus, procès-verbaux, statistiques, instructions, circulaires, notes et réponses ministérielles, correspondances, avis, prévisions, __codes sources__ et décisions. »
>
> [Avis 20230314 - Séance du 30/03/2023 de la Commission d'accès aux documents administratifs](https://www.cada.fr/20230314)
En revanche, les poids des modèles utilisés par l'administration, notamment ceux
des modèles de _machine learning_ ne sont pas réglementés de la même
manière ([Avis 20230314 de la CADA](https://www.cada.fr/20230314)).
En effet, comme il existe toujours
un risque de rétro-ingénierie amenant à une révélation partielle
des données
d'entraînement lors d'un partage de modèle, les modèles
entraînés sur des données
sensibles (comme les décisions de justice étudiées
par ([l'avis 20230314 de la CADA](https://www.cada.fr/20230314)))
n'ont pas vocation à être partagés.


## Adopter une approche écologique

Le numérique constitue une part croissante des
Expand Down
9 changes: 9 additions & 0 deletions reference.bib
Original file line number Diff line number Diff line change
Expand Up @@ -13,6 +13,15 @@ @book{wickham2023r
publisher={" O'Reilly Media, Inc."}
}

@misc{samuel2023computational,
title={Computational reproducibility of Jupyter notebooks from biomedical publications},
author={Sheeba Samuel and Daniel Mietchen},
year={2023},
eprint={2308.07333},
archivePrefix={arXiv},
primaryClass={cs.DL}
}

@book{vanderplas2016python,
title={Python data science handbook: Essential tools for working with data},
author={VanderPlas, Jake},
Expand Down

0 comments on commit fb186dd

Please sign in to comment.