You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
1.__Traitement de données textuelles__ (NLP): découverte de la tokenisation avec `NLTK` et `SpaCy`, modélisation...
38
38
1.**Introduction à la _data science_ moderne**: _cloud computing_, `ElasticSearch`, intégration continue...
39
39
@@ -44,7 +44,7 @@ centralisatrice [`data.gouv`](https://www.data.gouv.fr) ou du site
44
44
_web_ de l'[Insee](https://www.insee.fr)) ou de données
45
45
américaines.
46
46
47
-
Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_: [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)
47
+
Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_: [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)
Copy file name to clipboardExpand all lines: content/NLP/04_word2vec.qmd
+1-1Lines changed: 1 addition & 1 deletion
Original file line number
Diff line number
Diff line change
@@ -606,7 +606,7 @@ L'un des modèles les plus connus pour démarrer est le `glove_model` de
606
606
607
607
> GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.
Copy file name to clipboardExpand all lines: content/annexes/evaluation.qmd
+2-2Lines changed: 2 additions & 2 deletions
Original file line number
Diff line number
Diff line change
@@ -16,7 +16,7 @@ Résumé :
16
16
- De la modélisation
17
17
* Les étudiants sont invités à proposer des sujets qui leur plaisent, à faire valider par le chargé de TD.
18
18
*__Le projet doit utiliser `Git` et être disponible sous
19
-
[github](https://github.com/) <ahref="https://github.com"class="github"><iclass="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <ahref="https://gitlab.com"class="gitlab"><iclass="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
19
+
[Github](https://github.com/) <ahref="https://github.com"class="github"><iclass="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <ahref="https://gitlab.com"class="gitlab"><iclass="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
20
20
* La __date du rendu__ est fixée au : **X décembre 2022 23h59**
21
21
* Le **06 janvier 2023**, auront lieu des __soutenances__
22
22
@@ -65,7 +65,7 @@ quelques conseils pour avoir des notebooks agréables à lire. N'oubliez pas cet
65
65
> code is read much more often than written
66
66
67
67
Lors de l'évaluation, une attention particulière sera donnée à la *reproductibilité* de votre projet.
68
-
Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : webscraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
68
+
Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : web scraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
69
69
Le test à réaliser : faire tourner toutes les cellules de votre notebook et ne pas avoir d’erreur est une condition _sine qua non_ pour avoir la moyenne.
Quelque soit l'environnement d'exécution des scripts, l'un des objectifs
60
+
Quel que soit l'environnement d'exécution des scripts, l'un des objectifs
61
61
de ce cours est d'adopter un environnement favorable à la reproductibilité
62
62
des traitements. Ils devraient donc fonctionner, dès lors que l'environnement
63
63
est bien configuré, d'une manière similaire quel que soit
@@ -135,7 +135,7 @@ permettent d'exécuter du code très facilement dans un environnement
135
135
pour ajouter du code ou du texte à un document déjà existant, d'où le
136
136
terme de _notebook_.
137
137
138
-
Néanmoins, passé l'étape d'exploration, il est recommandé de plutôt recourir à des
138
+
Néanmoins, passée l'étape d'exploration, il est recommandé de plutôt recourir à des
139
139
scripts au format `.py`. L'utilisation du format `.py` est l'un des premiers
140
140
gestes pour favoriser la reproductibilité des analyses.
141
141
Ces scripts peuvent être édités à l'aide d'éditeurs de texte adaptés au code, comme
@@ -168,7 +168,7 @@ externes, notamment les interfaces de développement comme
168
168
169
169
## Exécution dans un environnement temporaire sur un serveur distant
170
170
171
-
Comme évoqué précedemment, les technologies dominantes dans
171
+
Comme évoqué précédemment, les technologies dominantes dans
172
172
le domaine du traitement des données ont amené à une évolution des pratiques
173
173
depuis quelques années.
174
174
La multiplication de données volumineuses qui dépassent les capacités en RAM
@@ -189,7 +189,7 @@ d'exécution de ceux-ci. Un système de stockage `S3`, présenté dans un
189
189
[chapitre ultérieur](#reads3), permet en supplément de dissocier l'environnement
190
190
de stockage des données de ces deux premiers environnements.
191
191
Sur le
192
-
dépôt github de ce cours {{< githubrepo >}}, on peut
192
+
dépôt Github de ce cours {{< githubrepo >}}, on peut
193
193
naviguer dans les fichiers
194
194
(et voir tout l'historique de modification de ceux-ci). Mais,
195
195
comment exécuter les scripts sans passer par un poste local ?
@@ -198,8 +198,8 @@ Depuis quelques années, des services en ligne permettant de
198
198
lancer une instance `Jupyter` à distance (analogue à celle que vous pouvez
199
199
lancer en local en utilisant `Anaconda`) ont émergé. Parmi celles-ci :
200
200
201
-
*__Le SSP Cloud__[](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git») plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
202
-
*__Google collaboratory__
201
+
*__Le SSP Cloud__[](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git»), plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
202
+
*__Google colaboratory__
203
203
[](http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master)
204
204
;
205
205
Github Visual Studio Editor [](https://github.dev/linogaliana/python-datascientist) ;
@@ -213,10 +213,10 @@ distant `Gitlab`/`Github`, sans session ouverte pour les éditer.
213
213
Cette approche est très appropriée
214
214
pour assurer la reproductibilité d'une chaîne de traitement (on peut aller
215
215
jusqu'au
216
-
déploiement de visualisations automatiques[^2]) mais n'est pas très pratique pour
216
+
déploiement de visualisations automatiques[^1]) mais n'est pas très pratique pour
217
217
le griffonnage.
218
218
219
-
[^2] A cet égard, il est recommandé de consulter le cours de dernière année
219
+
[^1] A cet égard, il est recommandé de consulter le cours de dernière année
220
220
de l'ENSAE déjà cité: https://ensae-reproductibilite.github.io/website/
est une plateforme libre service mutualisée de traitement
256
256
de données statistiques et de datascience.
257
257
@@ -267,15 +267,15 @@ Elle est aussi utilisé à des fins de formations et d’auto-formations.
267
267
Dans cet environnement, `Jupyter` et `Visual Studio` sont tous deux
268
268
disponibles.
269
269
270
-
### Google collaboratory <ahref="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb"target="_blank"rel="noopener"><imgsrc="https://colab.research.google.com/assets/colab-badge.svg"alt="Open In Colab"></a>
270
+
### Google colaboratory <ahref="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb"target="_blank"rel="noopener"><imgsrc="https://colab.research.google.com/assets/colab-badge.svg"alt="Open In Colab"></a>
271
271
272
272
273
273
Google met à disposition une plateforme de calculs basée sur le format `Jupyter Notebook`.
274
274
Un grand avantage de cette solution est la mise à disposition gratuite de
275
275
[GPUs](https://fr.wikipedia.org/wiki/Processeur_graphique) de qualité raisonnable,
276
276
outil quasi-indispensable dans les projets basés sur des méthodes de `deep learning`.
277
277
Il est possible de connecter les *notebooks* ouverts à Google Drive ou à
[](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb)
280
280
fournit un raccourci pour lancer le notebook dans un environnement dédié.
281
281
@@ -292,7 +292,7 @@ d'un dépôt `Github`.
292
292
293
293
294
294
295
-
### La technologie en arrière-plan: Docker <iclass="fab fa-docker"></i></a>
295
+
### La technologie en arrière-plan: Docker <iclass="fab fa-docker"></i></a>
296
296
297
297
[Docker](https://www.docker.com/) est l'outil open-source de référence
298
298
en matière de création d'environnements isolés et auto-suffisants (
@@ -307,7 +307,7 @@ du système sur laquelle elle est éxécutée.
307
307
`Docker` <iclass="fab fa-docker"></i></a> est utilisé dans
308
308
le cadre de cours afin d'assurer la reproductibilité des exemples.
309
309
Plus de détails sont disponibles dans le cours de dernière année d'ENSAE
310
-
dédié à la mise en production de projets data-science
310
+
dédié à la mise en production de projets datascience
311
311
(ensae-reproductibilite.netlify.app/).
312
312
313
313
Il est possible d'utiliser les images `Docker` sur lesquelles reposent
@@ -369,7 +369,7 @@ pas la réponse sans comprendre la solution.
369
369
### Les gestionnaires de packages
370
370
371
371
Les packages d'un langage *open-source* sont mis à disposition sur
372
-
des dépôts. Le CTAN est ainsi le dépôt `\(\LaTeX\)` le plus connu, le
372
+
des dépôts. Le CTAN est ainsi le dépôt `LaTeX` le plus connu, le
373
373
CRAN celui du langage `R`.
374
374
375
375
En `Python`, il existe deux gestionnaires de packages qu'on utilise
0 commit comments