Skip to content

Commit 154f09e

Browse files
Des typos corrigées par Antoine (#411)
* 1st vague typos * vague typos 2
1 parent 1dd6dc7 commit 154f09e

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

41 files changed

+156
-156
lines changed

README.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -33,7 +33,7 @@ _data science_ que des personnes à la recherche de contenu plus avancé :
3333

3434
1. __Manipulation de données__ : manipulation de données standards (`Pandas`), données géographiques (`Geopandas`), récupération de données (webscraping, API)...
3535
1. __Visualisation de données__ : visualisations classiques (`Matplotlib`, `Seaborn`), cartographie, visualisations réactives (`Plotly`, `Folium`)
36-
1. __Modélisation__: _machine learning_ (`Scikit`), économétrie
36+
1. __Modélisation__ : _machine learning_ (`Scikit`), économétrie
3737
1. __Traitement de données textuelles__ (NLP): découverte de la tokenisation avec `NLTK` et `SpaCy`, modélisation...
3838
1. **Introduction à la _data science_ moderne**: _cloud computing_, `ElasticSearch`, intégration continue...
3939

@@ -44,7 +44,7 @@ centralisatrice [`data.gouv`](https://www.data.gouv.fr) ou du site
4444
_web_ de l'[Insee](https://www.insee.fr)) ou de données
4545
américaines.
4646

47-
Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_: [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)
47+
Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_ : [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)
4848

4949

5050
<details>

content/NLP/01_intro.qmd

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -211,7 +211,7 @@ mesure de les comparer.
211211

212212
Lors de la première utilisation de `NLTK`, il est nécessaire de télécharger
213213
quelques éléments nécessaires à la tokenisation, notamment la ponctuation.
214-
Pour cela, il est recommandé d'utiliser la commande suivante:
214+
Pour cela, il est recommandé d'utiliser la commande suivante :
215215

216216
~~~python
217217
import nltk

content/NLP/02_exoclean.qmd

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -20,7 +20,7 @@ description: |
2020
anglo-saxons : Mary Shelley, Edgar Allan Poe, H.P. Lovecraft.
2121
Dans cette série d'exercice nous mettons en oeuvre de manière
2222
plus approfondie les différentes méthodes présentées
23-
précedemment.
23+
précédemment.
2424
bibliography: ../../reference.bib
2525
image: featured_nlp_exo.png
2626
---
@@ -623,7 +623,7 @@ on peut utiliser la librairie `nltk` comme détaillé [précédemment](#nlp).
623623
<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 4 : Nettoyage du texte</h3>
624624
```
625625

626-
Repartir de `train`, notre jeu de données d'entraînement. Pour rappel, `train` a la structure suivante:
626+
Repartir de `train`, notre jeu de données d'entraînement. Pour rappel, `train` a la structure suivante :
627627

628628
1. Tokeniser chaque phrase avec `nltk`.
629629
2. Retirer les stopwords avec `nltk`.

content/NLP/03_lda.qmd

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -215,7 +215,7 @@ Mathématiquement, on peut se représenter la LDA comme une
215215
technique de maximisation de *log vraisemblance* avec un algorithme EM (*expectation maximisation*)
216216
dans un modèle de mélange.
217217

218-
La matrice termes-documents qui sert de point de départ est la suivante:
218+
La matrice termes-documents qui sert de point de départ est la suivante :
219219

220220
| | word_1 | word_2 | word_3 | ... | word_J |
221221
|---- |--------|--------|--------|-----|--------|
@@ -232,15 +232,15 @@ La LDA consiste à transformer cette matrice *sparse*document-terme en deux matr
232232

233233
En notant $K_i$ le sujet $i$. On obtient donc
234234

235-
* Une __matrice document-sujet__ ayant la structure suivante:
235+
* Une __matrice document-sujet__ ayant la structure suivante :
236236

237237
| | K_1 | K_2 | K_3 | ... | K_M |
238238
|---- |--------|--------|--------|-----|--------|
239239
|doc_1| 1 | 0 | 1 | ... | 0 |
240240
| ... | ... | ... | ... | ... | ... |
241241
|doc_N| 1 | 1 | 1 | ... | 0 |
242242

243-
* Une __matrice sujets-mots__ ayant la structure suivante:
243+
* Une __matrice sujets-mots__ ayant la structure suivante :
244244

245245
| | word_1 | word_2 | word_3 | ... | word_J |
246246
|---- |--------|--------|--------|-----|--------|

content/NLP/04_word2vec.qmd

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -606,7 +606,7 @@ L'un des modèles les plus connus pour démarrer est le `glove_model` de
606606

607607
> GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.
608608
>
609-
> _Source_: https://nlp.stanford.edu/projects/glove/
609+
> _Source_ : https://nlp.stanford.edu/projects/glove/
610610
611611
[^1]: Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. _GloVe: Global Vectors for Word Representation_.
612612

content/NLP/05_exo_supp.qmd

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -197,7 +197,7 @@ wordcount_words(df_openfood, "tokenized")
197197
5. Utiliser la librairie `Fasttext` pour extraire les noms de produits
198198
français
199199

200-
* Appliquer le modèle téléchargé précedemment pour déterminer le langage
200+
* Appliquer le modèle téléchargé précédemment pour déterminer le langage
201201
* Ne récupérer que les libellés français
202202

203203
```{python}

content/annexes/evaluation.qmd

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -16,7 +16,7 @@ Résumé :
1616
- De la modélisation
1717
* Les étudiants sont invités à proposer des sujets qui leur plaisent, à faire valider par le chargé de TD.
1818
* __Le projet doit utiliser `Git` et être disponible sous
19-
[github](https://github.com/) <a href="https://github.com" class="github"><i class="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <a href="https://gitlab.com" class="gitlab"><i class="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
19+
[Github](https://github.com/) <a href="https://github.com" class="github"><i class="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <a href="https://gitlab.com" class="gitlab"><i class="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
2020
* La __date du rendu__ est fixée au : **X décembre 2022 23h59**
2121
* Le **06 janvier 2023**, auront lieu des __soutenances__
2222

@@ -65,7 +65,7 @@ quelques conseils pour avoir des notebooks agréables à lire. N'oubliez pas cet
6565
> code is read much more often than written
6666
6767
Lors de l'évaluation, une attention particulière sera donnée à la *reproductibilité* de votre projet.
68-
Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : webscraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
68+
Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : web scraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
6969
Le test à réaliser : faire tourner toutes les cellules de votre notebook et ne pas avoir d’erreur est une condition _sine qua non_ pour avoir la moyenne.
7070

7171

content/getting-started/01_installation.qmd

Lines changed: 15 additions & 15 deletions
Original file line numberDiff line numberDiff line change
@@ -57,7 +57,7 @@ print_badges("content/manipulation/01_numpy.qmd")
5757
```
5858
:::
5959

60-
Quelque soit l'environnement d'exécution des scripts, l'un des objectifs
60+
Quel que soit l'environnement d'exécution des scripts, l'un des objectifs
6161
de ce cours est d'adopter un environnement favorable à la reproductibilité
6262
des traitements. Ils devraient donc fonctionner, dès lors que l'environnement
6363
est bien configuré, d'une manière similaire quel que soit
@@ -135,7 +135,7 @@ permettent d'exécuter du code très facilement dans un environnement
135135
pour ajouter du code ou du texte à un document déjà existant, d'où le
136136
terme de _notebook_.
137137

138-
Néanmoins, passé l'étape d'exploration, il est recommandé de plutôt recourir à des
138+
Néanmoins, passée l'étape d'exploration, il est recommandé de plutôt recourir à des
139139
scripts au format `.py`. L'utilisation du format `.py` est l'un des premiers
140140
gestes pour favoriser la reproductibilité des analyses.
141141
Ces scripts peuvent être édités à l'aide d'éditeurs de texte adaptés au code, comme
@@ -168,7 +168,7 @@ externes, notamment les interfaces de développement comme
168168

169169
## Exécution dans un environnement temporaire sur un serveur distant
170170

171-
Comme évoqué précedemment, les technologies dominantes dans
171+
Comme évoqué précédemment, les technologies dominantes dans
172172
le domaine du traitement des données ont amené à une évolution des pratiques
173173
depuis quelques années.
174174
La multiplication de données volumineuses qui dépassent les capacités en RAM
@@ -189,7 +189,7 @@ d'exécution de ceux-ci. Un système de stockage `S3`, présenté dans un
189189
[chapitre ultérieur](#reads3), permet en supplément de dissocier l'environnement
190190
de stockage des données de ces deux premiers environnements.
191191
Sur le
192-
dépôt github de ce cours {{< githubrepo >}}, on peut
192+
dépôt Github de ce cours {{< githubrepo >}}, on peut
193193
naviguer dans les fichiers
194194
(et voir tout l'historique de modification de ceux-ci). Mais,
195195
comment exécuter les scripts sans passer par un poste local ?
@@ -198,8 +198,8 @@ Depuis quelques années, des services en ligne permettant de
198198
lancer une instance `Jupyter` à distance (analogue à celle que vous pouvez
199199
lancer en local en utilisant `Anaconda`) ont émergé. Parmi celles-ci :
200200

201-
* __Le SSP Cloud__ [![Onyxia](https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&color=yellow?logo=Python)](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git») plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
202-
* __Google collaboratory__
201+
* __Le SSP Cloud__ [![Onyxia](https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&color=yellow?logo=Python)](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git»), plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
202+
* __Google colaboratory__
203203
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master)
204204
;
205205
Github Visual Studio Editor [![githubdev](https://open.vscode.dev/badges/open-in-vscode.svg)](https://github.dev/linogaliana/python-datascientist) ;
@@ -213,10 +213,10 @@ distant `Gitlab`/`Github`, sans session ouverte pour les éditer.
213213
Cette approche est très appropriée
214214
pour assurer la reproductibilité d'une chaîne de traitement (on peut aller
215215
jusqu'au
216-
déploiement de visualisations automatiques[^2]) mais n'est pas très pratique pour
216+
déploiement de visualisations automatiques[^1]) mais n'est pas très pratique pour
217217
le griffonnage.
218218

219-
[^2] A cet égard, il est recommandé de consulter le cours de dernière année
219+
[^1] A cet égard, il est recommandé de consulter le cours de dernière année
220220
de l'ENSAE déjà cité: https://ensae-reproductibilite.github.io/website/
221221

222222
[Kaggle](https://www.kaggle.com/notebooks) <i class="fab fa-kaggle"></i>
@@ -248,10 +248,10 @@ de garder à l'esprit qu'elles sont également temporaires.
248248

249249
{{% /box %}}
250250

251-
### SSP-Cloud <a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=%C2%ABpython-datascience%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&init.personalInitArgs=%C2%ABmanipulation%2001_numpy%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a><br>
251+
### SSP Cloud <a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=%C2%ABpython-datascience%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&init.personalInitArgs=%C2%ABmanipulation%2001_numpy%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a><br>
252252

253253

254-
`Onyxia`, l'autre petit nom du SSP-Cloud,
254+
`Onyxia`, l'autre petit nom du SSP Cloud,
255255
est une plateforme libre service mutualisée de traitement
256256
de données statistiques et de datascience.
257257

@@ -267,15 +267,15 @@ Elle est aussi utilisé à des fins de formations et d’auto-formations.
267267
Dans cet environnement, `Jupyter` et `Visual Studio` sont tous deux
268268
disponibles.
269269

270-
### Google collaboratory <a href="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>
270+
### Google colaboratory <a href="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>
271271

272272

273273
Google met à disposition une plateforme de calculs basée sur le format `Jupyter Notebook`.
274274
Un grand avantage de cette solution est la mise à disposition gratuite de
275275
[GPUs](https://fr.wikipedia.org/wiki/Processeur_graphique) de qualité raisonnable,
276276
outil quasi-indispensable dans les projets basés sur des méthodes de `deep learning`.
277277
Il est possible de connecter les *notebooks* ouverts à Google Drive ou à
278-
[github](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb). L'icone
278+
[Github](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb). L'icone
279279
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb)
280280
fournit un raccourci pour lancer le notebook dans un environnement dédié.
281281

@@ -292,7 +292,7 @@ d'un dépôt `Github`.
292292

293293

294294

295-
### La technologie en arrière-plan: Docker <i class="fab fa-docker"></i></a>
295+
### La technologie en arrière-plan : Docker <i class="fab fa-docker"></i></a>
296296

297297
[Docker](https://www.docker.com/) est l'outil open-source de référence
298298
en matière de création d'environnements isolés et auto-suffisants (
@@ -307,7 +307,7 @@ du système sur laquelle elle est éxécutée.
307307
`Docker` <i class="fab fa-docker"></i></a> est utilisé dans
308308
le cadre de cours afin d'assurer la reproductibilité des exemples.
309309
Plus de détails sont disponibles dans le cours de dernière année d'ENSAE
310-
dédié à la mise en production de projets data-science
310+
dédié à la mise en production de projets data science
311311
(ensae-reproductibilite.netlify.app/).
312312

313313
Il est possible d'utiliser les images `Docker` sur lesquelles reposent
@@ -369,7 +369,7 @@ pas la réponse sans comprendre la solution.
369369
### Les gestionnaires de packages
370370

371371
Les packages d'un langage *open-source* sont mis à disposition sur
372-
des dépôts. Le CTAN est ainsi le dépôt `\(\LaTeX\)` le plus connu, le
372+
des dépôts. Le CTAN est ainsi le dépôt `LaTeX` le plus connu, le
373373
CRAN celui du langage `R`.
374374

375375
En `Python`, il existe deux gestionnaires de packages qu'on utilise

content/getting-started/02_DS_environment.qmd

Lines changed: 8 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,5 @@
11
---
2-
title: "L'environnement Python pour la data-science"
2+
title: "L'environnement Python pour la data science"
33
date: 2020-07-22T12:00:00Z
44
draft: false
55
weight: 30
@@ -29,7 +29,7 @@ selon que l'on est plutôt SysAdmin, développeur web ou
2929
data scientist. C'est ce dernier profil qui va ici nous
3030
intéresser.
3131

32-
Le data-scientist devant disposer de nombreuses cordes
32+
Le data scientist devant disposer de nombreuses cordes
3333
à son arc. Cela se reflète sur l'écosystème de la _data-science_
3434
qui est assez éclaté. Cependant, ce foisonnement
3535
n'est pas propre à `Python` puisque `R` propose encore plus de
@@ -53,7 +53,7 @@ rapides de la recherche ou de la technologie.
5353
Ce
5454
[post](https://medium.com/data-science-library/ultimate-python-library-guide-for-data-science-2562148158bf),
5555
dont l'image ci-dessus est tirée, résume la plupart des packages utiles
56-
pour un data-scientist ou un économiste/sociologue. Nous nous bornerons
56+
pour un data scientist ou un économiste/sociologue. Nous nous bornerons
5757
ici à évoquer ceux utilisés quotidiennement.
5858

5959
### `numpy`
@@ -165,7 +165,7 @@ résultats est très proche de ce qu’on trouve en `R`.
165165
`requests` est l'une des librairies de base de `Python`, dédiée
166166
à gérer la connexion avec internet. Les amateurs d'API
167167
seront des utilisateurs fréquents de celle-ci. Les
168-
personnes plus spécialistes de _webscraping_ lui préféreront
168+
personnes plus spécialistes de _web scraping_ l'utiliseront avec
169169
`beautifulsoup` qui offre une syntaxe extrêmement puissante
170170
pour récupérer automatiquement du contenu de pages web.
171171

@@ -246,16 +246,16 @@ qui est assez exigeant :sweating:, pour épouser les évolutions
246246
de l'écosystème.
247247

248248
`Twitter` est une excellente source d'information pour être rapidement
249-
au courant des évolutions du monde de la data-science. Les agrégateurs
250-
de contenu comme `medium` ou `towarddatascience` proposent des _posts_
249+
au courant des évolutions du monde de la data science. Les agrégateurs
250+
de contenu comme `medium` ou `towardsdatascience` proposent des _posts_
251251
de qualité hétérogène mais il peut être utile de recevoir par mail
252-
le _feed_ des nouveaux _posts_: au bout d'un certain temps, cela peut
252+
le _feed_ des nouveaux _posts_ : au bout d'un certain temps, cela peut
253253
permettre de dégager les nouvelles tendances. Le site
254254
`realpython` propose généralement de très bon posts, complets et
255255
pédagogiques.
256256

257257
En ce qui concerne les ouvrages papiers, certains sont de très bonne qualité.
258-
Cependant, il convient de faire attention à la date de mise à jour de ceux-ci:
258+
Cependant, il convient de faire attention à la date de mise à jour de ceux-ci :
259259
la vitesse d'évolution de certains éléments de l'écosystème peut les
260260
périmer très rapidement.
261261

0 commit comments

Comments
 (0)