Skip to content

Commit

Permalink
Des typos corrigées par Antoine (#411)
Browse files Browse the repository at this point in the history
* 1st vague typos

* vague typos 2
  • Loading branch information
antoine-palazz committed Sep 26, 2023
1 parent 1dd6dc7 commit 154f09e
Show file tree
Hide file tree
Showing 41 changed files with 156 additions and 156 deletions.
4 changes: 2 additions & 2 deletions README.md
Expand Up @@ -33,7 +33,7 @@ _data science_ que des personnes à la recherche de contenu plus avancé :

1. __Manipulation de données__ : manipulation de données standards (`Pandas`), données géographiques (`Geopandas`), récupération de données (webscraping, API)...
1. __Visualisation de données__ : visualisations classiques (`Matplotlib`, `Seaborn`), cartographie, visualisations réactives (`Plotly`, `Folium`)
1. __Modélisation__: _machine learning_ (`Scikit`), économétrie
1. __Modélisation__ : _machine learning_ (`Scikit`), économétrie
1. __Traitement de données textuelles__ (NLP): découverte de la tokenisation avec `NLTK` et `SpaCy`, modélisation...
1. **Introduction à la _data science_ moderne**: _cloud computing_, `ElasticSearch`, intégration continue...

Expand All @@ -44,7 +44,7 @@ centralisatrice [`data.gouv`](https://www.data.gouv.fr) ou du site
_web_ de l'[Insee](https://www.insee.fr)) ou de données
américaines.

Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_: [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)
Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_ : [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)


<details>
Expand Down
2 changes: 1 addition & 1 deletion content/NLP/01_intro.qmd
Expand Up @@ -211,7 +211,7 @@ mesure de les comparer.

Lors de la première utilisation de `NLTK`, il est nécessaire de télécharger
quelques éléments nécessaires à la tokenisation, notamment la ponctuation.
Pour cela, il est recommandé d'utiliser la commande suivante:
Pour cela, il est recommandé d'utiliser la commande suivante :

~~~python
import nltk
Expand Down
4 changes: 2 additions & 2 deletions content/NLP/02_exoclean.qmd
Expand Up @@ -20,7 +20,7 @@ description: |
anglo-saxons : Mary Shelley, Edgar Allan Poe, H.P. Lovecraft.
Dans cette série d'exercice nous mettons en oeuvre de manière
plus approfondie les différentes méthodes présentées
précedemment.
précédemment.
bibliography: ../../reference.bib
image: featured_nlp_exo.png
---
Expand Down Expand Up @@ -623,7 +623,7 @@ on peut utiliser la librairie `nltk` comme détaillé [précédemment](#nlp).
<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 4 : Nettoyage du texte</h3>
```

Repartir de `train`, notre jeu de données d'entraînement. Pour rappel, `train` a la structure suivante:
Repartir de `train`, notre jeu de données d'entraînement. Pour rappel, `train` a la structure suivante :

1. Tokeniser chaque phrase avec `nltk`.
2. Retirer les stopwords avec `nltk`.
Expand Down
6 changes: 3 additions & 3 deletions content/NLP/03_lda.qmd
Expand Up @@ -215,7 +215,7 @@ Mathématiquement, on peut se représenter la LDA comme une
technique de maximisation de *log vraisemblance* avec un algorithme EM (*expectation maximisation*)
dans un modèle de mélange.

La matrice termes-documents qui sert de point de départ est la suivante:
La matrice termes-documents qui sert de point de départ est la suivante :

| | word_1 | word_2 | word_3 | ... | word_J |
|---- |--------|--------|--------|-----|--------|
Expand All @@ -232,15 +232,15 @@ La LDA consiste à transformer cette matrice *sparse*document-terme en deux matr

En notant $K_i$ le sujet $i$. On obtient donc

* Une __matrice document-sujet__ ayant la structure suivante:
* Une __matrice document-sujet__ ayant la structure suivante :

| | K_1 | K_2 | K_3 | ... | K_M |
|---- |--------|--------|--------|-----|--------|
|doc_1| 1 | 0 | 1 | ... | 0 |
| ... | ... | ... | ... | ... | ... |
|doc_N| 1 | 1 | 1 | ... | 0 |

* Une __matrice sujets-mots__ ayant la structure suivante:
* Une __matrice sujets-mots__ ayant la structure suivante :

| | word_1 | word_2 | word_3 | ... | word_J |
|---- |--------|--------|--------|-----|--------|
Expand Down
2 changes: 1 addition & 1 deletion content/NLP/04_word2vec.qmd
Expand Up @@ -606,7 +606,7 @@ L'un des modèles les plus connus pour démarrer est le `glove_model` de

> GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.
>
> _Source_: https://nlp.stanford.edu/projects/glove/
> _Source_ : https://nlp.stanford.edu/projects/glove/
[^1]: Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. _GloVe: Global Vectors for Word Representation_.

Expand Down
2 changes: 1 addition & 1 deletion content/NLP/05_exo_supp.qmd
Expand Up @@ -197,7 +197,7 @@ wordcount_words(df_openfood, "tokenized")
5. Utiliser la librairie `Fasttext` pour extraire les noms de produits
français

* Appliquer le modèle téléchargé précedemment pour déterminer le langage
* Appliquer le modèle téléchargé précédemment pour déterminer le langage
* Ne récupérer que les libellés français

```{python}
Expand Down
4 changes: 2 additions & 2 deletions content/annexes/evaluation.qmd
Expand Up @@ -16,7 +16,7 @@ Résumé :
- De la modélisation
* Les étudiants sont invités à proposer des sujets qui leur plaisent, à faire valider par le chargé de TD.
* __Le projet doit utiliser `Git` et être disponible sous
[github](https://github.com/) <a href="https://github.com" class="github"><i class="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <a href="https://gitlab.com" class="gitlab"><i class="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
[Github](https://github.com/) <a href="https://github.com" class="github"><i class="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <a href="https://gitlab.com" class="gitlab"><i class="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
* La __date du rendu__ est fixée au : **X décembre 2022 23h59**
* Le **06 janvier 2023**, auront lieu des __soutenances__

Expand Down Expand Up @@ -65,7 +65,7 @@ quelques conseils pour avoir des notebooks agréables à lire. N'oubliez pas cet
> code is read much more often than written
Lors de l'évaluation, une attention particulière sera donnée à la *reproductibilité* de votre projet.
Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : webscraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : web scraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
Le test à réaliser : faire tourner toutes les cellules de votre notebook et ne pas avoir d’erreur est une condition _sine qua non_ pour avoir la moyenne.


Expand Down
30 changes: 15 additions & 15 deletions content/getting-started/01_installation.qmd
Expand Up @@ -57,7 +57,7 @@ print_badges("content/manipulation/01_numpy.qmd")
```
:::

Quelque soit l'environnement d'exécution des scripts, l'un des objectifs
Quel que soit l'environnement d'exécution des scripts, l'un des objectifs
de ce cours est d'adopter un environnement favorable à la reproductibilité
des traitements. Ils devraient donc fonctionner, dès lors que l'environnement
est bien configuré, d'une manière similaire quel que soit
Expand Down Expand Up @@ -135,7 +135,7 @@ permettent d'exécuter du code très facilement dans un environnement
pour ajouter du code ou du texte à un document déjà existant, d'où le
terme de _notebook_.

Néanmoins, passé l'étape d'exploration, il est recommandé de plutôt recourir à des
Néanmoins, passée l'étape d'exploration, il est recommandé de plutôt recourir à des
scripts au format `.py`. L'utilisation du format `.py` est l'un des premiers
gestes pour favoriser la reproductibilité des analyses.
Ces scripts peuvent être édités à l'aide d'éditeurs de texte adaptés au code, comme
Expand Down Expand Up @@ -168,7 +168,7 @@ externes, notamment les interfaces de développement comme

## Exécution dans un environnement temporaire sur un serveur distant

Comme évoqué précedemment, les technologies dominantes dans
Comme évoqué précédemment, les technologies dominantes dans
le domaine du traitement des données ont amené à une évolution des pratiques
depuis quelques années.
La multiplication de données volumineuses qui dépassent les capacités en RAM
Expand All @@ -189,7 +189,7 @@ d'exécution de ceux-ci. Un système de stockage `S3`, présenté dans un
[chapitre ultérieur](#reads3), permet en supplément de dissocier l'environnement
de stockage des données de ces deux premiers environnements.
Sur le
dépôt github de ce cours {{< githubrepo >}}, on peut
dépôt Github de ce cours {{< githubrepo >}}, on peut
naviguer dans les fichiers
(et voir tout l'historique de modification de ceux-ci). Mais,
comment exécuter les scripts sans passer par un poste local ?
Expand All @@ -198,8 +198,8 @@ Depuis quelques années, des services en ligne permettant de
lancer une instance `Jupyter` à distance (analogue à celle que vous pouvez
lancer en local en utilisant `Anaconda`) ont émergé. Parmi celles-ci :

* __Le SSP Cloud__ [![Onyxia](https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&color=yellow?logo=Python)](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git») plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
* __Google collaboratory__
* __Le SSP Cloud__ [![Onyxia](https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&color=yellow?logo=Python)](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git»), plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
* __Google colaboratory__
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master)
;
Github Visual Studio Editor [![githubdev](https://open.vscode.dev/badges/open-in-vscode.svg)](https://github.dev/linogaliana/python-datascientist) ;
Expand All @@ -213,10 +213,10 @@ distant `Gitlab`/`Github`, sans session ouverte pour les éditer.
Cette approche est très appropriée
pour assurer la reproductibilité d'une chaîne de traitement (on peut aller
jusqu'au
déploiement de visualisations automatiques[^2]) mais n'est pas très pratique pour
déploiement de visualisations automatiques[^1]) mais n'est pas très pratique pour
le griffonnage.

[^2] A cet égard, il est recommandé de consulter le cours de dernière année
[^1] A cet égard, il est recommandé de consulter le cours de dernière année
de l'ENSAE déjà cité: https://ensae-reproductibilite.github.io/website/

[Kaggle](https://www.kaggle.com/notebooks) <i class="fab fa-kaggle"></i>
Expand Down Expand Up @@ -248,10 +248,10 @@ de garder à l'esprit qu'elles sont également temporaires.

{{% /box %}}

### SSP-Cloud <a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=%C2%ABpython-datascience%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&init.personalInitArgs=%C2%ABmanipulation%2001_numpy%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a><br>
### SSP Cloud <a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=%C2%ABpython-datascience%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&init.personalInitArgs=%C2%ABmanipulation%2001_numpy%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a><br>


`Onyxia`, l'autre petit nom du SSP-Cloud,
`Onyxia`, l'autre petit nom du SSP Cloud,
est une plateforme libre service mutualisée de traitement
de données statistiques et de datascience.

Expand All @@ -267,15 +267,15 @@ Elle est aussi utilisé à des fins de formations et d’auto-formations.
Dans cet environnement, `Jupyter` et `Visual Studio` sont tous deux
disponibles.

### Google collaboratory <a href="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>
### Google colaboratory <a href="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>


Google met à disposition une plateforme de calculs basée sur le format `Jupyter Notebook`.
Un grand avantage de cette solution est la mise à disposition gratuite de
[GPUs](https://fr.wikipedia.org/wiki/Processeur_graphique) de qualité raisonnable,
outil quasi-indispensable dans les projets basés sur des méthodes de `deep learning`.
Il est possible de connecter les *notebooks* ouverts à Google Drive ou à
[github](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb). L'icone
[Github](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb). L'icone
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb)
fournit un raccourci pour lancer le notebook dans un environnement dédié.

Expand All @@ -292,7 +292,7 @@ d'un dépôt `Github`.



### La technologie en arrière-plan: Docker <i class="fab fa-docker"></i></a>
### La technologie en arrière-plan : Docker <i class="fab fa-docker"></i></a>

[Docker](https://www.docker.com/) est l'outil open-source de référence
en matière de création d'environnements isolés et auto-suffisants (
Expand All @@ -307,7 +307,7 @@ du système sur laquelle elle est éxécutée.
`Docker` <i class="fab fa-docker"></i></a> est utilisé dans
le cadre de cours afin d'assurer la reproductibilité des exemples.
Plus de détails sont disponibles dans le cours de dernière année d'ENSAE
dédié à la mise en production de projets data-science
dédié à la mise en production de projets data science
(ensae-reproductibilite.netlify.app/).

Il est possible d'utiliser les images `Docker` sur lesquelles reposent
Expand Down Expand Up @@ -369,7 +369,7 @@ pas la réponse sans comprendre la solution.
### Les gestionnaires de packages

Les packages d'un langage *open-source* sont mis à disposition sur
des dépôts. Le CTAN est ainsi le dépôt `\(\LaTeX\)` le plus connu, le
des dépôts. Le CTAN est ainsi le dépôt `LaTeX` le plus connu, le
CRAN celui du langage `R`.

En `Python`, il existe deux gestionnaires de packages qu'on utilise
Expand Down
16 changes: 8 additions & 8 deletions content/getting-started/02_DS_environment.qmd
@@ -1,5 +1,5 @@
---
title: "L'environnement Python pour la data-science"
title: "L'environnement Python pour la data science"
date: 2020-07-22T12:00:00Z
draft: false
weight: 30
Expand Down Expand Up @@ -29,7 +29,7 @@ selon que l'on est plutôt SysAdmin, développeur web ou
data scientist. C'est ce dernier profil qui va ici nous
intéresser.

Le data-scientist devant disposer de nombreuses cordes
Le data scientist devant disposer de nombreuses cordes
à son arc. Cela se reflète sur l'écosystème de la _data-science_
qui est assez éclaté. Cependant, ce foisonnement
n'est pas propre à `Python` puisque `R` propose encore plus de
Expand All @@ -53,7 +53,7 @@ rapides de la recherche ou de la technologie.
Ce
[post](https://medium.com/data-science-library/ultimate-python-library-guide-for-data-science-2562148158bf),
dont l'image ci-dessus est tirée, résume la plupart des packages utiles
pour un data-scientist ou un économiste/sociologue. Nous nous bornerons
pour un data scientist ou un économiste/sociologue. Nous nous bornerons
ici à évoquer ceux utilisés quotidiennement.

### `numpy`
Expand Down Expand Up @@ -165,7 +165,7 @@ résultats est très proche de ce qu’on trouve en `R`.
`requests` est l'une des librairies de base de `Python`, dédiée
à gérer la connexion avec internet. Les amateurs d'API
seront des utilisateurs fréquents de celle-ci. Les
personnes plus spécialistes de _webscraping_ lui préféreront
personnes plus spécialistes de _web scraping_ l'utiliseront avec
`beautifulsoup` qui offre une syntaxe extrêmement puissante
pour récupérer automatiquement du contenu de pages web.

Expand Down Expand Up @@ -246,16 +246,16 @@ qui est assez exigeant :sweating:, pour épouser les évolutions
de l'écosystème.

`Twitter` est une excellente source d'information pour être rapidement
au courant des évolutions du monde de la data-science. Les agrégateurs
de contenu comme `medium` ou `towarddatascience` proposent des _posts_
au courant des évolutions du monde de la data science. Les agrégateurs
de contenu comme `medium` ou `towardsdatascience` proposent des _posts_
de qualité hétérogène mais il peut être utile de recevoir par mail
le _feed_ des nouveaux _posts_: au bout d'un certain temps, cela peut
le _feed_ des nouveaux _posts_ : au bout d'un certain temps, cela peut
permettre de dégager les nouvelles tendances. Le site
`realpython` propose généralement de très bon posts, complets et
pédagogiques.

En ce qui concerne les ouvrages papiers, certains sont de très bonne qualité.
Cependant, il convient de faire attention à la date de mise à jour de ceux-ci:
Cependant, il convient de faire attention à la date de mise à jour de ceux-ci :
la vitesse d'évolution de certains éléments de l'écosystème peut les
périmer très rapidement.

0 comments on commit 154f09e

Please sign in to comment.