linogaliana
diff --git a/‎README.md
Lines changed: 2 additions & 2 deletions b/‎README.md
Lines changed: 2 additions & 2 deletions
diff --git a/‎content/NLP/01_intro.qmd
Lines changed: 1 addition & 1 deletion b/‎content/NLP/01_intro.qmd
Lines changed: 1 addition & 1 deletion
diff --git a/‎content/NLP/02_exoclean.qmd
Lines changed: 2 additions & 2 deletions b/‎content/NLP/02_exoclean.qmd
Lines changed: 2 additions & 2 deletions
diff --git a/‎content/NLP/03_lda.qmd
Lines changed: 3 additions & 3 deletions b/‎content/NLP/03_lda.qmd
Lines changed: 3 additions & 3 deletions
diff --git a/‎content/NLP/04_word2vec.qmd
Lines changed: 1 addition & 1 deletion b/‎content/NLP/04_word2vec.qmd
Lines changed: 1 addition & 1 deletion
diff --git a/‎content/NLP/05_exo_supp.qmd
Lines changed: 1 addition & 1 deletion b/‎content/NLP/05_exo_supp.qmd
Lines changed: 1 addition & 1 deletion
diff --git a/‎content/annexes/evaluation.qmd
Lines changed: 2 additions & 2 deletions b/‎content/annexes/evaluation.qmd
Lines changed: 2 additions & 2 deletions
diff --git a/‎content/getting-started/01_installation.qmd
Lines changed: 15 additions & 15 deletions b/‎content/getting-started/01_installation.qmd
Lines changed: 15 additions & 15 deletions
diff --git a/‎content/getting-started/02_DS_environment.qmd
Lines changed: 8 additions & 8 deletions b/‎content/getting-started/02_DS_environment.qmd
Lines changed: 8 additions & 8 deletions
@@ -33,7 +33,7 @@ _data science_ que des personnes à la recherche de contenu plus avancé :
 
 1. __Manipulation de données__ : manipulation de données standards (`Pandas`), données géographiques (`Geopandas`), récupération de données (webscraping, API)...
 1. __Visualisation de données__ : visualisations classiques (`Matplotlib`, `Seaborn`), cartographie, visualisations réactives (`Plotly`, `Folium`)
-1. __Modélisation__: _machine learning_ (`Scikit`), économétrie
+1. __Modélisation__ : _machine learning_ (`Scikit`), économétrie
 1. __Traitement de données textuelles__ (NLP): découverte de la tokenisation avec `NLTK` et `SpaCy`, modélisation...
 1. **Introduction à la _data science_ moderne**: _cloud computing_, `ElasticSearch`, intégration continue...
 
@@ -44,7 +44,7 @@ centralisatrice [`data.gouv`](https://www.data.gouv.fr) ou du site
 _web_ de l'[Insee](https://www.insee.fr)) ou de données
 américaines.
 
-Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_: [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)
+Un bon complément du contenu du site web est le cours que nous donnons avec Romain Avouac ([@avouacr](https://github.com/avouacr)) en dernière année de l'ENSAE plus tourné autour de la mise en production de projets _data-science_ : [https://ensae-reproductibilite.github.io/website/](https://ensae-reproductibilite.github.io/website/)
 
 
 <details>
 
@@ -211,7 +211,7 @@ mesure de les comparer.
 
 Lors de la première utilisation de `NLTK`, il est nécessaire de télécharger
 quelques éléments nécessaires à la tokenisation, notamment la ponctuation.
-Pour cela, il est recommandé d'utiliser la commande suivante:
+Pour cela, il est recommandé d'utiliser la commande suivante :
 
 ~~~python
 import nltk
 
@@ -20,7 +20,7 @@ description: |
   anglo-saxons : Mary Shelley, Edgar Allan Poe, H.P. Lovecraft.
   Dans cette série d'exercice nous mettons en oeuvre de manière
   plus approfondie les différentes méthodes présentées
-  précedemment.
+  précédemment.
 bibliography: ../../reference.bib
 image: featured_nlp_exo.png
 ---
@@ -623,7 +623,7 @@ on peut utiliser la librairie `nltk` comme détaillé [précédemment](#nlp).
 <h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 4 : Nettoyage du texte</h3>
 ```
 
-Repartir de `train`, notre jeu de données d'entraînement. Pour rappel, `train` a la structure suivante:
+Repartir de `train`, notre jeu de données d'entraînement. Pour rappel, `train` a la structure suivante :
 
 1. Tokeniser chaque phrase avec `nltk`.
 2. Retirer les stopwords avec `nltk`.
 
@@ -215,7 +215,7 @@ Mathématiquement, on peut se représenter la LDA comme une
 technique de maximisation de *log vraisemblance* avec un algorithme EM (*expectation maximisation*)
 dans un modèle de mélange.
 
-La matrice termes-documents qui sert de point de départ est la suivante:
+La matrice termes-documents qui sert de point de départ est la suivante :
 
 |     | word_1 | word_2 | word_3 | ... | word_J |
 |---- |--------|--------|--------|-----|--------|
@@ -232,15 +232,15 @@ La LDA consiste à transformer cette matrice *sparse*document-terme en deux matr
 
 En notant $K_i$ le sujet $i$. On obtient donc
 
-* Une __matrice document-sujet__ ayant la structure suivante:
+* Une __matrice document-sujet__ ayant la structure suivante :
 
 |     | K_1 | K_2 | K_3 | ... | K_M |
 |---- |--------|--------|--------|-----|--------|
 |doc_1| 1      | 0      | 1      | ... | 0      |
 | ... | ...    | ...    | ...    | ... | ...    |
 |doc_N| 1      | 1      | 1      | ... | 0      |
 
-* Une __matrice sujets-mots__ ayant la structure suivante:
+* Une __matrice sujets-mots__ ayant la structure suivante :
 
 |     | word_1 | word_2 | word_3 | ... | word_J |
 |---- |--------|--------|--------|-----|--------|
 
@@ -606,7 +606,7 @@ L'un des modèles les plus connus pour démarrer est le `glove_model` de
 
 > GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space. 
 >
-> _Source_: https://nlp.stanford.edu/projects/glove/
+> _Source_ : https://nlp.stanford.edu/projects/glove/
 
 [^1]: Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. _GloVe: Global Vectors for Word Representation_. 
 
 
@@ -197,7 +197,7 @@ wordcount_words(df_openfood, "tokenized")
 5. Utiliser la librairie `Fasttext` pour extraire les noms de produits
 français
 
-* Appliquer le modèle téléchargé précedemment pour déterminer le langage
+* Appliquer le modèle téléchargé précédemment pour déterminer le langage
 * Ne récupérer que les libellés français
 
 ```{python}
 
@@ -16,7 +16,7 @@ Résumé :
     - De la modélisation
 * Les étudiants sont invités à proposer des sujets qui leur plaisent, à faire valider par le chargé de TD.
 * __Le projet doit utiliser `Git` et être disponible sous
-[github](https://github.com/) <a href="https://github.com" class="github"><i class="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <a href="https://gitlab.com" class="gitlab"><i class="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
+[Github](https://github.com/) <a href="https://github.com" class="github"><i class="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <a href="https://gitlab.com" class="gitlab"><i class="fab fa-gitlab"></i></a> (dépôt public ou dépôt privé à partager avec le chargé de TD)
 * La __date du rendu__ est fixée au : **X décembre 2022 23h59**
 * Le **06 janvier 2023**, auront lieu des __soutenances__
 
@@ -65,7 +65,7 @@ quelques conseils pour avoir des notebooks agréables à lire. N'oubliez pas cet
 > code is read much more often than written
 
 Lors de l'évaluation, une attention particulière sera donnée à la *reproductibilité* de votre projet.
-Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : webscraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
+Chaque étape (récupération et traitement des données, analyses descriptives, modélisation) doit pouvoir être reproduite à partir du notebook final. Pour les opérations qui prennent du temps (ex : web scraping massif, requêtage d'API avec des limites de nombre de requêtes, entraînement de modèle, etc.), vous devez inclure l'output (base de données, modèle entraîné..) dans le dépôt, afin que les étapes suivantes puissent s'éxecuter sans problème.
 Le test à réaliser : faire tourner toutes les cellules de votre notebook et ne pas avoir d’erreur est une condition _sine qua non_ pour avoir la moyenne.
 
 
 
@@ -57,7 +57,7 @@ print_badges("content/manipulation/01_numpy.qmd")
 ```
 :::
 
-Quelque soit l'environnement d'exécution des scripts, l'un des objectifs
+Quel que soit l'environnement d'exécution des scripts, l'un des objectifs
 de ce cours est d'adopter un environnement favorable à la reproductibilité
 des traitements. Ils devraient donc fonctionner, dès lors que l'environnement
 est bien configuré, d'une manière similaire quel que soit
@@ -135,7 +135,7 @@ permettent d'exécuter du code très facilement dans un environnement
 pour ajouter du code ou du texte à un document déjà existant, d'où le
 terme de _notebook_. 
 
-Néanmoins, passé l'étape d'exploration, il est recommandé de plutôt recourir à des
+Néanmoins, passée l'étape d'exploration, il est recommandé de plutôt recourir à des
 scripts au format `.py`. L'utilisation du format `.py` est l'un des premiers
 gestes pour favoriser la reproductibilité des analyses.
 Ces scripts peuvent être édités à l'aide d'éditeurs de texte adaptés au code, comme
@@ -168,7 +168,7 @@ externes, notamment les interfaces de développement comme
 
 ## Exécution dans un environnement temporaire sur un serveur distant
 
-Comme évoqué précedemment, les technologies dominantes dans
+Comme évoqué précédemment, les technologies dominantes dans
 le domaine du traitement des données ont amené à une évolution des pratiques
 depuis quelques années.
 La multiplication de données volumineuses qui dépassent les capacités en RAM
@@ -189,7 +189,7 @@ d'exécution de ceux-ci. Un système de stockage `S3`, présenté dans un
 [chapitre ultérieur](#reads3), permet en supplément de dissocier l'environnement
 de stockage des données de ces deux premiers environnements. 
 Sur le
-dépôt github de ce cours {{< githubrepo >}}, on peut
+dépôt Github de ce cours {{< githubrepo >}}, on peut
 naviguer dans les fichiers
 (et voir tout l'historique de modification de ceux-ci). Mais,
 comment exécuter les scripts sans passer par un poste local ?
@@ -198,8 +198,8 @@ Depuis quelques années, des services en ligne permettant de
 lancer une instance `Jupyter` à distance (analogue à celle que vous pouvez
 lancer en local en utilisant `Anaconda`) ont émergé. Parmi celles-ci :
 
-* __Le SSP Cloud__ [![Onyxia](https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&color=yellow?logo=Python)](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git») plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
-* __Google collaboratory__
+* __Le SSP Cloud__ [![Onyxia](https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&color=yellow?logo=Python)](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=«python-datascientist»&resources.requests.memory=«4Gi»&security.allowlist.enabled=false&git.repository=«https%3A%2F%2Fgithub.com%2Flinogaliana%2Fpython-datascientist.git»), plateforme développée par l'Insee qui fournit des environnements bac à sable basés sur des technologie de conteneurisation
+* __Google colaboratory__
 [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master)
 ;
 Github Visual Studio Editor [![githubdev](https://open.vscode.dev/badges/open-in-vscode.svg)](https://github.dev/linogaliana/python-datascientist) ;
@@ -213,10 +213,10 @@ distant `Gitlab`/`Github`, sans session ouverte pour les éditer.
 Cette approche est très appropriée
 pour assurer la reproductibilité d'une chaîne de traitement (on peut aller
 jusqu'au
-déploiement de visualisations automatiques[^2]) mais n'est pas très pratique pour
+déploiement de visualisations automatiques[^1]) mais n'est pas très pratique pour
 le griffonnage.
 
-[^2] A cet égard, il est recommandé de consulter le cours de dernière année
+[^1] A cet égard, il est recommandé de consulter le cours de dernière année
 de l'ENSAE déjà cité: https://ensae-reproductibilite.github.io/website/
 
 [Kaggle](https://www.kaggle.com/notebooks) <i class="fab fa-kaggle"></i>
@@ -248,10 +248,10 @@ de garder à l'esprit qu'elles sont également temporaires.
 
 {{% /box %}}
 
-### SSP-Cloud <a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=%C2%ABpython-datascience%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&init.personalInitArgs=%C2%ABmanipulation%2001_numpy%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a><br>
+### SSP Cloud <a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&onyxia.friendlyName=%C2%ABpython-datascience%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&init.personalInitArgs=%C2%ABmanipulation%2001_numpy%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSPcloud-Tester%20via%20SSP--cloud-informational&amp;color=yellow?logo=Python" alt="Onyxia"></a><br>
 
 
-`Onyxia`, l'autre petit nom du SSP-Cloud,
+`Onyxia`, l'autre petit nom du SSP Cloud,
 est une plateforme libre service mutualisée de traitement
 de données statistiques et de datascience.
 
@@ -267,15 +267,15 @@ Elle est aussi utilisé à des fins de formations et d’auto-formations.
 Dans cet environnement, `Jupyter` et `Visual Studio` sont tous deux 
 disponibles. 
 
-### Google collaboratory <a href="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>
+### Google colaboratory <a href="http://colab.research.google.com/github/linogaliana/python-datascientist/blob/master/notebooks/course/manipulation/01_numpy.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>
 
 
 Google met à disposition une plateforme de calculs basée sur le format `Jupyter Notebook`.
 Un grand avantage de cette solution est la mise à disposition gratuite de
 [GPUs](https://fr.wikipedia.org/wiki/Processeur_graphique) de qualité raisonnable,
 outil quasi-indispensable dans les projets basés sur des méthodes de `deep learning`.
 Il est possible de connecter les *notebooks* ouverts à Google Drive ou à
-[github](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb). L'icone
+[Github](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb). L'icone
 [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/googlecolab/colabtools/blob/master/notebooks/colab-github-demo.ipynb)
 fournit un raccourci pour lancer le notebook dans un environnement dédié.
 
@@ -292,7 +292,7 @@ d'un dépôt `Github`.
 
 
 
-### La technologie en arrière-plan: Docker <i class="fab fa-docker"></i></a>
+### La technologie en arrière-plan : Docker <i class="fab fa-docker"></i></a>
 
 [Docker](https://www.docker.com/) est l'outil open-source de référence
 en matière de création d'environnements isolés et auto-suffisants (
@@ -307,7 +307,7 @@ du système sur laquelle elle est éxécutée.
 `Docker` <i class="fab fa-docker"></i></a> est utilisé dans
 le cadre de cours afin d'assurer la reproductibilité des exemples. 
 Plus de détails sont disponibles dans le cours de dernière année d'ENSAE
-dédié à la mise en production de projets data-science
+dédié à la mise en production de projets data science
 (ensae-reproductibilite.netlify.app/).
 
 Il est possible d'utiliser les images `Docker` sur lesquelles reposent
@@ -369,7 +369,7 @@ pas la réponse sans comprendre la solution.
 ### Les gestionnaires de packages
 
 Les packages d'un langage *open-source* sont mis à disposition sur
-des dépôts. Le CTAN est ainsi le dépôt `\(\LaTeX\)` le plus connu, le 
+des dépôts. Le CTAN est ainsi le dépôt `LaTeX` le plus connu, le 
 CRAN celui du langage `R`. 
 
 En `Python`, il existe deux gestionnaires de packages qu'on utilise
 
@@ -1,5 +1,5 @@
 ---
-title: "L'environnement Python pour la data-science"
+title: "L'environnement Python pour la data science"
 date: 2020-07-22T12:00:00Z
 draft: false
 weight: 30
@@ -29,7 +29,7 @@ selon que l'on est plutôt SysAdmin, développeur web ou
 data scientist. C'est ce dernier profil qui va ici nous
 intéresser.
 
-Le data-scientist devant disposer de nombreuses cordes
+Le data scientist devant disposer de nombreuses cordes
 à son arc. Cela se reflète sur l'écosystème de la _data-science_
 qui est assez éclaté. Cependant, ce foisonnement 
 n'est pas propre à `Python` puisque `R` propose encore plus de
@@ -53,7 +53,7 @@ rapides de la recherche ou de la technologie.
 Ce
 [post](https://medium.com/data-science-library/ultimate-python-library-guide-for-data-science-2562148158bf),
 dont l'image ci-dessus est tirée, résume la plupart des packages utiles
-pour un data-scientist ou un économiste/sociologue. Nous nous bornerons
+pour un data scientist ou un économiste/sociologue. Nous nous bornerons
 ici à évoquer ceux utilisés quotidiennement.
 
 ### `numpy`
@@ -165,7 +165,7 @@ résultats est très proche de ce qu’on trouve en `R`.
 `requests` est l'une des librairies de base de `Python`, dédiée
 à gérer la connexion avec internet. Les amateurs d'API 
 seront des utilisateurs fréquents de celle-ci. Les 
-personnes plus spécialistes de _webscraping_ lui préféreront
+personnes plus spécialistes de _web scraping_ l'utiliseront avec
 `beautifulsoup` qui offre une syntaxe extrêmement puissante
 pour récupérer automatiquement du contenu de pages web.
 
@@ -246,16 +246,16 @@ qui est assez exigeant :sweating:, pour épouser les évolutions
 de l'écosystème. 
 
 `Twitter` est une excellente source d'information pour être rapidement 
-au courant des évolutions du monde de la data-science. Les agrégateurs
-de contenu comme `medium` ou `towarddatascience` proposent des _posts_
+au courant des évolutions du monde de la data science. Les agrégateurs
+de contenu comme `medium` ou `towardsdatascience` proposent des _posts_
 de qualité hétérogène mais il peut être utile de recevoir par mail
-le _feed_ des nouveaux _posts_: au bout d'un certain temps, cela peut
+le _feed_ des nouveaux _posts_ : au bout d'un certain temps, cela peut
 permettre de dégager les nouvelles tendances. Le site
 `realpython` propose généralement de très bon posts, complets et 
 pédagogiques. 
 
 En ce qui concerne les ouvrages papiers, certains sont de très bonne qualité.
-Cependant, il convient de faire attention à la date de mise à jour de ceux-ci:
+Cependant, il convient de faire attention à la date de mise à jour de ceux-ci :
 la vitesse d'évolution de certains éléments de l'écosystème peut les
 périmer très rapidement.
Original file line number	Diff line number	Diff line change
@@ -606,7 +606,7 @@ L'un des modèles les plus connus pour démarrer est le `glove_model` de
`606`	`606`
`607`	`607`	`> GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.`
`608`	`608`	`>`
`609`		`-> _Source_: https://nlp.stanford.edu/projects/glove/`
	`609`	`+> _Source_ : https://nlp.stanford.edu/projects/glove/`
`610`	`610`
`611`	`611`	`[^1]: Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. _GloVe: Global Vectors for Word Representation_.`
`612`	`612`