Relecture NLP (#474)

antoine-palazz · web-flow · commit 4cd44f35172b · 2023-12-11T17:37:50.000+01:00
* minor adds

* fin chap 1 nlp

* chapitre 2

* pub funathon
diff --git a/content/NLP/01_intro.qmd b/content/NLP/01_intro.qmd
@@ -103,7 +103,7 @@ Si cette tâche n'était pas assez difficile comme ça, on peut ajouter d'autres
 * **bruitées** : ortographe, fautes de frappe...
 * **changeantes** : la langue évolue avec de nouveaux mots, sens...
 * **complexes** : structures variables, accords...
-* **ambigues** : synonymie, polysémie, sens caché...
+* **ambiguës** : synonymie, polysémie, sens caché...
 * **propres à chaque langue** : il n'existe pas de règle de passage unique entre deux langues
 * de **grande dimension** : des combinaisons infinies de séquences de mots
 
@@ -126,8 +126,8 @@ Sinon un algorithme sera incapable de détecter une information pertinente dans
 ## Nettoyer un texte
 
 Les *wordclouds* sont des représentations graphiques assez pratiques pour visualiser
-les mots les plus fréquents, lorsqu'elles ne sont pas utilisées à tord et à travers. 
-Les _wordcloud_ sont très simples à implémenter en `Python`
+les mots les plus fréquents, lorsqu'elles ne sont pas utilisées à tort et à travers. 
+Les _wordclouds_ sont très simples à implémenter en `Python`
 avec le module `Wordcloud`. Quelques paramètres de mise en forme
 permettent même d'ajuster la forme du nuage à
 une image :
@@ -358,7 +358,7 @@ print(stemmed[1030:1050])
 ```
 
 A ce niveau, les mots commencent à être moins intelligibles par un humain. 
-La machine prendra le relais, on lui a préparé le travail
+La machine prendra le relais, on lui a préparé le travail.
 
 ::: {.cell .markdown}
 ```{=html}
@@ -382,7 +382,7 @@ stemmer = FrenchStemmer()
 Cette étape n'est pas une étape de préparation mais illustre la capacité 
 des librairies `Python` a extraire du sens d'un texte. La librairie 
 `spaCy` permet de faire de la reconnaissance d'entités nommées
-(_name entity recognition_, NER), ce qui peut
+(_named entity recognition_, NER), ce qui peut
 être pratique pour extraire rapidement certains personnages de notre oeuvre.
 
 ::: {.cell .markdown}
@@ -395,7 +395,7 @@ des librairies `Python` a extraire du sens d'un texte. La librairie
 depuis les années 1990. L'utilisation industrielle du NLP dans le monde
 de la _data science_ est néanmoins plus récente et doit beaucoup à la collecte
 accrue de données non structurées par les réseaux sociaux. Cela a amené à 
-un renouvelement du champ du NLP, tant dans le monde de la recherche que dans
+un renouvellement du champ du NLP, tant dans le monde de la recherche que dans
 sa mise en application dans l'industrie de la donnée.
 
 Le _package_ [`spaCy`](https://spacy.io/) est l'un des packages qui a permis
@@ -410,7 +410,7 @@ plusieurs étapes de transformation des données.
 :::
 
 Voici un exemple de reconnaissance d'entités nommées
-sur les premières phrases de l'ouvrage
+sur les premières phrases de l'ouvrage :
 
 ```{python}
 #!pip install deplacy
@@ -436,9 +436,9 @@ Une fois nettoyé, le texte est plus propice à une représentation vectorielle.
 En fait, implicitement, on a depuis le début adopté une démarche *bag of words*.
 Il s'agit d'une représentation, sans souci de contexte (ordre des mots, contexte d'utilisation),
 où chaque *token* représente un élément dans un vocabulaire de taille $|V|$.
-On peut ainsi avoir une représentation matricielle les occurrences de
+On peut ainsi avoir une représentation matricielle des occurrences de
 chaque *token* dans plusieurs documents (par exemple plusieurs livres,
-chapitres, etc.) pour, par exemple, en déduire une forme de similarité. 
+chapitres, etc.) pour par exemple en déduire une forme de similarité. 
 
 
 Afin de réduire la dimension de la matrice *bag of words*,
diff --git a/content/NLP/02_exoclean.qmd b/content/NLP/02_exoclean.qmd
@@ -1,5 +1,5 @@
 ---
-title: "Nettoyer un texte: des exercices pour découvrir l'approche bag-of-words"
+title: "Nettoyer un texte : des exercices pour découvrir l'approche bag-of-words"
 date: 2020-10-29T13:00:00Z
 draft: false
 weight: 20
@@ -55,7 +55,7 @@ avec cette fois des auteurs anglophones :
 Les données sont disponibles sur un CSV mis à disposition sur [`Github`](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/blob/master/data/spooky.csv). L'URL pour les récupérer directement est 
 <https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv>.
 
-Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquemment utilisés par les auteurs, de les représenter graphiquement. Il s'agit donc d'une approche basée sur l'analyse de fréquences.
+Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquemment utilisés par les auteurs et de les représenter graphiquement. Il s'agit donc d'une approche basée sur l'analyse de fréquences.
 On prendra appui sur l'approche *bag of words* présentée dans le chapitre précédent[^1].
 Il n'y aura pas de modélisation particulière, ceci est réservé aux chapitres suivants.  
 
@@ -84,13 +84,13 @@ prédire quel texte correspond à quel auteur à partir d'un modèle `Word2Vec`.
 Cela sera un pas supplémentaire dans la formalisation puisqu'il s'agira de
 représenter chaque mot d'un texte sous forme d'un vecteur de grande dimension, ce
 qui nous permettra de rapprocher les mots entre eux dans un espace complexe.
-Cette technique, dite des plongements de mots (_Word Embedding_),
+Cette technique, dite des plongements de mots (_Word Embeddings_),
 permet ainsi de transformer une information complexe difficilement quantifiable
 comme un mot
 en un objet numérique qui peut ainsi être rapproché d'autres par des méthodes
 algébriques. Pour découvrir ce concept, ce [post de blog](https://ssphub.netlify.app/post/word-embedding/)
 est particulièrement utile. En pratique, la technique des
-plongements de mots permet d'obtenir des tableaux comme celui-ci:
+plongements de mots permet d'obtenir des tableaux comme celui-ci :
 
 :::{#fig-relevanc-table-embedding}
 ![](https://minio.lab.sspcloud.fr/lgaliana/generative-art/pythonds/word_embedding.png)
@@ -567,7 +567,7 @@ g.set(xscale="log", yscale="log")
 g
 ```
 
-Nous avons bien, graphiquement, une relation log-linéaire entre les deux:
+Nous avons bien, graphiquement, une relation log-linéaire entre les deux :
 
 ```{python}
 g.figure.get_figure()
@@ -589,8 +589,7 @@ print(model.summary())
 
 Le coefficient de la régression est presque 1 ce qui suggère bien une relation
 quasiment log-linéaire entre le rang et la fréquence d'occurrence d'un mot. 
-Dit autrement, le mot le plus utilisé l'est deux fois plus que le deuxième
-mois le plus fréquent qui l'est trois plus que le troisième, etc.
+Dit autrement, le mot le plus utilisé l'est deux fois plus que le deuxième mot le plus fréquent qui l'est trois plus que le troisième, etc.
 
 ## Nettoyage d'un texte
 
@@ -871,7 +870,7 @@ Les 10 scores les plus élevés sont les suivants :
 print(train.iloc[list_fear[:9]]['Text'].values)
 ```
 
-On remarque que les scores les plus élévés sont soient des extraits courts où le mot apparait une seule fois, soit des extraits plus longs où le mot fear apparaît plusieurs fois.
+On remarque que les scores les plus élevés sont soient des extraits courts où le mot apparait une seule fois, soit des extraits plus longs où le mot fear apparaît plusieurs fois.
 
 
 
@@ -948,7 +947,7 @@ from nltk.metrics import BigramAssocMeasures
 <h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 7  : n-grams et contexte du mot fear</h3>
 ```
 1. Utiliser la méthode `concordance` pour afficher le contexte dans lequel apparaît le terme `fear`. 
-2. Sélectionner et afficher les meilleures collocation, par exemple selon le critère du ratio de vraisemblance. 
+2. Sélectionner et afficher les meilleures collocations, par exemple selon le critère du ratio de vraisemblance. 
 
 Lorsque deux mots sont fortement associés, cela est parfois dû au fait qu'ils apparaissent rarement. Il est donc parfois nécessaire d'appliquer des filtres, par exemple ignorer les bigrammes qui apparaissent moins de 5 fois dans le corpus.
 
@@ -964,7 +963,7 @@ Lorsque deux mots sont fortement associés, cela est parfois dû au fait qu'ils
 
 
 Avec la méthode `concordance` (question 1), 
-la liste devrait ressembler à celle-ci:
+la liste devrait ressembler à celle-ci :
 
 ```{python}
 #| include: true
diff --git a/content/NLP/03_lda.qmd b/content/NLP/03_lda.qmd
@@ -225,7 +225,7 @@ La matrice termes-documents qui sert de point de départ est la suivante :
 
 On dit que cette matrice est *sparse* (creuse en Français) car elle contient principalement des 0. En effet, un document n'utilise qu'une partie mineure du vocabulaire complet. 
 
-La LDA consiste à transformer cette matrice *sparse*document-terme en deux matrices de moindre dimension:
+La LDA consiste à transformer cette matrice *sparse* document-terme en deux matrices de moindre dimension :
 
 1. Une matrice document-sujet
 2. Une matrice sujet-mots
diff --git a/content/NLP/04_word2vec.qmd b/content/NLP/04_word2vec.qmd
@@ -54,7 +54,7 @@ avec cette fois des auteurs anglophones :
 Les données sont disponibles ici : [spooky.csv](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/blob/master/data/spooky.csv) et peuvent être requétées via l'url 
 <https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv>.
 
-Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquents utilisés par les auteurs, de les représenter graphiquement puis on va ensuite essayer de prédire quel texte correspond à quel auteur à partir de différents modèles de vectorisation, notamment les *word embeddings*.
+Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquents utilisés par les auteurs et de les représenter graphiquement, puis on va ensuite essayer de prédire quel texte correspond à quel auteur à partir de différents modèles de vectorisation, notamment les *word embeddings*.
 
 Ce notebook est librement inspiré de  : 
 
@@ -166,7 +166,7 @@ def clean_docs(texts, remove_stopwords=False, n_process = 4):
 
 On applique la fonction `clean_docs` à notre colonne `pandas`.
 Les `pandas.Series` étant itérables, elles se comportent comme des listes et
-fonctionnent ainsi très bien avec notre `pipe` `spacy`
+fonctionnent ainsi très bien avec notre `pipe` `spacy`.
 
 ```{python}
 spooky_df['text_clean'] = clean_docs(spooky_df['text'])
@@ -217,7 +217,7 @@ X_train[0]
 
 On peut aussi vérifier qu'on est capable de retrouver
 la correspondance entre nos auteurs initiaux avec
-la méthode `inverse_transform`
+la méthode `inverse_transform` :
 
 ```{python}
 print(y_train[0], le.inverse_transform([y_train[0]])[0])
diff --git a/content/NLP/05_exo_supp.qmd b/content/NLP/05_exo_supp.qmd
@@ -36,7 +36,16 @@ print_badges("content/NLP/05_exo_supp.qmd")
 ```
 :::
 
-Cette page approfondit certains aspects présentés dans les autres tutoriels. Il s'agit d'une suite d'exercice, avec corrections, pour présenter d'autres aspects du NLP ou pratiquer sur des données différentes
+Cette page approfondit certains aspects présentés dans les autres tutoriels.
+Il s'agit d'une suite d'exercice, avec corrections, pour présenter d'autres aspects du NLP ou pratiquer sur des données différentes.
+
+# NLP & Sentiment Analysis : Analyse textuelle des commentaires Trustpilot
+
+Pour en savoir plus sur le sentiment analysis, vous pouvez regarder le sujet 5 de l'édition 2023 du Funathon, disponible sur [Github](https://github.com/InseeFrLab/funathon2023_sujet5/) ou sur le [SSP Cloud](https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2FInseeFrLab%2Ffunathon2023_sujet5%2Fmain%2Finit.sh%C2%BB). Très guidé, ce sujet vous permettra d'avoir les bases sur un projet lié à de l'analyse textuelle.
+
+Là où la première partie consiste en quelques petits rappels sur le web scraping, la seconde consiste à analyser les données collectées.
+En particulier, étant donné que l'on dispose des commentaires laissés par les clients ainsi que leur note, il est intéressant de se demander dans quelle mesure il est possible de prédire la note laissée par un client selon l'évaluation associée.
+Pour ce faire, on va devoir coupler les méthodes de traitement du langage naturel (NLP) et celles d'apprentissage statistique (machine learning).
 
 
 # Exploration des libellés de l'openfood database
diff --git a/content/NLP/index.qmd b/content/NLP/index.qmd
@@ -22,7 +22,7 @@ nous nous sommes jusqu'à présent plutôt consacrés
 dimension certes modeste mais qui ouvraient déjà énormément de
 problématiques à creuser. Cette partie propose maintenant de se
 consacrer à un sujet dont il n'est pas évident _a priori_ que
-les ordinateurs s'emparent: le __langage humain__ et sa richesse. 
+les ordinateurs s'emparent : le __langage humain__ et sa richesse. 
 
 En effet, si la linguistique propose certes de représenter
 de manière conceptuelle le langage sous une forme de données, comment
@@ -36,7 +36,7 @@ humain met lui-même des années à comprendre et s'approprier ?[^blague]
     > Parce que le sable change tout le temps de paradigme !
 
     Ne l'ayant pas comprise du fait de mon esprit obtus, je lui
-    ai demandé de me l'expliquer. Voici sa réponse
+    ai demandé de me l'expliquer. Voici sa réponse :
 
     > Bien sûr, je serais ravi de l'expliquer ! Cette blague joue sur le double sens du mot "paradigme" et fait un jeu de mots avec les notions liées à la programmation et à la plage.
     >
@@ -51,7 +51,7 @@ humain met lui-même des années à comprendre et s'approprier ?[^blague]
 
 Le traitement automatique du langage - traduction française du concept de
 _natural language processing_ (NLP) - est l'ensemble des techniques
-permettant aux ordinateurs de comprendre, analyser synthétiser et
+permettant aux ordinateurs de comprendre, analyser, synthétiser et
 générer le langage humain[^1]. 
 
 [^1]: Le concept de _natural language processing_ tend à remplacer celui
diff --git a/content/getting-started/03_data_analysis.qmd b/content/getting-started/03_data_analysis.qmd
@@ -233,7 +233,7 @@ résultat, il est possible d'alerter sur certaines limites. Il est important,
 dans ses recherches comme dans les discussions avec d'autres interlocuteurs,
 de faire attention au biais de confirmation qui consiste 
 à ne retenir que l'information qui correspond à nos conceptions _a priori_ et
-à ne pas considérer celles qui pourraient aller à l'encontre de celles-ci:
+à ne pas considérer celles qui pourraient aller à l'encontre de celles-ci :
 
 ![](https://s3.amazonaws.com/revue/items/images/005/107/849/original/59df6bbf7a4b2da55d4eebbd37457f47.png?1571180763)
 
diff --git a/content/manipulation/04a_webscraping_TP.qmd b/content/manipulation/04a_webscraping_TP.qmd
@@ -1076,7 +1076,7 @@ def get_cara_pokemon(pokemon_name):
 ```
 
 A l'issue de la question 3,
-vous devriez obtenir une liste de caractéristiques proche de celle-ci:
+vous devriez obtenir une liste de caractéristiques proche de celle-ci :
 
 ```{python}
 get_cara_pokemon("bulbasaur")
diff --git a/content/manipulation/07_dask.qmd b/content/manipulation/07_dask.qmd
@@ -274,7 +274,7 @@ Ce qui est pratique avec `dask.dataframe` c'est que de nombreuses méthodes sont
 dvf_dd.loc[:,"Type local"].value_counts().compute()
 ```
 
-A titre de comparaison, comparons les temps de calculs entre `pandas` et `dask` ici:
+A titre de comparaison, comparons les temps de calculs entre `pandas` et `dask` ici :
 
 ```{python}
 import time
diff --git a/content/modelisation/6_pipeline.qmd b/content/modelisation/6_pipeline.qmd
@@ -851,7 +851,7 @@ plutôt qu'une forêt aléatoire.
 :::
 
 A l'issue de cet exercice, vous devriez avoir des _MDI_ proches
-de celles-ci:
+de celles-ci :
 
 
 ```{python}
diff --git a/content/modern-ds/elastic_intro.qmd b/content/modern-ds/elastic_intro.qmd
@@ -480,7 +480,7 @@ _pipelines_ `SpaCy`.
 
 
 A l'issue de la question 1, le jeu de données `ciqual` devrait
-ressembler à celui-ci:
+ressembler à celui-ci :
 
 ```{python}
 #| echo: false
@@ -673,7 +673,7 @@ es = elastic()
 
 Maintenant que la connection est établie, deux étapes nous attendent:
 
-1. **Indexation** Envoyer les documents parmi lesquels on veut chercher des echos pertinents dans notre elastic. Un index est une collection de document. Nous pourrions en créer deux: un pour les produits ciqual, un pour les produits openfood
+1. **Indexation** Envoyer les documents parmi lesquels on veut chercher des echos pertinents dans notre elastic. Un index est une collection de document. Nous pourrions en créer deux : un pour les produits ciqual, un pour les produits openfood
 2. **Requête** Chercher les documents les plus pertinents suivant une recherche textuelle flexible. Nous allons rechercher les libellés de notre recette et de notre liste de course.
 
 ## Première indexation
diff --git a/content/modern-ds/s3.qmd b/content/modern-ds/s3.qmd
@@ -258,7 +258,7 @@ de bien correspondre au concept de données tabulées sans hiérarchie
 qui peuvent être rapidement valorisées, il est universel (il n'est
 pas adhérent à un logiciel). Cependant, le CSV présente
 plusieurs inconvénients qui justifient l'émergence d'un format
-concurrent:
+concurrent :
 
 - le CSV est un format __lourd__ car les informations ne sont pas compressées 
 (ce qui le rend lisible facilement depuis un bloc-note) mais aussi
diff --git a/content/visualisation/maps.qmd b/content/visualisation/maps.qmd
@@ -753,7 +753,7 @@ df_points = df.copy()
 df_points["geometry"] = df_points["geometry"].centroid
 ```
 
-La carte obtenue devrait ressembler à celle-ci:
+La carte obtenue devrait ressembler à celle-ci :
 
 ```{python}
 #| echo: false