diff --git a/content/NLP/01_intro.qmd b/content/NLP/01_intro.qmd
index b988d15cc..49ad51dc8 100644
--- a/content/NLP/01_intro.qmd
+++ b/content/NLP/01_intro.qmd
@@ -39,26 +39,15 @@ print_badges("content/NLP/01_intro.qmd")
 :::
 
 
-Le _NLP_ est un domaine immense de recherche. Cette page est une introduction
-fort incomplète à la question. Il s'agit de montrer la logique, quelques exemples
+Cette partie est une introduction
+à la question du nettoyage de données textuelles.
+Il s'agit de montrer la logique, quelques exemples
 avec `Python` <i class="fab fa-python"></i>
-et s'amuser avec comme base d'exemple un livre formidable :books: :
-*Le Comte de Monte Cristo*.
+et s'amuser avec comme base d'exemple un livre formidable 📖 :
+[*Le Comte de Monte Cristo*](https://fr.wikipedia.org/wiki/Le_Comte_de_Monte-Cristo).
 
-Dans le cadre de l'introduction au NLP que vous pouvez retrouver dans
-les différents chapitres, nous évoquons principalement les champs suivants du NLP:
-
-- _Preprocessing_
-- Approches _bag of words_ et contextuelles (n-grams, etc.)
-- _Topics modelling_
-- _Word embedding_
-
-Cela laisse de côté des champs très actifs de recherche 
-du NLP, notamment l'analyse de sentiment ou les modèles de
-langage (modèles GPT par exemple). Les outils découverts
-dans cette partie du cours permettront, si vous le désirez,
-de bénéficier d'une base solide pour approfondir tel ou tel
-sujet. 
+L'objectif est de découvrir les principaux enjeux du nettoyage de données en NLP
+et les enjeux de l'analyse de fréquence. 
 
 
 ## Base d'exemple
@@ -67,8 +56,10 @@ La base d'exemple est le *Comte de Monte Cristo* d'Alexandre Dumas.
 Il est disponible
 gratuitement sur le site
 [Project Gutemberg](http://www.gutenberg.org/ebooks/author/492) comme des milliers
-d'autres livres du domaine public. La manière la plus simple de le récupérer
-est de télécharger avec le _package_ `request` le fichier texte et le retravailler
+d'autres livres du domaine public. 
+
+La manière la plus simple de le récupérer
+est de télécharger avec le _package_ `Request` le fichier texte et le retravailler
 légèrement pour ne conserver que le corpus du livre : 
 
 ```{python}
@@ -98,12 +89,12 @@ dumas[10000:10500]
 ### Objectif
 
 Le *natural language processing* (NLP) ou
-*traitement automatisé de la langue* (TAL) en Français,
+*traitement automatisé du langage* (TAL) en Français,
 vise à extraire de l'information de textes à partir d'une analyse statistique du contenu. 
 Cette définition permet d'inclure de nombreux champs d'applications au sein
-du NLP (traduction, analyse de sentiment, recommandation, surveillance, etc. ) ainsi que de méthodes. 
+du NLP (traduction, analyse de sentiment, recommandation, surveillance, etc. ). 
 
-Cette approche implique de transformer un texte, qui est une information compréhensible par un humain, en un nombre, information appropriée pour un ordinateur et une approche statistique ou algorithmique. 
+Cette approche implique de transformer un texte, qui est une information compréhensible par un humain, en un nombre, information appropriée pour un ordinateur dans le cadre d'une approche statistique ou algorithmique. 
 
 Transformer une information textuelle en valeurs numériques propres à une analyse statistique n'est pas une tâche évidente. Les données textuelles sont **non structurées** puisque l'information cherchée, qui est propre à chaque analyse, est perdue au milieu d'une grande masse d'informations qui doit, de plus, être interprétée dans un certain contexte (un même mot ou une phrase n'ayant pas la même signification selon le contexte). 
 
@@ -114,34 +105,36 @@ Si cette tâche n'était pas assez difficile comme ça, on peut ajouter d'autres
 * complexes : structures variables, accords...
 * ambigues : synonymie, polysémie, sens caché...
 * propres à chaque langue : il n'existe pas de règle de passage unique entre deux langues
-* grande dimension : des combinaisons infinies de séquences de mots
+* de grande dimension : des combinaisons infinies de séquences de mots
 
 ### Méthode
 
-L’unité textuelle peut être le mot ou encore une séquence de *n*
+L’analyse textuelle vise à transformer le texte en données
+numériques manipulables. Pour cela il est nécessaire de se fixer
+une unité sémantique minimale. 
+Cette unité textuelle peut être le mot ou encore une séquence de *n*
 mots (un *n-gramme*) ou encore une chaîne de caractères (e.g. la
-ponctuation peut être signifiante). On parle de **token**. L’analyse textuelle vise à transformer le texte en données
-numériques manipulables. 
+ponctuation peut être signifiante). On parle de **token**. 
 
-On peut ensuite utiliser diverses techniques (clustering,
+On peut ensuite utiliser diverses techniques (_clustering_,
 classification supervisée) suivant l’objectif poursuivi pour exploiter
-l’information transformée. Mais les étapes de nettoyage de texte sont indispensables car sinon un algorithme sera incapable de détecter une information pertinente dans l'infini des possibles. 
-
+l’information transformée. Mais les étapes de nettoyage de texte sont indispensables.
+Sinon un algorithme sera incapable de détecter une information pertinente dans l'infini des possibles. 
 
 
 
 ## Nettoyer un texte
 
 Les *wordclouds* sont des représentations graphiques assez pratiques pour visualiser
-les mots les plus fréquents. Elles sont très simples à implémenter en `Python`
-avec le module `wordcloud` qui permet même d'ajuster la forme du nuage à
+les mots les plus fréquents, lorsqu'elles ne sont pas utilisées à tord et à travers. 
+Les _wordcloud_ sont très simples à implémenter en `Python`
+avec le module `Wordcloud`. Quelques paramètres de mise en forme
+permettent même d'ajuster la forme du nuage à
 une image :
 
 
 ```{python}
 #| echo: true
-#| label: fig-wordcloud-dumas
-#| fig-cap: "Nuage de mot produit à partir du Comte de Monte Cristo"
 
 import wordcloud
 import numpy as np
@@ -153,28 +146,33 @@ import matplotlib.pyplot as plt
 img = "https://raw.githubusercontent.com/linogaliana/python-datascientist/master/content/NLP/book.png"
 book_mask = np.array(PIL.Image.open(io.BytesIO(requests.get(img).content)))
 
-fig = plt.figure()
-
 def make_wordcloud(corpus):
     wc = wordcloud.WordCloud(background_color="white", max_words=2000, mask=book_mask, contour_width=3, contour_color='steelblue')
     wc.generate(corpus)
     return wc
 
-plt.imshow(make_wordcloud(dumas), interpolation='bilinear')
+wordcloud_dumas = make_wordcloud(dumas)
+```
+
+```{python}
+#| echo: true
+#| fig-cap: Nuage de mot produit à partir du Comte de Monte Cristo
+#| label: fig-wordcloud-dumas
+plt.imshow(wordcloud_dumas, interpolation='bilinear')
 plt.axis("off")
-#plt.show()
-#plt.savefig('word.png', bbox_inches='tight')
 ```
 
 
 Cela montre clairement qu'il est nécessaire de nettoyer notre texte. Le nom
 du personnage principal, Dantès, est ainsi masqué par un certain nombre
 d'articles ou mots de liaison qui perturbent l'analyse. Ces mots sont des 
-*stop-words*. La librairie `NLTK` (*Natural Language ToolKit*), librairie
+*stop-words*. 
+
+La librairie `NLTK` (*Natural Language ToolKit*), librairie
 de référence dans le domaine du NLP, permet de facilement retirer ces
 stopwords (cela pourrait également être fait avec 
 la librairie plus récente, `spaCy`). Avant cela, il est nécessaire
-de transformer notre texte en le découpant par unités fondamentales (les tokens).
+de transformer notre texte en le découpant par unités fondamentales (les _tokens_).
 
 Les exemples suivants, extraits de @galianafuzzy, montrent l'intérêt du
 nettoyage de textes lorsqu'on désire comparer des corpus
@@ -250,12 +248,6 @@ words = [word for word in words if word.isalpha()]
 words[1030:1050]
 ```
 
-Comme indiqué ci-dessus, pour télécharger
-le corpus de ponctuation, il est
-nécessaire d'exécuter la ligne de
-commande suivante :
-
-
 
 
 
@@ -296,7 +288,7 @@ nltk.download('stopwords')
 
 [^2]: Le corpus de _stop-words_ de `NLTK`
 est relativement limité. Il est recommandé
-de privilégier celui de `spaCy`, plus
+de privilégier celui de `SpaCy`, plus
 complet, pour éliminer plus de mots
 valises. 
 
@@ -389,13 +381,14 @@ stemmer = FrenchStemmer()
 
 Cette étape n'est pas une étape de préparation mais illustre la capacité 
 des librairies `Python` a extraire du sens d'un texte. La librairie 
-`spaCy` permet de faire de la reconnaissance d'entités nommées, ce qui peut
+`spaCy` permet de faire de la reconnaissance d'entités nommées
+(_name entity recognition_, NER), ce qui peut
 être pratique pour extraire rapidement certains personnages de notre oeuvre.
 
 ::: {.cell .markdown}
 ```{=html}
 <div class="alert alert-info" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-comment"></i>La librairie spaCy</h3>
+<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> La librairie <code>SpaCy</code></h3>
 ```
 
 `NTLK` est la librairie historique d'analyse textuelle en `Python`. Elle existe
@@ -416,17 +409,25 @@ plusieurs étapes de transformation des données.
 ```
 :::
 
-~~~python
+Voici un exemple de reconnaissance d'entités nommées
+sur les premières phrases de l'ouvrage
+
+```{python}
 #!pip install deplacy
-#!python -m spacy download fr_core_news_sm
+!python -m spacy download fr_core_news_sm
 import spacy
-
-nlp=spacy.load("fr_core_news_sm")
-doc = nlp(dumas)
 import spacy
 from spacy import displacy
+
+nlp=spacy.load("fr_core_news_sm")
+doc = nlp(dumas[15000:17000])
 displacy.render(doc, style="ent", jupyter=True)
-~~~
+```
+
+La reconnaissance d'entités nommées diposnible
+par défaut est souvent décevante; il est
+souvent nécessaire d'enrichir les règles par défaut
+par des règles _ad hoc_, propres à chaque corpus.
 
 
 ## Représentation d'un texte sous forme vectorielle
@@ -447,4 +448,4 @@ La pondération la plus simple est basée sur la fréquence des mots dans le doc
 C'est l'objet de la métrique **tf-idf** (term frequency - inverse document frequency)
 abordée dans un prochain chapitre.
 
-## Références
\ No newline at end of file
+## Références
diff --git a/content/NLP/02_exoclean.qmd b/content/NLP/02_exoclean.qmd
index 179c23771..210bfbe8a 100644
--- a/content/NLP/02_exoclean.qmd
+++ b/content/NLP/02_exoclean.qmd
@@ -23,6 +23,7 @@ description: |
   précédemment.
 bibliography: ../../reference.bib
 image: featured_nlp_exo.png
+echo: false
 ---
 
 ::: {.cell .markdown}
@@ -43,7 +44,7 @@ print_badges("content/NLP/02_exoclean.qmd")
 
 
 Cette page approfondit certains aspects présentés dans la
-[partie introductive](#nlp). Après avoir travaillé sur le
+[partie introductive](/content/NLP/intro.html). Après avoir travaillé sur le
 *Comte de Monte Cristo*, on va continuer notre exploration de la littérature
 avec cette fois des auteurs anglophones :
 
@@ -51,26 +52,27 @@ avec cette fois des auteurs anglophones :
 * HP Lovecraft (HPL) ;
 * Mary Wollstonecraft Shelley (MWS).
 
-Les données sont disponibles ici : [spooky.csv](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/blob/master/data/spooky.csv) et peuvent être requétées via l'url 
+Les données sont disponibles sur un CSV mis à disposition sur [`Github`](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/blob/master/data/spooky.csv). L'URL pour les récupérer directement est 
 <https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv>.
 
-Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquemment utilisés par les auteurs, de les représenter graphiquement.
+Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquemment utilisés par les auteurs, de les représenter graphiquement. Il s'agit donc d'une approche basée sur l'analyse de fréquences.
 On prendra appui sur l'approche *bag of words* présentée dans le chapitre précédent[^1].
-
+Il n'y aura pas de modélisation particulière, ceci est réservé aux chapitres suivants.  
 
 [^1]: L'approche *bag of words* est déjà, si on la pousse à ses limites, très intéressante. Elle peut notamment
 faciliter la mise en cohérence de différents corpus
 par la méthode des appariements flous
 (cf. [@galianafuzzy](https://epic-davinci-acb57b.netlify.app/#1).
 Le [chapitre sur ElasticSearch](#elastic) présent dans cette partie du cours présente quelques
-éléments de ce travail sur les données de l'`OpenFoodFacts`
+éléments de ce travail sur les données de l'`OpenFoodFacts`.
 
 
-Ce notebook est librement inspiré de  : 
+Ce chapitre s'inspire de plusieurs ressources disponibles en ligne:
 
-* https://www.kaggle.com/enerrio/scary-nlp-with-spacy-and-keras
-* https://github.com/GU4243-ADS/spring2018-project1-ginnyqg
-* https://www.kaggle.com/meiyizi/spooky-nlp-and-topic-modelling-tutorial/notebook
+* Un [premier _notebook_ sur `Kaggle`](https://www.kaggle.com/enerrio/scary-nlp-with-spacy-and-keras)
+et un [deuxième](https://www.kaggle.com/meiyizi/spooky-nlp-and-topic-modelling-tutorial/notebook
+) ;
+* Un [dépôt `Github`](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg) ;
 
 Les chapitres suivants permettront d'introduire aux enjeux de modélisation
 de corpus textuels. Dans un premier temps, le modèle `LDA` permettra d'explorer
@@ -101,12 +103,12 @@ Illustration de l'intérêt des _embeddings_ [@galianafuzzy]
 Cette page évoquera les principales librairies pour faire du NLP, notamment : 
 
 * [WordCloud](https://github.com/amueller/word_cloud)
-* [nltk](https://www.nltk.org/)
+* [NLTK](https://www.nltk.org/)
 * [SpaCy](https://spacy.io/)
 * [Keras](https://keras.io/)
 * [TensorFlow](https://www.tensorflow.org/)
 
-Il faudra également installer les librairies `gensim` et `pywaffle`
+Il faudra également installer les librairies `Gensim` et `Pywaffle`
 
 ::: {.cell .markdown}
 ```{=html}
@@ -168,10 +170,10 @@ nltk.download('omw-1.4')
 ::: {.cell .markdown}
 ```{=html}
 <div class="alert alert-success" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 1 : Importer les données spooky</h3>
+<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 1 (optionnel): Importer les données spooky</h3>
 ```
 
-*Pour ceux qui ont envie de tester leurs connaissances en pandas*
+*Pour ceux qui ont envie de tester leurs connaissances en `Pandas`*
 
 1. Importer le jeu de données `spooky` à partir de l'URL <https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv> sous le nom `train`. L'encoding est `latin-1`
 2. Mettre des majuscules au nom des colonnes.
@@ -185,23 +187,19 @@ nltk.download('omw-1.4')
 :::
 
 ```{python}
-#| echo: false
 import pandas as pd
 ```
 
 
 ```{python}
-#| include: false
-#| echo: false
-
+#| output: false
 #1. Import des données
 url='https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv'
 train = pd.read_csv(url,encoding='latin-1')
 ```
 
 ```{python}
-#| include: false
-#| echo: false
+#| output: false
 
 #2. Majuscules aux noms des colonnes
 train.columns = train.columns.str.capitalize()
@@ -209,8 +207,7 @@ train.columns = train.columns.str.capitalize()
 
 
 ```{python}
-#| include: false
-#| echo: false
+#| output: false
 
 #3. Retirer le prefixe id
 train['ID'] = train['Id'].str.replace("id","")
@@ -218,8 +215,7 @@ train['ID'] = train['Id'].str.replace("id","")
 
 
 ```{python}
-#| include: false
-#| echo: false
+#| output: false
 
 #4. Mettre Id en index
 train = train.set_index('Id')
@@ -229,6 +225,7 @@ train = train.set_index('Id')
 Si vous ne faites pas l'exercice 1, pensez à charger les données en executant la fonction `get_data.py` :
 
 ```{python}
+#| echo: true
 import requests
 
 url = 'https://raw.githubusercontent.com/linogaliana/python-datascientist/master/content/NLP/get_data.py'
@@ -244,11 +241,11 @@ Ce code introduit une base nommée `train` dans l'environnement.
 Le jeu de données met ainsi en regard un auteur avec une phrase qu'il a écrite : 
 
 ```{python}
+#| echo: true
 train.head()
 ```
 
 ```{python}
-#| echo: false
 sampsize = train.shape[0]
 ```
 
@@ -333,8 +330,7 @@ A l'issue de la question 1, vous devriez obtenir le tableau
 de fréquence suivant :
 
 ```{python}
-#| echo: false
-#| include: false
+#| output: false
 
 #1. Compter le nombre de phrase pour chaque auteur avec fear
 def nb_occurrences(word, train_data):
@@ -347,15 +343,11 @@ table = nb_occurrences("fear", train)
 ```
 
 ```{python}
-#| echo: false
-
 table.head()
 ```
 
 ```{python}
-#| include: false
-#| echo: false
-
+#| output: false
 
 #2. Faire un graphique d'occurences avc pywaffle
 def graph_occurrence(word, train_data):
@@ -400,15 +392,13 @@ en conclure que la peur est plus évoquée par Mary Shelley
 que Lovecraft n'a pas volé sa réputation d'écrivain de l'horreur !
 
 ```{python}
-#| include: false
-#| echo: false
+#| output: false
 
 #3. Graphe d'occurences avec le mot horror
 fig = graph_occurrence("horror", train)
 ```
 
 ```{python}
-#| echo: false
 fig.get_figure()
 ```
 
@@ -437,9 +427,7 @@ taille proportionnelle au nombre d'occurrence de celui-ci.
 
 
 ```{python}
-#| include: false
-#| echo: false
-
+#| output: false
 
 #1. Wordclouds
 def graph_wordcloud(author, train_data, varname = "Text"):
@@ -466,7 +454,6 @@ for i in range(len(n_topics)):
 Le _wordcloud_ pour nos différents auteurs est le suivant :
 
 ```{python}
-#| echo: false
 fig.get_figure()
 ```
 
@@ -474,9 +461,7 @@ Enfin, si on fait un histogramme des fréquences,
 cela donnera :
 
 ```{python}
-#| include: false
-#| echo: false
-
+#| output: false
 
 #2. Histogramme de décompte
 count_words = pd.DataFrame({'counter' : train
@@ -494,7 +479,6 @@ g.map_dataframe(sns.barplot, x="word", y="count")
 ```
 
 ```{python}
-#| echo: false
 g.figure.get_figure()
 ```
 
@@ -505,6 +489,11 @@ Ceci est une démonstration par l'exemple qu'il vaut mieux nettoyer le texte ava
 l'analyser (sauf si on est intéressé
 par la loi de Zipf, cf. exercice suivant).
 
+A noter que l'histogramme produit
+par le biais de `Matplotlib` ou `Seaborn` est
+peu lisible. Il vaut mieux privilégier `Plotly` 
+pour faire celui-ci afin d'avoir les mots qui s'affichent en 
+passant sa souris sur chaque barre. 
 
 
 ### Aparté : la loi de Zipf
@@ -547,6 +536,7 @@ $$
 Prenons les résultats de l'exercice précédent et enrichissons les du rang et de la fréquence d'occurrence d'un mot : 
 
 ```{python}
+#| echo: true
 count_words = pd.DataFrame({'counter' : train
     .groupby('Author')
     .apply(lambda s: ' '.join(s['Text']).split())
@@ -567,7 +557,7 @@ count_words = count_words.assign(
 Commençons par représenter la relation entre la fréquence et le rang:
 
 ```{python}
-#| include: false
+#| output: false
 #| echo: true
 g = sns.lmplot(y = "freq", x = "rank", hue = 'Author', data = count_words, fit_reg = False)
 g.set(xscale="log", yscale="log")
@@ -583,6 +573,7 @@ g.figure.get_figure()
 Avec `statsmodels`, vérifions plus formellement cette relation:
 
 ```{python}
+#| echo: true
 import statsmodels.api as sm
 
 exog = sm.add_constant(np.log(count_words['rank'].astype(float)))
@@ -601,10 +592,10 @@ mois le plus fréquent qui l'est trois plus que le troisième, etc.
 ## Nettoyage d'un texte
 
 Les premières étapes dans le nettoyage d'un texte, qu'on a
-développé au cours du [chapitre précédent](#nlp), sont :
+développé au cours du [chapitre précédent](/content/NLP/01_intro.html), sont :
 
-* suppression de la ponctuation
-* suppression des *stopwords*
+* suppression de la ponctuation ;
+* suppression des *stopwords*. 
 
 Cela passe par la tokenisation d'un texte, c'est-à-dire la décomposition
 de celui-ci en unités lexicales (les *tokens*).
@@ -614,7 +605,7 @@ Ici, on va définir les tokens comme étant les mots utilisés.
 
 Plutôt que de faire soi-même ce travail de nettoyage,
 avec des fonctions mal optimisées,
-on peut utiliser la librairie `nltk` comme détaillé [précédemment](#nlp). 
+on peut utiliser la librairie `nltk` comme détaillé [précédemment](/content/NLP/01_intro.html). 
 
 
 ::: {.cell .markdown}
@@ -638,15 +629,13 @@ Pour rappel, au début de l'exercice, le `DataFrame` présente l'aspect suivant
 
 
 ```{python}
-#| echo: false
 train.head(2)
 ```
 
 Après tokenisation, il devrait avoir cet aspect :
 
 ```{python}
-#| include: true
-#| echo: false
+#| output: true
 
 #1. Tokenisation
 train_clean = (train
@@ -660,8 +649,7 @@ train_clean.head(2)
 Après le retrait des stopwords, cela donnera :
 
 ```{python}
-#| include: false
-#| echo: false
+#| output: false
 
 #2. Enlever les stopwords.
 from nltk.corpus import stopwords  
@@ -693,8 +681,7 @@ sur notre `DataFrame` grâce à `apply`, sans le diviser.
 Ce petit nettoyage permet d'arriver à un texte plus intéressant en termes d'analyse lexicale. Par exemple, si on reproduit l'analyse précédente... :
 
 ```{python}
-#| include: false
-#| echo: true
+#| output: false
 train_clean["Text"] = train_clean['tokenized'].apply(lambda s: " ".join(map(str, s)))
 
 n_topics = ["HPL","EAP","MWS"]
@@ -718,7 +705,7 @@ fig.get_figure()
 
 Pour aller plus loin dans l'harmonisation d'un texte, il est possible de
 mettre en place les classes d'équivalence développées dans la 
-[partie précédente](#nlp) afin de remplacer différentes variations d'un même
+[partie précédente](/content/NLP/01_intro.html) afin de remplacer différentes variations d'un même
 mot par une forme canonique :
 
 * la **racinisation** (*stemming*) assez fruste mais rapide, notamment
@@ -735,6 +722,7 @@ lexicographique ouverte). Par exemple, les mots *"women"*, *"daughters"*
 et *"leaves"* seront ainsi lemmatisés de la manière suivante :
 
 ```{python}
+#| echo: true
 from nltk.stem import WordNetLemmatizer
 lemm = WordNetLemmatizer()
 
@@ -775,7 +763,7 @@ word_list = nltk.word_tokenize(eap_clean)
 
 ::: {.cell .markdown}
 ```{=html}
-<div class="alert alert-warning" role="alert">
+<div class="alert alert-success" role="alert">
 <h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 5 : Lemmatisation avec nltk</h3>
 ```
 
@@ -791,7 +779,6 @@ Optionnel: Effectuer la même tâche avec `spaCy`
 Le `WordNetLemmatizer` donnera le résultat suivant :
 
 ```{python}
-#| include: false
 #| echo: false
 
 #Exercice 5 : WordNetLemmatizer
@@ -835,19 +822,15 @@ ou qui sont plus ou moins *smooth*.
 :::
 
 ```{python}
-#| include: false
-#| echo: false
+#| output: false
 
 #1. TfIdf de scikit
 from sklearn.feature_extraction.text import TfidfVectorizer
 tfidf = TfidfVectorizer(stop_words=stopwords.words("english"))
 tfs = tfidf.fit_transform(train['Text'])
-#print(tfs)
 ```
 
 ```{python}
-#| echo: true
-
 feature_names = tfidf.get_feature_names_out()
 corpus_index = [n for n in list(tfidf.vocabulary_.keys())]
 import pandas as pd
@@ -903,7 +886,19 @@ La matrice `document x terms` est un exemple typique de matrice _sparse_ puisque
 :::
 
 
-## Approche contextuelle: les *n-gramms*
+## Approche contextuelle: les *n-grams*
+
+
+Jusqu'à présent, dans l'approche _bag of words_, l'ordre des mots n'avait pas d'importance.
+On considère qu'un texte est une collection de
+mots tirés indépendamment, de manière plus ou moins fréquente en fonction de leur probabilité
+d'occurrence. Cependant, tirer un mot particulier n'affecte pas les chances de tirer certains mots
+ensuite, de manière conditionnelle. 
+
+Une manière d'introduire des liens entre les séries de _tokens_ sont les _n-grams_. 
+On s'intéresse non seulement aux mots et à leur fréquence, mais aussi aux mots qui suivent. Cette approche est essentielle pour désambiguiser les homonymes. Le calcul de _n-grams_ [^ngrams] constitue la méthode la plus simple pour tenir compte du contexte.
+
+[^ngrams]: On parle de _bigrams_ pour les co-occurences de mots deux-à-deux, _trigrams_ pour les co-occurences trois-à-trois, etc.
 
 
 Pour être en mesure de mener cette analyse, il est nécessaire de télécharger un corpus supplémentaire :
@@ -914,12 +909,8 @@ nltk.download('genesis')
 nltk.corpus.genesis.words('english-web.txt')
 ```
 
-Il s'agit maintenant de raffiner l'analyse. 
 
-On s'intéresse non seulement aux mots et à leur fréquence, mais aussi aux mots qui suivent. Cette approche est essentielle pour désambiguiser les homonymes. Elle permet aussi d'affiner les modèles "bag-of-words". Le calcul de n-grams (bigrams pour les co-occurences de mots deux-à-deux, tri-grams pour les co-occurences trois-à-trois, etc.) constitue la méthode la plus simple pour tenir compte du contexte.
-
-
-`nltk` offre des methodes pour tenir compte du contexte : pour ce faire, nous calculons les n-grams, c'est-à-dire l'ensemble des co-occurrences successives de mots n-à-n.  En général, on se contente de bi-grams, au mieux de tri-grams :
+`NLTK` offre des methodes pour tenir compte du contexte. Pour ce faire, nous calculons les n-grams, c'est-à-dire l'ensemble des co-occurrences successives de mots n-à-n.  En général, on se contente de bi-grams, au mieux de tri-grams: 
 
 * les modèles de classification, analyse du sentiment, comparaison de documents, etc. qui comparent des n-grams avec n trop grands sont rapidement confrontés au problème de données sparse, cela réduit la capacité prédictive des modèles ;
 * les performances décroissent très rapidement en fonction de n, et les coûts de stockage des données augmentent rapidement (environ n fois plus élevé que la base de données initiale).
@@ -927,11 +918,10 @@ On s'intéresse non seulement aux mots et à leur fréquence, mais aussi aux mot
 
 On va, rapidement, regarder dans quel contexte apparaît le mot `fear` dans
 l'oeuvre d'Edgar Allan Poe (EAP). Pour cela, on transforme d'abord
-le corpus EAP en tokens `nltk : 
+le corpus EAP en tokens `NLTK` : 
 
 ```{python}
 #| echo: true
-
 eap_clean = train[train["Author"] == "EAP"]
 eap_clean = ' '.join(eap_clean['Text'])
 tokens = eap_clean.split()
@@ -989,9 +979,6 @@ il s'agit de sélectionner, à partir d'un modèle statistique, les "meilleures"
 On obtient donc avec cette méthode (question 2):
 
 ```{python}
-#| include: false
-#| echo: false
-
 # 2. Modélisation des meilleures collocations
 bcf = BigramCollocationFinder.from_words(text)
 bcf.nbest(BigramAssocMeasures.likelihood_ratio, 20)
@@ -1000,9 +987,6 @@ bcf.nbest(BigramAssocMeasures.likelihood_ratio, 20)
 Si on modélise les meilleures collocations:
 
 ```{python}
-#| include: false
-#| echo: false
-
 # 3. Modélisation des meilleures collocations (qui apparaissent 5+)
 finder = nltk.BigramCollocationFinder.from_words(text)
 finder.apply_freq_filter(5)
@@ -1021,9 +1005,6 @@ on a des noms de personnages, de lieux mais aussi des termes fréquemment employ
 En ce qui concerne les _collocations_ du mot fear:
 
 ```{python}
-#| include: false
-#| echo: false
-
 # 4. collocations du mot fear
 bigram_measures = nltk.collocations.BigramAssocMeasures()
 
diff --git a/content/NLP/index.qmd b/content/NLP/index.qmd
index 12c6f89ff..ced94ab1b 100644
--- a/content/NLP/index.qmd
+++ b/content/NLP/index.qmd
@@ -6,10 +6,10 @@ categories:
   - Introduction
   - NLP
 description: |
-  L'un des grands avantages comparatifs de Python par rapport aux
-  langages concurrents (R notamment) est dans
-  la richesse des librairies de Traitement du Langage Naturel (mieux
-  connu sous son acronyme anglais : NLP pour natural langage processing).
+  L'un des grands avantages comparatifs de {{< fa brands python >}} par rapport aux
+  langages concurrents ({{< fa brands r-project >}} notamment) est dans
+  la richesse des librairies de traitement du langage naturel (mieux
+  connu sous son acronyme anglais : NLP pour _natural langage processing_).
   Cette partie vise à illustrer la richesse de cet écosystème à partir
   de quelques exemples littéraires :  Dumas, Poe, Shelley, Lovecraft.
 image: nlp.png
@@ -22,15 +22,15 @@ nous nous sommes jusqu'à présent plutôt consacrés
 dimension certes modeste mais qui ouvraient déjà énormément de
 problématiques à creuser. Cette partie propose maintenant de se
 consacrer à un sujet dont il n'est pas évident _a priori_ que
-les ordinateurs s'emparent: le langage humain et sa richesse. 
+les ordinateurs s'emparent: le __langage humain__ et sa richesse. 
 
 En effet, si la linguistique propose certes de représenter
 de manière conceptuelle le langage sous une forme de données, comment
-des ordinateurs, qui au fond ne connaissent que le 0 et le 1, peuvent-ils
+des ordinateurs, qui au fond ne connaissent que le _0_ et le _1_, peuvent-ils
 s'approprier cet objet éminemment complexe qu'est le langage et qu'un 
 humain met lui-même des années à comprendre et s'approprier ?[^blague]
 
-[^blague]: En écrivant ces lignes j'ai demandé à `ChatGPT` de me faire une blague, la communication entre l'humain et la machine est perfectible :
+[^blague]: En écrivant ces lignes j'ai demandé à `ChatGPT` de me faire une blague. 
 
     > Pourquoi les programmeurs détestent-ils la plage ?
     > Parce que le sable change tout le temps de paradigme !
@@ -49,7 +49,7 @@ humain met lui-même des années à comprendre et s'approprier ?[^blague]
     Finalement, j'ai trouvé son explication plus drôle que sa blague.  
   
 
-Le traitement du langage naturel - traduction française du concept de
+Le traitement automatique du langage - traduction française du concept de
 _natural language processing_ (NLP) - est l'ensemble des techniques
 permettant aux ordinateurs de comprendre, analyser synthétiser et
 générer le langage humain[^1]. 
@@ -58,20 +58,28 @@ générer le langage humain[^1].
 de _text mining_ dont le périmètre était plus spécifique. Le _text mining_
 renvoie à la recherche d'information - la fouille - dans un ensemble de 
 textes. C'est l'un des champs d'applications
-du _natural language processing_ mais ce n'est pas l'unique. 
+du _natural language processing_ mais ce n'est pas l'unique.
 
 Il s'agit d'un champ disciplinaire à l'intersection de la statistique
 et de la linguistique qui connait depuis quelques années un engouement
-important que ce soit d'un point de vue académique ou opérationnel. 
+important, que ce soit d'un point de vue académique ou opérationnel. 
 Certaines des applications de ces techniques sont devenues incontournables
 dans nos tâches quotidiennes, notamment les moteurs de recherche, la traduction
-automatique et plus récemment les _chatbots_. 
+automatique et plus récemment les _chatbots_.
+
+## Résumé de la partie
 
 Cette partie du cours est consacrée à l'analyse des données textuelles avec
 des exemples de 📖 pour s'amuser. Elle est une introduction progressive
 à ce sujet en se concentrant sur des concepts de base, nécessaires à
 la compréhension ultérieure de principes plus avancés et de techniques
-sophistiquées[^2]. 
+sophistiquées[^2]. Cette partie présente principalement:
+
+- Les enjeux de nettoyage de champs textuels
+et d'analyse de fréquence. Il s'agit de NLP un
+peu _old school_ mais dont la compréhension est nécessaire pour aller
+plus loin ;
+- La modélisation du langage, selon plusieurs approches. 
 
 [^2]: Par exemple, le concept d'_embedding_ - transformation d'un champ
 textuel en un vecteur numérique multidimensionnel - aujourd'hui central
@@ -83,7 +91,7 @@ TF-IDF (_term frequency - inverse document frequency_). Dans une
 optique introductive, ce cours se focalise donc sur ces derniers pour faciliter
 l'ouverture ultérieure de la boite de Pandore que sont les _embeddings_. 
 
-## Résumé de la partie {.unnumbered}
+### Nettoyages textuels et analyse de fréquences
 
 `Python` est un excellent outil pour l'analyse de données textuelles. 
 Les méthodes de base ou les librairies spécialisées
@@ -100,14 +108,22 @@ analyse statistique :
 
 * Elle propose d'abord une introduction aux enjeux du nettoyage des données
 textuelles à travers l'analyse du *Comte de Monte Cristo* d'Alexandre Dumas
-[ici](/01_intro) qui permet de synthétiser rapidement l'information disponible
+[ici](/content/NLP/01_intro.qmd) qui permet de synthétiser rapidement l'information disponible
 dans un large volume de données (à l'image de la @fig-wordcloud-dumas)
 * Elle propose ensuite une série d'exercices sur le nettoyage de textes à partir des
 oeuvres d'Edgar Allan Poe, Mary Shelley et H.P. Lovecraft visant à distinguer la 
 spécificité du vocabulaire employé par chaque auteurs (par exemple @fig-waffle-fear). Ces exercices sont 
-disponibles [dans le deuxième chapitre](/02_exoclean) de la partie.
+disponibles [dans le deuxième chapitre](/content/NLP/01_exoclean.html) de la partie.
+
+
+### Modélisation du langage
 
-Ensuite, nous proposerons d'explorer une approche alternative, prenant en compte
+La suite de cette partie proposera une introduction aux enjeux de modélisation
+du langage. Ceux-ci sont très à la mode du fait du succès de `ChatGPT`. Néanmoins, avant
+d'en arriver aux LLM, il est nécessaire de passer par quelques modélisations 
+préliminaires. 
+
+Nous proposerons d'abord d'explorer une approche alternative, prenant en compte
 le contexte d'apparition d'un mot. L'introduction à la
 _Latent Dirichlet Allocation_ (LDA) sera l'occasion de présenter la modélisation
 de documents sous la forme de *topics*.
@@ -150,4 +166,99 @@ ce [cours d'`HuggingFace`](https://huggingface.co/course/chapter1/2?fw=pt).
 
 Pour comprendre l'architecture interne d'un LLM,
 ce [post de Sebastian Raschka](https://magazine.sebastianraschka.com/p/understanding-encoder-and-decoder)
-est très utile. 
\ No newline at end of file
+est très utile. 
+
+
+Ces chapitres n'épuisent pas les cas d'usage du NLP pour les _data scientists_. Par exemple,
+dans le domaine de la statistique publique, un des principaux cas d'usage du NLP est l'utilisation
+de techniques de classification automatique pour transformer des réponses libres dans des questionnaires
+en champs prédéfinis dans une nomenclature. 
+
+Voici un exemple sur un projet de classification automatisée des professions dans la typologie
+des nomenclatures d'activités:
+
+::: {.content-visible when-format="html"}
+
+```{ojs}
+//| echo: false
+viewof activite = Inputs.text( 
+  {label: '', value: 'data scientist', width: 800}
+)
+```
+
+
+```{ojs}
+//| echo: false
+d3.json(urlApe).then(res => {
+  var IC, results;
+
+  ({ IC, ...results } = res);
+
+  IC = parseFloat(IC);
+
+  const rows = Object.values(results).map(obj => {
+    return `
+    <tr>
+      <td>${obj.code} | ${obj.libelle}</td>
+      <td>${obj.probabilite.toFixed(3)}</td>
+    </tr>
+  `;
+  }).join('');
+
+  const confidenceRow = `<tr>
+    <td colspan="2" style="text-align:left; "><em>Indice de confiance : ${IC.toFixed(3)}</em></td>
+  </tr>`;
+
+  const tableHTML = html`
+  <table>
+    <caption>
+      Prédiction de l'activité
+    </caption>
+    <tr>
+      <th style="text-align:center;">Libellé (NA2008)</th>
+      <th>Probabilité</th>
+    </tr>
+      ${rows}
+      ${confidenceRow}
+  </table>`;
+
+  // Now you can use the tableHTML as needed, for example, inserting it into the DOM.
+  // For example, assuming you have a container with the id "tableContainer":
+  return tableHTML;
+});
+```
+
+```{ojs}
+//| echo: false
+activite_debounce = debounce(viewof activite, 2000)
+urlApe = `https://codification-ape-test.lab.sspcloud.fr/predict?nb_echos_max=3&prob_min=0&text_feature=${activite_debounce}`
+```
+
+```{ojs}
+//| echo: false
+import {debounce} from "@mbostock/debouncing-input"
+```
+
+:::
+
+::: {.content-hidden when-format="html"}
+
+```{python}
+import requests
+import pandas as pd
+
+activite = "data scientist"
+urlApe = f"https://codification-ape-test.lab.sspcloud.fr/predict?nb_echos_max=3&prob_min=0&text_feature=${activite}"
+import requests
+data = requests.get(urlApe).json()
+
+# Extract 'IC' value
+IC = data['IC']
+data.pop('IC', None)
+
+df = pd.DataFrame(data.values())
+df['indice_confiance'] = IC
+df
+```
+
+:::
\ No newline at end of file