linogaliana
diff --git a/‎_quarto.yml
Lines changed: 2 additions & 0 deletions b/‎_quarto.yml
Lines changed: 2 additions & 0 deletions
diff --git a/‎content/NLP/01_intro-old.qmd
Lines changed: 0 additions & 47 deletions b/‎content/NLP/01_intro-old.qmd
Lines changed: 0 additions & 47 deletions
diff --git a/‎content/NLP/01_intro.qmd
Lines changed: 14 additions & 64 deletions b/‎content/NLP/01_intro.qmd
Lines changed: 14 additions & 64 deletions
diff --git a/‎content/NLP/02_exoclean-old.qmd
Lines changed: 0 additions & 62 deletions b/‎content/NLP/02_exoclean-old.qmd
Lines changed: 0 additions & 62 deletions
@@ -12,6 +12,8 @@ project:
     - content/getting-started/06_rappels_fonctions.qmd
     - content/getting-started/07_rappels_classes.qmd
     - content/manipulation/index.qmd
+    - content/manipulation/01_numpy_en.qmd
+    - content/manipulation/01_numpy.qmd
     - content/manipulation/02_pandas_intro.qmd
     - content/visualisation/index.qmd
     - content/modelisation/index.qmd
 
@@ -67,11 +67,8 @@ Le principal enseignement à retenir de cette partie est que les données textue
 
 Cette partie est une introduction s'appuyant sur quelques ouvrages classiques de la littérature française ou anglo-saxonne. Seront notamment présentées quelques librairies faisant parti de la boite à outil minimale des _data scientists_: `NLTK` et `SpaCy`. Les chapitres suivants permettront de se focaliser sur la modélisation du langage. 
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-info" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> La librairie <code>SpaCy</code></h3>
-```
+::: {.note}
+## La librairie SpaCy
 
 `NTLK` est la librairie historique d'analyse textuelle en `Python`. Elle existe
 depuis les années 1990. L'utilisation industrielle du NLP dans le monde
@@ -86,9 +83,6 @@ de _pipelines_ de données, il est beaucoup plus pratique à mettre en oeuvre
 pour une chaîne de traitement de données textuelles mettant en oeuvre
 plusieurs étapes de transformation des données. 
 
-```{=html}
-</div>
-```
 :::
 
 
@@ -172,28 +166,18 @@ auteur, on va se focaliser dans un premier temps sur un unique mot, le mot *fear
 ## Exploration ponctuelle
 
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-info" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>
-```
+::: {.tip}
 
 L'exercice ci-dessous présente une représentation graphique nommée 
 *waffle chart*. Il s'agit d'une approche préférable aux
 camemberts (_pie chart_) qui sont des graphiques manipulables car l'oeil humain se laisse
 facilement berner par cette représentation graphique qui ne respecte pas
 les proportions. 
 
-```{=html}
-</div>
-```
 :::
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-success" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 1 : Fréquence d'un mot</h3>
-```
+::: {.exercise}
+## Exercice 1 : Fréquence d'un mot
 
 Dans un premier temps, nous allons nous concentrer sur notre corpus anglo-saxon (`horror`)
 
@@ -203,9 +187,6 @@ de manière synthétique le nombre d'occurrences du mot *"fear"* par auteur.
 3. Refaire l'analyse avec le mot *"horror"*. 
 
 
-```{=html}
-</div>
-```
 :::
 
 ```{python}
@@ -254,6 +235,7 @@ Ceci permet d'obtenir le _waffle chart_ suivant :
 #| echo: false
 #| label: fig-waffle-fear
 #| fig-cap: "Répartition du terme fear dans le corpus de nos trois auteurs"
+#| output: true
 
 fig.get_figure()
 ```
@@ -285,11 +267,7 @@ fig.get_figure()
 Dans l'exercice précédent, nous faisions une recherche ponctuelle, qui ne passe pas vraiment à l'échelle. Pour généraliser cette approche, on découpe généralement un corpus en unités sémantiques indépendantes: les _tokens_. 
 
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-warning" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-lightbulb"></i> Hint</h3>
-```
+::: {.tip}
 
 Nous allons avoir besoin d'importer un certain nombre de corpus prêts à l'emploi pour utiliser les librairies `NTLK` ou `SpaCy`.
 
@@ -312,9 +290,6 @@ Pour la seconde,
 
 ```
 
-```{=html}
-</div>
-```
 :::
 
 
@@ -493,11 +468,8 @@ avec le module `Wordcloud`. Quelques paramètres de mise en forme
 permettent même d'ajuster la forme du nuage à
 une image.
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-success" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 3 : Wordcloud</h3>
-```
+::: {.exercise}
+## Exercice 3 : Wordcloud
 
 1. En utilisant la fonction `wordCloud`, faire trois nuages de mot pour représenter les mots les plus utilisés par chaque auteur du corpus `horror`[^random_state].
 2. Faire un nuage de mot du corpus `dumas` en utilisant un masque
@@ -516,9 +488,6 @@ Exemple de masque pour la question 2
 
 [^random_state]: Pour avoir les mêmes résultats que ci-dessous, vous pouvez fixer l'argument `random_state=21`. 
 
-```{=html}
-</div>
-```
 :::
 
 ```{python}
@@ -723,18 +692,12 @@ stop_words_french = nlp.Defaults.stop_words
 ", ".join(stop_words_french)
 ```
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-success" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 4 : Nettoyage du texte</h3>
-```
+::: {.exercise}
+## Exercice 4 : Nettoyage du texte
 
 1. Reprendre l'ouvrage de Dumas et nettoyer celui-ci avec `Spacy`. Refaire le nuage de mots et conclure.
 2. Faire ce même exercice sur le jeu de données anglo-saxon. Idéalement, vous devriez être en mesure d'utiliser la fonctionnalité de _pipeline_ de `SpaCy`.
 
-```{=html}
-</div>
-```
 :::
 
 ```{.python include="clean_text.py"}
@@ -820,11 +783,7 @@ pour l'ordinateur et le modélisateur. Il existe plusieurs algorithmes de
 *stemming*, notamment le *Porter Stemming Algorithm* ou le
 *Snowball Stemming Algorithm*. 
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-info" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>
-```
+::: {.note}
 Pour disposer du corpus nécessaire à la lemmatisation, il faut, la première fois,
 télécharger celui-ci grâce aux commandes suivantes :
 
@@ -834,9 +793,6 @@ nltk.download('wordnet')
 nltk.download('omw-1.4')
 ~~~
 
-```{=html}
-</div>
-```
 :::
 
 Prenons cette chaine de caractère, 
@@ -872,17 +828,11 @@ for word in ["women","daughters", "leaves"]:
 ```
 
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-success" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Exercice 5 : Lemmatisation avec nltk</h3>
-```
+::: {.exercise}
+## Exercice 5 : Lemmatisation avec nltk
 
 Sur le modèle précédent, utiliser un `WordNetLemmatizer` sur le corpus `dumas[1030:1200]` et observer le résultat.
 
-```{=html}
-</div>
-```
 :::
 
 La version lemmatisée de ce petit morceau de l'oeuvre de Dumas est la suivante: