linogaliana
diff --git a/‎content/course/NLP/02_exoclean.Rmd
Lines changed: 20 additions & 14 deletions b/‎content/course/NLP/02_exoclean.Rmd
Lines changed: 20 additions & 14 deletions
diff --git a/‎content/course/NLP/03_lda.Rmd
Lines changed: 36 additions & 18 deletions b/‎content/course/NLP/03_lda.Rmd
Lines changed: 36 additions & 18 deletions
@@ -206,7 +206,6 @@ Si vous ne faites pas l'exercice 1, pensez à charger les données en executant
 ```{python, echo = TRUE}
 import requests
 
-#url = 'https://raw.githubusercontent.com/linogaliana/python-datascientist/master/content/course/NLP/get_data.py'
 url = 'https://raw.githubusercontent.com/linogaliana/python-datascientist/master/content/course/NLP/get_data.py'
 r = requests.get(url, allow_redirects=True)
 open('getdata.py', 'wb').write(r.content)
@@ -232,9 +231,12 @@ sampsize = train.shape[0]
 
 On peut se rendre compte que les extraits des 3 auteurs ne sont pas forcément équilibrés dans le jeu de données. Il faudra en tenir compte dans la prédiction. 
 
-```{python, echo=TRUE, eval=TRUE}
+```{python, echo=TRUE, eval=TRUE, include=FALSE}
 fig = plt.figure()
 sns.barplot(x=['Edgar Allen Poe', 'Mary W. Shelley', 'H.P. Lovecraft'], y=train['Author'].value_counts())
+```
+
+```{python, echo=FALSE, eval=TRUE}
 plt.savefig("wordfreq.png", bbox_inches='tight')
 ```
 
@@ -351,7 +353,7 @@ que Lovecraft n'a pas volé sa réputation d'écrivain de l'horreur !
 
 Pour aller plus loin dans l'analyse du champ lexical de chaque auteur,
 on peut représenter un `wordcloud` qui permet d'afficher chaque mot avec une
-taille proportionnelle au nombre d'occurrence de celui-ci
+taille proportionnelle au nombre d'occurrence de celui-ci.
 
 {{% panel status="exercise" title="Exercice" icon="fas fa-pencil-alt" %}}
 
@@ -406,7 +408,8 @@ count_words = pd.DataFrame({'counter' : train
     .apply(lambda s: s.most_common(25))
     .explode()}
 )
-count_words[['word','count']] = pd.DataFrame(count_words['counter'].tolist(), index=count_words.index)
+count_words[['word','count']] = pd.DataFrame(count_words['counter'].tolist(),
+index=count_words.index)
 count_words = count_words.reset_index()
 g = sns.FacetGrid(count_words, row="Author")
 g.map_dataframe(sns.barplot, x="word", y="count")
@@ -491,7 +494,7 @@ exog = sm.add_constant(np.log(count_words['rank'].astype(float)))
 
 model = sm.GLM(count_words['freq'].astype(float), exog, family = sm.families.Poisson()).fit()
 
-# Display model results
+# Afficher les résultats du modèle
 print(model.summary())
 ```
 
@@ -520,14 +523,14 @@ Plutôt que de faire soi-même ce travail de nettoyage, avec des fonctions mal o
 
 Repartir de `train`, notre jeu de données d'entraînement. Pour rappel, `train` a la structure suivante:
 
-```{python, echo=TRUE}
+```{python, echo=FALSE}
 train.head(2)
 ```
 
 1. Tokeniser chaque phrase avec `nltk`. Le `DataFrame` devrait maintenant avoir cet aspect :
 
 ```{python}
-#| include: false
+#| include: true
 #| echo: false
 
 #1. Tokenisation
@@ -566,7 +569,7 @@ sur notre `DataFrame` grâce à `apply`, sans le diviser.
 
 Ce petit nettoyage permet d'arriver à un texte plus intéressant en termes d'analyse lexicale. Par exemple, si on reproduit l'analyse précédente... :
 
-```{python, echo=TRUE}
+```{python, echo=TRUE, include=FALSE}
 train_clean["Text"] = train_clean['tokenized'].apply(lambda s: " ".join(map(str, s)))
 
 n_topics = ["HPL","EAP","MWS"]
@@ -580,6 +583,9 @@ for i in range(len(n_topics)):
     ax.axis('off')
 
 fig
+```
+
+```{python, echo=FALSE}
 plt.savefig('wordcloud2.png', bbox_inches='tight')
 ```
 
@@ -682,7 +688,7 @@ tfs = tfidf.fit_transform(train['Text'])
 
 2. Après avoir construit la matrice de documents x terms avec le code suivant, rechercher les lignes où les termes ayant la structure `abandon` sont non-nuls. 
 
-```{python, echo = TRUE}
+```{python, echo = FALSE, include = FALSE}
 feature_names = tfidf.get_feature_names()
 corpus_index = [n for n in list(tfidf.vocabulary_.keys())]
 import pandas as pd
@@ -694,7 +700,7 @@ df.head()
 Les lignes sont les suivantes :
 
 ```{python}
-#| include: false
+#| include: true
 #| echo: false
 
 #2. Lignes où les termes de abandon sont non nuls.
@@ -706,7 +712,7 @@ tempdf.head(5)
 3. Trouver les 50 extraits où le score TF-IDF est le plus élevé et l'auteur associé. Vous devriez obtenir le classement suivant:
 
 ```{python}
-#| include: false
+#| include: true
 #| echo: false
 
 #3. 50 extraits avec le TF-IDF le plus élevé.
@@ -763,7 +769,7 @@ On va, rapidement, regarder dans quel contexte apparaît le mot `fear` dans
 l'oeuvre d'Edgar Allan Poe (EAP). Pour cela, on transforme d'abord
 le corpus EAP en tokens `nltk` : 
 
-```{python, echo = TRUE}
+```{python, echo = TRUE, include=FALSE}
 eap_clean = train_clean[train_clean["Author"] == "EAP"]
 eap_clean = ' '.join(eap_clean['Text'])
 #Tokenisation naïve sur les espaces entre les mots => on obtient une liste de mots
@@ -776,7 +782,7 @@ print(text)
 1. Utiliser la méthode `concordance` pour afficher le contexte dans lequel apparaît le terme `fear`. La liste devrait ressembler à celle-ci:
 
 ```{python}
-#| include: false
+#| include: true
 #| echo: false
 
 # 1. Methode concordance
@@ -799,7 +805,7 @@ from nltk.collocations import BigramCollocationFinder
 from nltk.metrics import BigramAssocMeasures
 ```
 
-Une approche ingénue de la `collocation` amène ainsi à considérer les mots suivants : 
+<!-- Une approche ingénue de la `collocation` amène ainsi à considérer les mots suivants :  -->
 
 ```{python}
 #| include: false
 
@@ -44,9 +44,9 @@ print_badges()
 
 
 
-Cette page approfondit continue les exercices présentés dans la 
+Cette page approfondit les exercices présentés dans la 
 [section précédente](#nlpexo). 
-On va ainsi continuer notre exploration de la littérature anglophones:
+On va ainsi continuer notre exploration de la littérature anglophones :
 
 * Edgar Allan Poe, (EAP) ;
 * HP Lovecraft (HPL) ;
@@ -55,10 +55,13 @@ On va ainsi continuer notre exploration de la littérature anglophones:
 Les données sont disponibles ici : [spooky.csv](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/blob/master/data/spooky.csv) et peuvent être requétées via l'url 
 <https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv>.
 
-Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquents utilisés par les auteurs, de les représenter graphiquement puis on va ensuite essayer de prédire quel texte correspond à quel auteur à partir d'un modèle `Word2Vec`.
 
+Le but va être dans un premier temps de regarder dans le détail les termes les plus fréquents utilisés par les auteurs, et les représenter graphiquement.
 
-Ce notebook librement inspiré de  : 
+<!-- puis on va ensuite essayer de prédire quel texte correspond à quel auteur à partir d'un modèle `Word2Vec`. -->
+
+
+Ce notebook est librement inspiré de  : 
 
 * https://www.kaggle.com/enerrio/scary-nlp-with-spacy-and-keras
 * https://github.com/GU4243-ADS/spring2018-project1-ginnyqg
@@ -72,7 +75,7 @@ les fondements de cette technique.
 
 ## Librairies nécessaires
 
-Cette page évoquera, les principales librairies pour faire du NLP, notamment: 
+Cette page évoquera les principales librairies pour faire du NLP, notamment : 
 
 * [WordCloud](https://github.com/amueller/word_cloud)
 * [nltk](https://www.nltk.org/)
@@ -98,6 +101,12 @@ nltk.download('wordnet')
 La liste des modules à importer est assez longue, la voici:
 
 ```{python}
+import nltk
+nltk.download('stopwords')
+nltk.download('punkt')
+nltk.download('genesis')
+nltk.download('wordnet')
+
 import numpy as np # linear algebra
 import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
 import seaborn as sns
@@ -126,6 +135,7 @@ from sklearn.decomposition import NMF, LatentDirichletAllocation
 pouvez passer à la section suivante*
 
 Le code suivant permet d'importer le jeu de données `spooky`: 
+
 ```{python, echo = TRUE}
 import pandas as pd
 
@@ -145,7 +155,7 @@ Le jeu de données met ainsi en regard un auteur avec une phrase qu'il a écrite
 train.head()
 ```
 
-Les étapes de *preprocessing* sont expliquées au [chapitre précédent](#nlpexo). On applique les étapes suivantes:
+Les étapes de *preprocessing* sont expliquées dans le [chapitre précédent](#nlpexo). On applique les étapes suivantes :
 
 1. Tokeniser
 2. Retirer la ponctuation et les stopwords
@@ -187,7 +197,7 @@ des documents par sujet, recherche, compréhension et analyse du texte, ou même
 textes. 
 
 Aujourd’hui, ce genre de méthodes s’utilisent fréquemment dans le web, par exemple pour
-analyser des ensemble d’articles d’actualité, les regrouper par sujet, faire de la recommendation
+analyser des ensemble d’articles d’actualité, les regrouper par sujet, faire de la recommandation
 d’articles, etc. 
 
 La LDA est une méthode qui considère les corpus comme des __mélanges__ de sujets et
@@ -211,14 +221,13 @@ La matrice termes-documents qui sert de point de départ est la suivante:
 | ... | ...    | ...    | ...    | ... | ...    |
 |doc_N| 1      | 0      | 0      | ... | 5      |
 
-La LDA consiste à transformer cette matrice *sparse*
-(creuse en Français) document-terme en deux matrices de moindre dimension:
+On dit que cette matrice est *sparse* (creuse en Français) car elle contient principalement des 0. En effet, un document n'utilise qu'une partie mineure du vocabulaire complet. 
+
+La LDA consiste à transformer cette matrice *sparse*document-terme en deux matrices de moindre dimension:
 
 1. Une matrice document-sujet
 2. Une matrice sujet-mots
 
-On dit que cette matrice est sparse car elle contient principalement des 0. En effet, un document n'utilise qu'une partie mineure du vocabulaire complet. 
-
 En notant $K_i$ le sujet $i$. On obtient donc
 
 * Une __matrice document-sujet__ ayant la structure suivante:
@@ -256,10 +265,10 @@ corpus = train_clean[train_clean["Author"] == "EAP"]
 Il existe plusieurs manières d'entraîner une LDA.
 
 Nous allons utiliser `scikit` ici avec la méthode `LatentDirichletAllocation`.
-Comme expliqué dans la partie [modélisation](#modelisation):
+Comme expliqué dans la partie [modélisation](#modelisation) :
 
-1. On initialise le modèle
-2. On le met à jour avec la méthode `fit`
+1. On initialise le modèle ;
+2. On le met à jour avec la méthode `fit`.
 
 ```{python}
 from sklearn.feature_extraction.text import CountVectorizer
@@ -283,7 +292,7 @@ lda.fit(count_data)
 ## Visualiser les résultats
 
 On peut déjà commencer par utiliser une fonction pour afficher les
-résultats
+résultats :
 
 ```{python}
 # Helper function
@@ -300,7 +309,7 @@ print_topics(lda, count_vectorizer, number_words)
 
 La représentation sous forme de liste de mots n'est pas la plus pratique...
 
-On peut essayer de se représenter un *wordcloud* de chaque sujet pour mieux voir si cette piste est pertinente:
+On peut essayer de se représenter un *wordcloud* de chaque sujet pour mieux voir si cette piste est pertinente :
 
 ```{python, results = "hide"}
 tf_feature_names = count_vectorizer.get_feature_names()
@@ -338,10 +347,11 @@ knitr::include_graphics("wordcloud_lda.png")
 
 
 Le module `pyLDAvis` offre quelques visualisations bien pratiques lorsqu'on
-désire représenter de manière synthétique les résultats d'une LDA
+désire représenter de manière synthétique les résultats d'une LDA et observer la distribution sujet x mots.
+
 
 {{% panel status="hint" title="Hint" icon="fa fa-lightbulb" %}}
-Dans un *notebook*
+Dans un *notebook* faire :
 
 ~~~python
 import pyLDAvis.sklearn
@@ -358,6 +368,7 @@ argument.
 {{% /panel %}}
 
 ```{python, eval = FALSE, echo = TRUE}
+#!pip install pyLDAvis #à faire en haut du notebook sur colab
 import pyLDAvis
 import pyLDAvis.sklearn
 
@@ -386,6 +397,13 @@ print(
 {{< /rawhtml >}}
 
 
+* Chaque **bulle** représente un sujet. Plus la bulle est grande, plus il y a de documents qui traitent de ce sujet.
+
+Plus les barres sont loin les unes des autres, plus elles sont différentes. Un bon modèle aura donc tendance à avoir de grandes bulles qui ne se recoupent pas. Ce n'est pas vraiment le cas ici...
+
+* Les **barres bleues** représentent la fréquence de chaque mot dans le corpus.
+
+* Les **barres rouges** représentent une estimation du nombre de termes générés dans un sujet précis. La barre rouge la plus longue correspond au mot le plus utilisé dans ce sujet. 
 
 
 # Références