In [73]:
import seaborn as sns
import pandas as pd
import numpy as np

UV = pd.read_csv("../R/dataBranche.csv")

In [74]:
UV.index = UV.codeUVBranche
data = UV["titreUVBranche"]

In [76]:
import spacy
nlp = spacy.load("fr_core_news_sm")

In [77]:
textes = data.loc[data.isna() == False]
textes.head()

codeUVBranche
AC01      REVISION D'ANALYSE ET D'ALGEBRE (APPRENTISSAGE)
AC02            BASES DE LA PROGRAMMATION (APPRENTISSAGE)
AC03    PARTICIPER E UNE DEMARCHE QUALITE EN ENTREPRIS...
AC04    METHODES STATISTIQUES POUR L'INGENIEUR (APPREN...
AI01    ALGORITHMIQUE ET STRUCTURE DE DONNEES (APPRENT...
Name: titreUVBranche, dtype: object

In [78]:
%%time
spacy_docs = list(nlp.pipe(textes))

CPU times: total: 938 ms
Wall time: 986 ms


In [80]:
spacy_docs[1:5]

[BASES DE LA PROGRAMMATION (APPRENTISSAGE),
 PARTICIPER E UNE DEMARCHE QUALITE EN ENTREPRISE (APPRENTISSAGE),
 METHODES STATISTIQUES POUR L'INGENIEUR (APPRENTISSAGE),
 ALGORITHMIQUE ET STRUCTURE DE DONNEES (APPRENTISSAGE)]

Nous avons maintenant une liste de documents spaCy. Nous allons transformer chaque document spaCy en une liste de tokens. Au lieu des tokens originaux, nous allons travailler avec les lemmes à la place. Cela permettra à notre modèle de mieux généraliser. En effet, nous voulons par exemple que "continuation" et "continuations" représentent la même signification. Voici la liste complète des prétraitements : 
 
1. supprimer tous les **mots de moins de 3 caractères**,
2. supprimer tous les **stop-words**, et
3. **lemmatiser** les mots restants et,
4. mettre ces mots en **minuscules**.

In [81]:
%%time
docs = []
for doc in spacy_docs:
    tokens = []
    for token in doc:
        if len(token.orth_) > 3 and not token.is_stop:
            tokens.append( token.lemma_.lower() )  
    docs.append( tokens )

CPU times: total: 0 ns
Wall time: 2 ms


Voici un aperçu du **premier** document tokenisé :

In [16]:
print(docs[0])

['revision', 'analyse', 'algebre', 'apprentissage']


**deuxième** document tokenisé :

In [17]:
print(docs[1])

['base', 'programmation', 'apprentissage']


In [18]:
import re
from gensim.models import Phrases

bigram = Phrases(docs, min_count=10)

for index in range(len(docs)):
    for token in bigram[docs[index]]:
        if '_' in token: 
            docs[index].append(token) 

In [91]:
print(docs[8])

['architectur', 'reseau', 'apprentissage']


In [20]:
from gensim.corpora import Dictionary

dictionary = Dictionary(docs)
print('Nombre de mots unique dans les documents initiaux :', len(dictionary))

dictionary.filter_extremes(no_below=3, no_above=0.25)
print('Nombre de mots unique dans les documents après avoir enlevé les mots fréquents/peu fréquents :', len(dictionary))

print("Exemple :", dictionary.doc2bow(docs[4]))

Nombre de mots unique dans les documents initiaux : 536
Nombre de mots unique dans les documents après avoir enlevé les mots fréquents/peu fréquents : 135
Exemple : [(2, 1), (11, 1), (12, 1), (13, 1)]


Ensuite, nous créons des représentations en Bag-of-Words pour chaque document du corpus voir la méthode [doc2bow](https://radimrehurek.com/gensim/corpora/dictionary.html) :

In [92]:
corpus = [ dictionary.doc2bow(doc) for doc in docs]

## 4. Topic Modeling avec LDA

Maintenant, il est temps d'entraîner notre LDA ! Pour ce faire, nous utilisons les paramètres suivants : 

- **corpus** : les représentations en sac-de-mots de nos documents
- **id2token** : le mappage des index aux mots
- **num_topics** : le nombre de topics que le modèle doit identifier (fixons à <font color = "red"><b>10</b></font>)
- **chunksize** : le nombre de documents que le modèle voit à chaque mise à jour (fixons à <font color = "red"><b>1 000</b></font>)
- **passes** : le nombre de fois où nous montrons le corpus total au modèle pendant l'entraînement (fixons à <font color = "red"><b>5</b></font>)
- **random_state** : nous utilisons une graine pour assurer la reproductibilité (fixons à <font color = "red"><b>1</b></font>)

In [94]:
%%time
from gensim.models import LdaModel

model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=5, chunksize=1000, passes=5, random_state=1)

CPU times: total: 766 ms
Wall time: 778 ms


##  Résultats et visualisation

In [95]:
for (topic, words) in model.print_topics():
    print("***********")
    print("* topic", topic+1, "*")
    print("***********")
    print(topic+1, ":", words)
    print()

***********
* topic 1 *
***********
1 : 0.059*"application" + 0.057*"ingenieur" + 0.051*"apprentissage" + 0.046*"introduction" + 0.045*"programmation" + 0.040*"industriel" + 0.039*"science" + 0.037*"informatique" + 0.029*"structure" + 0.028*"theorie"

***********
* topic 2 *
***********
2 : 0.143*"niveau" + 0.075*"apprentissage" + 0.068*"technique" + 0.046*"anglais" + 0.041*"gestion" + 0.026*"entreprise" + 0.025*"base" + 0.024*"genie" + 0.023*"modelisation" + 0.018*"physique"

***********
* topic 3 *
***********
3 : 0.059*"analyse" + 0.058*"initiation" + 0.049*"ingenierie" + 0.045*"apprentissage" + 0.040*"systeme" + 0.029*"numeriqu" + 0.029*"traitement" + 0.026*"mecaniqu" + 0.025*"intelligence" + 0.025*"produit"

***********
* topic 4 *
***********
4 : 0.083*"systeme" + 0.072*"modelisation" + 0.049*"apprentissage" + 0.046*"procede" + 0.039*"management" + 0.036*"industriel" + 0.031*"technologie" + 0.031*"numerique" + 0.031*"innovation" + 0.030*"maetrise"

***********
* topic 5 *
*******

Une autre façon d'observer les topics est de les **visualiser**. Ceci peut être fait avec la bibliothèque [pyLDAvis](https://github.com/bmabey/pyLDAvis). PyLDAvis nous illustre :

- à quel point les sujets sont **populaires** dans notre corpus, 
- à quel point les sujets sont **similaires**
- et quels sont les **mots les plus importants** pour ce sujet. 

Notez que cela peut prendre quelques minutes pour charger.

In [96]:
import pyLDAvis.gensim_models
import warnings

pyLDAvis.enable_notebook()
warnings.filterwarnings("ignore", category=DeprecationWarning) 

pyLDAvis.gensim_models.prepare(model, corpus, dictionary, sort_topics=False)

  default_term_info = default_term_info.sort_values(


Enfin, examinons les topics que le modèle reconnaît dans certains des documents individuels. Nous voyons ici comment LDA tend à attribuer une probabilité élevée à un faible nombre de sujets pour chaque document, ce qui rend ses résultats très interprétables.

In [97]:
# Nous en affichons que 4
n_doc = 4
i = 0
for (text, doc) in zip(textes[:n_doc], docs[:n_doc]):
    i += 1
    print("***********")
    print("* doc", i, "  *")
    print("***********")
    print(text)
    print([(topic+1, prob) for (topic, prob) in model[dictionary.doc2bow(doc)] if prob > 0.1])
    print()

***********
* doc 1   *
***********
REVISION D'ANALYSE ET D'ALGEBRE (APPRENTISSAGE)
[(3, 0.79624146)]

***********
* doc 2   *
***********
BASES DE LA PROGRAMMATION (APPRENTISSAGE)
[(2, 0.79526883)]

***********
* doc 3   *
***********
PARTICIPER E UNE DEMARCHE QUALITE EN ENTREPRISE (APPRENTISSAGE)
[(2, 0.8379101)]

***********
* doc 4   *
***********
METHODES STATISTIQUES POUR L'INGENIEUR (APPRENTISSAGE)
[(4, 0.83684564)]



In [98]:
model[dictionary.doc2bow(['revision', 'analyse', 'algebre', 'apprentissage'])]

[(0, 0.050840557),
 (1, 0.050876055),
 (2, 0.79616886),
 (3, 0.05062242),
 (4, 0.051492117)]

In [99]:
textes_df = pd.DataFrame(textes)
textes_df["class"] = 0
textes_df

Unnamed: 0_level_0,titreUVBranche,class
codeUVBranche,Unnamed: 1_level_1,Unnamed: 2_level_1
AC01,REVISION D'ANALYSE ET D'ALGEBRE (APPRENTISSAGE),0
AC02,BASES DE LA PROGRAMMATION (APPRENTISSAGE),0
AC03,PARTICIPER E UNE DEMARCHE QUALITE EN ENTREPRIS...,0
AC04,METHODES STATISTIQUES POUR L'INGENIEUR (APPREN...,0
AI01,ALGORITHMIQUE ET STRUCTURE DE DONNEES (APPRENT...,0
...,...,...
TF11,INTRODUCTION AUX PHENOMENES DE TRANSFERT,0
TN01,ELEMENTS DE DESSIN TECHNIQUE,0
TN03,FABRICATION MECANIQUE,0
TN04,REALISATION,0


In [100]:
for (text, doc) in zip(textes, docs):
    prob_max = 0
    for (topic, prob) in model[dictionary.doc2bow(doc)]:
        if prob > prob_max :
            prob_max = prob
            classe = topic + 1
    textes_df.loc[textes_df.titreUVBranche == text,"class"] = classe
    

In [101]:
textes_df

Unnamed: 0_level_0,titreUVBranche,class
codeUVBranche,Unnamed: 1_level_1,Unnamed: 2_level_1
AC01,REVISION D'ANALYSE ET D'ALGEBRE (APPRENTISSAGE),3
AC02,BASES DE LA PROGRAMMATION (APPRENTISSAGE),2
AC03,PARTICIPER E UNE DEMARCHE QUALITE EN ENTREPRIS...,2
AC04,METHODES STATISTIQUES POUR L'INGENIEUR (APPREN...,4
AI01,ALGORITHMIQUE ET STRUCTURE DE DONNEES (APPRENT...,2
...,...,...
TF11,INTRODUCTION AUX PHENOMENES DE TRANSFERT,5
TN01,ELEMENTS DE DESSIN TECHNIQUE,5
TN03,FABRICATION MECANIQUE,5
TN04,REALISATION,1
