# Evaluation des modèles LDA

## **OBJECTIF GENERAL**

**Evaluer les résultats des modèles LDA à l'aide de mesures automatiques**

## **OBJECTIFS SPECIFIQUES**

- Calculer **les mesures de perplexité et de cohérence** pour les modèles entraînés sur les 3 revues
- Comparer **l'influence du nombre de thèmes, de la lemmatisation et de la représentation de mots sur la perplexité** des modèles
- Etudier la **fiabilité** du modèle à l'aide de la **variabilité des mesures de perplexité, de cohérence et de similarité sémantique**

----------------

------------------

**Import des bibliothèques et données**

In [None]:
from gensim.models import LdaModel
from gensim import models
from gensim.models import CoherenceModel

import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm

**Imports AE**

In [None]:
# liste de jetons pour chaque article
%store -r tokens_bigrams_Corpus_LDA_AE_clean 
%store -r tokens_bigrams_Corpus_LDA_AE_clean_lemma 

# Set d'entraînement/test et dictionnaire
%store -r train_texts_AE
%store -r test_texts_AE
%store -r dictionary_AE_2
%store -r dictionary_AE_2_lemma

# Matrice documents/jetons

# Sac de mots sans lemmatisation
%store -r corpus_train_AE
%store -r corpus_test_AE

# Sac de mots avec lemmatisation
%store -r corpus_train_AE_lemma
%store -r corpus_test_AE_lemma

# Tf-idf sans lemmatisation
%store -r corpus_train_AE_tfidf
%store -r corpus_test_AE_tfidf

# Tf-idf avec lemmatisation
%store -r corpus_train_AE_tfidf_lemma
%store -r corpus_test_AE_tfidf_lemma

**Imports EI**

In [None]:
# liste de tokens pour chaque article
%store -r tokens_bigrams_Corpus_LDA_EI_clean 
%store -r tokens_bigrams_Corpus_LDA_EI_clean_lemma 

# Set d'entraînement/test et dictionnaire
%store -r train_texts_EI
%store -r test_texts_EI
%store -r dictionary_EI_2
%store -r dictionary_EI_2_lemma

# Matrice documents/jetons

# Sac de mots sans lemmatisation
%store -r corpus_train_EI
%store -r corpus_test_EI

# Sac de mots avec lemmatisation
%store -r corpus_train_EI_lemma
%store -r corpus_test_EI_lemma

# Tf-idf sans lemmatisation
%store -r corpus_train_EI_tfidf
%store -r corpus_test_EI_tfidf

# Tf-idf avec lemmatisation
%store -r corpus_train_EI_tfidf_lemma
%store -r corpus_test_EI_tfidf_lemma

**Imports RI**

In [None]:
# liste de tokens pour chaque article
%store -r tokens_bigrams_Corpus_LDA_RI_clean 
%store -r tokens_bigrams_Corpus_LDA_RI_clean_lemma 

# Set d'entraînement/test et dictionnaire
%store -r train_texts_RI
%store -r test_texts_RI
%store -r dictionary_RI_2
%store -r dictionary_RI_2_lemma

# Matrice documents/jetons

# Sac de mots sans lemmatisation
%store -r corpus_train_RI
%store -r corpus_test_RI

# Sac de mots avec lemmatisation
%store -r corpus_train_RI_lemma
%store -r corpus_test_RI_lemma

# Tf-idf sans lemmatisation
%store -r corpus_train_RI_tfidf
%store -r corpus_test_RI_tfidf

# Tf-idf avec lemmatisation
%store -r corpus_train_RI_tfidf_lemma
%store -r corpus_test_RI_tfidf_lemma

------------------

## I. MESURE DE PERPLEXITE POUR CHAQUE REVUE

In [None]:
num_topics = [x for x in range(1,10)] + [x for x in range(10,110,10)]

In [None]:
def plot_perplexités (num_topics, perplexité, perplexité_lemma, perplexité_tfidf, perplexité_tfidf_lemma, revue ='AE'):
    perplexité = [element[1] for element in perplexité]
    perplexité_lemma = [element[1] for element in perplexité_lemma]
    perplexité_tfidf = [element[1] for element in perplexité_tfidf]
    perplexité_tfidf_lemma = [element[1] for element in perplexité_tfidf_lemma]
    
    fig = plt.figure(figsize=(15,8))
    plt.plot(num_topics, perplexité, 'kx', label = 'sac-de-mot',markersize=10)
    plt.plot(num_topics, perplexité_tfidf_lemma, 'yx', label = 'sac-de-mot_lemma',markersize=10)
    plt.plot(num_topics, perplexité_tfidf, 'ko', label = 'tfidf',markersize=10)
    plt.plot(num_topics, perplexité_tfidf_lemma, 'yo', label = 'tfidf_lemma',markersize=10)
    plt.legend()
    plt.xticks(fontsize=14)
    plt.yticks(fontsize=14)
    plt.xlabel('Nombre de thèmes',fontsize=20)
    plt.ylabel('Perplexité du modèle',fontsize=20)
    plt.title(revue,fontsize=40)
    plt.savefig("Plots/LDA/perplexité/perplexités_" + revue + ".png")
    plt.show()

### REVUE AE

**MODELE SAC DE MOTS**

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_AE
# Récupérer si des valeurs ont déjà été calculées avec lemmatisation
%store -r perplexité_AE_lemma

In [None]:
#perplexité_AE = []
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/AE/lda_ae_'+ str(num_topic))
    perplexité_AE.append((num_topic,model.log_perplexity(corpus_test_AE)))

In [None]:
#perplexité_AE_lemma = []
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/AE/lda_ae_lemma_'+ str(num_topic))
    perplexité_AE_lemma.append((num_topic,model.log_perplexity(corpus_test_AE_lemma)))

**MODELE TF-IDF**

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_AE_tfidf
# Récupérer si des valeurs ont déjà été calculées avec lemmatisation
%store -r perplexité_AE_tfidf_lemma

In [None]:
# sans lemmatisation
#perplexité_AE_tfidf = [] 
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/AE/lda_ae_tfidf'+ str(num_topic))
    perplexité_AE_tfidf.append((num_topic,model.log_perplexity(corpus_test_AE_tfidf)))

In [None]:
# avec lemmatisation
#perplexité_AE_tfidf_lemma = []
for num_topic in tqdm(num_topics):
    if num_topic <10:
        model = LdaModel.load('Résultats_LDA/EI/lda_ae_tfidf_lemma_'+ str(num_topic))
    else:
        model = LdaModel.load('Résultats_LDA/EI/lda_ae_tfidf_lemma'+ str(num_topic))

In [None]:
plot_perplexités (num_topics, perplexité_AE, perplexité_AE_lemma, perplexité_AE_tfidf, perplexité_AE_tfidf_lemma)

### REVUE EI

**MODELE SAC DE MOTS**

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_EI
# Récupérer si des valeurs ont déjà été calculées avec lemmatisation
%store -r perplexité_EI_lemma

In [None]:
#perplexité_EI = []
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/EI/lda_ei_'+ str(num_topic))
    perplexité_EI.append((num_topic,model.log_perplexity(corpus_test_EI)))

In [None]:
#perplexité_EI_lemma = []
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/EI/lda_ei_lemma_'+ str(num_topic))
    perplexité_EI_lemma.append((num_topic,model.log_perplexity(corpus_test_EI_lemma)))

**MODELE TF-IDF**

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_EI_tfidf
# Récupérer si des valeurs ont déjà été calculées avec lemmatisation
%store -r perplexité_EI_tfidf_lemma

In [None]:
# sans lemmatisation
#perplexité_EI_tfidf = [] 
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/EI/lda_ei_tfidf'+ str(num_topic))
    perplexité_EI_tfidf.append((num_topic,model.log_perplexity(corpus_test_EI_tfidf)))

In [None]:
# avec lemmatisation
#perplexité_EI_tfidf_lemma = []
for num_topic in tqdm(num_topics):
    if num_topic <10:
        model = LdaModel.load('Résultats_LDA/EI/lda_ei_tfidf_lemma_'+ str(num_topic))
    else:
        model = LdaModel.load('Résultats_LDA/EI/lda_ei_tfidf_lemma'+ str(num_topic))
    perplexité_EI_tfidf_lemma.append((num_topic,model.log_perplexity(corpus_test_EI_tfidf_lemma)))

In [None]:
plot_perplexités (num_topics, perplexité_EI, perplexité_EI_lemma, perplexité_EI_tfidf, perplexité_EI_tfidf_lemma,revue='EI')

### REVUE RI

**MODELE SAC DE MOTS**

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_RI
# Récupérer si des valeurs ont déjà été calculées avec lemmatisation
%store -r perplexité_RI_lemma

In [None]:
#perplexité_RI = []
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/RI/lda_ri_'+ str(num_topic))
    perplexité_RI.append((num_topic,model.log_perplexity(corpus_test_RI)))

In [None]:
#perplexité_RI_lemma = []
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/RI/lda_ri_lemma_'+ str(num_topic))
    perplexité_RI_lemma.append((num_topic,model.log_perplexity(corpus_test_RI_lemma)))

**MODELE TF-IDF**

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_RI_tfidf
# Récupérer si des valeurs ont déjà été calculées avec lemmatisation
%store -r perplexité_RI_tfidf_lemma

In [None]:
# sans lemmatisation
#perplexité_RI_tfidf = [] 
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/RI/lda_ri_tfidf'+ str(num_topic))
    perplexité_RI_tfidf.append((num_topic,model.log_perplexity(corpus_test_RI_tfidf)))

In [None]:
# avec lemmatisation
#perplexité_RI_tfidf_lemma = []
for num_topic in tqdm(num_topics):
    model = LdaModel.load('Résultats_LDA/RI/lda_ri_tfidf_lemma'+ str(num_topic))
    perplexité_RI_tfidf_lemma.append((num_topic,model.log_perplexity(corpus_test_RI_tfidf_lemma)))

In [None]:
plot_perplexités (num_topics, perplexité_RI, perplexité_RI_lemma, perplexité_RI_tfidf, perplexité_RI_tfidf_lemma, revue='RI')

----------------

------------------

## II. COHERENCE DES MODELES POUR CHAQUE REVUE

Comparaison des 4 mesures de convergence : (cf. Röder et al. 2015)
- UCI coherence : utilise mesure de co-occurence basée sur des articles de Wikipedia (mesure extrinsèque)
- Umass coherence : intrinsèque.
- NPMI : utilise le vecteur de contexte autour de chaque "topic top word"
- CV : combinaison de NPMI et fenêtre glissante de contexte : meilleure corrélation avec humain

**Remarque** : seule la configuration "sac de mots sans lemmatisation" a été évaluée. 

Pour évaluer les modèles avec lemmatisation, il faut prendre le dictionnaire lemmatisé.

Puis il faut adapter les corpus utilisés en fonction de la configuration tfidf/lemma

Running time moyen pour chaque mesure sur les 10 modèles de chaque revue = 
- 15s  pour mesure de cohérence umass
- 15min pour mesure de cohérence c_uci
- 15 min pour mesure de cohérence c_npmi
- 1h pour mesure de cohérence c_v

In [None]:
def plot_coherence (dico_coherences_AE, dico_coherences_EI, dico_coherences_RI, label = 'umass', size=(10,5)):
    coherences_ae, coherences_ei,coherences_ri = dico_coherences_AE[label],dico_coherences_EI[label], dico_coherences_RI[label]
    x, y_ae = zip(*coherences_ae) 
    _, y_ei = zip(*coherences_ei) 
    _, y_ri = zip(*coherences_ri) 
    
    fig = plt.figure(figsize=size)
    plt.plot(x,y_ae,'gx', label ='AE')
    plt.plot(x,y_ei,'yx', label ='EI')
    plt.plot(x,y_ri,'ox', label ='RI')
    plt.legend()
    plt.xticks(fontsize=14)
    plt.yticks(fontsize=14)
    plt.xlabel('Nombre de thèmes',fontsize=20)
    plt.ylabel('Cohérence du modèle',fontsize=20)
    plt.savefig("Plots/LDA/cohérence/Comparatif/cohérences_" + label + ".png")
    plt.show()

### REVUE AE

**SAC DE MOTS**

In [None]:
%store -r dico_coherences_AE

In [None]:
#dico_coherences_AE = {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []}
dictionary = dictionary_AE_2
temp = dictionary[0] # load du dictionnaire
for num_topic in tqdm(range(1,10)):
    model = LdaModel.load('Résultats_LDA/AE/lda_ae_'+ str(num_topic))
    #dico_coherences_AE['umass'].append((num_topic,CoherenceModel(model=model,corpus=corpus_train_AE, coherence="u_mass").get_coherence()))
    dico_coherences_AE['c_v'].append((num_topic,CoherenceModel(model = model,dictionary=dictionary, coherence="c_v", texts=train_texts_AE).get_coherence()))
    dico_coherences_AE['uci'].append((num_topic,CoherenceModel(model = model,dictionary=dictionary, coherence="c_uci", texts=train_texts_AE).get_coherence()))
    dico_coherences_AE['npmi'].append((num_topic,CoherenceModel(model = model,dictionary=dictionary, coherence="c_npmi", texts=train_texts_AE).get_coherence()))

### REVUE EI

**SAC DE MOTS**

In [None]:
%store -r dico_coherences_EI

In [None]:
#dico_coherences_EI = {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []}

dictionary = dictionary_EI_2
temp = dictionary[0] # load du dictionnaire

for num_topic in tqdm(range(1,10)):
    model = LdaModel.load('Résultats_LDA/EI/lda_ei_'+ str(num_topic))
    #dico_coherences_EI['umass'].append((num_topic,CoherenceModel(model=model,corpus=corpus_train_EI, coherence="u_mass").get_coherence()))
    dico_coherences_EI['c_v'].append((num_topic,CoherenceModel(model = model,dictionary=dictionary, coherence="c_v", texts=train_texts_EI).get_coherence()))
    #dico_coherences_EI['uci'].append((num_topic,CoherenceModel(model = model,dictionary=dictionary, coherence="c_uci", texts=train_texts_EI).get_coherence()))
    #dico_coherences_EI['npmi'].append((num_topic,CoherenceModel(model = model,dictionary=dictionary, coherence="c_npmi", texts=train_texts_EI).get_coherence()))

### REVUE RI

**SAC DE MOTS**

In [None]:
%store -r dico_coherences_RI

In [None]:
#dico_coherences_RI = {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []}

dictionary = dictionary_RI_2
temp = dictionary[0] # load du dictionnaire

for num_topic in tqdm(range(1,10)):
    model = LdaModel.load('Résultats_LDA/RI/lda_ri_'+ str(num_topic))
    dico_coherences_RI['umass'].append((num_topics[num_topic],CoherenceModel(model=model,corpus=corpus_train_RI, coherence="u_mass").get_coherence()))
    dico_coherences_RI['c_v'].append((num_topics[num_topic],CoherenceModel(model = model,dictionary=dictionary, coherence="c_v", texts=train_texts_RI).get_coherence()))
    dico_coherences_RI['uci'].append((num_topic,CoherenceModel(model = model,dictionary=dictionary, coherence="c_uci", texts=train_texts_RI).get_coherence()))
    dico_coherences_RI['npmi'].append((num_topics[num_topic],CoherenceModel(model = model,dictionary=dictionary, coherence="c_npmi", texts=train_texts_RI).get_coherence()))

### PLOTS POUR LES 3 REVUES

In [None]:
def plot_coherence (dico_coherences_AE, dico_coherences_EI, dico_coherences_RI, label = 'umass', size=(10,5)):
    coherences_ae, coherences_ei,coherences_ri = dico_coherences_AE[label],dico_coherences_EI[label], dico_coherences_RI[label]
    x, y_ae = zip(*coherences_ae) 
    _, y_ei = zip(*coherences_ei) 
    _, y_ri = zip(*coherences_ri) 
    
    fig = plt.figure(figsize=size)
    plt.plot(x,y_ae,'gx', label ='AE')
    plt.plot(x,y_ei,'yo', label ='EI')
    plt.plot(x,y_ri,'rs', label ='RI')
    plt.legend()
    plt.xticks(fontsize=14)
    plt.yticks(fontsize=14)
    plt.title(label,fontsize=20)
    plt.xlabel('Nombre de thèmes',fontsize=20)
    plt.ylabel('Cohérence du modèle',fontsize=20)
    plt.savefig("Plots/LDA/cohérence/Comparatif/cohérences_" + label + ".png")
    plt.show()

In [None]:
%store -r dico_coherences_AE
%store -r dico_coherences_EI
%store -r dico_coherences_RI

In [None]:
plot_coherence (dico_coherences_AE, dico_coherences_EI, dico_coherences_RI, label = 'umass')

In [None]:
plot_coherence (dico_coherences_AE, dico_coherences_EI, dico_coherences_RI, label = 'c_v')

In [None]:
plot_coherence (dico_coherences_AE, dico_coherences_EI, dico_coherences_RI, label = 'uci')

In [None]:
plot_coherence (dico_coherences_AE, dico_coherences_EI, dico_coherences_RI, label = 'npmi')

----------------

------------------

## III. ETUDE DE FIABILITE POUR CHAQUE REVUE

### **ETUDE DE LA PERPLEXITE**

### REVUE AE

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_AE_10
%store -r perplexité_AE_40

In [None]:
# fiabilité LDA 10 thèmes
#perplexité_AE_10 = []
indexes = [0,1,2,3,4]
for index in tqdm(indexes):
    model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ae_10_'+ str(index))
    perplexité_AE_10.append((index,model.log_perplexity(corpus_test_AE)))

In [None]:
# fiabilité LDA 40 thèmes
#perplexité_AE_40 = []
indexes = [0,1,2,3,4]
for index in tqdm(indexes):
    model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ae_40_'+ str(index))
    perplexité_AE_40.append((index,model.log_perplexity(corpus_test_AE)))

### REVUE EI

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_EI_10
%store -r perplexité_EI_40

In [None]:
# fiabilité LDA 10 thèmes
#perplexité_EI_10 = []
indexes = [0,1,2,3,4]
for index in tqdm(indexes):
    model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ei_10_'+ str(index))
    perplexité_EI_10.append((index,model.log_perplexity(corpus_test_EI)))

In [None]:
# fiabilité LDA 40 thèmes
#perplexité_EI_40 = []
indexes = [0,1,2,3,4]
for index in tqdm(indexes):
    model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ei_40_'+ str(index))
    perplexité_EI_40.append((index,model.log_perplexity(corpus_test_EI)))

### REVUE RI

In [None]:
# Récupérer si des valeurs ont déjà été calculées sans lemmatisation
%store -r perplexité_RI_10
%store -r perplexité_RI_40

In [None]:
# fiabilité LDA 10 thèmes
#perplexité_RI_10 = []
indexes = [0,1,2,3,4]
for index in tqdm(indexes):
    model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ri_10_'+ str(index))
    perplexité_RI_10.append((index,model.log_perplexity(corpus_test_RI)))

In [None]:
# fiabilité LDA 10 thèmes
#perplexité_RI_40 = []
indexes = [0,1,2,3,4]
for index in tqdm(indexes):
    model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ri_40_'+ str(index))
    perplexité_RI_40.append((index,model.log_perplexity(corpus_test_RI)))

### PLOTS POUR LES 3 REVUES

In [None]:
%store -r perplexité_AE_10
%store -r perplexité_AE_40

%store -r perplexité_EI_10
%store -r perplexité_EI_40

%store -r perplexité_RI_10
%store -r perplexité_RI_40

In [None]:
AE_10 = [element[1] for element in perplexité_AE_10]
AE_40 = [element[1] for element in perplexité_AE_40]
EI_10 = [element[1] for element in perplexité_EI_10]
EI_40 = [element[1] for element in perplexité_EI_40]
RI_10 = [element[1] for element in perplexité_RI_10]
RI_40 = [element[1] for element in perplexité_RI_40]

numpy_AE_10 = np.array(AE_10)
numpy_AE_40 = np.array(AE_40)
numpy_EI_10 = np.array(EI_10)
numpy_EI_40 = np.array(EI_40)
numpy_RI_10 = np.array(RI_10)
numpy_RI_40 = np.array(RI_40)

In [None]:
fig = plt.figure(figsize=(10,6))
BoxName = ['LDA AE 10', 'LDA EI 10', 'LDA RI 10','LDA AE 40', 'LDA EI 40', 'LDA RI 40']
data = [AE_10,EI_10,RI_10,AE_40,EI_40,RI_40]
plt.boxplot(data)
plt.ylim(-11,-9.5)
plt.xticks([1,2,3,4,5,6], BoxName)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.ylabel('Perplexité',fontsize=20)
plt.savefig("Plots/LDA/perplexité/perplexités_fiabilités_3_REVUES.png")
plt.show()

In [None]:
print("Perplexité des modèles à 10 thèmes pour AE :", round(np.mean(numpy_AE_10),3), "+/-", round(np.std(numpy_AE_10),3))
print("Perplexité des modèles à 40 thèmes pour AE :", round(np.mean(numpy_AE_40),3), "+/-", round(np.std(numpy_AE_40),3))
print("Perplexité des modèles à 10 thèmes pour RI :", round(np.mean(numpy_EI_10),3), "+/-", round(np.std(numpy_EI_10),3))
print("Perplexité des modèles à 40 thèmes pour RI :", round(np.mean(numpy_EI_40),3), "+/-", round(np.std(numpy_EI_40),3))
print("Perplexité des modèles à 10 thèmes pour RI :", round(np.mean(numpy_RI_10),3), "+/-", round(np.std(numpy_RI_10),3))
print("Perplexité des modèles à 40 thèmes pour RI :", round(np.mean(numpy_RI_40),3), "+/-", round(np.std(numpy_RI_40),3))

----------------

### **ETUDE DE LA COHERENCE**

Pour chaque revue, running time ~ 30min

### REVUE AE

In [None]:
dico_coherences_AE_fiabilité = {'10' : {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []},'40' : {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []}}

dictionary = dictionary_AE_2
temp = dictionary[0] # load du dictionnaire

indexes = [0,1,2,3,4]
for num_topic in tqdm(['10','40']):
    for index in tqdm(indexes):
        #model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ae_'+ num_topic+ '_'+str(index))
        model = LdaModel.load('Résultats_LDA/lda_ae_'+ num_topic+ '_'+str(index))
        try :
            dico_coherences_AE_fiabilité[num_topic]['umass'].append(CoherenceModel(model=model,corpus=corpus_train_AE, coherence="u_mass").get_coherence())
        except: 
            print('Problème avec ' + 'lda_ae_'+ num_topic+ '_'+str(index)+ ' pour umass')
        try :
            dico_coherences_AE_fiabilité[num_topic]['c_v'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_v", texts=train_texts_AE).get_coherence())
        except: 
            print('Problème avec ' + 'lda_ae_'+ num_topic+ '_'+str(index) + ' pour c_v')
        try :
            dico_coherences_AE_fiabilité[num_topic]['uci'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_uci", texts=train_texts_AE).get_coherence())
        except:
             print('Problème avec ' + 'lda_ae_'+ num_topic+ '_'+str(index) + ' pour uci')
        try:
            dico_coherences_AE_fiabilité[num_topic]['npmi'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_npmi", texts=train_texts_AE).get_coherence())
        except :
             print('Problème avec ' + 'lda_ae_'+ num_topic+ '_'+str(index) + 'pour npmi')

In [None]:
%store dico_coherences_AE_fiabilité

In [None]:
dico_coherences_AE_fiabilité

### REVUE EI

In [None]:
dico_coherences_EI_fiabilité = {'10' : {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []},'40' : {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []}}

dictionary = dictionary_EI_2
temp = dictionary[0] # load du dictionnaire

indexes = [0,1,2,3,4]
for num_topic in tqdm(['10','40']):
    for index in tqdm(indexes):
        model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ei_'+ num_topic+ '_'+str(index))
        try :
            dico_coherences_EI_fiabilité[num_topic]['umass'].append(CoherenceModel(model=model,corpus=corpus_train_EI, coherence="u_mass").get_coherence())
        except: 
            print('Problème avec ' + 'lda_ei_'+ num_topic+ '_'+str(index)+ ' pour c_v')
        try :
            dico_coherences_EI_fiabilité[num_topic]['c_v'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_v", texts=train_texts_EI).get_coherence())
        except: 
            print('Problème avec ' + 'lda_ei_'+ num_topic+ '_'+str(index) + ' pour c_v')
        try :
            dico_coherences_EI_fiabilité[num_topic]['uci'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_uci", texts=train_texts_EI).get_coherence())
        except:
             print('Problème avec ' + 'lda_ei_'+ num_topic+ '_'+str(index) + ' pour uci')
        try:
            dico_coherences_EI_fiabilité[num_topic]['npmi'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_npmi", texts=train_texts_EI).get_coherence())
        except :
             print('Problème avec ' + 'lda_ei_'+ num_topic+ '_'+str(index) + 'pour npmi')

In [None]:
dico_coherences_EI_fiabilité

### REVUE RI

In [None]:
dico_coherences_RI_fiabilité = {'10' : {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []},'40' : {'umass':[], 'c_v': [], 'uci':[], 'npmi' : []}}

dictionary = dictionary_RI_2
temp = dictionary[0] # load du dictionnaire

indexes = [0,1,2,3,4]
for num_topic in tqdm(['10','40']):
    for index in tqdm(indexes):
        model = LdaModel.load('Résultats_LDA/Fiabilité/lda_ri_'+ num_topic+ '_'+str(index))
        try :
            dico_coherences_RI_fiabilité[num_topic]['umass'].append(CoherenceModel(model=model,corpus=corpus_train_RI, coherence="u_mass").get_coherence())
        except: 
            print('Problème avec ' + 'lda_ri_'+ num_topic+ '_'+str(index)+ ' pour c_v')
        try :
            dico_coherences_RI_fiabilité[num_topic]['c_v'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_v", texts=train_texts_RI).get_coherence())
        except: 
            print('Problème avec ' + 'lda_ri_'+ num_topic+ '_'+str(index) + ' pour c_v')
        try :
            dico_coherences_RI_fiabilité[num_topic]['uci'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_uci", texts=train_texts_RI).get_coherence())
        except:
             print('Problème avec ' + 'lda_ri_'+ num_topic+ '_'+str(index) + ' pour uci')
        try:
            dico_coherences_RI_fiabilité[num_topic]['npmi'].append(CoherenceModel(model = model,dictionary=dictionary, coherence="c_npmi", texts=train_texts_RI).get_coherence())
        except :
             print('Problème avec ' + 'lda_ri_'+ num_topic+ '_'+str(index) + 'pour npmi')

In [None]:
dico_coherences_RI_fiabilité

### PLOTS POUR LES 3 REVUES

In [None]:
%store -r dico_coherences_AE_fiabilité
%store -r dico_coherences_EI_fiabilité
%store -r dico_coherences_RI_fiabilité

In [None]:
def plot_variabilité(label='umass'):
    fig = plt.figure(figsize=(10,6))
    BoxName = ['LDA AE 10', 'LDA EI 10', 'LDA RI 10','LDA AE 40', 'LDA EI 40', 'LDA RI 40']
    AE_10 = dico_coherences_AE_fiabilité['10'][label]
    AE_40 = dico_coherences_AE_fiabilité['40'][label]
    EI_10 = dico_coherences_EI_fiabilité['10'][label]
    EI_40 = dico_coherences_EI_fiabilité['40'][label]
    RI_10 = dico_coherences_RI_fiabilité['10'][label]
    RI_40 = dico_coherences_RI_fiabilité['40'][label]
    data = [AE_10,EI_10,RI_10,AE_40,EI_40,RI_40]
    plt.boxplot(data)
    plt.ylim(-0.5,0.5)
    plt.xticks([1,2,3,4,5,6], BoxName, fontsize=14)
    plt.yticks(fontsize=14)
    plt.title(label,fontsize=20)
    plt.ylabel('Cohérence',fontsize=20)
    plt.savefig("Plots/LDA/cohérence/comparatif/cohérence_fiabilité_" + label + ".png")
    plt.show()

In [None]:
plot_variabilité(label='umass')

In [None]:
plot_variabilité(label='npmi')

In [None]:
plot_variabilité(label='c_v')

In [None]:
plot_variabilité(label='uci')

In [None]:
AE_umass_10 =np.array(dico_coherences_AE_fiabilité ['10']['umass'])
AE_uci_10 =np.array(dico_coherences_AE_fiabilité['10']['uci'])
AE_npmi_10 = np.array(dico_coherences_AE_fiabilité['10']['npmi'])
AE_cv_10 = np.array(dico_coherences_AE_fiabilité['10']['c_v'])

AE_umass_40 = np.array(dico_coherences_AE_fiabilité['40']['umass'])
AE_uci_40 = np.array(dico_coherences_AE_fiabilité['40']['uci'])
AE_npmi_40 = np.array(dico_coherences_AE_fiabilité['40']['npmi'])
AE_cv_40 = np.array(dico_coherences_AE_fiabilité['40']['c_v'])

EI_umass_10 = np.array(dico_coherences_EI_fiabilité['10']['umass'])
EI_uci_10 = np.array(dico_coherences_EI_fiabilité['10']['uci'])
EI_npmi_10 =np.array(dico_coherences_EI_fiabilité['10']['npmi'])
EI_cv_10 = np.array(dico_coherences_EI_fiabilité['10']['c_v'])

EI_umass_40 = np.array(dico_coherences_EI_fiabilité['40']['umass'])
EI_uci_40 = np.array(dico_coherences_EI_fiabilité['40']['uci'])
EI_npmi_40 = np.array(dico_coherences_EI_fiabilité['40']['npmi'])
EI_cv_40 = np.array(dico_coherences_EI_fiabilité['40']['c_v'])

RI_umass_10 = np.array(dico_coherences_RI_fiabilité['10']['umass'])
RI_uci_10 = np.array(dico_coherences_RI_fiabilité['10']['uci'])
RI_npmi_10 = np.array(dico_coherences_RI_fiabilité['10']['npmi'])
RI_cv_10 = np.array(dico_coherences_RI_fiabilité['10']['c_v'])

RI_umass_40 = np.array(dico_coherences_RI_fiabilité['40']['umass'])
RI_uci_40 = np.array(dico_coherences_RI_fiabilité['40']['uci'])
RI_npmi_40 = np.array(dico_coherences_RI_fiabilité['40']['npmi'])
RI_cv_40 = np.array(dico_coherences_RI_fiabilité['40']['c_v'])

In [None]:
print("Cohérence des modèles à 10 thèmes pour AE:", round(np.mean(AE_umass_10),3), "+/-", round(np.std(AE_umass_10),3))
print("Cohérence des modèles à 40 thèmes pour AE :", round(np.mean(AE_umass_40),3), "+/-", round(np.std(AE_umass_40),3))
print("Cohérence des modèles à 10 thèmes pour AE :", round(np.mean(AE_uci_10),3), "+/-", round(np.std(AE_uci_10),3))
print("Cohérence des modèles à 40 thèmes pour AE :", round(np.mean(AE_uci_40),3), "+/-", round(np.std(AE_uci_40),3))
print("Cohérence des modèles à 10 thèmes pour AE :", round(np.mean(AE_npmi_10),3), "+/-", round(np.std(AE_npmi_10),3))
print("Cohérence des modèles à 40 thèmes pour AE :", round(np.mean(AE_npmi_40),3), "+/-", round(np.std(AE_npmi_40),3))
print("Cohérence des modèles à 10 thèmes pour AE :", round(np.mean(AE_cv_10),3), "+/-", round(np.std(AE_cv_10),3))
print("Cohérence des modèles à 40 thèmes pour AE :", round(np.mean(AE_cv_40),3), "+/-", round(np.std(AE_cv_40),3))

print("Cohérence des modèles à 10 thèmes pour EI :", round(np.mean(EI_umass_10),3), "+/-", round(np.std(EI_umass_10),3))
print("Cohérence des modèles à 40 thèmes pour EI :", round(np.mean(EI_umass_40),3), "+/-", round(np.std(EI_umass_40),3))
print("Cohérence des modèles à 10 thèmes pour EI :", round(np.mean(EI_uci_10),3), "+/-", round(np.std(EI_uci_10),3))
print("Cohérence des modèles à 40 thèmes pour EI :", round(np.mean(EI_uci_40),3), "+/-", round(np.std(EI_uci_40),3))
print("Cohérence des modèles à 10 thèmes pour EI :", round(np.mean(EI_npmi_10),3), "+/-", round(np.std(EI_npmi_10),3))
print("Cohérence des modèles à 40 thèmes pour EI :", round(np.mean(EI_npmi_40),3), "+/-", round(np.std(EI_npmi_40),3))
print("Cohérence des modèles à 10 thèmes pour EI :", round(np.mean(EI_cv_10),3), "+/-", round(np.std(EI_cv_10),3))
print("Cohérence des modèles à 40 thèmes pour EI :", round(np.mean(EI_cv_40),3), "+/-", round(np.std(EI_cv_40),3))

print("Cohérence des modèles à 10 thèmes pour RI :", round(np.mean(RI_umass_10),3), "+/-", round(np.std(RI_umass_10),3))
print("Cohérence des modèles à 40 thèmes pour RI :", round(np.mean(RI_umass_40),3), "+/-", round(np.std(RI_umass_40),3))
print("Cohérence des modèles à 10 thèmes pour RI :", round(np.mean(RI_uci_10),3), "+/-", round(np.std(RI_uci_10),3))
print("Cohérence des modèles à 40 thèmes pour RI :", round(np.mean(RI_uci_40),3), "+/-", round(np.std(RI_uci_40),3))
print("Cohérence des modèles à 10 thèmes pour RI :", round(np.mean(RI_npmi_10),3), "+/-", round(np.std(RI_npmi_10),3))
print("Cohérence des modèles à 40 thèmes pour RI :", round(np.mean(RI_npmi_40),3), "+/-", round(np.std(RI_npmi_40),3))
print("Cohérence des modèles à 10 thèmes pour RI :", round(np.mean(RI_cv_10),3), "+/-", round(np.std(RI_cv_10),3))
print("Cohérence des modèles à 40 thèmes pour RI :", round(np.mean(RI_cv_40),3), "+/-", round(np.std(RI_cv_40),3))

----------------

### **ETUDE DE LA SIMILARITE SEMANTIQUE**

In [None]:
def compte_similarité (revue ='ae'):
    dico_similarité = {'10':[],'40':[]}
    compte_similarité = {'10':[],'40':[]}
    for num_topic in ['10','40']:
        # Récupérer l'ensemble des jetons produits par chaque modèle
        for num_model in range(5):
            model = LdaModel.load('Résultats_LDA/Fiabilité/lda_' + revue + '_' + num_topic +'_' + str(num_model))
            jetons = []
            for topic in range(model.num_topics):
                topics = model.show_topic(topic)
                jetons.extend([element[0] for element in topics])
            dico_similarité[num_topic].append(jetons)
        # Compter les similarité de jetons 2 à 2 + prendre la moyenne puis pourcentage sur le total
        for i in range (5):
            for j in range(i,5):
                compte_similarité[num_topic].append(len(set(dico_similarité[num_topic][i]) & set(dico_similarité[num_topic][j])))
        compte_similarité[num_topic] = [element/int(num_topic)*10 for element in compte_similarité[num_topic]]
        #compte_similarité[num_topic] = round(np.mean(compte_similarité[num_topic]),1)
    return dico_similarité, compte_similarité

In [None]:
dico_similarité_ae, compte_similarité_ae = compte_similarité(revue='ae')
dico_similarité_ei, compte_similarité_ei = compte_similarité(revue='ei')
dico_similarité_ri, compte_similarité_ri = compte_similarité(revue='ri')

In [None]:
def print_resultats_stats (compte_similarité):
    for topic in ['10','40']:
        print("Similarité globale pour modèles avec ", topic, "thèmes : ", 
              round(np.mean(compte_similarité[topic]),1), " +/-", round(np.std(compte_similarité[topic]),1))

In [None]:
print_resultats_stats(compte_similarité_ae)
print_resultats_stats(compte_similarité_ei)
print_resultats_stats(compte_similarité_ri)