In [1]:
import sys
import pandas as pd
if '/home/sagemaker-user/octis/OCTIS' not in sys.path: sys.path.append('/home/sagemaker-user/octis/OCTIS') 

from octis.models.LDA import LDA
from octis.models.LDA_gibbs import LDA_gibbs
from octis.models.LDA_tomopy import LDA_tomopy
from octis.models.NMF_scikit import NMF_scikit
from octis.dataset.dataset import Dataset
from octis.evaluation_metrics.diversity_metrics import TopicDiversity
from octis.evaluation_metrics.coherence_metrics import Coherence

from octis.optimization.optimizer import Optimizer
from skopt.space.space import Real, Integer, Categorical

from warnings import filterwarnings
filterwarnings('ignore')

In [2]:
#loadData
europarl_dataset = Dataset()
europarl_dataset.fetch_dataset('Europarl_IT')

coherence = Coherence(texts=europarl_dataset.get_corpus(), topk=10, measure='c_v')

In [None]:
NMF_scikit

In [3]:
nmf_model_20 = NMF_scikit(num_topics=20, init='nndsvdar')
nmf_output_20 = nmf_model_20.train_model(europarl_dataset)
print('Topics:',*[' '.join(x) for x in nmf_output_20['topics']],sep='\n')
print(f'\nOverall Coherence Score: {coherence.score(nmf_output_20)}')

Topics:
commissione emendamento bilancio presentare chiedere dare nome iniziativa parere agricoltura
presidente signore commissario signora carica en parlare dibattito discussione fr
europeo unione cittadino adesione integrazione istituzione democratico necessità livello costituzione
economico sociale politico crisi finanziario livello necessario sviluppo sistema regione
diritto umano fondamentale rispetto democrazia materia libertà rispettare violazione donna
onorevole collega desiderare relatore ringraziare deputato nome innanzi signora esprimere
parlamento europeo ruolo deputato posizione adottare esprimere svolgere voto risoluzione
politica comune agricolo estero regionale bisogno riforma comunitario sicurezza pesca
volere ciò sottolineare possibile ricordare chiedere presente azione commissario aula
relazione votare presentare linea aspetto tema discussione eccellente ringraziare svoltare
membro euro adottare direttiva fornire chiedere sapere fiscale singolo venire
problema affron

In [4]:
nmf_model_100 = NMF_scikit(num_topics=100, init='nndsvdar')
nmf_output_100 = nmf_model_100.train_model(europarl_dataset)
print('Topics:',*[' '.join(x) for x in nmf_output_100['topics']],sep='\n')
print(f'\nOverall Coherence Score: {coherence.score(nmf_output_100)}')

Topics:
commissione nome parere iniziativa comunicazione intendere agricoltura riguardo affare proporre
signore presidente carica en fr osservazione de domanda barroso relatrice
europeo unione integrazione adesione necessità espressione russia economia comunità istituzione
economico crescita stabilità commerciale conseguenza governance monetario comitato approccio finanza
diritto umano rispetto democrazia violazione difendere godere essenziale particolarmente libertà
onorevole collega nome innanzi parlamentare de autonomo presentare van schulz
parlamento europeo risoluzione sostegno favorevole approvare codecisione compito documento concedere
politica estero regionale agricolo bisogno riforma pesca coesione comunitario campo
volere sottolineare ricordare presente aula porgere particolarmente ringraziare breve osservazione
relazione linea presentare eccellente aspetto discusso russia congratularsi parere metà
direttiva applicazione vigore comunitario disporre riferimento ce elenco adozi

In [None]:
LDA_gibbs

In [5]:
lda_model_20 = LDA_gibbs(num_topics=20, n_iter=1000)
lda_output_20 = lda_model_20.train_model(europarl_dataset)
print('Topics:',*[' '.join(x) for x in lda_output_20['topics']],sep='\n')
print(f'\nOverall Coherence Score: {coherence.score(lda_output_20)}')

Topics:
programma ricerca sviluppo relazione economico fondo stabilire campo politica quadro
volere problema cambiamento sottolineare numero ciò regione causa massimo popolazione
diritto punto rispettare politico donna rispetto materia considerare criterio ambito
venire grado riconoscere necessario ue motivo usare vedere turchia soluzione
politica importante sicurezza passo rappresentare comune pertanto interno trattare europa
problema questione politico volere organizzazione trattare affrontare importanza occasione datare
europeo obiettivo controllo garantire comunitario livello unione misura membro piano
settore servizio trasporto energia pubblico mercato impresa sicurezza piccolo investimento
europeo diritto ruolo lotta internazionale europa donna democratico parlamento importante
politica prodotto bilancio finanziario comune obiettivo aiuto produzione agricolo aumento
presidente signore onorevole collega commissario relazione volere signora desiderare ringraziare
direttiva regolame

In [6]:
lda_model_100 = LDA_gibbs(num_topics=100, n_iter=1000)
lda_output_100 = lda_model_100.train_model(europarl_dataset)
print('Topics:',*[' '.join(x) for x in lda_output_100['topics']],sep='\n')
print(f'\nOverall Coherence Score: {coherence.score(lda_output_100)}')

Topics:
europeo democratico partito idea struttura fondamentale trasparente associare popolare elettorale
livello rispettare ritenere criterio società definire importante significare considerare realizzazione
trattare punto passare discussione datare avviso tema disposizione ordine capo
europa incoraggiare bisogno gran conoscenza regime dipendere distribuzione speranza importanza
misura adottare direttiva necessario azione specifico prevedere metodo volgere comunitario
questione importante discutere sollevare argomento procedura estremamente direttamente presente tornare
cooperazione interno importante esterno sicurezza frontiera affare criminalità sufficiente giustizia
unione europeo materia ambientale iniziativa legislazione immigrazione ambito asilo intraprendere
pertanto ciò realtà portare divieto limite determinare impedire indispensabile risultare
ue settimana vertice particolare partecipare riunione parola finale russia riferire
onorevole desiderare relatore relazione ringraziar

In [None]:
LDA_tomotopy

In [7]:
ldaTomopy_model_20 = LDA_tomopy(num_topics=20, max_iters=100)
ldaTomopy_output_20 = ldaTomopy_model_20.train_model(europarl_dataset)

print('Topics:',*[' '.join(x) for x in ldaTomopy_output_20['topics']],sep='\n')
print(f'\nOverall Coherence Score: {coherence.score(ldaTomopy_output_20)}')

Topics:
cooperazione accordo riguardare norma organizzazione domanda pensare possibile sistema dialogo
membro rispettare accordo continuare negoziato ambito possibile trattato intervento autorità
trasporto pertanto energia impresa ridurre regionale proporre particolare affrontare nucleare
volere membro sapere compiere interno sistema entro chiedere questione disporre
necessario bilancio finanziario settore termine ue prossimo attività politico specifico
presidente signore onorevole collega volere commissario relazione signora desiderare dibattito
europa situazione donna relazione ciò costituire parola affermare senso altresì
pubblico mercato sicurezza questione servizio trattare tema né attenzione accesso
tenere esistere conto possibilità riuscire ricordare paragrafo strategia sostegno lisbona
dare venire controllo fornire mercato ciò consentire informazione valore interesse
politica sociale comune sviluppo economico settore pesca riforma regione rendere
commissione presentare emendame

In [8]:
ldaTomopy_model_100 = LDA_tomopy(num_topics=100, max_iters=100)
ldaTomopy_output_100 = ldaTomopy_model_100.train_model(europarl_dataset)

print('Topics:',*[' '.join(x) for x in ldaTomopy_output_100['topics']],sep='\n')
print(f'\nOverall Coherence Score: {coherence.score(ldaTomopy_output_100)}')

Topics:
impresa piccolo medio comportare verificare sostenere ovviamente produrre almeno struttura
politico rappresentare parola responsabile attuale membro affermare reale partecipare fronte
risorsa incidente trattare intervento pesca evitare considerare gestione mancare proprietà
commissione direttiva decisione proposta quadro procedere attuazione appoggiare giuridico presto
dare trattato lisbona articolo strategia bisognare statuto grado corrispondere suggerire
adottare parlamento posizione risoluzione misura riuscire aspetto diversi condividere approvare
ruolo svolgere svoltare estremamente criminalità giudiziario assistenza comportamento davvero apprezzare
interno evitare sicurezza conferenza esterno affare tema pertanto intergovernativo diversità
aiuto documento superare crescita impedire perdere chiaramente coordinare ignorare contemporaneamente
europeo unione cittadino necessario raggiungere istituzione costituzione banca attualmente essa
aiutare rimare dimostrare situazione vi

In [None]:
HPOptimization

In [3]:
#NMF_scikit
nmf_model = NMF_scikit()
search_space = {"num_topics": Categorical([20,50,70,100]), "init": Categorical(['nndsvda','nndsvdar']), "alpha": Categorical([0.0,0.25,0.5,0.75,1.0])}
optimizer=Optimizer()

optResult=optimizer.optimize(nmf_model, europarl_dataset, coherence, search_space, save_path="./outputFiles", number_of_call=30, model_runs=5)
optResult.save_to_csv("NMFscikit_HOCoherence_euroParlResults.csv")

df=pd.read_csv('E:\\Rashi\\octis\\NMFscikit_HOCoherence_euroParlResults.csv')
df.sort_values(by='Median(model_runs)',inplace=True, ascending=False)
df.to_csv('E:\\Rashi\\octis\\NMFscikit_HOCoherence_euroParlResults.csv')

  0%|          | 0/30 [00:00<?, ?it/s]

In [5]:
#LDA_gibbs
lda_model = LDA_gibbs()
search_space = {"n_topics": Categorical([20,50,70,100]), "n_iter": Categorical([100]), "alpha": Categorical([0.01,0.05,0.1,0.5,1.0]), "eta": Categorical([0.001,0.005,0.01,0.05,0.1])}
optimizer=Optimizer()

optResult=optimizer.optimize(lda_model, europarl_dataset, coherence, search_space, save_path="./outputFiles", number_of_call=30, model_runs=5)
optResult.save_to_csv("LDAgibbs_HOCoherence_euroParlResults.csv")

df=pd.read_csv('E:\\Rashi\\octis\\LDAgibbs_HOCoherence_euroParlResults.csv')
df.sort_values(by='Median(model_runs)',inplace=True, ascending=False)
df.to_csv('E:\\Rashi\\octis\\LDAgibbs_HOCoherence_euroParlResults.csv')

  0%|          | 0/30 [00:00<?, ?it/s]

In [6]:
#LDA_tomopy
ldatomopy_model = LDA_tomopy()
search_space = {"num_topics": Categorical([20,50,70,100]), "max_iters": Categorical([100]), "alpha": Categorical([0.01,0.05,0.1,0.5,1.0]), "eta": Categorical([0.001,0.005,0.01,0.05,0.1])}
optimizer=Optimizer()

optResult=optimizer.optimize(ldatomopy_model, europarl_dataset, coherence, search_space, save_path="./outputFiles", number_of_call=30, model_runs=5)
optResult.save_to_csv("LDAtomopy_HOCoherence_euroParlResults.csv")

df=pd.read_csv('E:\\Rashi\\octis\\LDAtomopy_HOCoherence_euroParlResults.csv')
df.sort_values(by='Median(model_runs)',inplace=True, ascending=False)
df.to_csv('E:\\Rashi\\octis\\LDAtomopy_HOCoherence_euroParlResults.csv')

  0%|          | 0/30 [00:00<?, ?it/s]