In [1]:
import pandas as pd
import numpy as np

import tomotopy as to
import tomotopy.coherence as coherence

import time

## Loading data & creating a list of documents

In [2]:
# Loading data - dataset containing lemmatized texts
names = ['id',
         'headline',
         'description',
         'article_body',
         'all_text',
         'text_lem',
         'date',
         'newspaper',
         'city',
         'md_index',
         'url']

data = pd.read_excel('SV-women-data-lem.xlsx',
                     index_col = 0,
                     names = names)
data

Unnamed: 0,id,headline,description,article_body,all_text,text_lem,date,newspaper,city,md_index,url
0,1,«Женщины для утех» по-прежнему нужны: Япония и...,Во время колонизации Кореи Японией в XX веке к...,Во время колонизации Кореи Японией в XX веке к...,«Женщины для утех» по-прежнему нужны: Япония и...,женщина утеха нужный япония китай борьба время...,2016-01-03,ИА Regnum,Москва,2.312,http://regnum.ru/news/2048238.html
1,2,В Норвегии мигрантов научат не насиловать женщин,Наплыв беженцев из Сирии и других стран Ближне...,\n ...,В Норвегии мигрантов научат не насиловать женщ...,норвегия мигрант научить насиловать беженец си...,2016-01-04,Известия (iz.ru),Москва,1.113,http://izvestia.ru/news/600956
2,3,В Кельне задержали первого подозреваемого в на...,\tПрокуратура Кельна сообщила о задержании пер...,"Сейчас+6˚CСейчас в Санкт-ПетербургеОблачно, Бе...",В Кельне задержали первого подозреваемого в на...,кёльн задержать первый подозревать нападение п...,2016-01-05,Фонтанка (fontanka.ru),Санкт-Петербург,1.186,http://www.fontanka.ru/2016/01/05/077/
3,4,В Дании полицейские научат беженцев вежливому ...,В одной из пяти административных областей Дани...,В одной из пяти административных областей Дани...,В Дании полицейские научат беженцев вежливому ...,дания полицейский научить беженец вежливый обр...,2016-01-05,Российская газета (rg.ru),Москва,1.266,http://www.rg.ru/2016/01/05/keln-site.html
4,5,А каждого Михеля демократично переименуют в Му...,"Наш спецкор Дарья Асламова выясняет, в чем при...",В теплом кафе мой собеседник небрежно скидывае...,А каждого Михеля демократично переименуют в Му...,михель демократично переименовать спецкор дарь...,2016-01-06,Комсомольская правда (kp.ru),Москва,0.960,http://www.kp.ru/daily/26476/3347751/
...,...,...,...,...,...,...,...,...,...,...,...
15337,15338,"«Фантазируя об изнасиловании, женщина чувствуе...","Почему во время месячных хочется больше секса,...",\n— Получаю особенное удовольствие от секса во...,"«Фантазируя об изнасиловании, женщина чувствуе...",фантазировать изнасилование женщина чувствоват...,2023-12-28,Газета.Ru,Москва,1.963,https://www.gazeta.ru/culture/news/2023/12/28/...
15338,15339,Обвиняемого в домогательствах екатеринбургског...,Обвиняемого в домогательствах екатеринбургског...,6 октября – ИА SM.News. Обвиняемого в домогате...,Обвиняемого в домогательствах екатеринбургског...,обвинять домогательство екатеринбургский масса...,2023-12-29,Eadaily.com,Москва,1.469,https://eadaily.com/ru/news/2023/12/29/prosto-...
15339,15340,Анджелина Джоли и Гвинет Пэлтроу обвинили Вайн...,Звезды Голливуда Анджелина Джоли и Гвинет Пэлт...,\n ...,Анджелина Джоли и Гвинет Пэлтроу обвинили Вайн...,анджелина джоля гвинет пэлтроу обвинить вайншт...,2023-12-29,Известия (iz.ru),Москва,1.200,https://iz.ru/1628155/2023-12-29/brata-maikla-...
15340,15341,"Адвокат Людмила Айвар рассказала, как российск...","Адвокат Людмила Айвар рассказала, как российск...","7 марта 2023, 16:59 — Общественная служба но...","Адвокат Людмила Айвар рассказала, как российск...",адвокат людмила айвар рассказать российский же...,2023-12-30,Общественная служба новостей (osnmedia.ru),Москва,0.959,https://www.osnmedia.ru/kultura/bolee-600-deya...


In [3]:
# Getting docs from data
docs = pd.DataFrame(data.text_lem)

In [4]:
# Extract unique words and calculate their number
uniq_words = list(filter(lambda x: x, set(docs.text_lem.str.cat(sep=' ').strip().split(' '))))
uniq_words_len = len(uniq_words)
print('The number of unique words is', uniq_words_len)

The number of unique words is 63240


In [5]:
# Transform documents into word lists
words_in_docs = list(map(lambda x: x.split(), docs.text_lem.dropna().values))

## Main attributes

In [6]:
'''
# Topic distribution for each document (probabilities)
mdl.docs[0].get_topic_dist() 

# Word distribution for each topic (only probabilities)
mdl.get_topic_word_dist(topic_id = 0)

# Word distribution for each topic (words + probabilities)
mdl.get_topic_words(topic_id=0, top_n=50)

# Number of words allocated to each topic (num)
mdl.get_count_by_topics()

# hLDA Words distribution for each of the live topics (only probabilities)
words_topics_distr = list(map(lambda x: hlda.get_topic_word_dist(x) if hlda.is_live_topic(x) else [], range(hlda.k)))
'''

print('')




## Setting hyperparameters

In [7]:
# random seed to get reproducable results
seed = 12345

#set the number of topics to fit models
num_topics = list(np.arange(5, 30, 5)) + list(np.arange(30, 80, 10))

#set the value of parameters alpha and eta
myalpha = 0.001 
myeta = [0.00001, 0.0001, 0.001, 0.01, 0.1, 0.2,  0.3, 0.5, 0.7, 1]
# eta for all the models except HLDA
myeta_short = [0.00001, 0.001, 0.1, 0.5, 1]

# depth of the hierarchical models
level = 3

#set value of parameter gamma
gamma = 0.001

#set the name of the file for recording the results
myfile = 'TM-models-fit.csv'

# List of models and params for model fitting
model_names = ['LDAModel', 'HLDAModel', 'PAModel', 'HPAModel', 'CTModel']
workers = 1
iter = 100

#print all the params
params = [num_topics, myalpha, myeta, gamma]
print('\nHYPERPARAMETERS FOR FITTING THE MODELS \n--------------------------------------- \n', \
      'Models: {} \n--------------------------------------- \n'.format(model_names), \
      'Num of topics: {} \nAlpha: {} \nEta: {} \nGamma: {} \n'.format(*params), sep='')


HYPERPARAMETERS FOR FITTING THE MODELS 
--------------------------------------- 
Models: ['LDAModel', 'HLDAModel', 'PAModel', 'HPAModel', 'CTModel'] 
--------------------------------------- 
Num of topics: [5, 10, 15, 20, 25, 30, 40, 50, 60, 70] 
Alpha: 0.001 
Eta: [1e-05, 0.0001, 0.001, 0.01, 0.1, 0.2, 0.3, 0.5, 0.7, 1] 
Gamma: 0.001 



## Fitting the models

In [8]:
# List of models and params for model fitting
model_names = ['LDAModel', 'HLDAModel', 'PAModel', 'HPAModel', 'CTModel']
workers = 1
iter = 100

In [9]:
start = time.time()

# Delete the file if it extsts (from prev fittings) and start writing into it
open(myfile, 'w').close()
with open(myfile, 'a') as file: 
    file.write('Model' + ';' + 
               'Depth (levels)' + ';' +
               'Num of topics' + ';' + 
               'Alpha' +';' + 
               'Subalpha' + ';' +
               'Eta' +';' + 
               'Gamma' + ';' +
               'Coherence' + ';' + 
               'Log-likelihood'  + '\n')

# Loop through all model types    
for model_name in model_names:

    # Loop through eta values
    for eta in myeta:
    
    #If iterating only by eta (HLDA model) or also by number of topics (other models)
        if model_name != 'HLDAModel':

        # Loop through number of topics (all models except HLDA)
            for k in num_topics:

                # Iterate only through the short list of eta values
                if eta in myeta_short:
            
                    # Setting parameters dicts for the specific models
                    if model_name == 'LDAModel':
                        level_run = subalpha_run = gamma_run = None
                        params = {'k':k, 'alpha':myalpha, 'eta':eta, 'seed':seed}
                    elif 'PAModel' in model_name:
                        level_run = level
                        subalpha_run = myalpha
                        gamma_run = None
                        params = {'k1':level_run, 'k2':k, 'alpha':myalpha, 'subalpha':subalpha_run, 'eta':eta, 'seed':seed}
                    elif model_name == 'CTModel':
                        level_run = subalpha_run = gamma_run = None
                        params = {'k':k, 'smoothing_alpha':myalpha, 'eta':eta, 'seed':seed}
                        
                    else: raise ValueError('Cannot identify model!!! Add some code for this one lol')
            
                    # Initialization of the models with parameters
                    model = eval('to.' + model_name)(**params)
                    # Download documents
                    list(map(model.add_doc, words_in_docs))
                    
                    # Train the model
                    model.train(workers=workers, iter=iter)
                    # Get evaluation metrics
                    ch_score = coherence.Coherence(model, top_n = 50).get_score()
                    ll_score = model.ll_per_word
            
                    #Print iteration
                    print('Model: {} \nNum of topics: {} \nEta: {} \nCoherence: {} \nLog-likelihood: {}'.format(model_name, k, eta, ch_score, ll_score))
                    #Recording the results to a csv file
                    with open(myfile, 'a') as file: 
                        file.write(model_name + ';' + str(level_run) + ';' + str(k) + ';' + str(myalpha) +';' + str(subalpha_run) +';' + 
                                   str(eta) +';' + str(gamma_run) + ';' + str(ch_score) + ';' + str(ll_score)  + '\n')
                    print('------------------------------')
                    
                else: break

        elif model_name == 'HLDAModel':
                
            # Setting parameters dict for different eta values
            level_run = level
            gamma_run = gamma
            subalpha_run = None
            params = {'depth':level_run, 'alpha':myalpha, 'eta':eta, 'gamma':gamma_run, 'seed':seed}
                
            # Initialization of the model with parameters
            model = eval('to.' + model_name)(**params)
            # Download documents
            list(map(model.add_doc, words_in_docs))
    
            # Train the model
            model.train(workers=workers, iter=iter)
            # Get evaluation metrics
            ch_score = coherence.Coherence(model, top_n = 50).get_score()
            ll_score = model.ll_per_word
    
            #Print iteration
            print('Model: {} \nNum of topics: {} \nEta: {} \nCoherence: {} \nLog-likelihood: {}'.format(model_name, model.live_k, eta, 
                                                                                                            ch_score, ll_score))
            #Recording the results to a csv file
            with open(myfile, 'a') as file: 
                    file.write(model_name + ';' + str(level_run) + ';' + str(model.live_k) + ';' + str(myalpha) +';' + str(subalpha_run) +';' + 
                               str(eta) +';' + str(gamma_run) + ';' + str(ch_score) + ';' + str(ll_score)  + '\n')
            print('------------------------------')

stop = time.time()
print('\nTime of execution (sec)', stop - start)

Model: LDAModel 
Num of topics: 5 
Eta: 1e-05 
Coherence: -1.5778704536662338 
Log-likelihood: -8.635658966522472
------------------------------
Model: LDAModel 
Num of topics: 10 
Eta: 1e-05 
Coherence: -1.6150202463664542 
Log-likelihood: -8.757591297037758
------------------------------
Model: LDAModel 
Num of topics: 15 
Eta: 1e-05 
Coherence: -1.8202113336355197 
Log-likelihood: -8.811911416973665
------------------------------
Model: LDAModel 
Num of topics: 20 
Eta: 1e-05 
Coherence: -2.0356906049040804 
Log-likelihood: -8.797220451121815
------------------------------
Model: LDAModel 
Num of topics: 25 
Eta: 1e-05 
Coherence: -2.1065588985823833 
Log-likelihood: -8.821437682624607
------------------------------
Model: LDAModel 
Num of topics: 30 
Eta: 1e-05 
Coherence: -2.249233671242091 
Log-likelihood: -8.840772661521282
------------------------------
Model: LDAModel 
Num of topics: 40 
Eta: 1e-05 
Coherence: -2.1779757385093896 
Log-likelihood: -8.852659167277995
-----------

## Scores for fitted TM models

In [10]:
scores = pd.read_csv(myfile, sep=';')
scores

Unnamed: 0,Model,Depth (levels),Num of topics,Alpha,Subalpha,Eta,Gamma,Coherence,Log-likelihood
0,LDAModel,,5,0.001,,0.00001,,-1.577870,-8.635659
1,LDAModel,,10,0.001,,0.00001,,-1.615020,-8.757591
2,LDAModel,,15,0.001,,0.00001,,-1.820211,-8.811911
3,LDAModel,,20,0.001,,0.00001,,-2.035691,-8.797220
4,LDAModel,,25,0.001,,0.00001,,-2.106559,-8.821438
...,...,...,...,...,...,...,...,...,...
205,CTModel,,30,0.001,,1.00000,,-2.835077,-8.131752
206,CTModel,,40,0.001,,1.00000,,-4.863277,-8.345074
207,CTModel,,50,0.001,,1.00000,,-7.125357,-8.430885
208,CTModel,,60,0.001,,1.00000,,-7.684633,-8.492314
