In [1]:
import sys
sys.path.append('../..')
import src.data.data_loader as dl
from src.features.vectorizer import Vectorizer
from src.models.topic_models import TopicModel
import pandas as pd
import sklearn.utils as skutil
pd.set_option('display.max_rows', None)



In [2]:
# Data 
language = 'german'
typex = 'editorial'

# Vectorization
min_df = 0.005
max_df = 0.9



# Topic Modeling
algorithm = 'lda'
num_topics = 190

train_percentage = 0.9
alpha = 'auto'
eta = 0.01
iterations = 200
passes = 60
chunksize = 5000
kappa = 0
tau_0 = 0

In [3]:
data = dl.get_articles_by_type(language, typex,kind = "tagged")
texts = data['article_texts']

def min_length (texts,min_characters):
    neu = []
    for t in texts: 
        token_perdoc_list = t.split()
        token_min_character = []
        for token in token_perdoc_list: 
            if len(token)>= min_characters: 
                token_min_character.append(token)
        joined = (" ").join(token_min_character)
        neu.append(joined)
        
    return neu
texts = min_length(texts,3)

print(texts[:5])

['schon häufig blamieren prinz charles redeschwallen bemerkenswert ahnungslosigkeit jetzt schwadronierte thronfolger genlandwirtschaft november feiern prinz charles geburtstag denkwürdig jubiläum während gleichaltrige rente warten ewige thronfolger richtig arbeitstag kein prince wal britisch geschichte krone warten dürfen dämlich anstellen der ökobewegte gutsherr nerven land mutter queen contenance anfall maligner sogar präseniler logorrhö ohne not hochobskures zeugen unvergessen mitgehört telefonat wünschen tampon schoße geliebt camilla wenn hoheit analyse eigen öko-anbau freiwillig öffentlichkeit tritt eher peinlich gedankenschärfe informiertheit reflexion sache malen empfehlen wüterich biobauern gemüse sprechen gut ergebnis fordern großbritannien verlassen land bio-oase verwandeln können vorig woche auf nebenschloss schottisch hochland empfangen kilt gewandete royal reporter daily telegraph landwirtschaftspalaver übergoss sessel auf- abhüpfend tirade ignoranz genetiker dienst multin

In [5]:
vec = Vectorizer('tf', texts, min_df=min_df, max_df=max_df)
vec.save('tagged/vectorizer/{}_{}_{}_pos.pkl'.format(algorithm, language, typex,"tagged"))

document_term_matrix = vec.get_document_token_matrix(texts)
id2token = vec.get_id2token_mapping()

In [None]:
document_term_matrix = skutil.shuffle(document_term_matrix, random_state=1)
num_docs, num_terms = document_term_matrix.shape
train = int(num_docs * train_percentage)
train_document_term_matrix = document_term_matrix[0:train, :]
test_document_term_matrix = document_term_matrix[train: num_docs, :]

In [None]:
model = TopicModel('lda', num_topics, train_document_term_matrix, id2token, alpha=alpha, eta=eta, iterations=iterations, passes=passes, chunksize=chunksize, test_document_term_matrix=test_document_term_matrix, decay=kappa, offset=tau_0)
model.save('tagged/topic_models/lda/{}_{}_{}_{}_articles_{}.pkl'.format(algorithm, language, typex,"tagged",num_topics))

2018-07-31 18:04:39,220 : INFO : using autotuned alpha, starting with [0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.005263158, 0.0052

  diff = np.log(self.expElogbeta)
2018-07-31 18:06:35,998 : INFO : merging changes from 5000 documents into a model of 10617 documents
2018-07-31 18:06:36,236 : INFO : topic #54 (0.005): 0.051*"bundesrat" + 0.015*"der" + 0.011*"entwicklungsländer" + 0.009*"einbeziehen" + 0.009*"gabriel" + 0.009*"uno" + 0.008*"türkei" + 0.008*"sie" + 0.008*"energiewende" + 0.007*"sprechen"
2018-07-31 18:06:36,240 : INFO : topic #184 (0.005): 0.033*"jäger" + 0.032*"jagd" + 0.016*"pestizid" + 0.012*"sie" + 0.012*"konventionell" + 0.011*"finden" + 0.011*"hase" + 0.010*"möhre" + 0.009*"schießen" + 0.009*"pestizidrückstände"
2018-07-31 18:06:36,245 : INFO : topic #167 (0.006): 0.013*"prozent" + 0.010*"produkt" + 0.010*"jahr" + 0.010*"der" + 0.008*"das" + 0.007*"hoch" + 0.007*"preisen" + 0.006*"euro" + 0.006*"deutschland" + 0.005*"verbraucher"
2018-07-31 18:06:36,252 : INFO : topic #174 (0.006): 0.014*"sie" + 0.011*"jahr" + 0.009*"das" + 0.008*"land" + 0.007*"mensch" + 0.007*"und" + 0.006*"leben" + 0.006*"mei

2018-07-31 18:07:19,979 : INFO : topic #54 (0.005): 0.409*"bundesrat" + 0.072*"energiewende" + 0.061*"einbeziehen" + 0.039*"nordosten" + 0.016*"schweiz" + 0.015*"ablehnen" + 0.013*"kurze" + 0.013*"weit" + 0.012*"der" + 0.008*"analysieren"
2018-07-31 18:07:19,981 : INFO : topic #143 (0.005): 0.127*"tschernobyl" + 0.093*"redaktion" + 0.084*"optisch" + 0.078*"gerücht" + 0.074*"beschweren" + 0.046*"botschaft" + 0.043*"glaubwürdigkeit" + 0.036*"limonade" + 0.034*"halbieren" + 0.029*"unerwartet"
2018-07-31 18:07:19,983 : INFO : topic #185 (0.007): 0.030*"sie" + 0.016*"das" + 0.012*"und" + 0.009*"aber" + 0.008*"mensch" + 0.007*"wir" + 0.007*"der" + 0.007*"wenn" + 0.006*"ich" + 0.005*"wie"
2018-07-31 18:07:19,987 : INFO : topic #174 (0.008): 0.012*"land" + 0.011*"jahr" + 0.009*"sie" + 0.009*"mensch" + 0.008*"das" + 0.008*"und" + 0.007*"leben" + 0.007*"mein" + 0.006*"geld" + 0.005*"der"
2018-07-31 18:07:19,990 : INFO : topic #53 (0.008): 0.011*"das" + 0.009*"der" + 0.009*"jahr" + 0.007*"und" + 

2018-07-31 18:07:51,596 : INFO : topic #185 (0.009): 0.019*"sie" + 0.016*"und" + 0.015*"das" + 0.009*"mensch" + 0.009*"aber" + 0.007*"wenn" + 0.007*"wir" + 0.006*"der" + 0.006*"herr" + 0.006*"ich"
2018-07-31 18:07:51,599 : INFO : topic #174 (0.010): 0.016*"land" + 0.014*"mensch" + 0.011*"geld" + 0.009*"und" + 0.008*"jahr" + 0.008*"leben" + 0.008*"mein" + 0.007*"gesellschaft" + 0.006*"das" + 0.006*"welt"
2018-07-31 18:07:51,602 : INFO : topic #53 (0.010): 0.009*"und" + 0.008*"der" + 0.008*"jahr" + 0.008*"das" + 0.005*"stehen" + 0.005*"mensch" + 0.004*"lassen" + 0.004*"frage" + 0.004*"leben" + 0.004*"stellen"
2018-07-31 18:07:51,610 : INFO : topic diff=inf, rho=1.000000
2018-07-31 18:08:00,117 : INFO : Epoch 1: perplexity estimate: 1140.3464657352563
2018-07-31 18:08:00,372 : INFO : PROGRESS: pass 2, at document #5000/10617
2018-07-31 18:08:25,353 : INFO : optimized alpha [0.0074923476, 0.007241261, 0.0063149636, 0.005755445, 0.005404001, 0.00582669, 0.0062187053, 0.007221409, 0.00659066

2018-07-31 18:08:52,098 : INFO : topic #53 (0.015): 0.008*"der" + 0.008*"das" + 0.008*"jahr" + 0.007*"und" + 0.005*"stehen" + 0.005*"mensch" + 0.005*"lassen" + 0.004*"zeit" + 0.004*"stellen" + 0.004*"leben"
2018-07-31 18:08:52,109 : INFO : topic diff=inf, rho=1.000000
2018-07-31 18:08:52,238 : INFO : PROGRESS: pass 2, at document #10617/10617
2018-07-31 18:08:54,703 : INFO : optimized alpha [0.00855396, 0.008355799, 0.0070931786, 0.006167404, 0.0057858042, 0.0064144796, 0.006949404, 0.008409561, 0.0074758036, 0.0068686847, 0.006782752, 0.006158891, 0.0062552453, 0.007935883, 0.00989186, 0.008099611, 0.0094404705, 0.006039686, 0.0071925693, 0.0065468815, 0.006709709, 0.009220731, 0.0056843115, 0.0071359393, 0.008068217, 0.007603325, 0.006053337, 0.007000491, 0.0060041747, 0.0064817346, 0.008736834, 0.006217833, 0.0071000424, 0.011127566, 0.008418716, 0.01013086, 0.010365051, 0.006524547, 0.008858853, 0.006621553, 0.010319731, 0.006154396, 0.0068987007, 0.007015854, 0.007599683, 0.005722