In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF
from sklearn.decomposition import LatentDirichletAllocation
import numpy as np
from textblob_de import TextBlobDE as TextBlob
import gensim
from gensim import corpora
from pprint import pprint



In [2]:
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic {}:".format(topic_idx))
        print(", ".join([feature_names[i]
                        for i in topic.argsort()[:-no_top_words - 1:-1]]))

In [3]:
s = open("C:/Users/1/Desktop/de.txt", "r", encoding="utf-8")
s = s.read()
if "\xad" in s:
    s = s.replace("\xad", "")
documents = s.split("\n\n \n\n")

In [4]:
print("Text collection size and median length in symbols:")
print(len(documents), np.median([len(d) for d in documents]))

Text collection size and median length in symbols:
1439 8027.0


In [5]:
from nltk.corpus import stopwords
stop_words = stopwords.words("german")

In [7]:
stop_words.append("sollen")
stop_words.append("müssen")
stop_words.append("dass")

In [8]:
documents_preprocessed = []
for doc in documents:
    blob = TextBlob(doc)
    words_lem = blob.words.lemmatize()
    doc_new = []
    for word in words_lem:
        word = word.lower()
        if word not in stop_words:
            doc_new.append(word)
    doc_new = " ".join(doc_new)
    documents_preprocessed.append(doc_new)

In [9]:
documents_preprocessed[0]

'frau präsidentin gut wort danke herz namen ganz familie herr bundespräsident erst gedanke gelten heuen übernehmen aufgabe schw erfüllend zugleich bewährt erfahrung nüchternem sinn witz herz mut ans werk gehen all zugute kommen mögen amtes kraft weisheit walten mögen glück segen geleiten herzlich wünsch gelten weniger frau ja miterlebt bedeuten frau präsidenten später vielleicht mann bundespräsidentin verfassung sozusagen gar vorsehen dennoch inner verpflichtung amt empfindet bereitwillig tragen weniger spektakulär dafür zuweilen entsagungsreicher ganz gewiss genauso verantwortungsvoll hilfsbereit gegenüber all hoffnungen zuletzt setzen niemand lande helfen wussen frau dafüren tief dank schulde gar genügend abtragen mögen verehrte frau herzog vertrauens versichern manne entgegenbringen beim wechsel stafette schaut zurück voraus zuvor mögen dank unvergesslich fülle dichte menschlich zuwendung abstatten gedenke quelle trinken sagte alt china quelle amtes menschen denen begegnen wähler po

In [31]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.8,
                                   min_df=5)
tfidf = tfidf_vectorizer.fit_transform(documents_preprocessed)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

In [40]:
n_topics = 15
nmf = NMF(n_topics)
nmf_doc_topic = nmf.fit_transform(tfidf)
print("NMF doc-topic shape:", nmf_doc_topic.shape)

NMF doc-topic shape: (1439, 15)


In [33]:
tf_vectorizer = CountVectorizer(max_df=0.8,
                                min_df=5)
tf = tf_vectorizer.fit_transform(documents_preprocessed)
tf_feature_names = tf_vectorizer.get_feature_names()

In [41]:
lda = LatentDirichletAllocation(n_topics)
lda_doc_topic = lda.fit_transform(tf)
print("LDA doc-topic shape:", lda_doc_topic.shape)



LDA doc-topic shape: (1439, 15)


In [42]:
no_top_words = 10
print('\nNMF top terms:')
display_topics(nmf, tfidf_feature_names, no_top_words)
print('\nLDA top terms:')
display_topics(lda, tf_feature_names, no_top_words)


NMF top terms:
Topic 0:
kirche, christ, kirchen, evangelisch, christlich, welt, kirchentag, glauben, leben, religion
Topic 1:
europäisch, europa, union, europas, gemeinsam, verfassung, mitgliedstaaten, national, europäer, mitgliedsstaaten
Topic 2:
unternehmen, sozial, neu, wirtschaft, brauchen, gewerkschaft, arbeitsplätze, wirtschaftlich, globalisierung, prozent
Topic 3:
afrika, afrikanisch, afrikas, köhler, partnerschaft, kontinent, afrikaner, armut, horst, korruption
Topic 4:
sport, fussball, lieb, herzlich, frau, herr, lorbeerblatt, engagement, ehrenamtlich, sportlich
Topic 5:
schulen, kinder, schule, bildung, lehrer, schüler, eltern, jung, lernen, brauchen
Topic 6:
polen, polnisch, nachbar, polens, gemeinsam, europa, deutschen, geschichte, warschau, nachbarschaft
Topic 7:
wissenschaft, forschung, wissenschaftlich, hochschulen, wissenschaftler, akademie, universität, gesellschaft, universitäten, wissenschaftsrat
Topic 8:
jüdisch, jude, israel, spiegel, israelisch, gemeinde, paul, l