In [7]:
from stop_words import get_stop_words
import os

In [8]:
stop_words = get_stop_words('ru')
for word in ['свой', 'р', 'г', 'назир', 'назиров', 'б']:
    stop_words.append(word)

In [9]:
documents = []

for d, dirs, files in os.walk('lemma_texts'):
    for f in files:
        text = open(os.path.join('.', d, f), 'r', encoding='utf-8').read()
        documents.append(text.replace('\n', ' ').replace('?', ''))

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation

In [12]:
# no_features = 1000

tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words=stop_words)
tfidf = tfidf_vectorizer.fit_transform(documents)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

In [13]:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, stop_words=stop_words)
tf = tf_vectorizer.fit_transform(documents)
tf_feature_names = tf_vectorizer.get_feature_names()

In [14]:
no_topics = 4
# diary, dostoevsky, literature, myth

# NMF
nmf = NMF(n_components=no_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf)

In [15]:
# LDA
lda = LatentDirichletAllocation(n_topics=no_topics, max_iter=5, learning_method='online', learning_offset=50., random_state=0).fit(tf)



In [19]:
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic %d:" % (topic_idx))
        print(" ".join([feature_names[i] for i in topic.argsort()[:-no_top_words - 1:-1]]))
    print()
    
no_top_words = 10
display_topics(nmf, tfidf_feature_names, no_top_words)
display_topics(lda, tf_feature_names, no_top_words)

Topic 0:
достоевский раскольников князь читатель писатель ставрогин преступление автор идея творчество
Topic 1:
миф сказка бог религия древний мифология обряд сюжет череп земля
Topic 2:
хрущев цк советский сша партия ссср москва октябрь фильм президент
Topic 3:
печорин онегин тургенев усадебный лермонтов сюжет пушкин обломов ленский усадьба

Topic 0:
достоевский советский война хрущев фрейд американский сша москва октябрь писатель
Topic 1:
достоевский миф бог сюжет князь идея пушкин любовь земля древний
Topic 2:
миф бог достоевский сюжет религия древний эпоха сказка легенда земля
Topic 3:
достоевский миф сюжет бог любовь сказка князь эпоха автор пушкин

