In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [2]:
poems = pd.read_csv('./data/best_164443.csv')

In [3]:
print(poems.shape)
poems.head()

(164443, 2)


Unnamed: 0,author,text
0,Марина Копсергенова,\r\nДетки мои Живите неспеша чтоб пела ...
1,Владислав Иванов 13,Каждый по своему проводит свою ночь\r\nКто спи...
2,Лия Эль,Нежно так я словами касался предплечий\r\nИх ...
3,Елена Кедровая Шишка,Ты как всегда меня поймешь\r\nИ как всегда ...
4,Леонид Хегай,Укусить бы кого нибудь больно\r\nиль повыть п...


In [4]:
display(poems['text'][42])
print(poems['text'][42])

'Рубить деревья не растить\r\nЛомать  конечно же  не строить\r\nКто не умеет с честью жить\r\nТот райских кущ святых не стоит'

Рубить деревья не растить
Ломать  конечно же  не строить
Кто не умеет с честью жить
Тот райских кущ святых не стоит


In [5]:
from nltk.corpus import stopwords
stop_words = stopwords.words('russian')
print(stop_words[0:5], len(stop_words))

['и', 'в', 'во', 'не', 'что'] 151


In [6]:
%%time
tfidf = TfidfVectorizer(stop_words=stop_words, min_df=50)
X_trf = tfidf.fit_transform(poems['text'])
tf_feature_names = tfidf.get_feature_names()
print(X_trf.shape)

(164443, 23252)
Wall time: 17.4 s


In [7]:
no_topics = 20
lda = LatentDirichletAllocation(n_topics=no_topics, 
                                max_iter=5,
                                learning_method='online', 
                                learning_offset=50.,
                                random_state=42,
                                verbose = 1)
lda.fit(X_trf)



iteration: 1 of max_iter: 5
iteration: 2 of max_iter: 5
iteration: 3 of max_iter: 5
iteration: 4 of max_iter: 5
iteration: 5 of max_iter: 5


LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
             evaluate_every=-1, learning_decay=0.7,
             learning_method='online', learning_offset=50.0,
             max_doc_update_iter=100, max_iter=5, mean_change_tol=0.001,
             n_components=10, n_jobs=1, n_topics=20, perp_tol=0.1,
             random_state=42, topic_word_prior=None,
             total_samples=1000000.0, verbose=1)

In [8]:
# top words for topic 
no_top_words = 10
for topic_idx, topic in enumerate(lda.components_):
    print('\nTopic %d:' % (topic_idx))
    print(' '.join([tf_feature_names[i] for i in topic.argsort()[:-no_top_words - 1:-1]]))


Topic 0:
снегами цветной рога ссоре дурь ярости теплота опоры богини пылу

Topic 1:
россии народ россия россию президент сша путин русская стране народа

Topic 2:
иллюстрация стихам творя корабле болеет сливаются помолчать чернота сменив осуждай

Topic 3:
наперёд звеня умеют споры сыр вправе скользя цветочки лапой адам

Topic 4:
петербург санкт водопад оценит чарующий жаркие ду мглы перепутье табу

Topic 5:
собчак ку морозе чу мышки взлетаю соло закрома ве длань

Topic 6:
царица глубина обеду желанна строчке полынь спрячу монах радостной бездарно

Topic 7:
the and you to in of my is it me

Topic 8:
що ти як бо ми та мене це вже коли

Topic 9:
всё это лишь тебе нам жизнь жизни любовь пусть сердце

Topic 10:
марта кошка кот старик рожденья стоял луне улицы пел ноябрь

Topic 11:
режут смеёшься тревожный агонии домашний ассоль наваждение тошнит бесконечен новогодняя

Topic 12:
пушистый рубаи бальзам радуют приемлю нелюбовь задумчиво хайяма блещет порох

Topic 13:
взлёт делили што растворя