In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt 

# Read data 

In [2]:
data = pd.read_json('classic_poems.json', encoding='utf-8')
print(data.shape)
display(data.head())

(2496, 3)


Unnamed: 0,content,poet_id,title
0,Pourquoi craindrais-j'e de ie dire?\nC'est Mar...,pushkin,К Наталье
1,"Песнь первая\nСвятой монах, грехопадение, юбка...",pushkin,Монах
2,Внук Тредьяковского Клит гекзаметром песенки п...,pushkin,Несчастие клита
3,Арист! и ты в толпе служителей Парнасса!\nТы х...,pushkin,К другу стихотворцу
4,(Фингал послал Тоскара воздвигнуть на берегах ...,pushkin,Кольна (Подражание Occèану)


### Prepare data 

In [3]:
import re
def clean_txt(s):
    s = re.sub('\n', ' ', s)
    s = re.sub('\d', '', s)
    s = re.sub('[^\w\s]', '', s)
    s = re.sub('\W+', ' ', s)
    s = s.lower()
    return s

data['content'] = data['content'].apply(clean_txt)

### Fit tfidf

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer

#from nltk.corpus import stopwords
#import nltk
#nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\dvdenis\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [7]:
tfidf = TfidfVectorizer(min_df=25, stop_words=stopwords.words('russian'))
X_tfidf = tfidf.fit_transform(data['content'])

In [8]:
print(X_tfidf.shape)

(2496, 1011)


In [9]:
tfidf.vocabulary_

{'птица': 677,
 'сердце': 757,
 'счастья': 872,
 'время': 138,
 'любви': 428,
 'иль': 346,
 'любезный': 429,
 'напрасно': 509,
 'увы': 938,
 'ума': 951,
 'всё': 146,
 'видел': 102,
 'тобою': 912,
 'первый': 597,
 'целый': 975,
 'день': 230,
 'лишь': 415,
 'ночь': 555,
 'придет': 658,
 'вижу': 108,
 'милая': 457,
 'мной': 471,
 'белой': 10,
 'груди': 205,
 'снег': 810,
 'очи': 592,
 'мрак': 493,
 'ночи': 553,
 'дух': 267,
 'восторг': 132,
 'нею': 540,
 'вкруг': 112,
 'вздох': 97,
 'глубокой': 167,
 'сон': 823,
 'страсть': 854,
 'любовью': 436,
 'час': 976,
 'ум': 950,
 'чему': 981,
 'никто': 542,
 'слух': 793,
 'скажет': 769,
 'это': 1005,
 'вечер': 89,
 'всюду': 144,
 'тень': 901,
 'руку': 716,
 'взором': 99,
 'легкой': 400,
 'рукою': 715,
 'грудь': 206,
 'моря': 491,
 'всей': 139,
 'надежды': 505,
 'знаешь': 328,
 'твой': 889,
 'нежный': 533,
 'люблю': 434,
 'гром': 204,
 'моей': 478,
 'руки': 713,
 'стены': 839,
 'вечный': 94,
 'песнь': 602,
 'святой': 749,
 'хочу': 968,
 'певец': 59

### LDA

In [10]:
from sklearn.decomposition import LatentDirichletAllocation

In [13]:
LDA = LatentDirichletAllocation(n_components=50, max_iter=25, n_jobs=-1, verbose=1, random_state=42)
LDA.fit(X_tfidf)



iteration: 1 of max_iter: 25
iteration: 2 of max_iter: 25
iteration: 3 of max_iter: 25
iteration: 4 of max_iter: 25
iteration: 5 of max_iter: 25
iteration: 6 of max_iter: 25
iteration: 7 of max_iter: 25
iteration: 8 of max_iter: 25
iteration: 9 of max_iter: 25
iteration: 10 of max_iter: 25
iteration: 11 of max_iter: 25
iteration: 12 of max_iter: 25
iteration: 13 of max_iter: 25
iteration: 14 of max_iter: 25
iteration: 15 of max_iter: 25
iteration: 16 of max_iter: 25
iteration: 17 of max_iter: 25
iteration: 18 of max_iter: 25
iteration: 19 of max_iter: 25
iteration: 20 of max_iter: 25
iteration: 21 of max_iter: 25
iteration: 22 of max_iter: 25
iteration: 23 of max_iter: 25
iteration: 24 of max_iter: 25
iteration: 25 of max_iter: 25


LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
             evaluate_every=-1, learning_decay=0.7, learning_method=None,
             learning_offset=10.0, max_doc_update_iter=100, max_iter=25,
             mean_change_tol=0.001, n_components=50, n_jobs=-1,
             n_topics=None, perp_tol=0.1, random_state=42,
             topic_word_prior=None, total_samples=1000000.0, verbose=1)

In [14]:
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("\nTopic %d:" % (topic_idx))
        print(" ".join([feature_names[i] for i in topic.argsort()[:-no_top_words - 1:-1]]))

no_top_words = 10
display_topics(LDA, list(tfidf.vocabulary_.keys()), no_top_words)


Topic 0:
луна дом живет пал знает память нею двух сияет ваш

Topic 1:
крылья стих навстречу солнца волос какие видеть рок глядит ответ

Topic 2:
тебе миром конец другая полна моря сила роковой ними глубоко

Topic 3:
ушла сумерки головой гонит некогда водой память сумрак пускай боже

Topic 4:
красоты молодой кем бой полей страх близок конец душу это

Topic 5:
воды праздник ужели бог поздно часы откуда жаль век дум

Topic 6:
грозный несет казалось розы мгле удел ложь луч искал вода

Topic 7:
кудри тенью небесной душу пора тени всей честь дружбы кипит

Topic 8:
свете лик мимо мою глядят певец кем друга милая покров

Topic 9:
смотрит город дух всем дорогу той полно друзей молодых несчастный

Topic 10:
мир нему новой других бездной видишь веселый ищет деле русь

Topic 11:
юности любил иль след ушла хочу отец счастлив веет рано

Topic 12:
меж светла судьбы свои сумерки даль пока сказал груди стих

Topic 13:
сумрак рано счастлив небо вод других стан добрый лиру жил

Topic 14:
тоска всюду сле