In [74]:
import os

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation

with open('ru_stop_words_with_names.txt', encoding='utf-8') as f:
    STOPWORDS = f.read().split()

In [None]:
# ФРАНЦУЗСКИЕ ТОПИКИ

dir = 'fr_corpus_POS_tagged'
filepaths = []

for i in os.listdir(dir):
    filepaths.append(os.path.join(dir, i))  

fr_corpus = []
fr_tokens = []

for filepath in filepaths:
    with open(filepath, encoding='utf-8') as f:
        dialogues = f.read().split('\n')
        for dialogue in dialogues:
            dialogue = dialogue.split()
            dialogue_nouns = []
            for word in dialogue:
                word = word.split('_')
                if word[1] == 'NOUN':
                    dialogue_nouns.append(word[0])
            if dialogue_nouns:
                fr_tokens.extend(dialogue_nouns)
                dialogue_nouns = ' '.join(dialogue_nouns)
                fr_corpus.append(dialogue_nouns)

fr_lemmata = set(fr_tokens)
print(f'Количество токенов: {len(fr_tokens)}')
print(f'Количество лемм: {len(fr_lemmata)}')
print(f'Количество документов в корпусе: {len(fr_corpus)}')

In [None]:
# РУССКИЕ ТОПИКИ

dir = 'rus_corpus_POS_tagged'
filepaths = []

for i in os.listdir(dir):
    filepaths.append(os.path.join(dir, i))  

rus_corpus = []
rus_tokens = []

for filepath in filepaths:
    with open(filepath, encoding='utf-8') as f:
        dialogues = f.read().split('\n')
        for dialogue in dialogues:
            dialogue = dialogue.split()
            dialogue_nouns = []
            for word in dialogue:
                word = word.split('_')
                if word[1] == 'NOUN':
                    dialogue_nouns.append(word[0])
            if dialogue_nouns:
                rus_tokens.extend(dialogue_nouns)
                dialogue_nouns = ' '.join(dialogue_nouns)
                rus_corpus.append(dialogue_nouns)

rus_lemmata = set(rus_tokens)
print(f'Количество токенов: {len(rus_tokens)}')
print(f'Количество лемм: {len(rus_lemmata)}')
print(f'Количество документов в корпусе: {len(rus_corpus)}')

In [96]:
# РУССКИЕ ТОПИКИ БЕЗ POS tag

dir = 'rus_corpus_POS_tagged'
filepaths = []

for i in os.listdir(dir):
    filepaths.append(os.path.join(dir, i))  

rus_corpus = []
rus_tokens = []
stop_word_count = 0
stop_words_found = []

for filepath in filepaths:
    with open(filepath, encoding='utf-8') as f:
        dialogues = f.read().split('\n')
        for dialogue in dialogues:
            dialogue = dialogue.split()
            dialogue_cleaned = []
            for word in dialogue:
                if word.split('_')[0] not in STOPWORDS:
                    dialogue_cleaned.append(word)
                else:
                    stop_word_count += 1
                    stop_words_found.append(word.split('_')[0])
            rus_tokens.extend(dialogue_cleaned)
            dialogue_cleaned = ' '.join(dialogue_cleaned)
            rus_corpus.append(dialogue_cleaned)
                
rus_lemmata = set(rus_tokens)
print(f'Количество токенов: {len(rus_tokens)}')
print(f'Количество лемм: {len(rus_lemmata)}')
print(f'Количество документов в корпусе: {len(rus_corpus)}')
print(f'Количество стоп-слов: {stop_word_count}')
for i in range(10):
    print(random.choice(stop_words_found))

Количество токенов: 60592
Количество лемм: 11353
Количество документов в корпусе: 6442
Количество стоп-слов: 52698
не
он
отвечать
за
и
говорить
чтò
и
что
но


In [83]:
# ФРАНЦУЗСКИЕ ТОПИКИ БЕЗ POS tag

dir = 'fr_corpus_POS_tagged'
filepaths = []

for i in os.listdir(dir):
    filepaths.append(os.path.join(dir, i))  

fr_corpus = []
fr_tokens = []
stop_word_count = 0

for filepath in filepaths:
    with open(filepath, encoding='utf-8') as f:
        dialogues = f.read().split('\n')
        for dialogue in dialogues:
            dialogue = dialogue.split()
            dialogue_cleaned = []
            for word in dialogue:
                if word.split('_')[0] not in STOPWORDS:
                    dialogue_cleaned.append(word)
                else:
                    stop_word_count += 1
            fr_tokens.extend(dialogue_cleaned)
            dialogue_cleaned = ' '.join(dialogue_cleaned)
            fr_corpus.append(dialogue_cleaned)
                
fr_lemmata = set(fr_tokens)
print(f'Количество токенов: {len(fr_tokens)}')
print(f'Количество лемм: {len(fr_lemmata)}')
print(f'Количество документов в корпусе: {len(fr_corpus)}')
print(f'Количество стоп-слов: {stop_word_count}')

Количество токенов: 5193
Количество лемм: 2352
Количество документов в корпусе: 1027
Количество стоп-слов: 3736


In [None]:
corpus = fr_corpus + rus_corpus
tokens = fr_tokens + rus_tokens
lemmata = set.union(fr_lemmata, rus_lemmata)

print(f'Количество токенов: {len(tokens)}')
print(f'Количество лемм: {len(lemmata)}')
print(f'Количество документов в корпусе: {len(corpus)}')

In [63]:
import random

print(fr_corpus[:10])
for i in range(10):
    pass
    print(random.choice(fr_tokens))

['надо_PRED выдумать_INFN', 'завтра_ADVB милый_ADJF', 'бояться_VERB ангел_NOUN', 'господин_NOUN посольство_NOUN', 'самый_ADJF замечательный_ADJF женщина_NOUN петербург_NOUN', 'серьёзно_ADVB', 'паж_NOUN', 'синить_VERB чулок_NOUN', 'жена_NOUN', 'вполне_ADVB порядочно_ADVB']
молодой_ADJF
вена_NOUN
ж_CONJ
свойственно_ADVB
презирать_VERB
королева_NOUN
взять_VERB
корабль_NOUN
мимолётность_NOUN
каков_ADJS


In [75]:
no_features = 2300
no_topics = 10

tfidf_vectorizer = TfidfVectorizer(
    max_df=0.9,
    # min_df=3, 
    # stop_words=STOPWORDS, 
    max_features=no_features
)
data_tfidf_vectorized = tfidf_vectorizer.fit_transform(fr_corpus)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()


nmf = NMF(n_components=no_topics, 
          random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd'
          )
nmf_tfidf_model = nmf.fit(data_tfidf_vectorized)
print(nmf_tfidf_model.transform(data_tfidf_vectorized).shape)

TypeError: __init__() got an unexpected keyword argument 'alpha'

In [80]:
no_features = 11000
no_topics = 10

tfidf_vectorizer = TfidfVectorizer(
    max_df=0.9,
    # min_df=3, 
    # stop_words=STOPWORDS, 
    max_features=no_features
)
data_tfidf_vectorized = tfidf_vectorizer.fit_transform(rus_corpus)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()


nmf = LatentDirichletAllocation(n_components=no_topics, 
          random_state=1,
          )
nmf_tfidf_model = nmf.fit(data_tfidf_vectorized)
print(nmf_tfidf_model.transform(data_tfidf_vectorized).shape)

(6442, 10)


In [None]:
def print_topics(model, feature_names, top_n=10):
    for topic_idx, topic in enumerate(model.components_):
            print("Topic %d:" % (topic_idx))
            print(" ".join([feature_names[i] for i in topic.argsort()[:-top_n - 1:-1]]))

In [48]:
def print_topics(model, feature_names, top_n=50):
    for topic_idx, topic in enumerate(model.components_):
        print(f'Topic {topic_idx}')
        feature_list = [feature_names[i] for i in topic.argsort()[:-top_n - 1:-1]]
        output = [x.split('_')[0] for x in feature_list if x.split('_')[1] == 'noun'][:10]
        print(' '.join(output))

In [69]:
print_topics(nmf_tfidf_model, tfidf_feature_names)

Topic 0
княжна время герой вера матушка героизм сомнение вид особа здоровье
Topic 1
величество резерв высокоблагородие император семейство жизнь сын мнение высочество заряд
Topic 2
друг здоровье интерес молодец покров полчаса мужчина удар богиня ножка
Topic 3
император король свет наполеон александр господин герцог австриец кузина князь
Topic 4
дружок мужчина истина история испанец источник камень казак кавалерист кавалер
Topic 5
человек достоинство князь ум господин молодая великое сын граф доктор
Topic 6
батюшка истина испанец история кабинет камень казак кавалерист кавалер итти
Topic 7
государь брат герцог приём сомнение дело император отсутствие париж величество
Topic 8
женщина петербург вино перл подруга мужчина княжна кавалерист кавалер кабинет
Topic 9
бог слово князь поход молитва повышение история истина источник итальянец


In [70]:
import pyLDAvis
import pyLDAvis.sklearn
pyLDAvis.enable_notebook()

In [81]:
fr_visualization = pyLDAvis.sklearn.prepare(nmf_tfidf_model, data_tfidf_vectorized, tfidf_vectorizer)
pyLDAvis.save_html(fr_visualization, 'rus_visualization.html')


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  return pd.concat([default_term_info] + list(topic_dfs))
