## Домашнее задание

Основаная задача - **построить хорошую тематическую модель с интерпретируемыми топиками с помощью LDA в gensim и NMF в sklearn**.


1) сделайте нормализацию (если pymorphy2 работает долго используйте mystem или попробуйте установить быструю версию - `pip install pymorphy2[fast]`, можно использовать какой-то другой токенизатор); 

2) добавьте нграммы (в тетрадке есть закомменченая ячейка с Phrases,  можно также попробовать другие способы построить нграммы); 

3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова); 

4) постройте несколько LDA моделей (переберите количество тем, можете поменять eta, alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем; 

5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы;

6) между словарем и обучением модели добавьте tfidf (`gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]`);

7) повторите пункт 4 на преобразованном корпусе;

8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

10) в отдельной ячейки напечатайте таблицу с темами лучшей NMF модели, сравните их с теми, что получились в LDA.

Сохраните тетрадку с экспериментами и положите её на гитхаб, ссылку на неё укажите в форме.

**Оцениваться будут главным образом пункты 5, 8 и 10. (2, 3, 2 баллов соответственно). Чтобы заработать остальные 3 балла, нужно хотя бы немного изменить мой код на промежуточных этапах (добавить что-то, указать другие параметры и т.д). **

In [1]:
import gensim
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
import pyLDAvis.gensim
import string
from collections import Counter
import warnings
warnings.filterwarnings("ignore")

morph = MorphAnalyzer()

## Данные

In [2]:
stops = set(stopwords.words('russian')) | {'gt',} | set(stopwords.words('english'))
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

def normalize(words):
    norm_words = [morph.parse(word)[0].normal_form for word in words if len(set(word)) > 1]
    return norm_words

def opt_normalize(texts, top=None):
    uniq = Counter()
    for text in texts:
        uniq.update(text)
    
    norm_uniq = {word:morph.parse(word)[0].normal_form for word, _ in uniq.most_common(top)}
    
    norm_texts = []
    for text in texts:
        
        norm_words = [norm_uniq.get(word) for word in text]
        norm_words = [word for word in norm_words if word and word not in stops]
        norm_texts.append(norm_words)
        
    return norm_texts

def tokenize(text):
    words = [word.strip(string.punctuation) for word in text.split()]
    words = [word for word in words if word]
    
    return words

Возьмем 4 тыс статьи с Хабра. Это мало для хорошей тематической модели, но иначе у нас просто ничего не обучится за семинар.

В текстах есть тэги. Потрем их. Ещё токенизируем самым простым способом и нормализуем Pymorphy.

In [3]:
%%time
texts = open('habr_texts.txt').read().splitlines()
texts = [tokenize(remove_tags(text.lower())) for text in texts]

CPU times: user 4.23 s, sys: 524 ms, total: 4.76 s
Wall time: 5.48 s


In [4]:
%%time
texts = open('habr_texts.txt').read().splitlines()
texts = [normalize(tokenize(text.lower())) for text in texts]

CPU times: user 25min 48s, sys: 1.5 s, total: 25min 50s
Wall time: 30min 30s


In [5]:
%%time
texts = open('habr_texts.txt').read().splitlines()
texts = opt_normalize([tokenize(remove_tags(text.lower())) for text in texts], 30000)

CPU times: user 17.9 s, sys: 460 ms, total: 18.3 s
Wall time: 22.1 s


In [6]:
# для нграммов
ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
p = gensim.models.phrases.Phraser(ph)
ngrammed_texts = p[texts]

### Тематическое моделирование в gensim

Для моделей нужно сделать словарь.

In [6]:
dictinary = gensim.corpora.Dictionary(texts)

In [7]:
dictinary.filter_extremes(no_above=0.3)
dictinary.compactify()

In [8]:
print(dictinary)

Dictionary(12138 unique tokens: ['2-х', '3.0', 'address', 'api', 'architecture']...)


Преобразуем наши тексты в мешки слов. 

In [9]:
corpus = [dictinary.doc2bow(text) for text in texts]
# если текстов много, то тут может быть генератор

In [11]:
?gensim.models.LdaMulticore

In [None]:
%%time
lda = gensim.models.LdaMulticore(corpus, 100, id2word=dictinary, passes=5, eta='auto', iterations=10) # если поддерживается многопоточность
# lsi = gensim.models.LdaModel(200, id2word=dictinary, passes=5)

In [10]:
def lda_mod(texts,
        no_above=0.3,
        ngrams=True,
        tfidf=False,
        passes=5,
        eta='auto', 
        iterations=10, 
        num_topics=100):
    if ngrams:
        ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
        p = gensim.models.phrases.Phraser(ph)
        texts = p[texts]
    dictionary = gensim.corpora.Dictionary(texts)
    dictionary.filter_extremes(no_above=no_above)
    dictionary.compactify()
    
    corpus = [dictionary.doc2bow(text) for text in texts]
    if tfidf:
        tfidf = gensim.models.TfidfModel(corpus, id2word=dictionary)
        corpus = tfidf[corpus]
    lda_model = gensim.models.LdaModel(corpus=corpus, 
                                       id2word=dictionary,
                                       num_topics=num_topics,
                                       random_state=55,
                                       passes=passes,
                                       eta=eta, 
                                       iterations=iterations)
    return lda_model

In [12]:
%%time
lda_model = lda_mod(texts)

CPU times: user 3min 46s, sys: 2min 35s, total: 6min 22s
Wall time: 4min 10s


Посмотрим на топики.

In [13]:
lda_model.print_topics()

[(77,
  '0.090*"игра" + 0.032*"игрок" + 0.015*"играть" + 0.011*"игровой" + 0.009*"понять" + 0.007*"исследование" + 0.005*"дизайнер" + 0.005*"понимать" + 0.004*"почему" + 0.004*"что-то"'),
 (48,
  '0.032*"товар" + 0.014*"автор" + 0.013*"машина" + 0.013*"скидка" + 0.013*"аккумулятор" + 0.011*"день" + 0.011*"ключ" + 0.010*"apple" + 0.010*"зарядка" + 0.009*"автомобиль"'),
 (51,
  '0.029*"игрок" + 0.016*"удача" + 0.011*"игра" + 0.009*"видео" + 0.009*"очки" + 0.009*"автомат" + 0.008*"её" + 0.007*"корея" + 0.007*"вероятность" + 0.007*"костя"'),
 (37,
  '0.028*"прокси-сервер" + 0.020*"openmp" + 0.018*"cad" + 0.016*"squid" + 0.015*"docker_swarm" + 0.015*"parallel" + 0.014*"00_00" + 0.012*"microsoft_sql" + 0.011*"kubernetes" + 0.009*"распараллелить"'),
 (64,
  '0.006*"публикация" + 0.004*"мир" + 0.004*"действительно" + 0.004*"ресурс" + 0.003*"тема" + 0.003*"распространение" + 0.003*"месяц" + 0.003*"сообщество" + 0.003*"интерес" + 0.003*"день"'),
 (59,
  '0.102*"модуль" + 0.035*"ecto" + 0.034*"сп

плохо понятно, давайте сделаем таблицу!

In [14]:
import pandas as pd

In [15]:
res_bad = lda_model.print_topics()

res_good = []
for word in res_bad:
    res = re.findall('\*"(.*?)"', word[1])
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,firebase,сайт,устройство,цикл,планета,crm,инфраструктура,боль,игра,слово,доклад,ибп,viewport,модель,товар,new,публикация,двигатель,какой-то,дефект
1,индекс,сеть,раздел,значение,земля,crm-система,клиент,•,название,язык,конференция,blink,м2,сервер,автор,public,мир,спутник,что-то,ошибка
2,интеграция,страна,режим,параметр,слово,сообщать_тасс,инцидент,изменение,её,лицензия,рассказать,bmc,р,изменение,машина,return,действительно,космический,книга,программа
3,node.js,интернет,загрузка,вектор,программа,regionsoft_crm,доступ,определение,экран,язык_программирование,тема,xe,elastic,компонент,скидка,метод,ресурс,аппарат,вообще,вместо
4,выборка,продажа,выбрать,lt,луна,ит-специалист,правило,тело,движок,ui,мероприятие,выходной_напряжение,подтвердить_опровергнуть,клиент,аккумулятор,string,тема,причина,читать,сравнение
5,поисковый,клиент,файл,x,астероид,regionsoft,implicit,сопротивление,компьютер,библиотека,выступление,электропитание,метр,объект,день,,распространение,проверка,думать,значение
6,реализовать,трафик,флешек,элемент,pebble,sv,хост,происходить,лишь,платформа,фсб,дежурный,wallet,реализация,ключ,var,месяц,пуск,ничто,язык
7,mvp,южный_корея,перезагрузка,алгоритм,ide,рекрутер,управление,ситуация,интерфейс,свободный,спикер,электросеть,менеджер,выбор,apple,класс,сообщество,запуск,день,выражение
8,var,посетитель,выполнить,4,солнце,круге»,учётный_запись,наличие,карта,сайт,2017,напряжение,гуру,3d,зарядка,объект,интерес,орбита,заниматься,привести
9,объект,канал,база,скорость,планет,выглядеть_ужасно,требование,движение,редактор,облако,презентация,ipmi,торговый_марка,обновление,автомобиль,void,день,полёт,идея,оператор


Ещё есть штука для визуализации.

In [22]:
pyLDAvis.enable_notebook()

In [24]:
pyLDAvis.gensim.prepare(lda_model, corpus, dictinary)

Можно посмотреть метрики.

In [11]:
import numpy as np

In [None]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [None]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [None]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [None]:
coherence_model_lda.get_coherence()

### 3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова)

- стоп-слова для английского и русского уже убрали
- нужно удалить странные штуки с lt;
- убрать одиночные буквы
- убрать цифры
- убрать все, что на латинице, потому что вылезают части кода

In [16]:
import string
import re

In [17]:
punct = string.punctuation

In [20]:
texts_cl_eng = texts

In [19]:
eng_str = 'QWERTYUIOPASDFGHJKLZXCVBNMqwertyuiopasdfghjklzxcvbnm'

In [21]:
stops_y = set(['алтухов', 'большой', 'бы', 'быть', 'в', 'весь', 'вот', 'все', 'всей', 'вы','г', 'говорить', 'год', 'да', 'для', 'до', 'еще', 'же', 'знать', 'и', 'из', 'к', 'как', 'который', 'мочь', 'мы', 'на', 'наш', 'не', 'него', 'нее', 'нет', 'них', 'но', 'о', 'один', 'она', 'они', 'оно', 'оный', 'от', 'ото', 'по', 'с', 'свой', 'себя', 'сказать', 'та', 'такой', 'только', 'тот', 'ты', 'у', 'что', 'это', 'этот', 'я'])

In [22]:
stops_new = set(['что', 'это', 'как', 'бесплтно', 'бесплатно', 'безкоштовно', 'даром', 'free', 'бесплтно', 'руками', 'самостоятельно', 'самодельный', 'скачать', 'download', 'драйвер', 'прошивка', 'порно', 'порнушка', 'вконтакте', 'доклад', 'porn', 'porno', 'sex', 'форум', 'реферат', 'статья', 'блог', 'хитрости', 'уловки', 'хабр', 'хабра', 'хабрхабр', 'faq', 'инструкция', 'википедия', 'вики', 'wikipedia', 'wiki', 'схема', 'состав', 'способ', 'методы', 'технология', 'торрент', 'торент', 'torrent', 'torent', 'torents', 'torrents', 'сонник', 'приснилось', 'прикол', 'смешно', 'юмор', 'анекдот', 'эротика', 'эротический', 'аамир', 'аариф', 'аарон', 'аасим', 'абан', 'аббас', 'абд', 'абдула', 'абдулла', 'абдульазиз', 'абдульазым', 'абдульали', 'абдульалим', 'абдульбари', 'абдульбасыт', 'абдульвадуд', 'абдульвахаб', 'абдульвахид', 'абдульгафар', 'абдульгафур', 'абдульджабар', 'абдульджалиль', 'абдулькадир', 'абдулькарим', 'абдулькахар', 'абдулькудус', 'абдульлатыф', 'абдульмаджид', 'абдульматин', 'абдульмуджиб', 'абдульмуиз', 'абдульмуталь', 'абдульмухаймин', 'абдульфатах', 'абдульхади', 'абдульхакам', 'абдульхаким', 'абдульхакк', 'абдульхалик', 'абдульхалим', 'абдульхамид', 'абдульхасиб', 'абдульхафиз', 'абдуннасер', 'абдурразак', 'абдуррауф', 'абдуррафи', 'абдуррахим', 'абдуррахман', 'абдуррашид', 'абдуссабур', 'абдуссалям', 'абдуссамад', 'абдуссами', 'абдутавваб', 'абдущщакур', 'абидин', 'або', 'абрам', 'абраха', 'абу', 'абульхайр', 'ава', 'авад', 'авангард', 'авва', 'аввакум', 'авгей', 'авгий', 'август', 'августин', 'авда', 'авдей', 'авделай', 'авдиес', 'авдий', 'авдикий', 'авдифакс', 'авдон', 'авенир', 'авентин', 'аверкий', 'аверьян', 'авив', 'авид', 'авим', 'авксентий', 'авкт', 'авраам', 'аврам', 'авраша', 'аврелий', 'аврор', 'авсей', 'автолик', 'автомедон', 'автоном', 'авудим', 'авундий', 'агав', 'агавва', 'агамемнон', 'аганя', 'агап', 'агапий', 'агапит', 'агапон', 'агафангел', 'агафодор', 'агафон', 'агафоник', 'агафоника', 'агафопод', 'агафопус', 'агаша', 'аггей', 'агей', 'агелай', 'агенор', 'агзам', 'аглаий', 'агн', 'агрий', 'адад', 'адам', 'адиб', 'аднан', 'адольф', 'адонис', 'адриан', 'адыль', 'аетий', 'азадан', 'азам', 'азамат', 'азар', 'азарий', 'азат', 'аззам', 'азиз', 'азий', 'азхар', 'аид', 'аифал', 'айдар', 'айет', 'айман', 'айнур', 'айрат', 'айтуган', 'айюб', 'акакий', 'акаша', 'акепсий', 'акепсим', 'акила', 'аким', 'акиндин', 'акинфий', 'акрам', 'аксен', 'акустий', 'акутион', 'алан', 'алар', 'алвиан', 'алевтин', 'алей', 'александр', 'алексей', 'алексий', 'ален', 'алет', 'алехандро', 'алеша', 'али', 'алим', 'алимпий', 'алипий', 'алканой', 'алкимедон', 'алкиной', 'алкмеон', 'аллар', 'алмас', 'алон', 'алфей', 'альаббас', 'альберт', 'альбин', 'альварес', 'альфонс', 'альфред', 'аляуддин', 'амадей', 'амвросий', 'амджад', 'амин', 'амир', 'аммар', 'аммон', 'аммун', 'амон', 'амонит', 'амос', 'амплий', 'амр', 'амфиан', 'амфилохий', 'амфион', 'ананда', 'ананий', 'анас', 'анастас', 'анастасий', 'анатолий', 'анатом', 'анвар', 'ангел', 'ангелар', 'ангий', 'андрей', 'андремон', 'андриан', 'андромаха', 'андрон', 'андроник', 'анект', 'анемподист', 'аний', 'аникита', 'анимаиса', 'анин', 'анис', 'анисим', 'анри', 'ансар', 'антей', 'антенор', 'антилох', 'антимах', 'антиной', 'антиох', 'антип', 'антипа', 'антипатр', 'антиф', 'антифат', 'антон', 'антоний', 'антонин', 'анту', 'антуан', 'ану', 'анубис', 'анувий', 'анурий', 'ануфрий', 'анфим', 'анфимий', 'анфипом', 'анфир', 'анфуса', 'анхиал', 'анхиз', 'апеллий', 'апизаон', 'апис', 'аполл', 'аполлинарий', 'аполлон', 'аполлоний', 'аполлос', 'апрониан', 'апфимедон', 'аргент', 'ардалион', 'арджуна', 'арей', 'аретос', 'арефа', 'арефий', 'ариадна', 'ариан', 'арий', 'арис', 'аристарх', 'аристид', 'аристион', 'аристовул', 'аристоклий', 'аркадий', 'аркисий', 'арнеон', 'арнольд', 'аронос', 'арпила', 'аррунс', 'арсен', 'арсений', 'арсентий', 'арслан', 'артамон', 'артем', 'артема', 'артемий', 'артемон', 'артур', 'аруру', 'архелий', 'архептолем', 'архип', 'архипп', 'арчил', 'арш', 'арэфа', 'асад', 'асадулла', 'асан', 'асинкрит', 'асиф', 'аскалаф', 'аскалон', 'асканий', 'асклепий', 'асклипиодот', 'аскольд', 'аслан', 'асма', 'ассарак', 'астафий', 'астерий', 'астий', 'астион', 'астионакс', 'астрид', 'ата', 'атаа', 'атеист', 'атон', 'атрей', 'аттий', 'аттик', 'атэ', 'аус', 'афанасий', 'афзал', 'афиноген', 'афинодор', 'афиф', 'афон', 'афоний', 'афоня', 'африкан', 'ахад', 'ахаз', 'ахаик', 'ахат', 'ахбар', 'ахила', 'ахилл', 'ахиллий', 'ахмад', 'ахмар', 'ахмат', 'ахунд', 'ацест', 'ашраф', 'аяз', 'аякс', 'баасым', 'бадруддин', 'бажен', 'бакир', 'балаш', 'бальтазар', 'барат', 'бартоломей', 'басам', 'басыль', 'батист', 'баха', 'бахауддин', 'бахир', 'бахиуддин', 'бахтияр', 'башаар', 'баяз', 'баян', 'бектуган', 'бел', 'белит сери', 'беллерофонт', 'бенедикт', 'берислав', 'бернард', 'бертольд', 'бертрам', 'бес', 'бианер', 'бидзин', 'бикбай', 'бикбулат', 'билал', 'билалль', 'битий', 'бишр', 'благомир', 'боб', 'богдан', 'боголеп', 'боеслав', 'болеслав', 'бонифатий', 'борей', 'боримир', 'борис', 'борислав', 'боян', 'бронислав', 'будимир', 'булат', 'буранбай', 'бурангул', 'буранша', 'бурхан', 'вавила', 'ваджих', 'вади', 'вадим', 'вазих', 'ваиль', 'вакил', 'вакх', 'валент', 'валентин', 'валера', 'валериан', 'валерий', 'вали', 'валид', 'валиуддин', 'вальтер', 'ваптос', 'варадат', 'варахий', 'варахисий', 'варвар', 'варипсав', 'варлаам', 'варлам', 'варнава', 'варсава', 'варсис', 'варсонофий', 'варул', 'варух', 'варфоломей', 'васил', 'василек', 'василид', 'василий', 'василиск', 'василько', 'васим', 'васой', 'васс', 'вассиан', 'вася', 'вафик', 'вафусий', 'вахид', 'вахрамей', 'вахтисий', 'вацлав', 'велимир', 'велислав', 'велор', 'вендимиан', 'венедикт', 'венедим', 'вениамин', 'вергилий', 'верк', 'вечеслав', 'вианор', 'викарий', 'викентий', 'виктор', 'викторин', 'вил', 'вилен', 'вилли', 'вильгельм', 'вильдан', 'вильям', 'винсент', 'вир', 'вирилад', 'виссарион', 'вит', 'виталий', 'витольд', 'витя', 'вифоний', 'влад', 'владилен', 'владимир', 'владислав', 'владлен', 'влас', 'власий', 'вова', 'воин', 'воислав', 'володар', 'волсцент', 'вольдемар', 'вольмир', 'вольф', 'вольфганг', 'воля', 'вонифатий', 'всеволод', 'всемил', 'вук', 'вукол', 'вулкан', 'вылко', 'вячеслав', 'габдулла', 'габит', 'габриель', 'гавведай', 'гавиний', 'гавриил', 'гаврила', 'гази', 'газиз', 'газим', 'гаий', 'гай', 'галактион', 'галиб', 'галик', 'галим', 'галионт', 'галиферс', 'гамалиил', 'гани', 'ганимед', 'гантиол', 'гапон', 'гарольд', 'гарри', 'гаррик', 'гасан', 'гастон', 'гата', 'гафар', 'гаян', 'гед', 'гектор', 'геласий', 'гелен', 'гелиан', 'гелий', 'геликаон', 'гелиос', 'гемелл', 'гена', 'геннадий', 'генрих', 'георгий', 'геракл', 'геральд', 'герасим', 'герберт', 'гервасий', 'геркулес', 'герман', 'германн', 'гермес', 'гермоген', 'геронтий', 'гертруд', 'гершель', 'гетион', 'гефест', 'гигантий', 'гильберт', 'гиппокоон', 'гипполох', 'гиппот', 'гиппофой', 'гипсенор', 'гиртак', 'гияс', 'главк', 'глеб', 'гликерий', 'гоброн', 'гор', 'горазд', 'горгий', 'горгоний', 'гордей', 'гордиан', 'гордий', 'горимир', 'горислав', 'горн', 'горус', 'гранит', 'грегор', 'григорий', 'гур', 'гурий', 'гурьян', 'густав', 'давид', 'давикт', 'давлет', 'давуд', 'давыд', 'дада', 'далмат', 'дамас', 'дамиан', 'дамир', 'дан', 'данай', 'данакт', 'даниил', 'данила', 'дар', 'дардан', 'дарес', 'дарий', 'дассий', 'дауд', 'даян', 'деифоб', 'декабрий', 'дементий', 'демид', 'демодок', 'демокоон', 'демократ', 'демосфен', 'демьян', 'дениз', 'денис', 'джабир', 'джавад', 'джалаль', 'джамаль', 'джамальуддин', 'джамиль', 'джафар', 'джек', 'джеральд', 'джим', 'джихад', 'джо', 'джозеф', 'джон', 'джордж', 'дидим', 'дидумос', 'дий', 'дик', 'дима', 'димант', 'димитриан', 'димитрий', 'диодор', 'диодот', 'диоклес', 'диомед', 'диомид', 'дион', 'дионисий', 'диоскор', 'дисан', 'дисидерий', 'дитрих', 'дияуддин', 'дмитрий', 'дмитро', 'добрыня', 'довмонт', 'долий', 'долион', 'долон', 'дометиан', 'дометий', 'домн', 'домнин', 'дональд', 'дональт', 'донат', 'доримедонт', 'дормидонт', 'дорофей', 'досифей', 'драгутин', 'дукитий', 'дула', 'евагрий', 'евангел', 'еварест', 'еввентий', 'еввул', 'евгений', 'евграф', 'евдоким', 'евдоксий', 'евелпист', 'евеопист', 'евиласий', 'евкарпий', 'евклий', 'евкул', 'евлампий', 'евлогий', 'евмений', 'евникиан', 'евноик', 'евод', 'евпл', 'евпор', 'евпсихий', 'евсевий', 'евсевон', 'евсей', 'евсигний', 'евстафий', 'евстахий', 'евстигней', 'евстохий', 'евстратий', 'евсхимон', 'евтихиан', 'евтихий', 'евтропий', 'евфимиан', 'евфимий', 'евфрасий', 'евфросин', 'егор', 'едесий', 'екдит', 'ексакустодиан', 'елеазар', 'елевсипп', 'елевферий', 'елезвой', 'елизар', 'елизбар', 'елисей', 'елистрат', 'елладий', 'еллий', 'елпидий', 'елпидифор', 'емелиан', 'емельян', 'емеля', 'емилиан', 'енелпист', 'епафрас', 'епафродит', 'епенет', 'епикнет', 'епиктет', 'епимах', 'епифан', 'епифаний', 'епполоний', 'еразм', 'ераст', 'ерема', 'еремей', 'ерм', 'ермак', 'ермий', 'ермил', 'ерминингельд', 'ермипп', 'ермоген', 'ермократ', 'ермолай', 'ерос', 'ерофей', 'еруслан', 'еспер', 'еферий', 'ефив', 'ефим', 'ефимий', 'ефрем', 'жак', 'жан', 'ждан', 'жозеф', 'жорж', 'жюль', 'жюльен', 'зайд', 'закарийя', 'закария', 'заки', 'закир', 'закхей', 'замам', 'зафир', 'захар', 'захария', 'захид', 'захир', 'зевин', 'зевс', 'зенон', 'зефир', 'зигмунд', 'зигфрид', 'зиннур', 'зиновий', 'зинон', 'зияд', 'зоил', 'зорий', 'зосим', 'зосима', 'зот', 'зотик', 'зульфикар', 'зухайр', 'иадор', 'иакинф', 'иакисхол', 'иаков', 'иамвлих', 'ианикит', 'ианнуарий', 'иасон', 'ибрагим', 'ибрахим', 'иван', 'игафракс', 'игнатий', 'игорь', 'идей', 'идоменей', 'идрис', 'иезекииль', 'иеракс', 'иеремия', 'иерон', 'иероним', 'иерофей', 'из', 'иззуддин', 'измаил', 'изяслав', 'иисус', 'ий', 'икар', 'икарий', 'икрам', 'ил', 'иларий', 'иларион', 'илиан', 'илиодор', 'илионей', 'илларион', 'иллирик', 'ильгиз', 'ильдар', 'ильдус', 'ильшат', 'илья', 'имад', 'имадуддин', 'иман', 'имил', 'иммануил', 'имран', 'имхатеп', 'инвикт', 'индис', 'иней', 'иннокентий', 'инсар', 'инсаф', 'иоад', 'иоаким', 'иоанн', 'иоанникий', 'иоасаф', 'иов', 'иоганн', 'иоиль', 'иосиф', 'ипат',
             'ипатий', 'иперехий', 'ипполит', 'иракламвон', 'ираклемон', 'ираклий', 'ирек', 'иринарх', 'ириней', 'ириний', 'ирнини', 'иродион', 'ирфан', 'иса', 'исаак', 'исаакий', 'исавр', 'исаия', 'исай', 'исак', 'исам', 'исе', 'исидор', 'исихий', 'искандер', 'иской', 'ислам', 'исмагил', 'исмаил', 'исмат', 'истукарий', 'исфандияр', 'исхак', 'иттифак', 'иувеналий', 'иувентин', 'иувиналий', 'иуда', 'иулиан', 'иулий', 'иуст', 'иустин', 'иустиниан', 'ифидамас', 'ификл', 'ифит', 'ихи', 'ихсан', 'ишбулат', 'ишбулды', 'ишгильды', 'иштуган', 'ишуллану', 'июлий', 'кабир', 'кадм', 'кадыр', 'казимир', 'кайс', 'каленик', 'калигула', 'калиник', 'калистрат', 'каллимах', 'каллиник', 'каллиопий', 'каллист', 'каллистрат', 'калуф', 'калхас', 'камал', 'камиль', 'кандид', 'каниз', 'кантидиан', 'кантидий', 'капаней', 'капик', 'капис', 'капитон', 'карим', 'карион', 'карл', 'карп', 'картерий', 'касим', 'кассиан', 'кастор', 'кастрикий', 'кастул', 'касым', 'касьян', 'катерий', 'катилл', 'катун', 'кашфулла', 'каюм', 'квинтилиан', 'кебрен', 'кебрион', 'келестин', 'келсий', 'кенсорин', 'кесарий', 'кесарь', 'кетевань', 'кеша', 'кикн', 'ким', 'киндей', 'кион', 'киприан', 'кир', 'кириак', 'кириан', 'кирик', 'кирилл', 'кирин', 'кирион', 'кирсан', 'кирьян', 'клавдиан', 'клавдий', 'клавз', 'клемент', 'клеоник', 'клим', 'климент', 'климентий', 'клитий', 'кодрат', 'коинт', 'колумбий', 'конан', 'кондрат', 'кондратий', 'конкордий', 'конон', 'конрад', 'константин', 'констанций', 'консуэло', 'коон', 'коприй', 'корас', 'кореб', 'корней', 'корнелий', 'корнил', 'корнилий', 'корнут', 'корон', 'коронат', 'косма', 'краснослав', 'крискент', 'крискентиан', 'крисп', 'кристиан', 'кристоф', 'кронид', 'кронион', 'ксантиппа', 'ксанфий', 'ксанфиппа', 'ксенофонт', 'ктезипп', 'ктесей', 'куарт', 'кудама', 'кузьма', 'кукша', 'куприян', 'курбан', 'курбат', 'кутайба', 'кутоний', 'куфий', 'лабиб', 'лавз', 'лавр', 'лаврентий', 'лазарь', 'лампад', 'ланселот', 'лаодам', 'лаодикий', 'лаодок', 'лаокоон', 'лаомедонт', 'ларгий', 'ларион', 'лариса', 'латин', 'лаэрт', 'леандр', 'лев', 'левк', 'левкий', 'лель', 'лениан', 'леня', 'леодей', 'леон', 'леонард', 'леонид', 'леонт', 'леонтей', 'леонтий', 'либерии', 'либерт', 'ливерий', 'ливий', 'ликаон', 'ликарион', 'ликомед', 'лимний', 'лин', 'лир', 'лисимах', 'лолий', 'лонгин', 'лот', 'луарсаб', 'луи', 'лука', 'лукиан', 'лукий', 'лукиллиан', 'лукман', 'лукьян', 'лупп', 'люаи', 'любим', 'любомир', 'любослав', 'людвиг', 'люксен', 'лютфи', 'маазин', 'маахир', 'мавр', 'маврикий', 'мавсима', 'магафур', 'магистриан', 'магн', 'магсум', 'маджит', 'мадлен', 'мажд', 'мажди', 'маждуддин', 'майрам', 'майсара', 'майслав', 'майсур', 'макар', 'макарий', 'македоний', 'макин', 'макровий', 'макс', 'максиан', 'максим', 'максимиан', 'максимилиан', 'максимиллиан', 'максимильян', 'максуд', 'максуз', 'малик', 'малх', 'мамант', 'мамдух', 'маммий', 'мамнун', 'мансур', 'мануил', 'манфред', 'мар', 'марван', 'мардарий', 'мардоний', 'марзук', 'мари', 'мариав', 'мариамна', 'марий', 'марин', 'марк', 'маркелл', 'маркеллин', 'маркиан', 'марлен', 'марон', 'марсалий', 'марсен', 'мартиан', 'мартин', 'мартиниан', 'мартирий', 'мартын', 'маруф', 'маснави', 'масуд', 'матвей', 'матфей', 'матфий', 'махаон', 'махди', 'махмуд', 'мегапенф', 'мегей', 'медимн', 'медон', 'мезенций', 'мелампод', 'мелантий', 'меласипп', 'мелевсипп', 'мелентий', 'мелетий', 'мелиссен', 'мелитон', 'мемнон', 'менандр', 'менелай', 'менесфей', 'менетий', 'менигн', 'ментес', 'ментор', 'мерген', 'мерион', 'меркурий', 'мертий', 'мессап', 'метиск', 'метопт', 'мефодий', 'мечислав', 'миан', 'мигдоний', 'мигшдон', 'мидхад', 'милад', 'милан', 'милен', 'милий', 'милонег', 'милослав', 'милютин', 'мин', 'миней', 'минеон', 'минос', 'минсифей', 'мир', 'миракс', 'мирон', 'мирослав', 'миртил', 'мисаил', 'мисбах', 'митра', 'митридат', 'митрофан', 'митя', 'мифтах', 'михаил', 'михей', 'мичура', 'модест', 'моисей', 'мокий', 'молосс', 'морон', 'мстислав', 'муаз', 'муайид', 'мувафак', 'муддарис', 'муджахид', 'муккарам', 'муко', 'мунзир', 'мунир', 'мунис', 'мунтасир', 'мурат', 'муртади', 'муса', 'муслим', 'мустафа', 'мут', 'мутаа', 'мутазз', 'мутасим', 'мути', 'муфид', 'мухаммад', 'мухаммед', 'муханнад', 'мухсин', 'мухтади', 'мухтар', 'наасим', 'наби', 'набиль', 'набих', 'набу', 'набхан', 'навплий', 'наджи', 'наджиб', 'наджмуддин', 'надим', 'надир', 'назар', 'назарий', 'назим', 'назир', 'назих', 'наиль', 'наим', 'намтар', 'нариман', 'наркис', 'наркисс', 'насим', 'насих', 'насреддин', 'нассеруддин', 'натан', 'наум', 'нафанаил', 'неделя', 'нейтх', 'нектарий', 'нелей', 'неон', 'неонил', 'неоптолем', 'неофит', 'нергал', 'нерей', 'нестор', 'нефмон', 'нефтис', 'низ', 'низам', 'никандр', 'никанор', 'никита', 'никифор', 'никодим', 'никола', 'николай', 'никон', 'никострат', 'никтополион', 'нил', 'ниниб', 'нисон', 'нит', 'нифонт', 'новомир', 'ной', 'норберт', 'норд', 'норман', 'нот', 'нуман', 'нуруддин', 'нух', 'овидий', 'одиссей', 'оилей', 'океан', 'октавиан', 'октябрин', 'октябрь', 'олаф', 'олег', 'олжас', 'оливер', 'олимп', 'олимпан', 'олимпий', 'ольгерд', 'омар', 'омврий', 'омейр', 'омран', 'оней', 'онисий', 'онисим', 'онисифор', 'оноре', 'онуфрий', 'опис', 'ор', 'орентий', 'орест', 'орион', 'орифаон', 'ормен', 'орменон', 'оронт', 'орфей', 'освальд', 'осип', 'осирис', 'оскар', 'остап', 'острихий', 'остромир', 'от', 'отто', 'оферионей', 'охрид', 'павлик', 'павлин', 'павсикакий', 'павсилип', 'паисий', 'паламед', 'палиас', 'палий', 'палладий', 'паллант', 'памва', 'памвон', 'памфалон', 'памфамир', 'памфил', 'пандар', 'панкратий', 'панлихарий', 'пансофий', 'пантелеймон', 'панфил', 'панфой', 'папа', 'папий', 'папила', 'парамон', 'пард', 'паригорий', 'парис', 'пармен', 'пармений', 'парод', 'партизан', 'парфений', 'пасикрат', 'патапий', 'патермуфий', 'патрикей', 'патрикий', 'патров', 'патрокл', 'пафнутий', 'пахом', 'пахомий', 'пелей', 'пелий', 'пелопс', 'пеон', 'перегрин', 'пересвет', 'перифас', 'перифой', 'персей', 'петей', 'петр', 'пигасий', 'пизаидр', 'пизандр', 'пизистрат', 'пий', 'пилад', 'пилон', 'пимен', 'пинна', 'пионий', 'пирей', 'пирехм', 'пирр', 'пист', 'питирим', 'платон', 'плисфен', 'плутон', 'подарк', 'пой', 'полиб', 'полидам', 'полидевк', 'полидор', 'полиевкт', 'полиен', 'поликарп', 'полиместор', 'полиник', 'полинур', 'полипетю', 'полит', 'полифем', 'полихроний', 'полувий', 'помпеи', 'помпей', 'помпий', 'понтий', 'поплии', 'поплий', 'порфирий', 'посейдон', 'потамий', 'потап', 'потит', 'приам', 'прилидиан', 'принкипс', 'приск', 'провий', 'прозор', 'прокесс', 'прокл', 'прокоп', 'прокопий', 'прокофий', 'прокул', 'протас', 'протасий', 'протезилай', 'протей', 'протерий', 'протоген', 'протолеон', 'профан', 'прохор', 'псой', 'птах', 'пуд', 'пузур бел', 'пуплий', 'ра', 'рабах', 'раби', 'равиль', 'рагиб', 'раджаб', 'радий', 'радим', 'радимир', 'радислав', 'радомир', 'радослав', 'ражден', 'разумник', 'раид', 'ракин', 'рамаз', 'рамиз', 'рамиль', 'расиль', 'расим', 'расих', 'рассул', 'ратиб', 'ратибор', 'ратмир', 'рауф', 'рафаил', 'рафи', 'рафик', 'рахим', 'рахман', 'рашад', 'рашид', 'реас', 'ревмир', 'ревокат', 'рез', 'рексенор', 'рем', 'ренат', 'ридван', 'ризван', 'рикс', 'ричард', 'рияд', 'роберт', 'родерик', 'родион', 'родопиан', 'ролан', 'роланд', 'роман', 'ромил', 'ромул', 'ростислав', 'рубен', 'рудольф', 'руслан', 'рустам', 'рустик', 'руф', 'руфин', 'рушан', 'рэм', 'рюрик', 'саад', 'сабир', 'сабит', 'сабих', 'савва', 'савватий', 'савел', 'савелий', 'саверий', 'савин', 'саджид', 'садок', 'садоф', 'садри', 'садык', 'сазон', 'саид', 'сайид', 'сайфи', 'сайфуддин', 'сакердон', 'сакиб', 'салават', 'саламан', 'салах', 'салахуддин', 'салем', 'салим', 'салих', 'салман', 'салмоней', 'сальвадор', 'самад', 'самеи', 'самиир', 'самир', 'самон', 'сампсон', 'самсон', 'самуил', 'саня', 'сарвил', 'сарпедон', 'сасоний', 'сатир', 'саторин', 'саторний', 'саторнил', 'саторнин', 'саттар', 'сатурн', 'сатурнин', 'саул', 'сафван', 'сафи', 'сахир', 'саша', 'свет', 'светлан', 'светозар', 'светослав', 'святогор', 'святополк', 'святослав', 'севастиан', 'севастьян', 'север', 'севериан', 'северин', 'северьян', 'севир', 'секунд', 'селевк', 'селевкий', 'селиний', 'селькис', 'семен', 'сеннис', 'сеня', 'серапион', 'серапис', 'серафим', 'сергей', 'сергий', 'сет', 'сивел', 'сигиц', 'сидор', 'сизиф', 'сикст', 'сила', 'силан', 'силантий', 'силуан', 'сильван', 'сильвест', 'сильвестр', 'симбир', 'симеон', 'симоисий', 'симон', 'симфориан', 'син', 'синон', 'сионий', 'сирадж', 'сисиний', 'сисой', 'слава', 'славомир', 'смарагд', 'собек', 'совет', 'созонт', 'сок', 'сократ', 'соломон', 'солохон', 'сонирил', 'сосий', 'сосипатр', 'сосс', 'соссий', 'сосфен', 'софрон', 'софроний', 'спартак', 'спевсипп', 'сперхий', 'спиридон', 'сталь', 'станислав', 'стахий', 'стентор', 'степан', 'стефан', 'стратион', 'стратон', 'стратоник', 'стратор', 'строфий', 'студий', 'субхи', 'суимвл', 'сулейман', 'султан', 'суляйман', 'сумукан', 'сууд', 'сухайб', 'сухайль', 'сухий', 'сфенел', 'сысой', 'таамир', 'таахир', 'таврион', 'тагир', 'таир', 'таймулла', 'тайсир', 'талаль', 'таламон', 'талха', 'тальфибий', 'тамам', 'таммуз', 'тансылу', 'тантал', 'тарас', 'тарасий', 'тарах', 'тарик', 'тариф', 'таричан', 'тарфах', 'татион', 'тауфик', 'тахир', 'тевер', 'тевкр', 'тезей', 'теймураз', 'телем', 'телемах', 'телеф', 'теодор', 'терентий', 'тертий', 'тивуртий', 'тигран', 'тигрий', 'тидей', 'тимолай', 'тимон', 'тимофей', 'тимур', 'тиндарей', 'тиррей', 'тирсей', 'тит', 'титий', 'тифон', 'тихик', 'тихомир', 'тихон', 'тлеполем', 'толя', 'том', 'томас', 'тоос', 'тот', 'тоша', 'транквиллин', 'трерис', 'трибун', 'тривимий', 'тристан', 'тритон', 'трифиллий', 'трифон', 'троадий', 'троил', 'трой', 'трофим', 'турвон', 'турн', 'туссэн', 'уалент', 'уалентин', 'уалерий', 'уалириан', 'уар', 'убада', 'убай', 'убайда', 'убара туму', 'уврикий', 'узбек', 'укба', 'ульмас', 'ульрих', 'умайр', 'умар', 'упуаут', 'ур эа', 'урал', 'урван', 'уриил', 'урош', 'урпасиан', 'урус', 'усама', 'усман', 'устин', 'ут напиштим', 'утба', 'фавий', 'фавмасий', 'фавн', 'фавст', 'фавстиан', 'фавуаз', 'фаддей', 'фадей', 'фади', 'фадль', 'фадлюллах', 'фаиз', 
    'фаик', 'файзулла', 'файсал', 'фал', 'фалалей', 'фалассий', 'фаллелей', 'фанис', 'фантин', 'фарид', 'фарис', 'фармуфий', 'фарнакий', 'фарук', 'фархад', 'фатин', 'фатих', 'фауст', 'фахад', 'фахир', 'фахри', 'фаяз', 'феб', 'февралин', 'фегей', 'федим', 'федон', 'федор', 'федос', 'федосей', 'федосий', 'федот', 'федотий', 'федул', 'феклист', 'феликс', 'фемий', 'фемистокл', 'фемистоклей', 'феникс', 'фенникс', 'феоген', 'феогнид', 'феогний', 'феогност', 'феодор', 'феодорит', 'феодосий', 'феодот', 'феодох', 'феодул', 'феоклимен', 'феоктирист', 'феоктист', 'феопемпт', 'феопист', 'феопрепий', 'феост', 'феостирикт', 'феостих', 'феотекн', 'феотих', 'феофан', 'феофил', 'феофилакт', 'ферапонт', 'фердинанд', 'ферм', 'ферсандр', 'ферсит', 'феспесий', 'феспорт', 'фидель', 'филагрий', 'филадельф', 'филарет', 'филат', 'филей', 'филетер', 'филикиссим', 'филикс', 'филимон', 'филипп', 'филит', 'филл', 'филогоний', 'филоктeт', 'филоктимон', 'филолог', 'филон', 'философ', 'филотий', 'филофей', 'филумен', 'фимэт', 'финеес', 'финей', 'фирмин', 'фирмос', 'фирс', 'фифаил', 'флавиан', 'флавий', 'флегонт', 'флор', 'флорентий', 'флоренц', 'флорин', 'фоас', 'фока', 'фома', 'фоон', 'форвин', 'фортунат', 'фостирий', 'фот', 'фотий', 'фотин', 'франк', 'франц', 'франциск', 'фрасимед', 'фридрих', 'фрол', 'фроний', 'фронтасий', 'фронтис', 'фрументий', 'фуад', 'фулвиан', 'фусик', 'хаашим', 'хабиб', 'хабибулла', 'хади', 'хадис', 'хаим', 'хайдар', 'хайри', 'хайруддин', 'хайсам', 'хаким', 'халдун', 'халид', 'халил', 'халилль', 'хамза', 'хамид', 'хани', 'харалампий', 'харис', 'харисим', 'харитон', 'харлампий', 'харон', 'харун', 'хасан', 'хассан', 'хатим', 'хатор', 'хафиз', 'хашим', 'херимон', 'хикмет', 'хирон', 'хнум', 'ходжа', 'хонс', 'храбр', 'хрис', 'хрисанта', 'хрисанф', 'хрисипп', 'хрисогон', 'хрисотель', 'христиан', 'христофор', 'худ', 'худион', 'хузайма', 'хузайфа', 'хумам', 'хумбаба', 'хусам', 'хусамуддин', 'хусдазат', 'хуссейн', 'цезарь', 'цекул', 'цетон', 'часлав', 'чеслав', 'чингиз', 'шади', 'шакир', 'шалва', 'шамаш', 'шамиль', 'шамси', 'шариф', 'шафик', 'шахрияр', 'шепре', 'шерлок', 'шимшон', 'шио', 'шихаб', 'шура', 'эа', 'эварндр', 'эвдор', 'эвемон', 'эвмед', 'эвмел', 'эвриал', 'эврибат', 'эвридам', 'эврилох', 'эвримах', 'эврином', 'эврипил', 'эврисак', 'эврисфей', 'эврит', 'эвфорб', 'эгипс', 'эгиптий', 'эгисф', 'эгмонт', 'эдвард', 'эдик', 'эдип', 'эдит', 'эдуард', 'электрон', 'элизбар', 'элой', 'элопей', 'эльбрус', 'эльдар', 'эльпепор', 'эмели', 'эмилий', 'эмиль', 'эммануил', 'энгель', 'эней', 'энергий', 'эниопей', 'эномай', 'эол', 'эос', 'эпей', 'эпикл', 'эразм', 'эраст', 'эрик', 'эрихтопий', 'эрнест', 'эрнст', 'эрот', 'эсфирь', 'этеоней', 'эфиальт', 'эфопс', 'эфра', 'эхеней', 'эхепел', 'эхет', 'эхефрон', 'ювеналий', 'ювентин', 'ювиналий', 'юджин', 'юлдаш', 'юлиан', 'юлий', 'юнус', 'юпитер', 'юра', 'юрий', 'юст', 'юстин', 'юстиниан', 'юсуф', 'ютурна', 'юхан', 'ядгар', 'яков', 'якуб', 'якут', 'ямал', 'яман', 'ян', 'яннуарий', 'януарий', 'янус', 'яромир', 'ярополк', 'ярослав', 'ясар', 'ясий', 'ясин', 'ясон', 'яхья', 'аалия', 'аамаль', 'аасма', 'абир', 'аблаа', 'августа', 'авгэ', 'авдотья', 'аврелия', 'аврора', 'агапия', 'агата', 'агафия', 'агафоклия', 'агафья', 'аглаида', 'аглая', 'агнеса', 'агнесса', 'агния', 'аграфена', 'агриппина', 'ада', 'адаб', 'аделаида', 'аделина', 'аделия', 'адель', 'адиля', 'адриана', 'аеропа', 'аза', 'азалия', 'азария', 'азза', 'азиза', 'аида', 'айгуль', 'айда', 'айех', 'айша', 'айя', 'акилина', 'аксинья', 'акулина', 'алевтина', 'александра', 'алена', 'алина', 'алиса', 'алия', 'алкибия', 'алкимена', 'алкмена', 'алла', 'аллекто', 'алона', 'альба', 'альберта', 'альбертина', 'альбина', 'алькандра', 'альма', 'альмас', 'альфира', 'аля', 'амалия', 'амаль', 'амани', 'амата', 'аматулла', 'амели', 'амина', 'амира', 'амна', 'амфирея', 'амфитрита', 'анан', 'анания', 'анастасия', 'анатолия', 'анбар', 'ангелина', 'анета', 'анжела', 'анжелика', 'аниса', 'анисия', 'анисья', 'анита', 'анна', 'антиклея', 'антиопа', 'антонида', 'антонина', 'антония', 'антуанетта', 'анфиса', 'анфия', 'аполлинария', 'апраксия', 'апфия', 'арабелла', 'арва', 'арета', 'арибах', 'аридж', 'арина', 'аркадия', 'арсения', 'артемида', 'артемия', 'аруб', 'архелая', 'асалах', 'асах', 'асилях', 'асия', 'аскитри', 'аскитрия', 'асклиада', 'асклипиодота', 'аслия', 'аспазия', 'астинома', 'астиоха', 'астра', 'ася', 'атемия', 'афанасия', 'афаф', 'афина', 'афраа', 'афрах', 'афродита', 'ахд', 'ахия', 'ахлям', 'аэлита', 'аэлла', 'баасыма', 'бадрийя', 'бажена', 'балкис', 'банан', 'бану', 'басма', 'бастет', 'басыма', 'батуль', 'батэйя', 'бахийя', 'башиира', 'башира', 'беата', 'беатриса', 'бела', 'белла', 'берислава', 'берта', 'бика', 'бланка', 'бланш', 'богдана', 'божана', 'болеслава', 'борислава', 'боряна', 'бояна', 'бранислава', 'бремуза', 'брисеида', 'бронислава', 'бусайна', 'бушра', 'валентина', 'валериана', 'валерия', 'валиулла', 'валия', 'валя', 'ванда', 'варвара', 'василина', 'василиса', 'василисса', 'васса', 'вата', 'вафа', 'вацлава', 'вевея', 'вега', 'веда', 'вела', 'велислава', 'венера', 'вениамина', 'вера', 'вероника', 'веселина', 'веста', 'вивиан', 'видана', 'викторина', 'виктория', 'вилена', 'виола', 'виргиния', 'виринея', 'вита', 'виталина', 'виталия', 'влада', 'владилена', 'владимира', 'владислава', 'владлена', 'власта', 'всеслава', 'гаафа', 'габриэлла', 'гада', 'гаиания', 'гайда', 'гайша', 'гайя', 'галатея', 'гали', 'галима', 'галина', 'галия', 'галя', 'ганна', 'гасун', 'гаяна', 'геба', 'гезиона', 'гекамеда', 'гекуба', 'гелена', 'гелия', 'гелла', 'генриетта', 'гера', 'герда', 'гермиона', 'гертруда', 'гизела', 'гипподамия', 'гипполита', 'гира', 'глафира', 'гликерия', 'глория', 'голиндуха', 'голуба', 'горислава', 'грация', 'груня', 'груша', 'гуль', 'гульзар', 'гульнара', 'дайна', 'дана', 'дания', 'дарена', 'дарина', 'дария', 'дарья', 'дарьяна', 'дафния', 'дебора', 'дейзи', 'декабрина', 'делия', 'дельфина', 'деримахия', 'дериона', 'дея', 'джаля', 'джамиля', 'джанан', 'джемила', 'джемма', 'джина', 'джоконда', 'джульетта', 'джумана', 'диана', 'дидамия', 'дидона', 'дилара', 'дильбара', 'дина', 'динара', 'диодора', 'дионисия', 'добрава', 'долорес', 'доминика', 'домна', 'домника', 'домнина', 'дора', 'доротея', 'дорофея', 'драгомира', 'дросида', 'дуклида', 'духа', 'ева', 'еванфия', 'еввула', 'евгения', 'евдокия', 'евдоксия', 'евлалия', 'евлампия', 'евникия', 'евпейф', 'евпраксия', 'евсевия', 'евстолия', 'евтихия', 'евтропия', 'евфалия', 'евфимия', 'евфрасия', 'евфросиния', 'евфросинья', 'екатерина', 'елена', 'елизавета', 'еликонида', 'елима', 'елисавета', 'еннава', 'епистимия', 'епихария', 'ермиония', 'еротиида', 'есения', 'есфирь', 'ефимия', 'ефросиния', 'ефросинья', 'жанна', 'ждана', 'женевьева', 'жизель', 'жозефина', 'жюльетта', 'забира', 'заира', 'зайна', 'зайнаб', 'зайнулла', 'зайтуна', 'закийя', 'закия', 'замира', 'замфира', 'зара', 'зарина', 'зафира', 'захира', 'захра', 'захрах', 'звенислава', 'зиля', 'зина', 'зинаида', 'зиннат', 'зиновия', 'зита', 'зифа', 'зия', 'злата', 'зоиса', 'зоя', 'зульфия', 'зухра', 'ибтихадж', 'иванна', 'иветта', 'ида', 'идея', 'идофея', 'изабелла', 'издихар', 'изида', 'изис', 'изольда', 'изот', 'икрима', 'илария', 'илия', 'ильхам', 'имтисаль', 'инайя', 'инам', 'инас', 'инга', 'индира', 'инес', 'инесса', 'инна', 'интисар', 'иоанна', 'иовилла', 'иоланта', 'иона', 'иосия', 'ипатия', 'ипполита', 'ираида', 'ираклия', 'ирида', 'ирина', 'ироида', 'исидора', 'искра', 'иулиания', 'иулита', 'иулия', 'иуния', 'иустина', 'ифигения', 'ифимедея', 'ифиноя', 'ифиона', 'иштар', 'ия', 'каздоя', 'казимира', 'кайета', 'калерия', 'каликэ', 'калина', 'калипсо', 'калиса', 'калисса', 'калисфения', 'каллиста', 'камелия', 'камилла', 'камиля', 'камля', 'капитолина', 'карима', 'карина', 'кармен', 'каролина', 'касима', 'касиния', 'кассандра', 'катада', 'катерина', 'катиба', 'катя', 'керкира', 'кибела', 'кикилия', 'килисса', 'киматоя', 'киприда', 'кира', 'кириакия', 'кириена', 'кирилла', 'кифа', 'клавдия', 'клара', 'клариса', 'клеопа', 'клеопатра', 'климена', 'климентина', 'клитемнестра', 'клония', 'коломбина', 'конкордия', 'констанция', 'кора', 'корделия', 'крискентия', 'кристина', 'ксана', 'ксения', 'кульсум', 'кяукаб', 'кяусар', 'лавиния', 'лада', 'лайла', 'лала', 'лампеция', 'лаодамия', 'лаодика', 'латона', 'латыфа', 'лаура', 'левкофея', 'леда', 'лейла', 'лена', 'лениана', 'ленина', 'леонида', 'леонила', 'леонора', 'леонтия', 'лера', 'леся', 'ливия', 'лидия', 'лилиана', 'лилия', 'лина', 'линда', 'лия', 'лола', 'лолита', 'лора', 'луиза', 'лукерия', 'лукерья', 'лукиана', 'лукина', 'лукия', 'лукреция', 'лутфулла', 'любаба', 'любава', 'любовь', 'любомира', 'людвига', 'людмила', 'люси', 'люция', 'ляма', 'лямис', 'лямья', 'маат', 'мавийя', 'мавлюда', 'мавра', 'магда', 'магдалина', 'маджида', 'маджиида', 'мадина', 'мадиха', 'май', 'маййяда', 'маймуна', 'майса', 'майсун', 'майя', 'макарим', 'макрина', 'маланто', 'маланья', 'малахия', 'малика', 'мальвина', 'маляк', 'мамелхва', 'мамету', 'мамика', 'маналь', 'манар', 'манефа', 'марам', 'маргарита', 'мариана', 'марианна', 'марина', 'марионилла', 'мария', 'марлена', 'марта', 'марфа', 'марьям', 'мастридия', 'матильда', 'матрена', 'матрона', 'маха', 'маша', 'мая', 'мегара', 'медея', 'мелания', 'мелисса', 'мелитина', 'мерседес', 'милада', 'милана', 'милица', 'милослава', 'миляуша', 'мина', 'минерва', 'минодора', 'мира', 'мирабелла', 'миранда', 'миропия', 'мирослава', 'мирра', 'митродора', 'млада', 'моико', 'моника', 'мстислава', 'муавийя', 'муза', 'муна', 'мунира', 'муфида', 'мухджа', 'мушира', 'набиля', 'набиха', 'навсикая', 'нада', 'надва', 'надежда', 'наджат', 'наджах', 'наджва', 'наджиба', 'наджия', 'наджйя', 'наджля', 'надида', 'надира', 'надия', 'надья', 'назаха', 'назийя', 'назира', 'назиха', 'наиля', 'наима', 'наина', 'найля', 'нана', 'насира', 'настасья', 'настя', 'насыха', 'наталия', 'наталья', 'науваль', 'наувар', 'науфаль', 'нафиса', 'нахля', 'нашида', 'нашита', 'некиппа', 'нелли', 'неонила', 'неонилла', 'нерина', 'несаим', 'неэра', 'нибааль', 'нида', 'ника', 'никиппа', 'нимаат', 'нимфодора', 'нина', 'ниназу', 
    'нинелла', 'нинель', 'нинон', 'нинсуи', 'ниоба', 'нирса', 'новелла', 'нонна', 'нора', 'нузар', 'нузха', 'нунехия', 'нур', 'нури', 'нурулла', 'нусайба', 'нут', 'нуф', 'нуха', 'ойгуль', 'оксана', 'октавия', 'октябрина', 'олеся', 'оливия', 'олимпиада', 'олимпия', 'ольга', 'оля', 'осия', 'офелия', 'павла', 'павлина', 'паллада', 'палома', 'пальмира', 'памела', 'пандора', 'параскева', 'патриция', 'паула', 'пелагея', 'пелагия', 'пенелопа', 'пенфесилия', 'перпетуя', 'персефона', 'петрония', 'пиама', 'пинна', 'платонида', 'полактия', 'полетта', 'полидамна', 'поликсена', 'поликсения', 'полина', 'поплия', 'правдина', 'прасковья', 'препедигна', 'преслава', 'прискилла', 'проскудия', 'пульхерия', 'рабаб', 'рабиа', 'рабига', 'равийя', 'равула', 'рагд', 'рада', 'раджа', 'радмила', 'радуа', 'радыйя', 'раида', 'раиса', 'раймонда', 'райя', 'ракия', 'рана', 'ранд', 'ранийя', 'рауда', 'рафа', 'рахиль', 'раша', 'рашида', 'ревекка', 'ревмира', 'регина', 'рената', 'рея', 'рида', 'риза', 'рим', 'рима', 'римма', 'рипсимия', 'рита', 'рогенда', 'рогнеда', 'роза', 'розалия', 'розана', 'розмари', 'роксана', 'роланда', 'ростислава', 'рувайда', 'рукайя', 'рукан', 'русана', 'руслана', 'руфина', 'руфь', 'саалима', 'сабина', 'сабира', 'савда', 'савсан', 'сайфулла', 'сакина', 'салима', 'салиха', 'саломея', 'сальва', 'сальма', 'самаах', 'самар', 'самийя', 'самира', 'самиха', 'самойла', 'сана', 'санаа', 'сания', 'сара', 'сараа', 'сарийя', 'сарра', 'сафа', 'сафия', 'сахар', 'сахля', 'света', 'светлана', 'светлозара', 'светозара', 'светослава', 'свобода', 'святослава', 'севастиана', 'севастьяна', 'северина', 'селена', 'селестина', 'сельвия', 'сельма', 'семирамида', 'серафима', 'сехмет', 'сешат', 'сибиллы', 'сивилла', 'сидури', 'силили', 'сильва', 'симона', 'синклитикия', 'сира', 'сихам', 'славяна', 'смарагда', 'снандулия', 'снежана', 'соломея', 'соломония', 'сосанна', 'сосипатра', 'софия', 'софония', 'софья', 'станимира', 'станислава', 'стелла', 'степанида', 'стефанида', 'стефания', 'сумайя', 'сурайя', 'сусанна', 'суха', 'сухайля', 'сухайма', 'сухайр', 'сюзанна', 'тавифа', 'таира', 'таисия', 'талия', 'тамазур', 'тамара', 'тара', 'таруб', 'татиана', 'татьяна', 'тахира', 'текла', 'текмесса', 'тереза', 'тина', 'тиро', 'тома', 'трифена', 'трояна', 'уаджиха', 'уалентина', 'уарда', 'уафа', 'уафика', 'уафия', 'уидад', 'уиджан', 'уирка', 'уисааль', 'улита', 'ульфат', 'ульяна', 'умара', 'умида', 'ундина', 'урания', 'урсула', 'устинья', 'фаатин', 'фавста', 'фадуа', 'фадыля', 'фаиза', 'фаина', 'фаляк', 'фарида', 'фариха', 'фатима', 'фатина', 'фатыма', 'фаузия', 'фаустина', 'фаэтуза', 'феба', 'феврония', 'февронья', 'федора', 'федосья', 'фекла', 'феклиста', 'фекуса', 'феликсана', 'фелицата', 'фелицитата', 'фелиция', 'феодора', 'феодосия', 'феодотия', 'феодулия', 'феозва', 'феоктиста', 'феона', 'феопистия', 'феофания', 'феофила', 'фервуфа', 'фермодесса', 'фессалоникия', 'фетида', 'фива', 'фивея', 'фида', 'филадельфия', 'филина', 'филиппия', 'филомена', 'филонилла', 'фирдаус', 'фируза', 'фиряль', 'флавия', 'флора', 'флорентина', 'флоренция', 'флориана', 'фомаида', 'фооса', 'фотина', 'фредерика', 'фрида', 'хаадия', 'хавля', 'хадиджа', 'хадийя', 'хадича', 'хадия', 'хайрийя', 'хайфа', 'хайям', 'хайят', 'халида', 'халима', 'халя', 'хамида', 'хана', 'ханан', 'ханийя', 'ханифа', 'хариесса', 'харита', 'харитина', 'хасна', 'хая', 'хельга', 'хесса', 'хинд', 'хиония', 'хлорида', 'хлоя', 'хриса', 'хрисеида', 'хрисия', 'христина', 'христодула', 'худа', 'хулюк', 'хума', 'хурийя', 'хусн', 'цвета', 'целеиа', 'цецелия', 'цецилия', 'цирцея', 'чеслава', 'чулпан', 'шаадия', 'шарифа', 'шарлотта', 'шатха', 'ширин', 'шушаника', 'эвандра', 'эвелина', 'эвридика', 'эвриклея', 'эвринома', 'эдита', 'эдна', 'электра', 'элеонора', 'элиза', 'элина', 'эльвина', 'эльвира', 'эльза', 'эльмира', 'эмилиан', 'эмилия', 'эмма', 'энона', 'эпикаста', 'эрида', 'эрика', 'эриния', 'эсмеральда', 'эстер', 'эя', 'юдифь', 'юлиана', 'юлиания', 'юлита', 'юлитта', 'юлия', 'юманита', 'юмн', 'юния', 'юнона', 'юсраа', 'юстина', 'ядвига', 'яна', 'ярослава', 'ясира', 'ясмин', 'яфьях'])

In [23]:
stops_antela = set(['1', '2', '3', '4', '5', '6', '7', '8', '9', '0', 'один', 'два', 'три', 'четыре', 'пять', 'шесть', 'семь', 'восемь', 'девять', 'ноль'])

In [24]:
with open('расширенный - вордстат.txt', 'r', encoding = 'UTF-8') as f:
    wrds = f.readlines()
    stops_ws = set(wrds)

with open('расширенный список.txt', 'r', encoding = 'UTF-8') as fl:
    wrds_1 = fl.readlines()
    stops_wr = set(wrds_1)

In [25]:
stops_big = set.union(stops_y, stops_new, stops_antela, stops_ws, stops_wr)

In [26]:
len(stops_big)

3677

In [28]:
for text in texts_cl_eng:
    for word in text:
        flg = 0
        #for el in word:
            #if el in eng_str:
                #flg = 1
        if len(word) == 1:
            flg = 1
        if 'lt;' in word:
            flg = 1
        if word in stops_big:
            flg = 1
        if not word.isalpha():
            flg = 1

            
        if flg == 1:
            text.remove(word)


In [31]:
%%time
lda_model_eng = lda_mod(texts_cl_eng)

CPU times: user 3min 36s, sys: 2min 41s, total: 6min 17s
Wall time: 4min 7s


In [32]:
res_bad = lda_model_eng.print_topics()

res_good = []
for word in res_bad:
    res = re.findall('\*"(.*?)"', word[1])
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,объект,сервер,товар,шарик,боль,пароль,память,слайд,сеть,namespace_use,датчик,кампания,курс,стиль,точка,ток_потребление,устройство,запрос,bmc,money
1,метод,клиент,канал,шанс_выиграть,изменение,yahoo,значение,мфть,доступ,прибытие,корпус,объявление,студент,пиксель,пространство,любезно_предоставить,инструмент,ошибка,предсказывать_будущее,nfc
2,свойство,сервис,продажа,печень,сопротивление,уязвимость,адрес,учебник,интернет,раскладка,питание,заголовок,лекция,css,источник,этаж_здание,синтезатор,сервер,summit,буфер_обмен
3,атрибут,хостинг,реклама,удача,определение,austin,байт,tdd,услуга,enum,плата,сервис,образовательный,значение,расстояние,максим,звук,размер,ipmi,интернет-магазин
4,класс,облако,письмо,интуитивно_понятно,тело,программа,запись,организатор,протокол,продолжительный,температура,группа,group,ширина,поезд,скептически,современный,сайт,dm,sys_import
5,значение,услуга,цена,«нуть,происходить,visual_studio,int,читать,точка,2013_год,контроллер,перенос,обучение,dom,движение,новогодний_подарок,разработать,обработка,printer,накопитель_ssd
6,return,восстановление,сайт,выпасть,ткань,microsoft,регистр,опрос,подключение,февраль_год,обычный,python,преподаватель,размер,значение,safety,вода,обратный,раскрытый,список
7,public,оборудование,клиент,заработный_плата,ситуация,учётный_запись,amp,публиковать,сетевой,ipfs,режим,формат,программа,элемент,двигаться,structure,фильтр,ядро,картинка_изобразить,отдельный
8,задать,база_дать,пост,случайность,костя,сделка,1,комментарий,сервер,«на,станция,ключ,помещение,область,её,действующий_лицо,советский,оптимизация,программа,программа
9,,резервный_копирование,правило,reduce,организм,взлом,spi,далёкий,внутренний,набирать_оборот,профессиональный,символ,,color,теория,flussonic,помещение,кэширование,список,метод


- надо убрать кавычки, которые плохо отделились
- убрать цифры
- убрать слова на латинице, чтобы не вылезало лишнего

In [37]:
texts_cl_no_eng = texts_cl_eng

In [34]:
num_str = '1234567890'

In [42]:
l = ['«vf', 'jg']
for n,w in enumerate(l):
    if '«' or '»' in w:
        l[n] = re.sub('[«»]', '', w)

l

['vf', 'jg']

In [50]:
for text in texts_cl_no_eng:
    for n, word in enumerate(text):
        flg = False
        
        if '«' or '»' in word:
            word = re.sub('[«»]', '', word)
            text[n] = word
        
        for el in word:
            if el in eng_str:
                #print(word)
                flg = True
            if el in num_str:
                #print(word)
                flg = True
        if len(word) == 1:
            flg = True
            #print(word)
        
        if not word.isalpha():
            flg = True
            #print(word)

            
        if flg:
            text.remove(word)


In [51]:
%%time
lda_model_no_eng = lda_mod(texts_cl_no_eng)

CPU times: user 3min 1s, sys: 2min 14s, total: 5min 15s
Wall time: 3min 24s


In [52]:
res_bad = lda_model_no_eng.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,услуга,библиотека,мозг,сайт,южный_корея,двигатель,джейсон,устройство,понимать,бактерия,фигура,анимация,боль,сервер,курс,прогноз,фильм,машина,январь_год,соц
1,клиент,тысяча,студент,клиент,корея,спутник,скопление,перезагрузка,слово,выращивание,шанс_выиграть,ложиться_плечо,изменение,запрос,лекция,индивидуальный_подход,рекорд,товар,сделка,скачать
2,ценность,сумма,ребёнок,страница,сингапур,запуск,дмитрий,обновление,язык,избавлять,партия,вполне_приемлемый,сопротивление,сервис,студент,взаимодействие,быстрый,прибор,расследование,хаб
3,принцип,крупный,жизнь,реклама,южный,космический,стэнфордский_университет,режим,думать,микроорганизм,ход,синтаксический_конструкция,определение,поддержка,собеседование,анализ,страна,автомобиль,взлом,обсерватория
4,понятный,заплатить,программирование,продажа,занять_ниша,план,фишер,раздел,знание,рад_услышать,взятие,элемент,происходить,нагрузка,билет,помочь,маг,скидка,миллиард,request
5,передача,книга,программист,трафик,чили,причина,литий,флешек,считать,глонасс,набирать_оборот,либо,ткань,серверный,алгоритм,проводить,давление,автор,директор,пройти_успешно
6,провайдер,бизнес,область,сеть,игровой_индустрия,пуск,уровень_изоляция,загрузка,книга,противоположный_направление,продлиться,переход,тело,пакет,подтянуть,поведение,преобразование_фурье,день,миллион,ул
7,поддерживать,компьютер,обучение,партнёр,интернет,проверка,неизменный,старый,понять,солнечный_ветер,шасси,удержаться,ситуация,быстрый,программирование,сфера,франшиза,ключ,осень_год,байткод
8,внутренний,сотрудник,развитие,канал,потенциальный_инвестор,орбита,приняться,консоль,жизнь,пятьдесят,минимизировать_риска,значение,организм,база_дать,хайп,модель,воздух,обзор,стоимость,архивация
9,каталог,день,исследование,покупка,физика_химия,провести,аркадный_автомат,диск,программист,магнитный_поль,позиция,однотипный,принятие,производительность,отбор,предлагать,путь,рубль,завершить,отбрасываться


### 4) постройте несколько LDA моделей (переберите количество тем, можете поменять eta, alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем;

In [54]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=10, num_topics=20)

CPU times: user 2min 34s, sys: 1min 22s, total: 3min 57s
Wall time: 2min 47s


In [55]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,файл,услуга,температура,объект,атака,элемент,студент,игра,сайт,файл,изображение,устройство,мозг,бизнес,клетка,заказчик,браузер,запрос,сеть,игра
1,бот,вакансия,скорость,класс,товар,модель,курс,игрок,сервер,добавить,точка,звук,область,открытый,учёный,продукт,устройство,массив,сервер,боль
2,сообщение,рынок,устройство,метод,сотрудник,значение,программа,игровой,домен,страница,сигнал,усилитель,исследование,робот,двигатель,продажа,обновление,условие,правило,игрок
3,канал,страна,корпус,свойство,пароль,цикл,программист,её,сервис,компонент,координата,цена,лицо,цифровой,страна,клиент,модель,запись,доступ,исследование
4,поиск,интернет,аккумулятор,атрибут,вселенная,память,день,играть,ссылка,параметр,значение,камера,ребёнок,ресурс,земля,реклама,клиент,строка,устройство,понять
5,сервис,клиент,печать,модуль,доступ,размер,язык,карта,трафик,сообщение,машина,телефон,исследователь,область,тело,деньга,платформа,база_дать,узел,тест
6,релиз,доступ,дом,значение,инцидент,слово,программирование,дизайнер,страница,настройка,яркость,смартфон,изображение,набор,материал,перевод,мобильный,репликация,событие,играть
7,письмо,российский,питание,контекст,причина,операция,книга,история,клиент,скрипт,алгоритм,производитель,пациент,публикация,энергия,цель,сервис,таблица,настройка,изменение
8,видео,документ,головка,структура,известный,библиотека,читать,деньга,сеть,строка,цвет,инструмент,инструмент,смысл,причина,тестирование,изменение,выражение,пакет,почему
9,название,защита,мощность,задать,поскольку,язык,рассказать,удача,машина,папка,прибор,производство,младенец,счёт,кожа,тысяча,будущее,индекс,база,понимать


In [56]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=10, num_topics=30)

CPU times: user 2min 50s, sys: 1min 53s, total: 4min 44s
Wall time: 3min 9s


In [57]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,печать,атака,книга,устройство,платформа,боль,программа,сеть,сервер,массив,изображение,яркость,игра,файл,мозг,услуга,устройство,страна,слово,тест
1,скорость,библиотека,читать,раздел,архитектура,изменение,программирование,доступ,домен,объект,алгоритм,стандарт,игрок,браузер,исследование,вакансия,звук,двигатель,кампания,узел
2,температура,закон,жизнь,режим,сервис,сопротивление,программист,интернет,скрипт,класс,точка,сигнал,играть,бот,учёный,клиент,машина,робот,текст,сеть
3,головка,российский,заниматься,перезагрузка,инструмент,тело,компьютер,точка,сайт,значение,элемент,пространство,игровой,канал,область,сервер,смартфон,энергия,строка,вычислительный
4,материал,компьютер,ничто,флешек,поддержка,определение,студент,подключение,настройка,метод,значение,цвет,исследование,поиск,лицо,сайт,режим,скорость,символ,ядро
5,принтер,пароль,вообще,обновление,модель,происходить,язык,актор,сервис,контекст,объект,частота,понять,язык,исследователь,опыт,аккумулятор,земля,файл,операция
6,деталь,доступ,думать,загрузка,библиотека,ситуация,электроника,конференция,установка,строка,область,диапазон,дизайнер,сообщение,пациент,ценность,усилитель,сша,объявление,скорость
7,изделие,крупный,пытаться,диск,подход,ткань,знание,публичный,ссылка,цикл,блок,основный,её,перевод,младенец,поддерживать,корпус,южный_корея,заголовок,задержка
8,пластик,безопасность,понимать,выполнить,облачный,рука,задание,клетка,установить,вызов,размер,параметр,тест,название,ребёнок,понятный,температура,интернет,стикер,процессор
9,мм,представитель,день,выбрать,язык,организм,предмет,сообщение,машина,условие,граница,источник,часто,группа,метод,анализ,дом,причина,дерево,сообщение


In [58]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=20, num_topics=25)

CPU times: user 3min 46s, sys: 2min 46s, total: 6min 32s
Wall time: 3min 59s


In [59]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,файл,услуга,температура,объект,атака,значение,студент,игра,сайт,файл,изображение,устройство,мозг,бизнес,учёный,продукт,браузер,запрос,сеть,игра
1,сообщение,вакансия,устройство,класс,товар,элемент,курс,игрок,сервер,добавить,точка,звук,область,открытый,клетка,заказчик,модель,массив,сервер,боль
2,бот,рынок,скорость,метод,сотрудник,цикл,программа,игровой,домен,страница,сигнал,камера,исследование,робот,двигатель,продажа,устройство,условие,правило,игрок
3,канал,страна,корпус,свойство,пароль,память,день,её,сервис,компонент,координата,цена,лицо,цифровой,земля,перевод,обновление,запись,доступ,тест
4,поиск,клиент,печать,атрибут,вселенная,слово,программист,играть,клиент,параметр,машина,телефон,ребёнок,ресурс,страна,клиент,клиент,база_дать,устройство,исследование
5,письмо,интернет,аккумулятор,модуль,доступ,размер,язык,карта,трафик,настройка,значение,смартфон,исследователь,область,энергия,цель,мобильный,выражение,узел,понять
6,отчёт,российский,дом,значение,известный,язык,читать,дизайнер,страница,сообщение,яркость,усилитель,изображение,сотрудник,тело,текст,сервис,репликация,пакет,играть
7,сервис,доступ,питание,контекст,причина,блок,книга,история,ссылка,скрипт,алгоритм,производитель,обучение,счёт,материал,тестирование,платформа,архитектура,событие,изменение
8,видео,документ,датчик,структура,безопасность,библиотека,рассказать,думать,сеть,список,пространство,экран,пациент,набор,причина,реклама,изменение,строка,настройка,почему
9,название,защита,мощность,вызов,попытка,строка,программирование,деньга,партнёр,папка,цвет,инструмент,инструмент,публикация,спутник,комментарий,сервер,таблица,виртуальный,происходить


#### Не плохо, надо еще что-то изменить

In [65]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=20, num_topics=25, no_above = 0.25)

CPU times: user 3min 57s, sys: 3min 3s, total: 7min 1s
Wall time: 4min 7s


In [66]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,бизнес,температура,камера,элемент,сервер,безопасность,думать,мозг,модуль,двигатель,контекст,текст,изображение,часы,страница,объект,вакансия,студент,сеть,боль
1,рынок,печать,модель,строка,событие,доступ,продукт,поиск,скрипт,аккумулятор,библиотека,язык,шорткат,город,сообщение,массив,анализ,курс,услуга,учёный
2,деньга,скорость,экран,запрос,правило,атака,самый_дело,ребёнок,раздел,батарея,вызов,перевод,стикер,сервис,браузер,класс,тестирование,программист,трафик,исследование
3,заказчик,материал,смартфон,таблица,клиент,защита,довольно,клетка,загрузка,помещение,класс,дизайн,область,машина,ссылка,свойство,область,книга,доступ,энергия
4,клиент,корпус,цена,цикл,инфраструктура,уязвимость,смотреть,лицо,папка,оборудование,структура,рабочий_место,алгоритм,сервер,домен,атрибут,группа,программирование,клиент,научный
5,крупный,головка,телефон,запись,сервис,организация,далёкий,младенец,режим,производство,тест,цифровой,электроника,квеста,контент,задать,опыт,рассказать,интернет,тело
6,услуга,плата,товар,блок,запрос,пароль,хотеться,музыка,обновление,провести,объект,спутник,задание,план,бот,поль,гипотеза,конференция,протокол,земля
7,продажа,питание,видео,переменный,облачный,интернет,примерно,канал,запустить,проверка,подход,название,выделить,час,форма,реализация,тестировщик,участник,точка,страна
8,сотрудник,принтер,производитель,условие,нагрузка,сотрудник,пара,релиз,настройка,ёмкость,логика,локализация,класс,загадка,дефект,определять,язык,тема,канал,скорость
9,российский,сигнал,процессор,компонент,поддержка,информационный_безопасность,взять,развитие,пароль,план,рефакторинг,ракета,граница,месяц,добавлять,ссылка,выборка,знание,передача,жизнь


In [67]:
lda_model_1.print_topics(25)

[(0,
  '0.014*"сервер" + 0.012*"пакет" + 0.011*"ядро" + 0.011*"узел" + 0.011*"сеть" + 0.010*"контейнер" + 0.009*"адрес" + 0.009*"настройка" + 0.009*"порт" + 0.008*"тест"'),
 (1,
  '0.053*"сеть" + 0.041*"услуга" + 0.021*"трафик" + 0.020*"доступ" + 0.020*"клиент" + 0.017*"интернет" + 0.014*"протокол" + 0.012*"точка" + 0.011*"канал" + 0.010*"передача"'),
 (2,
  '0.022*"двигатель" + 0.014*"аккумулятор" + 0.012*"батарея" + 0.011*"помещение" + 0.009*"оборудование" + 0.008*"производство" + 0.007*"провести" + 0.007*"проверка" + 0.007*"ёмкость" + 0.006*"план"'),
 (3,
  '0.010*"часы" + 0.010*"город" + 0.009*"сервис" + 0.009*"машина" + 0.009*"сервер" + 0.009*"квеста" + 0.009*"план" + 0.008*"час" + 0.008*"загадка" + 0.008*"месяц"'),
 (4,
  '0.014*"контекст" + 0.014*"библиотека" + 0.014*"вызов" + 0.013*"класс" + 0.013*"структура" + 0.010*"тест" + 0.010*"объект" + 0.010*"подход" + 0.008*"логика" + 0.007*"рефакторинг"'),
 (5,
  '0.021*"изображение" + 0.018*"шорткат" + 0.012*"стикер" + 0.012*"область"

### 5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы

Кажется, лучше всего вышло при passes=20, num_topics=25, no_above = 0.25

- НАСТРОЙКА СЕРВЕРА (0,
  '0.014*"сервер" + 0.012*"пакет" + 0.011*"ядро" + 0.011*"узел" + 0.011*"сеть" + 0.010*"контейнер" + 0.009*"адрес" + 0.009*"настройка" + 0.009*"порт" + 0.008*"тест"'),
- ИНТЕРНЕТ-СОЕДИНЕНИЕ (1,
  '0.053*"сеть" + 0.041*"услуга" + 0.021*"трафик" + 0.020*"доступ" + 0.020*"клиент" + 0.017*"интернет" + 0.014*"протокол" + 0.012*"точка" + 0.011*"канал" + 0.010*"передача"')
 
- ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ (21,
  '0.018*"безопасность" + 0.013*"доступ" + 0.012*"атака" + 0.012*"защита" + 0.011*"уязвимость" + 0.007*"организация" + 0.007*"пароль" + 0.007*"интернет" + 0.007*"сотрудник" + 0.006*"информационный_безопасность"')

### 6) между словарем и обучением модели добавьте tfidf (gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]);

Это мы уже сделали: в функции lda_mod есть возможность сделать tf-idf

### 7) повторите пункт 4 на преобразованном корпусе;

In [68]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=10, num_topics=20, tfidf=True)

CPU times: user 4min 5s, sys: 1min 19s, total: 5min 24s
Wall time: 4min 30s


In [69]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,игра,согласование_документ,шорткат,второе_квартал,фас,игра,синтезатор,усилитель,чен,капитализация,балансировщик_нагрузка,независимый_объективный,младенец,актор,игра,фсб,южный_корея,табло,объект,игра
1,файл,игра,хромосома,деление_клетка,цифровой_экономика,объект,порекомендовать,температура,игра,игра,игра,автор_желающий,игра,игра,объект,законопроект,слайд,реле,массив,объект
2,сервер,объект,ёмкость_батарея,чд,деструктор,файл,профессиональный_литература,яркость,объект,объект,объект,радость_предоставить,объект,объект,файл,ведомство,прям,резистор,класс,файл
3,устройство,файл,хостовый,игра,игра,лишний_телодвижение,многое_друг,корпус,файл,файл,файл,даджет_блогер,файл,файл,класс,сообщать_тасс,датчик,unsigned,атрибут,класс
4,сайт,класс,игра,объект,объект,класс,интересно_выяснить,зарядка,класс,класс,класс,заинтересовать_публикация,шелл,класс,элемент,игра,двигатель,игра,компонент,элемент
5,сеть,элемент,объект,файл,файл,элемент,лайфхак_позволять,робот,элемент,элемент,элемент,обзор_даджет,класс,элемент,устройство,объект,пуск,объект,свойство,устройство
6,браузер,устройство,файл,класс,договорённость,устройство,труд_отдых,пилот,устройство,устройство,устройство,уточнить_информация,элемент,устройство,значение,файл,спутник,щит,репликация,значение
7,сервис,значение,класс,элемент,command,значение,репозиторий_пользоваться,вселенная,значение,значение,значение,предотвратить_ошибка,устройство,значение,сервер,федеральный_служба,вносить,файл,файл,сервер
8,услуга,сервер,элемент,устройство,класс,сервер,профессиональный_привычка,магнитный_поль,сервер,сервер,сервер,оставаться_усмотрение,значение,модель,модель,ридер,ракета,выключаться,значение,модель
9,клиент,модель,устройство,значение,элемент,модель,общий_закономерность,аккумулятор,модель,модель,модель,игра,сервер,сервер,страница,класс,фоновый_режим,самообслуживание,дерево,страница


In [70]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=10, num_topics=30, tfidf=True)

CPU times: user 4min 14s, sys: 1min 40s, total: 5min 55s
Wall time: 4min 47s


In [71]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,уточнить_информация,цифровой_экономика,гендиректор,корея,инцидент,партнерский_сеть,операционный_усилитель,игра,конвертер,поляризация,слайд,хромосома,младенец,синтезатор,last,выпадать_список,боль,фас,файл,подача_заявка
1,независимый_объективный,подать_суд,твиттереть,постараться_объяснить,усилитель,соц,фмрт,игрок,логин,ридер,регулирование,магнитный_поль,второе_квартал,балансировщик_нагрузка,мгту_имя,подборка_ссылка,табло,репликация,устройство,прогон
2,обзор_даджет,вторник,обучение_подкрепление,предсказывать_будущее,южный_корея,квестовый,краткий_экскурс,контекст,вредоносный_программа,роговица,иллюстрация,сетчатка,беларусь,присоединение,вич,эксплуатация_уязвимость,сопротивление,медицинский_учреждение,сервер,беспилотный_автомобиль
3,радость_предоставить,ликвидировать,бумажный_книга,трение,законопроект,чистый_прибыль,возбуждение,мозг,субъект,клинический_испытание,самообслуживание,блогер,ёмкость_батарея,балансировщик,молекула_днк,дгу,бронирование,сообщать_тасс,объект,version
4,даджет_блогер,авторский_право,интеллектуальный_агент,стабилизатор,фсб,покемон,шелл,студент,ниже_рыночный,раковый,программный_комитет,деление_клетка,функциональный_парадигма,result,масса_тонна,физический_активность,костя,демократия,сеть,материнский
5,автор_желающий,бедный,сайт,декодирование,рф,дискета,плотность_размещение,заказчик,виза,фильм_сериал,долгий_ящик,счётчик,арифметик,options,вакцина,аутсорсинг,зарядка,вердикт,браузер,молния
6,заинтересовать_публикация,чд,продукт,истинный,гибкость,хранение_резервный,ребёнок_взрослый,курс,новогодний_праздник,негативный_влияние,номер_телефон,фонарик,географический,продолжительный,пират,сайт,беспроводный_сеть,мириться,запрос,ткань_орган
7,предотвратить_ошибка,требование_выкуп,файл,вт_вт,закон,лекция_лекция,нервный_волокно,книга,регулярно_обновляться,печень,поправка,щит,игорь,unsigned,сайт,продукт,датчик_температура,критичный_баг,сообщение,упор_делаться
8,оставаться_усмотрение,аппаратный_ускорение,сервер,сша_канада,услуга,лм,эйлер,продажа,выключатель,петербургский,подробно_разбирать,напряжение_питание,заработный_плата,протез,продукт,файл,магнитометр,бпнуть,модель,стимулировать_рост
9,россия_украина,потенциальный_жертва,книга,коптереть,безопасность,платный_подписка,двухфакторный_аутентификация,ребёнок,копировать,format,поспорить,резка,сыграть_роль,восстановление_работоспособность,файл,сервер,плазма,кинопоиск,сайт,сайт


In [74]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=20, num_topics=25, tfidf=True)

CPU times: user 6min 57s, sys: 3min 4s, total: 10min 2s
Wall time: 7min 36s


In [75]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,фас,балансировщик_нагрузка,устройство,температура,базовый_станция,устройство,технопарк,слайд,устройство,система_видеонаблюдение,табло,второе_квартал,файл,устройство,устройство,игра,устройство,синтезатор,устройство,устройство
1,устройство,устройство,сервер,аккумулятор,ниже_рыночный,сервер,устройство,читать,сервер,цифровой_экономика,партнерский_сеть,устройство,сервер,сервер,сервер,услуга,сервер,магнитометр,сервер,сервер
2,сервер,сервер,силовой_установка,усилитель,чд,сайт,сервер,подборка,сайт,устройство,устройство,сервер,объект,сайт,сайт,сайт,сайт,устройство,сайт,учёт_инфляция
3,читать_слушать,сайт,сайт,инцидент,устройство,сеть,деструктор,иллюстрация,сеть,сервер,сервер,сайт,браузер,сеть,сеть,продукт,сеть,сервер,сеть,сайт
4,сайт,сеть,сеть,кабель,сервер,компьютер,университет_итмый,переводить,компьютер,сайт,сайт,сообщать_тасс,запрос,роговица,компьютер,сеть,компьютер,головка,компьютер,сеть
5,федеральный_служба,компьютер,компьютер,китай,сайт,модель,сайт,публиковать,модель,сеть,примечание_переводчик,сеть,класс,компьютер,модель,игрок,модель,сайт,модель,компьютер
6,сеть,модель,модель,актор,сеть,сервис,сеть,порекомендовать,сервис,компьютер,сеть,компьютер,компонент,модель,сервис,клиент,сервис,сеть,сервис,модель
7,компьютер,сервис,проехать,дефект,компьютер,машина,компьютер,опрос,машина,модель,компьютер,модель,строка,сервис,машина,сотрудник,машина,компьютер,машина,сервис
8,модель,машина,сервис,корпус,модель,программа,модель,типизация,программа,сервис,модель,сервис,сообщение,машина,программа,устройство,программа,модель,программа,машина
9,сервис,программа,машина,шорткат,сервис,виртуальный,сервис,перевод,виртуальный,ночное,сервис,машина,значение,программа,виртуальный,безопасность,виртуальный,сервис,виртуальный,программа


In [76]:
%%time
lda_model_1 = lda_mod(texts_cl_no_eng, passes=20, num_topics=25, no_above = 0.25, tfidf=True)

CPU times: user 6min 34s, sys: 2min 45s, total: 9min 20s
Wall time: 7min 10s


In [77]:
res_bad = lda_model_1.print_topics()

res_good = []
for word in res_bad:
    #print(word[1])
    res = re.findall('\*"(.*?)"', word[1])
    #print(res)
    res_good.append(res)
pd.DataFrame(res_good).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,согласование_документ,игра,игра,игра,сервер,лвс,фас,порекомендовать,игра,даджет_блогер,игра,чд,игра,игра,табло,балансировщик_нагрузка,игра,синтезатор,кндр,игра
1,ниже_рыночный,клиент,клиент,клиент,объект,второе_квартал,регулятор,книга,услуга,заинтересовать_публикация,бот,игра,клиент,клиент,реле,игра,клиент,игра,читать_слушать,клиент
2,игра,сервис,сервис,сервис,запрос,рн,производитель,профессиональный_литература,сотрудник,независимый_объективный,звук,клиент,сервис,сервис,оборудование,клиент,сервис,клиент,хостовый,сервис
3,клиент,продукт,продукт,продукт,класс,игра,подать_суд,многое_друг,игрок,автор_желающий,смартфон,сервис,продукт,продукт,услуга,сервис,шелл,сервис,игра,продукт
4,сервис,книга,книга,книга,сообщение,клиент,штраф,помочь_выявить,бизнес,радость_предоставить,аккумулятор,продукт,книга,книга,резистор,продукт,продукт,продукт,клиент,книга
5,продукт,модель,модель,модель,сеть,сервис,рф,труд_отдых,безопасность,обзор_даджет,реклама,книга,модель,модель,аппарат,книга,книга,книга,сервис,модель
6,книга,компьютер,компьютер,компьютер,компонент,продукт,январь,репозиторий_пользоваться,страна,уточнить_информация,вакансия,модель,компьютер,компьютер,клиент,модель,модель,модель,продукт,компьютер
7,модель,производитель,производитель,производитель,страница,двигатель_ступень,корпорация,интересно_выяснить,заказчик,предотвратить_ошибка,мессенджер,компьютер,производитель,производитель,деньга,компьютер,компьютер,компьютер,книга,производитель
8,компьютер,язык,язык,язык,модуль,книга,суд,лайфхак_позволять,исследование,оставаться_усмотрение,усилитель,производитель,язык,язык,кнопка,производитель,производитель,производитель,модель,язык
9,производитель,сеть,сеть,сеть,модель,модель,российский,профессиональный_привычка,мозг,игра,дом,язык,сеть,сеть,примечание_переводчик,язык,язык,язык,компьютер,сеть


In [78]:
lda_model_1.print_topics(25)

[(0,
  '0.001*"мбайт" + 0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"плотность_размещение" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель"'),
 (1,
  '0.003*"кндр" + 0.001*"читать_слушать" + 0.001*"хостовый" + 0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер"'),
 (2,
  '0.001*"даджет_блогер" + 0.001*"заинтересовать_публикация" + 0.001*"независимый_объективный" + 0.001*"автор_желающий" + 0.001*"радость_предоставить" + 0.001*"обзор_даджет" + 0.001*"уточнить_информация" + 0.001*"предотвратить_ошибка" + 0.001*"оставаться_усмотрение" + 0.001*"игра"'),
 (3,
  '0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель" + 0.001*"язык" + 0.001*"сеть"'),
 (4,
  '0.003*"игра" + 0.003*"бот" + 0.003*"звук" + 0.002*"смартфон" + 0.002*"аккумулятор" + 0.002*"реклама" + 0.002*"вакансия" + 0.002*"ме

### 8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

Смотрим на модель при passes=20, num_topics=25, no_above = 0.25:

Появились новые темы:
- (19,
  '0.006*"фас" + 0.002*"регулятор" + 0.001*"производитель" + 0.001*"подать_суд" + 0.001*"штраф" + 0.001*"рф" + 0.001*"январь" + 0.001*"корпорация" + 0.001*"суд" + 0.001*"российский"')


Но не всегда понятно, что за тема:
- (21,
  '0.004*"лвс" + 0.002*"второе_квартал" + 0.001*"рн" + 0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"двигатель_ступень" + 0.001*"книга" + 0.001*"модель"'),


Несколько тем получились практически идентичны:
- 23,
  '0.001*"чд" + 0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель" + 0.001*"язык"'),
- (24,
  '0.002*"чен" + 0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель" + 0.001*"язык"')
- (15,
  '0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель" + 0.001*"язык" + 0.001*"сеть"'),
- (16,
  '0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель" + 0.001*"язык" + 0.001*"сеть"'),
- (17,
  '0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель" + 0.001*"язык" + 0.001*"сеть"'),
- (18,
  '0.001*"игра" + 0.001*"клиент" + 0.001*"сервис" + 0.001*"продукт" + 0.001*"книга" + 0.001*"модель" + 0.001*"компьютер" + 0.001*"производитель" + 0.001*"язык" + 0.001*"сеть"')


Почти во всех темах встречаются слова: __книга, игра, сервис__



### 9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

### Разложение матриц в sklearn

In [79]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

Sklearn принимает на вход строки, поэтому склеим наши списки.

In [80]:
stexts = [' '.join(text) for text in texts_cl_no_eng]

In [91]:
def nmf_mod(stexts,
              n_components=10,
              alpha=0,
              max_features=25000,
              min_df=6,
              max_df=0.1,
              lowercase=False, 
              ngram_range=(1,1)):
        
    vectorizer = TfidfVectorizer(max_features=max_features,
                                 min_df=min_df,
                                 max_df=max_df,
                                 lowercase=lowercase,
                                 ngram_range=ngram_range)
    X = vectorizer.fit_transform(stexts)
    
    model = NMF(n_components=n_components, random_state=55, alpha=alpha)
    model.fit(X)
    
    return model, vectorizer

In [95]:
def get_nmf_topics(model, vectorizer, n_top_words):
    
    #id слов.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(model.n_components):
        
        #топ n слов для темы.
        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

In [92]:
%%time
model, vectorizer = nmf_mod(stexts)

CPU times: user 4.97 s, sys: 824 ms, total: 5.8 s
Wall time: 5.9 s


In [96]:
get_nmf_topics(model, vectorizer, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10
0,массив,космический,сигнал,уязвимость,камера,игрок,мозг,диск,бот,конференция
1,сборка,спутник,звук,атака,смартфон,игровой,учёный,облако,чат,письмо
2,плагин,орбита,частота,пароль,гб,персонаж,робот,облачный,мессенджер,реклама
3,папка,земля,наушник,злоумышленник,аккумулятор,геймплей,пациент,резервный,телеграм,офис
4,шаблон,аппарат,усилитель,вредоносный,дисплей,враг,клетка,трафик,токен,директор
5,репозиторий,марс,плата,шифрование,корпус,жанр,нейросеть,сетевой,отправка,профессиональный
6,возвращать,станция,диапазон,учётный,датчик,реальность,ребёнок,кластер,робот,менеджер
7,аргумент,планета,музыка,сертификат,процессор,комната,научный,процессор,сертификат,стартап
8,компилятор,вселенная,звуковой,аккаунт,ноутбук,движок,интеллект,вм,лига,товар
9,директория,наса,напряжение,домен,рубль,миссия,университет,хранилище,аудитория,социальный


In [103]:
%%time
model, vectorizer = nmf_mod(stexts,n_components=20,ngram_range=(1,2))

CPU times: user 29.9 s, sys: 8.48 s, total: 38.4 s
Wall time: 32.6 s


In [104]:
get_nmf_topics(model, vectorizer, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,Topic # 11,Topic # 12,Topic # 13,Topic # 14,Topic # 15,Topic # 16,Topic # 17,Topic # 18,Topic # 19,Topic # 20
0,реклама,пациент,плагин,камера,блокчейн,порекомендовать,космический,уязвимость,игрок,бот,вселенная,сигнал,анимация,робот,массив,нейросеть,товар,диск,сертификат,конференция
1,заказчик,мозг,папка,смартфон,автомобиль,предпочитать,спутник,атака,игровой,чат,галактика,звук,текстура,ребёнок,указатель,нейронный,скидка,резервный,домен,спикер
2,менеджер,клетка,сборка,гб,финансовый,профессиональный,орбита,пароль,персонаж,телеграм,энергия,частота,пиксель,датчик,компилятор,нейронный сеть,магазин,виртуальный машина,письмо,выступление
3,аудитория,учёный,репозиторий,аккумулятор,банка,слушать,аппарат,злоумышленник,враг,мессенджер,звезда,наушник,шейдёр,робототехника,аргумент,интеллект,покупатель,вм,пароль,доклад
4,социальный,заболевание,директория,дисплей,платёж,музыка,марс,вредоносный,геймплей,токен,материя,усилитель,кадр,дрон,возвращать,машинный,покупка,облако,почтовый,слайд
5,дизайнер,болезнь,контейнер,корпус,закон,бумажный,земля,ботнет,миссия,лига,тёмный,плата,координата,автомобиль,символ,искусственный,распродажа,кластер,токен,мероприятие
6,письмо,ген,окно,процессор,транзакция,внутренний проект,станция,жертва,комната,отправка,солнце,звуковой,сцена,сборка,выражение,искусственный интеллект,заказ,облачный,трафик,презентация
7,контент,врач,меню,ноутбук,миллиард,бумажный книга,наса,учётный,виртуальный реальность,чат бот,теория,диапазон,спрайт,школа,анализатор,машинный обучение,акция,копирование,сертификация,встреча
8,маркетинг,лечение,пароль,датчик,банк,электронный читалка,луна,шифрование,реальность,текстовый,излучение,музыка,слой,узел,байт,слой,продавец,бэкап,контроллер,москва
9,ребёнок,организм,каталог,батарея,доход,читалка,ракета,исследователь,ваш игра,диалог,гравитация,напряжение,движок,дронов,индекс,нейрон,чёрный пятница,резервный копирование,почта,декабрь


In [105]:
%%time
model, vectorizer = nmf_mod(stexts,n_components=25,ngram_range=(1,2))

CPU times: user 50.3 s, sys: 26.2 s, total: 1min 16s
Wall time: 50.4 s


In [106]:
get_nmf_topics(model, vectorizer, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 16,Topic # 17,Topic # 18,Topic # 19,Topic # 20,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25
0,конференция,мозг,пароль,процессор,облачный,порекомендовать,космический,уязвимость,игрок,бот,...,нейросеть,лекция,диск,сертификат,плагин,товар,печать,автомобиль,реклама,блокчейн
1,выступление,пациент,учётный,смартфон,облако,предпочитать,спутник,атака,игровой,чат,...,нейронный,студент,резервный,домен,сборка,скидка,принтер,беспилотный,письмо,финансовый
2,спикер,клетка,учётный запись,гб,трафик,профессиональный,орбита,злоумышленник,персонаж,телеграм,...,нейронный сеть,лекция лекция,вм,сертификация,папка,магазин,станок,водитель,контент,банка
3,встреча,учёный,авторизация,ноутбук,провайдер,слушать,аппарат,вредоносный,геймплей,мессенджер,...,интеллект,университет,виртуальный машина,закрытый ключ,репозиторий,покупатель,температура,беспилотный автомобиль,рекламный,платёж
4,заказчик,болезнь,флаг,дисплей,сетевой,бумажный,марс,ботнет,враг,токен,...,машинный,профессор,бэкап,подпись,контейнер,покупка,мм,дорога,рассылка,транзакция
5,менеджер,заболевание,задание,аккумулятор,протокол,внутренний проект,земля,исследователь,комната,лига,...,искусственный,школа,резервный копирование,контроллер,директория,распродажа,производство,автопилот,аудитория,доход
6,офис,ген,порт,видеокарта,цод,музыка,станция,привилегия,миссия,отправка,...,искусственный интеллект,слайд,копирование,открытый ключ,окно,заказ,пластик,грузовик,социальный,закон
7,мероприятие,врач,логин,клавиатура,виртуализация,бумажный книга,наса,угроза,ваш игра,чат бот,...,машинный обучение,знакомить,восстановление,токен,меню,продавец,изделие,автомобильный,почта,банк
8,навык,лечение,аутентификация,чип,шлюз,электронный читалка,луна,эксплойт,виртуальный реальность,текстовый,...,слой,монтаж,кластер,закрытый,каталог,акция,корпус,город,подписчик,рубль
9,москва,организм,аккаунт,корпус,заказчик,читалка,ракета,жертва,жанр,диалог,...,нейрон,понятие,копия,получение сертификат,релиз,чёрный пятница,плата,авто,маркетинг,налог


In [107]:
%%time
model, vectorizer = nmf_mod(stexts,n_components=30,ngram_range=(1,2))

CPU times: user 1min 8s, sys: 34.6 s, total: 1min 43s
Wall time: 1min 7s


In [108]:
get_nmf_topics(model, vectorizer, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,заказчик,датчик,папка,камера,облачный,порекомендовать,космический,уязвимость,игрок,бот,...,конференция,нейросеть,автомобиль,процессор,блокчейн,печать,реклама,мозг,сертификат,резервный
1,рубль,аккумулятор,окно,смартфон,облако,предпочитать,спутник,атака,игровой,чат,...,спикер,нейронный,беспилотный,диск,транзакция,принтер,письмо,пациент,домен,вм
2,менеджер,температура,меню,регистратор,трафик,профессиональный,орбита,злоумышленник,персонаж,телеграм,...,выступление,нейронный сеть,водитель,гб,финансовый,станок,рекламный,клетка,сертификация,бэкап
3,стартап,напряжение,вкладка,разрешение,провайдер,слушать,аппарат,вредоносный,враг,мессенджер,...,доклад,интеллект,беспилотный автомобиль,ноутбук,банка,пластик,контент,учёный,закрытый ключ,резервный копирование
4,директор,батарея,нажать,гб,сетевой,внутренний проект,марс,ботнет,геймплей,токен,...,слайд,машинный,дорога,видеокарта,биткойна,мм,рассылка,болезнь,подпись,виртуальный машина
5,руководитель,плата,панель,дисплей,протокол,бумажный,земля,исследователь,комната,лига,...,мероприятие,искусственный,автопилот,оперативный память,банк,изделие,аудитория,заболевание,открытый ключ,копирование
6,зарплата,ток,раздел,съёмка,цод,музыка,станция,привилегия,миссия,отправка,...,встреча,искусственный интеллект,грузовик,оперативный,криптовалюта,производство,домен,ген,токен,восстановление
7,офис,питание,иконка,кадр,виртуализация,бумажный книга,наса,угроза,виртуальный реальность,чат бот,...,презентация,машинный обучение,автомобильный,накопитель,платёж,печатать,подписчик,врач,закрытый,копия
8,ребёнок,энергия,контроллер,рубль,узел,электронный читалка,луна,жертва,ваш игра,диалог,...,москва,слой,город,жёсткий диск,платёжный,рубль,почта,лечение,получение сертификат,резервный копия
9,вакансия,корпус,шрифт,объектив,шлюз,читалка,ракета,эксплойт,реальность,текстовый,...,декабрь,нейрон,авто,жёсткий,валюта,бумага,социальный,организм,центр сертификация,диск


### 10) в отдельной ячейки напечатайте таблицу с темами лучшей NMF модели, сравните их с теми, что получились в LDA.

Вообще темы получились хорошие везде. Я напечатаю на 20, потому что она точно вся отображается :)

In [110]:
%%time
model, vectorizer = nmf_mod(stexts,n_components=20,ngram_range=(1,2))

CPU times: user 29.5 s, sys: 8.87 s, total: 38.4 s
Wall time: 31.6 s


In [111]:
get_nmf_topics(model, vectorizer, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,Topic # 11,Topic # 12,Topic # 13,Topic # 14,Topic # 15,Topic # 16,Topic # 17,Topic # 18,Topic # 19,Topic # 20
0,реклама,пациент,плагин,камера,блокчейн,порекомендовать,космический,уязвимость,игрок,бот,вселенная,сигнал,анимация,робот,массив,нейросеть,товар,диск,сертификат,конференция
1,заказчик,мозг,папка,смартфон,автомобиль,предпочитать,спутник,атака,игровой,чат,галактика,звук,текстура,ребёнок,указатель,нейронный,скидка,резервный,домен,спикер
2,менеджер,клетка,сборка,гб,финансовый,профессиональный,орбита,пароль,персонаж,телеграм,энергия,частота,пиксель,датчик,компилятор,нейронный сеть,магазин,виртуальный машина,письмо,выступление
3,аудитория,учёный,репозиторий,аккумулятор,банка,слушать,аппарат,злоумышленник,враг,мессенджер,звезда,наушник,шейдёр,робототехника,аргумент,интеллект,покупатель,вм,пароль,доклад
4,социальный,заболевание,директория,дисплей,платёж,музыка,марс,вредоносный,геймплей,токен,материя,усилитель,кадр,дрон,возвращать,машинный,покупка,облако,почтовый,слайд
5,дизайнер,болезнь,контейнер,корпус,закон,бумажный,земля,ботнет,миссия,лига,тёмный,плата,координата,автомобиль,символ,искусственный,распродажа,кластер,токен,мероприятие
6,письмо,ген,окно,процессор,транзакция,внутренний проект,станция,жертва,комната,отправка,солнце,звуковой,сцена,сборка,выражение,искусственный интеллект,заказ,облачный,трафик,презентация
7,контент,врач,меню,ноутбук,миллиард,бумажный книга,наса,учётный,виртуальный реальность,чат бот,теория,диапазон,спрайт,школа,анализатор,машинный обучение,акция,копирование,сертификация,встреча
8,маркетинг,лечение,пароль,датчик,банк,электронный читалка,луна,шифрование,реальность,текстовый,излучение,музыка,слой,узел,байт,слой,продавец,бэкап,контроллер,москва
9,ребёнок,организм,каталог,батарея,доход,читалка,ракета,исследователь,ваш игра,диалог,гравитация,напряжение,движок,дронов,индекс,нейрон,чёрный пятница,резервный копирование,почта,декабрь


На мой взгляд, результат получился значительно лучше, чем с LDA. Работает быстрее, темы более осмысленные