In [1]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [3]:
%%time
import pandas as pd
import pickle

pd.set_option('display.max_colwidth', -1)

PATH = 'Задача 1/input/'

df = pd.read_csv(PATH + 'train.csv', index_col='doc_id')
test_df = pd.read_csv(PATH + 'test.csv', index_col='doc_id')

CPU times: user 11.4 s, sys: 2.02 s, total: 13.5 s
Wall time: 13.7 s


## Sklearn Latent Dirichlet Allocation

### Обучение

Преобразуем данные в формат bag of words

In [10]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stopWords = stopwords.words('russian')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [11]:
%%time
from sklearn.feature_extraction.text import CountVectorizer

features = 100000

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                                max_features=100000,
                                stop_words=stopWords)

tf = tf_vectorizer.fit_transform(df['text'])

tf_feature_names = tf_vectorizer.get_feature_names()

CPU times: user 1min 24s, sys: 1.59 s, total: 1min 26s
Wall time: 1min 26s


50 тем оказалось вполне достаточным. 100 было слишком много, были очень похожие топики

In [0]:
from sklearn.decomposition import LatentDirichletAllocation
n_components = 50
lda = LatentDirichletAllocation(n_components=n_components, max_iter=1,
                                learning_method='online', random_state=17,
                                verbose=True, n_jobs=-1)

In [0]:
lda.fit(tf)

In [0]:
pkl_filename = "/gdrive/My Drive/ITMO/pickle_model.pkl"
with open(pkl_filename, 'wb') as file:
    pickle.dump(lda, file)

In [0]:
def top_words(model, feature_names, n_top_words):
  l = []
  for topic in lda.components_:
    topic_tokens = " ".join([feature_names[i]
                             for i in topic.argsort()[:-n_top_words - 1:-1]])
    l.append(topic_tokens)
  return pd.Series(data=l, name='topic_tokens')

In [0]:
topics_to_tokens = top_words(lda, tf_feature_names, 5)

In [112]:
topics_to_tokens[:10]

0    серия порядке сегодня сезон сериал     
1    любовь любить сердце люди знаешь       
2    людей люди хочется жизни умеешь        
3    жизнь жизни человека люди людей        
4    минут масло воды затем масла           
5    окружающим людей уважение людям следует
6    бизнес страница теги como сайт         
7    лишь свет руки любви детей             
8    женщина говорит мужчина муж сказала    
9    репост выбираем авы группу рандомно    
Name: topic_tokens, dtype: object

### Тестирование

In [49]:
%%time
test_tf = tf_vectorizer.transform(test_df['text'])
ans = lda.transform(test_tf)

CPU times: user 10.3 s, sys: 117 ms, total: 10.4 s
Wall time: 10.4 s


In [0]:
test_df['label'] = np.argmax(ans, axis=1)

Сохраним топик для каждого документа и популярные слова для каждого топика

In [0]:
test_df.to_csv('/gdrive/My Drive/ITMO/labels.csv', columns=['label'], index=True)
topics_to_tokens.to_csv('/gdrive/My Drive/ITMO/topics_tokens.csv', 
                        index_label='topic_id', header=True)

### Оценка

#### Количественная метрика

Для количественной оценки LDA можно воспользоваться [perplexity](http://qpleple.com/perplexity-to-evaluate-topic-models/). Perplexity - это показатель того, насколько хорошо вероятностная модель прогнозирует выборку

In [31]:
lda.perplexity(test_tf)

31362.778725074197

Данное знанчение довольно большое. Стоит попробовать разное количество топиков и посмотреть на их значение perplexity. В связи с этим получится подобрать оптимальное количество топиков

#### Качественная оценка (проверяя кластеры вручную)

In [86]:
test_df['label_tokens'] = test_df['label'].apply(lambda el: topics_to_tokens[el])
test_df.head(2)

Unnamed: 0_level_0,text,label,label_tokens
doc_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,разнорабочий шеин примем работу разнорабочего универсальной работы складе строительных материвлов требования ответственность дисциплинированность трудолюбие обязанности выполнять погрузо разгрузочные работы совершать работу распаковке упаковке товара размещать товар складе условия график работы стабильные выплаты день предоставление рабочей формы отапливаемый склад оформление прямой работодатель писать звонить номеру работодатель шеин требуется расклейщик объявлений вопросы тел требуются рабочие установке счётчиков строительную фирму первый день научат установке сдельная оплата труда стоимость установки счётчика плановая норма выполнения работы счётчиков день рабочих работа городе липецке график работы дней липецке дня выходных привозят воронеж липецке снимают квартиру узнать подробнее телефону ищем сотрудника должность разнорабочий склад плата требования ответственность порядочность исполнительность опыт работы обязателен образование имеет значения обязанности погрузочно разгрузочные работы комплектация заказов размещение складе подготовка отгрузке доставки клиентам оформление необходимой документации отчетности актов приема товара товарно транспортных накладных внутренняя отчетность условия оформление работа центре города график присутствует корпоративное жильё сотрудников тел ооо армада преуспевающую компанию требуются энергичные целеустремленные активные сотрудники компания занимается арендой жилой недвижимости вакантное место менеджер работе клиентами молодой коллектив хорошие условия работы стабильный доход рублей месяц официальное трудоустройство согласно рабочие командировки города расположены филиалы компании хорошая бонусная система многое другое график работы возможностью плавающих выходных карьерный рост обучение тренинги получение нового опыта знаний сфере записи собеседование звонить тел срочно требуется магазин красное amp белое пеше стрелецкая специалист опп опыта работы руб график работы продавец опыта работы руб график работы контакты работа вахтовым методом воронеж требуются токаря обязанности токарная обработка металла станках требования опыт работы разряд условия вахта предоставление жилья оплата почасовая компенсация проезда оформление официальное дневная рабочая неделя часов контактное лицо наталья срочно оздоровительный центр требуются операторы телефон неполный рабочий день утренние вечерние смены офис центре города вопросы телефону кристина mybox срочно подработка требуются операторы телефон грффик работы сменный звонить номеру требуется продавец кассир магазин дома бристоль адресу шишкова зарплата белая рублей график дружный коллектив срочно звонить телефону,27,работы работа зарплата требуется работу
1,ၾကည ၾသဂ ၾကည ပစၥည ၾကည သတင unicode version သတင present meeting commander chief navy admiral tin aung san senior military officers office commander chief army commander north west command maj gen phone myat officers ranks families factory workers seikphyu station speech senior general said weapon modernization programmes underway transforming tatmadaw standard army knowledge promotion entire tatmadaw carried tatmadaw members capability handle advanced weapons tatmadaw members army navy air undergo training skilled using troop wise weapons food shelter needs tatmadaw members properly fulfi lled persons hour duty education promotion campaigns carried tatmadawmen wives outstanding students honoured duly medics assigned provide healthcare tatmadaw members families seriousness based service years promotions given tatmadaw members clear wrongdoings war veteran housings built retired military officers andother ranks allotted based budget funds war veteran housings built allotted tatmadaw owned agricultural livestock farms established respective units headquarters welfare tatmadawmen families fruits vegetables fish eggs meat produced farms distributed reduced prices tatmadawmen families need live discipline resolve difficulties requirements reporting respective officers accord discipline moreover tatmadawmen need serve duties showing respect live family spirit administrative officers act commandership spirit fatherly spirit need fair square fair command tradition tatmadaw dutiful performances individuals efforts made improve whole units entire tatmadaw tatmadaw part country tatmadawmen part tatmadaw representing country safeguard public state stressed need always strive tatmadaw state rely meeting senior general commander chief navy presented foodstuff officials senior general party cordially greeted officers ranks families workers factory afterwards senior general party arrived tatmadaw heavy industry morning welcomed commander central command brig gen kyaw swa lin officials meeting room factory factory manager reported senior general manufacturing automobiles related parts senior general fulfilled requirements giving necessaryinstructions senior general party inspected assembling manufacturing automobiles workshops industry officials conducted round production process meeting workers factory senior general urged try best production accepting concept important industry tatmadaw state attending needs senior general presented foodstuff အတက သတင unicode version အတက သတင,11,реж amp год художник love


Как видно, второй пример был плохо "кластеризован". Но данный текст вообще на другом языке, возможно, CountVectorizer просто проигнорировал некоторые слова этого документа (из-за min_df=2), так как слов из данного документа нет в других документах.

In [103]:
s = set(tf_feature_names)
print(sum([word in s for word in test_df.loc[1, 'text'].split(' ')]), 
      'words of', len(test_df.loc[1, 'text'].split(' ')), 
      'in Count Vectorizer')

122 words of 315 in Count Vectorizer


Так и оказалось, почти треть слов не учитывается. Посмотрим на последние 2 документа

In [95]:
test_df.tail(2)

Unnamed: 0_level_0,text,label,label_tokens
doc_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8098,ибо иудеи требуют чудес еллины ищут мудрости проповедуем христа распятого иудеев соблазн еллинов безумие призванных иудеев еллинов христа божию силу божию премудрость кор пойдут многие народы скажут придите взойдем гору господню дом бога иаковлева научит путям ходить стезям ибо сиона выйдет закон слово господне иерусалима судить народы обличит многие племена перекуют мечи орала копья серпы поднимет народ народ меча учиться воевать дом иакова придите ходить свете господнем отринул народ дом иакова многое переняли востока чародеи филистимлян сынами чужих общении наполнилась земля серебром золотом числа сокровищам наполнилась земля конями числа колесницам наполнилась земля идолами поклоняются делу рук сделали персты преклонился унизился муж простишь иди скалу сокройся землю страха господа славы величия поникнут гордые взгляды человека высокое людское унизится господь высок день книга пророка исайи глава языческие обычаи начавшиеся волхвованиями усилившиеся сребролюбия привязанности коням довели идолослужения оттого хотели просить советов бога стали внимать волхвованиям оттого надеялись множество коней ложь спасение могущего сокрушить брани естественным образом дошли земля наполнилась мерзостей посему всякий поступок противный здравому разуму мерзость пред богом слабые желудком склонные позыву рвоту терпят гнусных зрелищ например извержения излишеств зловонных струпов подобного дела нечистоты мерзость святому поскольку собственном смысле идолов писание называет мерзостью всякие негодные представления наподобие живописных картин напечатлеваемые душе суть мерзости наполняющие страну область разумной части душе поклонишася яже сотвориша персты верх безумия признавать богом сделал видеть нелепости дела дивишься веществу почему кланяешься необработанной меди камню дивишься причине искусства кланяйся рукам дали веществу образ орудиям обделывал преклонися смирися муж думаю пророк сказал сие сожаления терпя людях унижения достоинства говорит преклонися поклонения идолу досточестивейший животных земных вчиненный разумными существами почтенный ангелов образом божиим силой ума изобретший искусства познал земное силы растений корней плодов убоялся моря изучил естество воздуха происхождение ветров положение звезд движения расстояния времена соединений устройство примечаемое земле общество законы ратное дело искусства необходимые жизни служащие украшению напоказ повергся идолом требует спасения одушевленный бездушного разумный бесчувственного подручны звери подчинены служения бессловесные твари покорившим богом даровал образ состоящий господствовать животными живущими воде суше каким бессловесным превосходящим силой подобием бессловесных животных безобразной жены гнусного мужчины смеет стать наравне страхом склоняется пред земле недостойный воззреть небо грех против неба святитель василий великий толкование книгу пророка исайи начал терпеливо довели конца дабы страдаем угрожали злословят злословили взаимно благословляли проклинающих предавали богу судящему праведно ибо именно восприимут помысл образец почитать евангелие сообщниками христа подражателями жития апостола святитель афанасий александрийский второе праздничное послание каждый оправданных верой освященных духом сделался священным даром богу каждый обязан христу жизнью ибо сказал божественный павел куплены ценою принадлежим умер живущие жили умершего воскресшего приобрел бога отца цену какую уплатив собственную кровь итак приходим спасителю христу чрез веру освящение воздаяние соделанное принося дар благочестивую жизнь святитель кирилл александрийский поклонении служении духе истине,46,бог бога имя сказал господь
8099,симпатичные законы почему идеальное тело спокойной ночи накачать мышцы навсего увеличить силу стало основополагающей теорией бодибилдинга делать сила хочет расти принимать стероиды желания здоровья помощь атлету приходят натуральные добавки увеличения силы помогли тысячам людей гарантировано увеличат твои мышечные объемы бета аланин аминокислота используется организмом веществ синтеза глюкозы организме является топливом мышц нервной системы головного мозга бета аланин принципе совершенно участвует росте мышц стать отличным подспорьем увеличении силы аминокислота участвует производстве аминокислоты карнозина синтезируется бета аланина гистидина значительно увеличивает силу сокращения мышц значит силу учеными проведен эксперимент меню спортсменов включен бета аланин увеличили показатели силы рекордные дозировка грамма бета аланина вместе протеиновым коктейлем тренировки недели сократить прием грамм кофеин известен пожалуй пьем хочется спать устали некоторые зависят является психоактивным веществом начале прошлого века боксеры выступлением принимали кофеин увеличить концентрацию реакцию силу принимаем походом тренажерный зал эффект увеличения силы кофеина доказан подтвержден учеными утверждают сможете стать сильнее примите тренировки совершенно неплохой результат согласитесь дозировка спортивные эксперты рекомендуют принимать миллиграмма кофеина килограмм тела атлета полчаса тренировки накачать мышцы навсего увеличить силу стало основополагающей теорией бодибилдинга делать сила хочет расти принимать стероиды желания здоровья помощь атлету приходят натуральные добавки увеличения силы помогли тысячам людей гарантировано увеличат твои мышечные объемы бетаин вещество впервые выделенное свеклы исключительно полезное увеличения силы спорте бетаин применяли уменьшить эффект стероидов организм недавние исследования показали помимо защиты печени бетаин усиливает выделение креатина содержит компонентов метионин прием бетаина гарантированно увеличивает взрывную силу выносливость дозировка бетаина белковым коктейлем тренировки протяжении недели креатин вещество вырабатываемое организмом самостоятельно принимаемое виде порошка капсул увеличивает взрывную силу мышц говорили креатине статье кратко описать действие креатин является своеобразным топливом мышц накапливается активно используется приходите зал выносливее сильнее становится атлет главное переусердствовать дозировка первая неделя загрузочная креатина день каждым приемом пищи вторая неделя поддерживающая день аргинин аминокислота используется увеличения объема мышц силы достаточно часто атлеты испытывают нехватку аргинина крови отвечает множество процессов связанных тренировками например бетаин участвует синтезе креатина отвечает выработку окиси азота прием аминокислоты форме аргинина кетоглютората акг эффективным подспорьем хочет накачать мышцы увеличить силу дозировка грамма аргинина акг раза день голодный желудок приведи форму час неделю года назад сразу выхода экраны фильма спартанцев сертифицированный тренер член экспертного совета американского men health крейг бэллэнтайн опубликовал революционную тренировочную программу тренировка состояла упражнений делать подряд отдыха повторов каждом отсюда название программа классная говорить проблема лишь скажем пожать кряду штангу груди силу далеко каждому иметь кубиков животе иметь грамма лишнего жира кожей хочется многим общем году крейг разродился новой программой сути полноценная тренировка повторов упражнений понадобятся съемный турник фитбол табуретка программа развивает выносливость сжигает жир улучшает мышечный рельеф главное занимает минут минус лишь новичков подходит указания тренируйся описанной ниже схеме трижды неделю понедельник среду пятницу например стремись выполнять упражнения подряд отдыха справиться начни половины повторов лишь твоей целью схема тренировки приседаний заключенного отжиманий пола зашагиваний платформу каждой ногой подтягиваний широким хватом выпрыгиваний сгибаний голени фитболе группировок фитболе динамических выпадов каждой ногой отжиманий узким положением ладоней подтягиваний низкой перекладине приседаний заключенного подтягиваний обратным хватом источник чаще травмируются связки коленного сустава сустава стопы разрыве слышен характерный звук щелчок коленном суставе правило разрывается крестообразные латеральные связки разрыв сопровождаться повреждением мениска резкой сильной болью разрыв крестообразной связки рассмотреть примере выдвижного ящика сгибании ноги колене происходит смещение голени вперед назад случае неправильном движении произойти разрыв внутренней связки внешней вращательном движении разорваться обе общими симптомами разрыва связки сильная боль сустава припухлость ненормальное анатомическое положение лечение разрыва связок происходить следующей схеме принять обезболивающий препарат наложить давящую повязку следует наложить компресс изо льда немедленная госпитализация целью определения сложности разрыва связок необходимо сделать рентген артроскопияю метод точного обследования суставов связка оторваться вместе костным фрагментом диагностическое обследование проводится любом случае госпитализация обязательна разрывах связок практически случаях необходима операция операции необходимо длительное восстановления сустава мышечного тонуса обеспечение подвижности используют соответствующее медикаментозное лечение поддерживающие повязки разрабатывается необходимый курс физических упражнений нагрузок рекомендации врача необходимо выполнять строго неукоснительно противном случае возникнут осложнения связки потерять функцию направлять сустав нужную сторону разрыв связок первая помощь важно сразу разрыва связок снять отёчность первой возможности наложить фиксирующую повязку,28,необходимо например случае поэтому времени


Здесь второй документ так же склассифицирован не очень хорошо. Проверим так же как и в прошлый раз

In [102]:
print(sum([word in s for word in test_df.loc[8099, 'text'].split(' ')]), 
      'words of', len(test_df.loc[8099, 'text'].split(' ')), 
      'in Count Vectorizer')

577 words of 650 in Count Vectorizer and


Но в данном тексте мног слов из label'а

In [109]:
label = set(test_df.loc[8099, 'label_tokens'].split())
sum([word in label for word in test_df.loc[8099, 'text'].split()])

8

Это довольно много, учитывая то, что не учитываются остальные слова, не вошедшие в топ 5

### Возможные улучшения

1) Попробовать другое количество кластеров, либо подобрать их в зависимости от perplexity [1]

2) Поменять *max_df* у *CountVectorizer* на 0.6 как написано [1]

3) Сделать лематизацию/стеминг, чтобы окончательно быть уверенным, что данные правильно подготовлены

4) Попробовать *TF-IDF* вместо *CountVectorizer*

[[1]](https://www.quora.com/What-are-good-ways-of-evaluating-the-topics-generated-by-running-LDA-on-a-corpus)