# Домашнее задание  № 5. Матричные разложения/Тематическое моделирование

### Задание № 1 (4 балла)

Попробуйте матричные разложения с 4 классификаторами - SGDClassifier, KNeighborsClassifier,  RandomForest, ExtraTreesClassifier (про него подробнее почитайте в документации, он похож на RF). Используйте и NMF и SVD. Сравните результаты на кросс-валидации и выберите лучшее сочетание.

В итоге у вас должно получиться, как минимум 8 моделей (два разложения на каждый классификатор). Используйте 1 и те же параметры кросс-валидации. Параметры векторизации, параметры K в матричных разложениях, параметры классификаторов могут быть разными между экспериментами.

Можете взять поменьше данных, если все будет обучаться слишком долго (не ставьте параметр K слишком большим в NMF, иначе точно будет слишком долго)

In [1]:
# Импорты

# !pip install razdel

import pandas as pd
import numpy as np
import re

import string
from string import punctuation

import razdel
from razdel import tokenize

import pymorphy2
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()

import warnings
warnings.filterwarnings("ignore")

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn.decomposition import TruncatedSVD, NMF
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn.model_selection import KFold, StratifiedKFold

In [2]:
data = pd.read_csv('avito_category_classification.csv')
data.head()

Unnamed: 0,category_name,description
0,Автомобили,"отличное состояние,обслужиание в салоне"
1,Детская одежда и обувь,В отличном состоянии. Фирма KIKO. Очень теплый...
2,Предложение услуг,"Изготовление ограждений, перил,качелей, турник..."
3,Автомобили,Автомобиль в отличном техническом состоянии. О...
4,Бытовая техника,"Продается газовая плита ""Гефест"" (Белоруссия) ..."


In [3]:
def normalize(text):
    normalized_text = [word.text.strip(punctuation) for word in tokenize(text)]
    normalized_text = [word.lower() for word in normalized_text if word and len(word) < 20 ]
    normalized_text = [morph.parse(word)[0].normal_form for word in normalized_text]
    return ' '.join(normalized_text)

In [4]:
data['description_norm'] = data['description'].apply(normalize)

In [5]:
def eval_table(X, y, pipeline, N=6):
    final_results = []
    labels = list(set(y))
    
    fold_metrics = pd.DataFrame(index=labels)
    errors = np.zeros((len(labels), len(labels)))
    
    kfold = StratifiedKFold(n_splits=N, shuffle=True, )
    
    for i, (train_index, test_index) in enumerate(kfold.split(X, y)):
        pipeline.fit(X[train_index], y[train_index])
        preds = pipeline.predict(X[test_index])
        
        fold_metrics[f'precision_{i}'] = precision_score(y[test_index], preds, labels=labels, average=None)
        fold_metrics[f'recall_{i}'] = recall_score(y[test_index], preds, labels=labels, average=None)
        fold_metrics[f'f1_{i}'] = f1_score(y[test_index], preds, labels=labels, average=None)
        errors += confusion_matrix(y[test_index], preds, labels=labels, normalize='true')
    
    result = pd.DataFrame(index=labels)
    result['precision'] = fold_metrics[[f'precision_{i}' for i in range(N)]].mean(axis=1).round(2)
    result['precision_std'] = fold_metrics[[f'precision_{i}' for i in range(N)]].std(axis=1).round(2)
    
    result['recall'] = fold_metrics[[f'recall_{i}' for i in range(N)]].mean(axis=1).round(2)
    result['recall_std'] = fold_metrics[[f'recall_{i}' for i in range(N)]].std(axis=1).round(2)
    
    result['f1'] = fold_metrics[[f'f1_{i}' for i in range(N)]].mean(axis=1).round(2)
    result['f1_std'] = fold_metrics[[f'f1_{i}' for i in range(N)]].std(axis=1).round(2)
    
    # добавим одну колонку со средним по всем классам
    result.loc['mean'] = result.mean().round(2)
    
    name = f"{pipeline.steps[-1][0]} {pipeline.steps[-2][0]}"
    final_result = result.mean().round(2)
    
    return final_result

In [6]:
# Табличка для сравнения результатов работы разных классификаторов с разными разложениями
overall_results = pd.DataFrame(columns = ["precision", "precision_std", "recall", "recall_std", "f1", "f1_std"])

### SGDClassifier

In [7]:
from sklearn.linear_model import SGDClassifier

pipeline_svd_sgd = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=5, max_df=0.4)),
    ('svd', TruncatedSVD(500)),
    ('sgd', SGDClassifier(max_iter=1000, tol=1e-3))
])

pipeline_nmf_sgd = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), min_df=3, max_df=0.3)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('sgd', SGDClassifier(max_iter=1000, tol=1e-3))
])

overall_results.loc['SDG Classifier + SVD'] = eval_table(data['description_norm'], data['category_name'], pipeline_svd_sgd)
overall_results.loc['SDG Classifier + NMF'] = eval_table(data['description_norm'], data['category_name'], pipeline_nmf_sgd)

### KNeighborsClassifier

In [8]:
from sklearn.neighbors import KNeighborsClassifier

pipeline_svd_k_nbr = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=5, max_df=0.4)),
    ('svd', TruncatedSVD(500)),
    ('k_nbr', KNeighborsClassifier(n_neighbors=3))
])

pipeline_nmf_k_nbr = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), min_df=3, max_df=0.3)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('k_nbr', KNeighborsClassifier(n_neighbors=3))
])

overall_results.loc['KNeighbors + SVD'] = eval_table(data['description_norm'], data['category_name'], pipeline_svd_k_nbr)
overall_results.loc['KNeighbors + NMF'] = eval_table(data['description_norm'], data['category_name'], pipeline_nmf_k_nbr)

### RandomForest

In [9]:
from sklearn.ensemble import RandomForestClassifier

pipeline_svd_ran = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=5, max_df=0.4)),
    ('svd', TruncatedSVD(500)),
    ('ran', RandomForestClassifier(max_depth=2, random_state=0))
])

pipeline_nmf_ran = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), min_df=3, max_df=0.3)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('ran', RandomForestClassifier(max_depth=2, random_state=0))
])

overall_results.loc['RandomForest + SVD'] = eval_table(data['description_norm'], data['category_name'], pipeline_svd_ran)
overall_results.loc['RandomForest + NMF'] = eval_table(data['description_norm'], data['category_name'], pipeline_nmf_ran)

### ExtraTreesClassifier

In [10]:
from sklearn.ensemble import ExtraTreesClassifier

pipeline_svd_extra = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=5, max_df=0.4)),
    ('svd', TruncatedSVD(500)),
    ('extra', ExtraTreesClassifier(n_estimators=100, random_state=0))
])

pipeline_nmf_extra = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), min_df=3, max_df=0.3)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('extra', ExtraTreesClassifier(n_estimators=100, random_state=0))
])

overall_results.loc['ExtraTrees + SVD'] = eval_table(data['description_norm'], data['category_name'], pipeline_svd_extra)
overall_results.loc['ExtraTrees + NMF'] = eval_table(data['description_norm'], data['category_name'], pipeline_nmf_extra)

### Результаты

In [11]:
overall_results.sort_values('f1', ascending = False)

Unnamed: 0,precision,precision_std,recall,recall_std,f1,f1_std
SDG Classifier + SVD,0.76,0.06,0.73,0.04,0.74,0.03
ExtraTrees + NMF,0.74,0.04,0.69,0.05,0.71,0.04
KNeighbors + NMF,0.48,0.05,0.46,0.05,0.45,0.04
KNeighbors + SVD,0.5,0.04,0.43,0.04,0.44,0.03
SDG Classifier + NMF,0.63,0.21,0.42,0.15,0.42,0.11
ExtraTrees + SVD,0.67,0.08,0.38,0.04,0.42,0.05
RandomForest + NMF,0.33,0.07,0.27,0.03,0.24,0.04
RandomForest + SVD,0.16,0.01,0.18,0.02,0.15,0.02


Самый высокий результат - у sgd классификатора с svd разложением, за ним, с небольшим отрывом - extratreesclassifier с nmf разложением. У random forest самые низкие показатели с обоими разложениями.

### Задание № 2 (6 баллов)

В Gensim тоже можно добавить нграммы и tfidf. Постройте 1 модель без них (как в семинаре) и еще 3 модели (1 с нграммами, 1 с tfidf и 1 с нграммами и с tfidf). Сранивте качество с помощью метрик (перплексия, когерентность) и на глаз. Определите лучшую модель. Для каждой модели выберите 1 самую красивую на ваш взгляд тему.

Используйте данные википедии из семинара. Можете взять поменьше данных, если все обучается долго.

Важное требование - получившиеся модели не должны быть совсем плохими. Если хороших тем не получается, попробуйте настроить гиперпараметры, отфильтровать словарь по-другому. 

Нграммы добавляются вот так (перед созданиеv словаря)

In [12]:
# texts = [text.split() for text in texts]
# ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
# p = gensim.models.phrases.Phraser(ph)
# ngrammed_texts = p[texts] 

# ! не забудьте, что далее вам нужно будет использовать ngrammed_texts

!! В модели с нграммами вначале посмотрите, что получается после преобразования
Если вы выведите несколько первых текстов в ngrammed_texts, то там должно быть что-то такое:

In [13]:
# [text for text in ngrammed_texts[:3]]
# >> [['новостройка',
#   'нижегородский_область', # нграм
#   'новостро́йка',
#   '—',
#   'сельский',
#   'посёлок',
#   'в',
#   'дивеевский_район', # нграм
#   'нижегородский_область', #нграмм
#   'входить',
#   'в',
#   'состав_сатисский', #нграмм
#   'сельсовет',
#   'посёлок',
#   'расположить',
#   'в',
#   '12,5',
#   'километр',
# ....

Если вы не видите нграммов, то попробуйте изменить параметр threshold

Tfidf добавляется вот так (после векторизации и перед обучением lda)

In [14]:
# tfidf = gensim.models.TfidfModel(corpus, id2word=dictionary, )
# corpus = tfidf[corpus]

### Общее для моделей

In [15]:
# Дополнительные импорты

import gensim
import pyLDAvis.gensim_models
pyLDAvis.enable_notebook()

In [16]:
texts = open(r'wiki_data.txt', encoding='utf-8').read().splitlines()[:3000]
texts = ([normalize(text) for text in texts])

In [17]:
def make_dictionary(txt):
    if type(txt[0]) == str:
        txt = [text.split() for text in txt]
        
    dictionary = gensim.corpora.Dictionary((text for text in txt))
    dictionary.filter_extremes(no_above=0.1, no_below=10)
    dictionary.compactify()
    corpus = [dictionary.doc2bow(text) for text in txt]
    return dictionary, corpus

In [19]:
topics_number = 50

def metrics_lda(model, corpus, dictionary, txt, num_topics=topics_number):
    if type(txt[0]) == str:
        txt = [text.split() for text in txt]
        
    perplexity = np.exp2(-model.log_perplexity(corpus[:1000]))
    
    topics = []
    for topic_id, topic in model.show_topics(num_topics=num_topics, formatted=False):
        topic = [word for word, _ in topic]
        topics.append(topic)

    coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                       texts=[text for text in txt], 
                                                       dictionary=dictionary, coherence='c_v')
    coherence = coherence_model_lda.get_coherence()
    dic_metrics = {'perplexity': perplexity, 'coherence': coherence}
    return dic_metrics

In [20]:
final_overview = pd.DataFrame(columns = ['perplexity', 'coherence'])

### Модель без всего (из семинара)

In [21]:
dic_normal, corp_normal = make_dictionary(texts)
lda_normal = gensim.models.LdaModel(corp_normal, topics_number, id2word=dic_normal, passes=5)
final_overview.loc['Модель с семинара'] = metrics_lda(lda_normal, corp_normal, dic_normal, texts)

In [22]:
pyLDAvis.gensim_models.prepare(lda_normal, corp_normal, dic_normal, mds='mmds')

### Модель с n-grams

In [23]:
texts_ngrams = [text.split() for text in texts]
ph = gensim.models.Phrases(texts_ngrams, scoring='npmi', threshold=0.4) # threshold можно подбирать
p = gensim.models.phrases.Phraser(ph)
ngrammed_texts = p[texts_ngrams] 

dic_ngrams, corp_ngrams = make_dictionary(ngrammed_texts)
lda_ngrams = gensim.models.LdaModel(corp_ngrams, topics_number, id2word=dic_ngrams, passes=5)
final_overview.loc['Модель с н-граммами'] = metrics_lda(lda_ngrams, corp_ngrams, dic_ngrams, ngrammed_texts)
# pyLDAvis.gensim_models.prepare(lda_ngrams, corp_ngrams, dic_ngrams, mds='mmds')

In [24]:
pyLDAvis.gensim_models.prepare(lda_ngrams, corp_ngrams, dic_ngrams, mds='mmds')

### Модель с tf-idf

In [25]:
tfidf = gensim.models.TfidfModel(corp_normal, id2word=dic_normal)
corp_tfidf = tfidf[corp_normal]
lda_tfidf = gensim.models.LdaModel(corp_tfidf, topics_number, id2word=dic_normal, passes=5)
final_overview.loc['Модель с tf-idf'] = metrics_lda(lda_tfidf, corp_tfidf, dic_normal, texts)


In [26]:
pyLDAvis.gensim_models.prepare(lda_tfidf, corp_tfidf, dic_normal, mds='mmds')

### Модель с n-grams и tf-idf

In [27]:
tfidf_ngrams = gensim.models.TfidfModel(corp_ngrams, id2word=dic_ngrams)
corp_tfidf_ngrams = tfidf_ngrams[corp_ngrams]
lda_tfidf_ngrams = gensim.models.LdaModel(corp_tfidf_ngrams, topics_number, id2word=dic_ngrams, passes=5)
final_overview.loc['Модель с н-граммами и tf-idf'] = metrics_lda(lda_tfidf_ngrams, corp_tfidf_ngrams, dic_ngrams, ngrammed_texts)
# pyLDAvis.gensim_models.prepare(lda_tfidf_ngrams, corp_tfidf_ngrams, dic_ngrams,  mds='mmds')

In [28]:
pyLDAvis.gensim_models.prepare(lda_tfidf_ngrams, corp_tfidf_ngrams, dic_ngrams,  mds='mmds')

### Выводы

In [29]:
final_overview

Unnamed: 0,perplexity,coherence
Модель с семинара,433.1155,0.539213
Модель с н-граммами,577.6609,0.533105
Модель с tf-idf,1005292.0,0.468028
Модель с н-граммами и tf-idf,1369736.0,0.438603


Из таблицы видно, что самые лучшие результаты показала модель без tfidf и n-грамм - у нее самая высокая coherence и самая низкая perplexity. Интересно, что если брать большее число тем, значительно возрастает coherence у двух моделей с tfidf, но вместе с ней и перплексия :(

In [30]:
# Самая красивая тема для стандартной модели

lda_normal.show_topic(12, topn=10)

[('автомобиль', 0.04288531),
 ('подвеска', 0.03623492),
 ('колесо', 0.019317022),
 ('задний', 0.014946561),
 ('передний', 0.012521005),
 ('поворот', 0.011909179),
 ('поперечный', 0.011501479),
 ('ось', 0.009726624),
 ('дорога', 0.009453859),
 ('модель', 0.008632448)]

In [31]:
# Самая красивая тема для  модели c н-граммами

lda_ngrams.show_topic(3, topn=10)

[('поселение', 0.024101753),
 ('деревня', 0.022921113),
 ('камень', 0.01481435),
 ('на_территория', 0.013132758),
 ('канада', 0.012073489),
 ('замок', 0.01171396),
 ('лесной', 0.010718057),
 ('предприятие', 0.009832497),
 ('парк', 0.009616413),
 ('крепость', 0.009013048)]

In [58]:
# Самая красивая тема для tf-idf модели

lda_tfidf.show_topic(8, topn=10)

[('клуб', 0.023630751),
 ('футбол', 0.02132177),
 ('дивизион', 0.018897476),
 ('испания', 0.017086448),
 ('франция', 0.016581666),
 ('пуэрто-рико', 0.01365464),
 ('футбольный', 0.010124314),
 ('поэт', 0.009830102),
 ('подсемейство', 0.0094077885),
 ('тренер', 0.009294076)]

In [51]:
# Самая красивая тема для tf-idf модели с н-граммами

lda_tfidf_ngrams.show_topic(15, topn=10)

[('посёлок', 0.041243114),
 ('деревня', 0.026496897),
 ('сельсовет', 0.021317191),
 ('дорога', 0.016471425),
 ('совхоз', 0.015139953),
 ('сельский_поселение', 0.015077234),
 ('сибирь', 0.013425014),
 ('сельский', 0.012401712),
 ('муниципальный_образование', 0.010931089),
 ('колхоз', 0.010617322)]