<a href="https://colab.research.google.com/github/klordo/nlp_homeworks/blob/hw5/nlp_hw5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Библиотеки и установки

In [None]:
!pip3 install gensim pyLDAvis

In [None]:
!pip install bigartm
!pip install corus
!pip install -U pip setuptools wheel
!pip install -U spacy
!python -m spacy download ru_core_news_sm

In [None]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

In [None]:
import spacy
import gensim
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis
import numpy as np
import artm

from hyperopt import STATUS_OK, Trials, fmin, hp, tpe
from tqdm import tqdm
from sklearn.feature_extraction.text import CountVectorizer
from corus import load_lenta
from gensim import corpora

In [None]:
RANDOM_STATE = 111

# Загрузка данных

In [None]:
records = load_lenta('lenta-ru-news.csv.gz')

In [None]:
dataset = [sample.text.lower() for sample in records][:1000]

In [None]:
dataset[0]

'вице-премьер по социальным вопросам татьяна голикова рассказала, в каких регионах россии зафиксирована наиболее высокая смертность от рака, сообщает риа новости. по словам голиковой, чаще всего онкологические заболевания становились причиной смерти в псковской, тверской, тульской и орловской областях, а также в севастополе. вице-премьер напомнила, что главные факторы смертности в россии — рак и болезни системы кровообращения. в начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. по данным росстата, в 2017 году от рака умерли 289 тысяч человек. это на 3,5 процента меньше, чем годом ранее.'

# Подготовка дадасета

In [None]:
nlp = spacy.load("ru_core_news_sm")

In [None]:
clean_process = lambda x: [
    token.lemma_.lower() for token in nlp(x) if
    not token.is_stop
    and not token.is_punct
    and not token.is_digit
    and not token.like_email
    and not token.like_num
    and not token.is_space
]

In [None]:
clean_dataset = []

for text in tqdm(dataset):
    tokenize_text = clean_process(text)
    if tokenize_text:
        clean_dataset.append(clean_process(text))

100%|██████████| 1000/1000 [04:44<00:00,  3.51it/s]


In [None]:
bigram = gensim.models.Phrases(clean_dataset, min_count=5, threshold=100) # higher threshold fewer phrases.
trigram = gensim.models.Phrases(bigram[clean_dataset], threshold=100)  # Phraser == FrozenPhrases

In [None]:
def get_ngrams(texts_out):
    texts_out = [trigram[bigram[doc]] for doc in texts_out]
    return texts_out

In [None]:
data_ready = get_ngrams(clean_dataset)

In [None]:
id2word = corpora.Dictionary(data_ready)

In [None]:
# doc2bow() - вернет кортеж {id_слова: сколько_встречался}
corpus = [id2word.doc2bow(text) for text in data_ready]

# Обучение моделей

## LDA 1

Случайные параметры

In [76]:
%%time

lda_model_1 = gensim.models.ldamodel.LdaModel(
    corpus=corpus,
    id2word=id2word,
    num_topics=3,
    random_state=RANDOM_STATE,
    update_every=1, # Number of documents to be iterated through for each update
    chunksize=10, # == batch size
    passes=100, # Number of passes through the corpus during training
    alpha='symmetric', # A-priori belief on document-topic distribution
    iterations=150, # Maximum number of iterations through the corpus when inferring the topic distribution of a corpus
    per_word_topics=True,
)

print(lda_model_1.print_topics())

[(0, '0.007*"год" + 0.005*"сообщать" + 0.004*"время" + 0.004*"женщина" + 0.004*"декабрь" + 0.003*"мужчина" + 0.003*"ребёнок" + 0.003*"полиция" + 0.003*"человек" + 0.003*"фотография"'), (1, '0.013*"россия" + 0.012*"год" + 0.010*"российский" + 0.006*"страна" + 0.005*"слово" + 0.005*"заявить" + 0.005*"декабрь" + 0.004*"время" + 0.004*"президент" + 0.004*"москва"'), (2, '0.013*"год" + 0.009*"компания" + 0.008*"рубль" + 0.006*"процент" + 0.004*"ракета" + 0.004*"цена" + 0.003*"составить" + 0.003*"исследование" + 0.003*"новый" + 0.003*"земля"')]
CPU times: user 2min 12s, sys: 1.61 s, total: 2min 14s
Wall time: 2min 21s


In [77]:
coher_args_1 = {
    'texts': clean_dataset,
    'dictionary': id2word,
    'model': lda_model_1
}
coherence_model_1 = gensim.models.coherencemodel.CoherenceModel(**coher_args_1)

In [78]:
coherence_model_1.get_coherence()

0.35772606148455105

### LDA 2

Отрегулируем количество тем. Для этого подумаем, какие темы в российских новостях встречаются чаще всего:
- военные конфликты
- политика
- преступления
- медицина
- наука

Предположим, что первые две темы встречаются чаще всего. Можно сделать предположение о распределении тем (параметр alpha) - [0.3, 0.4, 0.1, 0.5, 0.4]

In [82]:
%%time

lda_model_2 = gensim.models.ldamodel.LdaModel(
    corpus=corpus,
    id2word=id2word,
    num_topics=5,
    random_state=RANDOM_STATE,
    update_every=1, # Number of documents to be iterated through for each update
    chunksize=10, # == batch size
    passes=100, # Number of passes through the corpus during training
    alpha=[0.3, 0.4, 0.1, 0.5, 0.4], # A-priori belief on document-topic distribution
    iterations=150, # Maximum number of iterations through the corpus when inferring the topic distribution of a corpus
    per_word_topics=True,
)

print(lda_model_2.print_topics())

[(0, '0.006*"декабрь" + 0.005*"загитов" + 0.005*"директор" + 0.005*"имя" + 0.005*"конкурс" + 0.004*"год" + 0.004*"актёр" + 0.004*"матч" + 0.004*"написать" + 0.004*"победить"'), (1, '0.007*"полиция" + 0.007*"ребёнок" + 0.007*"сообщать" + 0.007*"женщина" + 0.007*"время" + 0.006*"мужчина" + 0.006*"человек" + 0.005*"сообщаться" + 0.005*"the" + 0.004*"пользователь"'), (2, '0.019*"украина" + 0.017*"сотрудник" + 0.009*"фотография" + 0.006*"служба" + 0.006*"пост" + 0.006*"руководитель" + 0.006*"фсб" + 0.005*"проверка" + 0.005*"судно" + 0.005*"керченский_пролив"'), (3, '0.020*"год" + 0.009*"россия" + 0.007*"декабрь" + 0.007*"слово" + 0.007*"ноябрь" + 0.006*"москва" + 0.006*"заявить" + 0.005*"день" + 0.005*"сообщать" + 0.005*"рубль"'), (4, '0.015*"год" + 0.014*"россия" + 0.013*"российский" + 0.010*"страна" + 0.007*"президент" + 0.006*"компания" + 0.006*"процент" + 0.005*"время" + 0.005*"являться" + 0.005*"проект"')]
CPU times: user 3min, sys: 1.94 s, total: 3min 2s
Wall time: 3min 12s


In [83]:
coher_args_2 = {
    'texts': clean_dataset,
    'dictionary': id2word,
    'model': lda_model_2
}
coherence_model_2 = gensim.models.coherencemodel.CoherenceModel(**coher_args_2)

In [86]:
coherence_model_2.get_coherence()

0.31484551055232606


### LDA 3

In [87]:
%%time

lda_model_3 = gensim.models.ldamodel.LdaModel(
    corpus=corpus,
    id2word=id2word,
    num_topics=4,
    random_state=RANDOM_STATE,
    update_every=1, # Number of documents to be iterated through for each update
    chunksize=15, # == batch size
    passes=130, # Number of passes through the corpus during training
    alpha='symmetric', # A-priori belief on document-topic distribution
    iterations=200, # Maximum number of iterations through the corpus when inferring the topic distribution of a corpus
    per_word_topics=True,
)

print(lda_model_3.print_topics())

[(0, '0.008*"год" + 0.006*"декабрь" + 0.005*"сообщать" + 0.005*"время" + 0.005*"слово" + 0.004*"ребёнок" + 0.004*"женщина" + 0.004*"место" + 0.004*"человек" + 0.004*"мужчина"'), (1, '0.005*"год" + 0.005*"американский" + 0.005*"фотография" + 0.005*"пользователь" + 0.005*"ракета" + 0.004*"километр" + 0.004*"париж" + 0.003*"новый" + 0.003*"земля" + 0.003*"дальность"'), (2, '0.016*"год" + 0.016*"россия" + 0.010*"российский" + 0.008*"страна" + 0.006*"заявить" + 0.005*"компания" + 0.005*"слово" + 0.005*"президент" + 0.005*"декабрь" + 0.004*"украина"'), (3, '0.010*"сотрудник" + 0.009*"год" + 0.008*"суд" + 0.007*"полиция" + 0.007*"задержать" + 0.006*"информация" + 0.005*"дело" + 0.005*"человек" + 0.005*"сообщаться" + 0.004*"установить"')]
CPU times: user 2min 35s, sys: 1.87 s, total: 2min 37s
Wall time: 2min 57s


In [89]:
coher_args_3 = {
    'texts': clean_dataset,
    'dictionary': id2word,
    'model': lda_model_3,
}
coherence_model_3 = gensim.models.coherencemodel.CoherenceModel(**coher_args_3)

In [90]:
coherence_model_3.get_coherence()

0.33794751238187953

## Сравнение

- LDA_1: 0.357
- LDA_2: 0.314 (иногда nan)
- LDA_3: 0.338

## Визуализация через pyLDAvis

In [91]:
pyLDAvis.enable_notebook()

### LDA 1

In [92]:
vis_1 = gensimvis.prepare(lda_model_1, corpus, dictionary=lda_model_1.id2word)
vis_1

### LDA 2

In [93]:
vis_2 = gensimvis.prepare(lda_model_2, corpus, dictionary=lda_model_2.id2word)
vis_2

### LDA 3

In [94]:
vis_3 = gensimvis.prepare(lda_model_3, corpus, dictionary=lda_model_3.id2word)
vis_3

  and should_run_async(code)


Из-за близких тем у второй и третьей модели коэффициент согласованности у них вышел меньше

# BigARTM

## Подготовка данных

In [95]:
tokenized = [' '.join(text) for text in clean_dataset]

In [96]:
cv = CountVectorizer(max_features=1000, max_df=0.8, min_df=2, ngram_range=(1, 2))
n_wd = np.array(cv.fit_transform(tokenized).todense()).T

In [97]:
token_list = [i for i in cv.vocabulary_.keys()]

In [None]:
bv = artm.BatchVectorizer(data_format='bow_n_wd', n_wd=n_wd, vocabulary=token_list)

## Подбор гиперпараметров

In [99]:
def objective(space):
    model = artm.ARTM(num_topics=space['num_topics'], dictionary=bv.dictionary, cache_theta=True)

    model.scores.add(artm.PerplexityScore(name='perplexity_score', dictionary=bv.dictionary))
    model.scores.add(artm.SparsityPhiScore(name='sparsity_phi_score'))
    model.scores.add(artm.SparsityThetaScore(name='sparsity_theta_score'))
    model.scores.add(artm.TopTokensScore(name='top_tokens_score', num_tokens=10))

    model.regularizers.add(
        artm.SmoothSparsePhiRegularizer(
          name='SparsePhi',
          tau=space['phi_tau']
      ),
    )
    model.regularizers.add(
        artm.SmoothSparseThetaRegularizer(
            name='SparseTheta',
            tau=space['theta_tau']
        ),
    )
    model.regularizers.add(
        artm.DecorrelatorPhiRegularizer(
          name='DecorrelatorPhi',
          tau=space['decorrelation_tau']
        ),
    )

    model.fit_offline(bv, num_collection_passes=30)

    perplexity_score = model.score_tracker["perplexity_score"].last_value
    print("Perplexity:", perplexity_score)
    return {'loss': perplexity_score, 'status': STATUS_OK }

In [100]:
topics_to_check =  [5, 10, 15, 20]

In [101]:
def run_hyperparams_search():
    space={
        'num_topics': hp.choice('num_topics', topics_to_check),
        'phi_tau': hp.uniform('SparsePhi', -1, 1),
        'theta_tau': hp.uniform('SparseTheta', -1, 1),
        'decorrelation_tau': hp.uniform('DecorrelatorPhi', 1e+2, 1e+5),
    }

    trials = Trials()

    best_hyperparams = fmin(
        fn=objective,
        space=space,
        algo=tpe.suggest,
        max_evals=20,
        trials=trials,
    )
    return best_hyperparams

In [102]:
%%time
best = run_hyperparams_search()

Perplexity:
432.21343994140625
Perplexity:
503.0457763671875
Perplexity:
542.5831909179688
Perplexity:
498.405029296875
Perplexity:
337.319091796875
Perplexity:
491.1708984375
Perplexity:
342.3922424316406
Perplexity:
497.4382019042969
Perplexity:
409.12567138671875
Perplexity:
404.22393798828125
Perplexity:
507.2091979980469
Perplexity:
414.714111328125
Perplexity:
372.2765197753906
Perplexity:
390.1556091308594
Perplexity:
519.9230346679688
Perplexity:
432.693359375
Perplexity:
353.7129211425781
Perplexity:
404.26824951171875
Perplexity:
550.794677734375
Perplexity:
434.5757751464844
100%|██████████| 20/20 [00:44<00:00,  2.22s/trial, best loss: 337.319091796875]
CPU times: user 37.5 s, sys: 918 ms, total: 38.5 s
Wall time: 44.5 s


In [103]:
best

  and should_run_async(code)


{'DecorrelatorPhi': 26233.038309047555,
 'SparsePhi': 0.5717942310781645,
 'SparseTheta': -0.7369635345121623,
 'num_topics': 3}

## Обучение модели

In [104]:
def fit_model(seed=RANDOM_STATE):
    model = artm.ARTM(num_topics=topics_to_check[best['num_topics']], dictionary=bv.dictionary, cache_theta=True, seed=seed)
    model.scores.add(artm.PerplexityScore(name='perplexity_score',
                                          dictionary=bv.dictionary))

    model.scores.add(artm.SparsityPhiScore(name='sparsity_phi_score'))
    model.scores.add(artm.SparsityThetaScore(name='sparsity_theta_score'))
    model.scores.add(artm.TopTokensScore(name='top_tokens_score', num_tokens=10))

    model.regularizers.add(artm.SmoothSparsePhiRegularizer(name='SparsePhi', tau=best['SparsePhi'])) # сглаживание/разреживание матрицы Phi
    model.regularizers.add(artm.SmoothSparseThetaRegularizer(name='SparseTheta', tau=best['SparseTheta'])) # сглаживание/разреживание матрицы Theta
    model.regularizers.add(artm.DecorrelatorPhiRegularizer(name='DecorrelatorPhi', tau=best['DecorrelatorPhi'])) # сделать темы более разнообразными

    model.fit_offline(bv, num_collection_passes=30)
    return model

In [105]:
%%time

model = fit_model()
model.score_tracker["perplexity_score"].last_value

CPU times: user 1.71 s, sys: 35.2 ms, total: 1.75 s
Wall time: 1.75 s


335.158935546875

## Визуализация

In [None]:
def prepare_vis_data():
    phi = model.get_phi()
    theta = model.get_theta().to_numpy().T
    theta = theta / theta.sum(axis=1, keepdims=1)
    data = {'topic_term_dists': phi.to_numpy().T,
            'doc_topic_dists': theta,
            'doc_lengths': n_wd.sum(axis=0).tolist(),
            'vocab': phi.T.columns,
            'term_frequency': n_wd.sum(axis=1).tolist()}
    return data

In [None]:
model_data = prepare_vis_data()
model_vis = pyLDAvis.prepare(**model_data)

In [108]:
pyLDAvis.display(model_vis)

  and should_run_async(code)


# Вывод

У BigARTM более быстрое обучение, чем у LDA.

Темы определены сравнительно хорошо.