# Topic Modelling

## Loading Data

In [1]:
import pandas as pd

In [2]:
# Load prepared dataset
data = pd.read_pickle("lenta-ru-news-prepared.pkl")

In [3]:
data.head()

Unnamed: 0,url,title,text,topic,tags,date
0,https://lenta.ru/news/1914/09/16/hungarnn/,1914. Русские войска вступили в пределы Венгрии,бои у сопоцкина и друскеник закончились отступ...,Библиотека,Первая мировая,1914/09/16
1,https://lenta.ru/news/1914/09/16/lermontov/,1914. Празднование столетия М.Ю. Лермонтова от...,министерство народного просвещения в виду про...,Библиотека,Первая мировая,1914/09/16
2,https://lenta.ru/news/1914/09/17/nesteroff/,1914. Das ist Nesteroff!,штабс капитан п н нестеров на днях увидев в...,Библиотека,Первая мировая,1914/09/17
3,https://lenta.ru/news/1914/09/17/bulldogn/,1914. Бульдог-гонец под Льежем,фотограф корреспондент рассказывает случай ...,Библиотека,Первая мировая,1914/09/17
4,https://lenta.ru/news/1914/09/18/zver/,1914. Под Люблином пойман швабский зверь,лица приехавшие в варшаву из люблина передаю...,Библиотека,Первая мировая,1914/09/18


In [4]:
data['topic'].value_counts()

Россия               160445
Мир                  136621
Экономика             79528
Спорт                 64413
Культура              53797
Бывший СССР           53402
Наука и техника       53136
Интернет и СМИ        44663
Из жизни              27605
Дом                   21734
Силовые структуры     19596
Ценности               7766
Бизнес                 7399
Путешествия            6408
69-я параллель         1268
Крым                    666
Культпросвет            340
Легпром                 114
Библиотека               65
Оружие                    3
ЧМ-2014                   2
Сочи                      1
МедНовости                1
Name: topic, dtype: int64

## LDA

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

In [5]:
# Create russian stopwords list
stop_words = stopwords.words("russian")

In [7]:
# Initialize Count Vectorizer
cv = CountVectorizer(max_features=1000, stop_words=stop_words)

In [None]:
# Create Document Term Matrix
data_cv = cv.fit_transform(data['text'])
feature_names = cv.get_feature_names()

data_dtm = pd.DataFrame(data_cv.toarray(), columns=list(feature_names))
data_dtm.head()

In [None]:
from sklearn.decomposition import LatentDirichletAllocation

In [None]:
# Initialize LDA model
lda_model = LatentDirichletAllocation(n_components=10, 
                                      learning_method='online',
                                     max_iter=500,
                                     random_state=0).fit(data_cv)

In [None]:
"""Function for displaying topics"""
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic %d:" % (topic_idx))
        print(" ".join([feature_names[i]
                          for i in topic.argsort()[:-no_top_words - 1:-1]]))

In [None]:
no_top_words = 10

In [None]:
display_topics(lda_model, tf_feature_names, no_top_words)

## TF-IDF and NMF

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
# Initialize TF-IDF vectorizer object
tfidf_vectorizer = TfidfVectorizer(max_features=1000, use_idf=True, stop_words=stop_words)

In [None]:
# Create Document-Term Matrix
tfidf = tfidf_vectorizer.fit_transform(df['text'])
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

data_dtm_tfidf = pd.DataFrame(tfidf.toarray(), columns=list(tfidf_feature_names))
data_dtm_tfidf.head()

In [None]:
# Initialize Non-Negative Matrix Factorization object
nmf = NMF(n_components=10, random_state=0, alpha=.1, init='nndsvd').fit(tfidf)

In [None]:
display_topics(nmf, tfidf_feature_names, no_top_words)