In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from nltk.tokenize import word_tokenize

In [3]:
def get_lda(df, n_components, min_df, n_top_words):
    cnt_vectorizer = CountVectorizer(min_df=min_df, tokenizer=word_tokenize)
    X = cnt_vectorizer.fit_transform(df['headline_prcessed'])
    
    lda = LatentDirichletAllocation(n_components=n_components, random_state=42)
    lda.fit(X)

    topic_words = {}
    vocab = cnt_vectorizer.get_feature_names_out()
    
    for topic, comp in enumerate(lda.components_):
        word_idx = np.argsort(comp)[::-1][:n_top_words]
    
        # store the words most relevant to the topic
        topic_words[topic] = [vocab[i] for i in word_idx]

    return vocab, lda, topic_words

In [11]:
df = pd.read_csv('./data/uk-cut-processed.csv').dropna()

df

Unnamed: 0,headline,headline_prcessed
0,Збитки на понад 9 мільйонів євро: у Дніпрі пій...,збитк мільйон євр дніпр пійм учасник міжнародн...
1,Друзі при Балтії,друз балті
2,Обласна влада привітала жінок концертом Зібров...,обласн влад привітал жінок концерт зібр братів...
3,Кличко доручив створити робочу групу і навести...,кличк доруч створит робоч груп навест лад буді...
4,Вчені прирівняли переїдання до наркоманії,вчен прирівнял переїданн наркомані
...,...,...
1769208,Відео,віде
1769209,Міністерство культури зарубало конкурс Хоткеви...,міністерств культур зарубал конкурс хоткевич харк
1769210,Янукович велел ГПУ разобраться со смертью черн...,янукович велел гпу разобр со смерт чернобыльц
1769211,"Пенсіонерам, які працюють, збережуть усі соціа...",пенсіонер працюют збережут соціальн випл мінсо...


## 100k records into 10 topics

In [13]:
vocab, lda, topic_words = get_lda(df.sample(100_000, random_state=42), 10, 0.001, 10)

for k, v in topic_words.items():
    print(k, v)



0 ['област', 'українц', 'млн', 'мільйон', 'долар', 'львов', 'отрим', 'грн', 'гривен', 'майж']
1 ['віде', 'києв', 'тимошенк', 'президент', 'ющенк', 'прот', 'закон', 'змін', 'янукович', 'підпис']
2 ['рок', 'києв', 'сво', 'затрим', 'центр', 'голов', 'львівськ', 'банк', 'поліц', 'мвф']
3 ['російськ', 'рф', 'сбу', 'влад', 'сша', 'прот', 'коронавірус', 'щод', 'проект', 'оон']
4 ['сша', 'люд', 'чоловік', 'загинул', 'робот', 'польщ', 'кількіст', 'доб', 'осіб', 'под']
5 ['нов', 'росі', 'крим', 'назв', 'стал', 'кабмін', 'депутат', 'вибух', 'розповіл', 'знайшл']
6 ['україн', 'єс', 'газ', 'рос', 'буд', 'путін', 'німеччин', 'щод', 'угод', 'матч']
7 ['суд', 'янукович', 'вибор', 'йог', 'азар', 'друг', 'заклик', 'харк', 'курс', 'протест']
8 ['українськ', 'зеленськ', 'військов', 'ден', 'міст', 'жовтн', 'військ', 'бойовик', 'украин', 'донбас']
9 ['рад', 'ма', 'європ', 'уряд', 'міністр', 'прав', 'хочут', 'парт', 'нардеп', 'нафтогаз']


In [14]:
vocab, lda, topic_words = get_lda(df.sample(500_000, random_state=42), 10, 0.001, 10)

for k, v in topic_words.items():
    print(k, v)

0 ['українц', 'рос', 'україн', 'сво', 'трамп', 'польщ', 'стал', 'банк', 'знов', 'сша']
1 ['област', 'млн', 'грн', 'мільйон', 'вод', 'гривен', 'знайшл', 'украин', 'майж', 'донецьк']
2 ['україн', 'єс', 'порошенк', 'газ', 'путін', 'країн', 'зеленськ', 'ма', 'азар', 'план']
3 ['президент', 'україн', 'львов', 'буд', 'кабмін', 'ющенк', 'робот', 'ден', 'львівськ', 'завтр']
4 ['києв', 'суд', 'нов', 'сбу', 'затрим', 'поліц', 'центр', 'грош', 'чоловік', 'змін']
5 ['віде', 'українськ', 'донбас', 'бойовик', 'крим', 'жовтн', 'сил', 'обстріл', 'жінк', 'штаб']
6 ['прот', 'люд', 'світ', 'матч', 'осіб', 'вибух', 'україн', 'санкці', 'європ', 'росі']
7 ['вибор', 'перш', 'коронавірус', 'військов', 'отрим', 'одн', 'місц', 'covid-19', 'гот', 'нов']
8 ['російськ', 'назв', 'рф', 'йог', 'головн', 'голов', 'луценк', 'под', 'українськ', 'регіон']
9 ['рад', 'тимошенк', 'сша', 'янукович', 'рок', 'післ', 'закон', 'змі', 'діт', 'туреччин']


In [15]:
vocab, lda, topic_words = get_lda(df.sample(500_000, random_state=42), 5, 0.0001, 10)

for k, v in topic_words.items():
    print(k, v)

0 ['віде', 'суд', 'янукович', 'тимошенк', 'рад', 'ющенк', 'голов', 'луценк', 'депутат', 'йог']
1 ['україн', 'газ', 'млн', 'цін', 'мільйон', 'грн', 'єс', 'кабмін', 'експерт', 'гривен']
2 ['україн', 'сша', 'прот', 'росі', 'рф', 'донбас', 'нов', 'щод', 'путін', 'крим']
3 ['києв', 'област', 'львов', 'люд', 'сбу', 'загинул', 'чоловік', 'затрим', 'донецьк', 'центр']
4 ['рок', 'україн', 'перш', 'жовтн', 'українськ', 'світ', 'нов', 'матч', 'коронавірус', 'динам']
