In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from nltk.tokenize import word_tokenize

In [8]:
nrows = 10000

df = pd.read_csv('./data/uk-cut-processed.csv', nrows=nrows)

df

Unnamed: 0,headline,headline_prcessed
0,Збитки на понад 9 мільйонів євро: у Дніпрі пій...,збитк мільйон євр дніпр пійм учасник міжнародн...
1,Друзі при Балтії,друз балті
2,Обласна влада привітала жінок концертом Зібров...,обласн влад привітал жінок концерт зібр братів...
3,Кличко доручив створити робочу групу і навести...,кличк доруч створит робоч груп навест лад буді...
4,Вчені прирівняли переїдання до наркоманії,вчен прирівнял переїданн наркомані
...,...,...
9995,Відео,віде
9996,В Україні лише за рік вдвічі поменшало волонтерів,україн вдвіч поменшал волонтер
9997,"На Гонконг насувається тайфун ""Ханун"", оголоше...",гонконг насуваєт тайфун ханун оголошен шторм п...
9998,Поляки предложили Януковичу отпустить Тимошенк...,поляк предложил янукович отпустит тимошенк леч...


In [21]:
cnt_vectorizer = CountVectorizer(min_df=.002, tokenizer=word_tokenize)
X = cnt_vectorizer.fit_transform(df['headline_prcessed'])

X

<10000x481 sparse matrix of type '<class 'numpy.int64'>'
	with 23140 stored elements in Compressed Sparse Row format>

In [22]:
cnt_vectorizer.get_feature_names_out()

array(['covid-19', 'аб', 'авт', 'автобус', 'автомобіл', 'адвокат',
       'аеропорт', 'азар', 'активіст', 'акц', 'ал', 'американськ',
       'арешт', 'ахмет', 'банк', 'близьк', 'бойовик', 'борг', 'боротьб',
       'брат', 'британі', 'буд', 'будинк', 'будут', 'будівництв', 'бул',
       'бут', 'бюджет', 'бют', 'бійц', 'біл', 'білорус', 'важк', 'вакцин',
       'валют', 'вбивств', 'вваж', 'велик', 'вересн', 'верховн', 'вибор',
       'вибух', 'визн', 'викр', 'вимаг', 'вимагают', 'виробництв',
       'виступ', 'виявил', 'влад', 'вод', 'вперш', 'вр', 'втрат', 'вулиц',
       'вчен', 'відбудет', 'віде', 'відкрил', 'відкрит', 'відкритт',
       'відмов', 'відмовил', 'відом', 'відставк', 'війн', 'військ',
       'військов', 'газ', 'газпр', 'глав', 'гол', 'голов', 'головн',
       'гот', 'гпу', 'гривен', 'гривн', 'грип', 'грн', 'громадян', 'грош',
       'грудн', 'груп', 'дал', 'дан', 'дво', 'ден', 'депут', 'депутат',
       'динам', 'директор', 'дитин', 'днр', 'дня', 'дні', 'дніпр', 'доб',
  

In [32]:
lda = LatentDirichletAllocation(n_components=10, random_state=42)
lda.fit(X)

In [31]:
lda.transform(X[7])

array([[0.59993792, 0.10000003, 0.10000003, 0.10000003, 0.100062  ]])

In [40]:
n_top_words = 10
topic_words = {}
vocab = cnt_vectorizer.get_feature_names_out()

for topic, comp in enumerate(lda.components_):
    # for the n-dimensional array "arr":
    # argsort() returns a ranked n-dimensional array of arr, call it "ranked_array"
    # which contains the indices that would sort arr in a descending fashion
    # for the ith element in ranked_array, ranked_array[i] represents the index of the
    # element in arr that should be at the ith index in ranked_array
    # ex. arr = [3,7,1,0,3,6]
    # np.argsort(arr) -> [3, 2, 0, 4, 5, 1]
    # word_idx contains the indices in "topic" of the top num_top_words most relevant
    # to a given topic ... it is sorted ascending to begin with and then reversed (desc. now)    
    word_idx = np.argsort(comp)[::-1][:n_top_words]

    # store the words most relevant to the topic
    topic_words[topic] = [vocab[i] for i in word_idx]

In [42]:
for k, v in topic_words.items():
    print(k, v)

0 ['україн', 'рос', 'єс', 'газ', 'путін', 'нат', 'цін', 'закон', 'план', 'міністр']
1 ['києв', 'рок', 'росі', 'ден', 'сво', 'дтп', 'поч', 'відкрил', 'протест', 'долар']
2 ['перш', 'област', 'російськ', 'назв', 'польщ', 'затрим', 'країн', 'друг', 'європ', 'москв']
3 ['змі', 'стал', 'коронавірус', 'бойовик', 'чоловік', 'загинул', 'президент', 'діт', 'украин', 'доб']
4 ['україн', 'українц', 'буд', 'отрим', 'щод', 'знайшл', 'прав', 'сьогодн', 'шахтар', 'оон']
5 ['нов', 'сша', 'рад', 'рф', 'млн', 'вибор', 'трамп', 'грн', 'україн', 'заклик']
6 ['тимошенк', 'янукович', 'порошенк', 'донбас', 'світ', 'військов', 'сбу', 'луценк', 'заяв', 'одн']
7 ['віде', 'українськ', 'ющенк', 'мзс', 'люд', 'депутат', 'под', 'йог', 'кордон', 'азар']
8 ['суд', 'ма', 'львівськ', 'влад', 'банк', 'робот', 'центр', 'вод', 'визн', 'курс']
9 ['прот', 'львов', 'крим', 'мільйон', 'післ', 'зеленськ', 'гривен', 'поліц', 'розповіл', 'біл']
