In [1]:
import pandas as pd
import numpy as np
from time import sleep
import re
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from functools import reduce
import requests
from sklearn.model_selection import train_test_split

%matplotlib inline

In [2]:
banks = pd.read_csv('./data/banks.csv', names=['class','sentence', 'likes', 'sentiment_percentage', 'sentiment_class', 'post_id', 'posted_by_bank'])
banks = banks[ ~(banks.isnull().sentence == True)].drop_duplicates('sentence')

In [21]:
banks[1].sentence

KeyError: 1

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [4]:
slovak_stopwords = ['a',
 'aby',
 'aj',
 'ak',
 'ako',
 'ale',
 'alebo',
 'and',
 'ani',
 'áno',
 'asi',
 'až',
 'bez',
 'bude',
 'budem',
 'budeš',
 'budeme',
 'budete',
 'budú',
 'by',
 'bol',
 'bola',
 'boli',
 'bolo',
 'byť',
 'cez',
 'čo',
 'či',
 'ďalší',
 'ďalšia',
 'ďalšie',
 'dnes',
 'do',
 'ho',
 'ešte',
 'for',
 'i',
 'ja',
 'je',
 'jeho',
 'jej',
 'ich',
 'iba',
 'iné',
 'iný',
 'som',
 'si',
 'sme',
 'sú',
 'k',
 'kam',
 'každý',
 'každá',
 'každé',
 'každí',
 'kde',
 'keď',
 'kto',
 'ktorá',
 'ktoré',
 'ktorou',
 'ktorý',
 'ktorí',
 'ku',
 'lebo',
 'len',
 'ma',
 'mať',
 'má',
 'máte',
 'medzi',
 'mi',
 'mna',
 'mne',
 'mnou',
 'musieť',
 'môcť',
 'môj',
 'môže',
 'my',
 'na',
 'nad',
 'nám',
 'náš',
 'naši',
 'nie',
 'nech',
 'než',
 'nič',
 'niektorý',
 'nové',
 'nový',
 'nová',
 'nové',
 'noví',
 'o',
 'od',
 'odo',
 'of',
 'on',
 'ona',
 'ono',
 'oni',
 'ony',
 'po',
 'pod',
 'podľa',
 'pokiaľ',
 'potom',
 'práve',
 'pre',
 'prečo',
 'preto',
 'pretože',
 'prvý',
 'prvá',
 'prvé',
 'prví',
 'pred',
 'predo',
 'pri',
 'pýta',
 's',
 'sa',
 'so',
 'si',
 'svoje',
 'svoj',
 'svojich',
 'svojím',
 'svojími',
 'ta',
 'tak',
 'takže',
 'táto',
 'teda',
 'te',
 'tě',
 'ten',
 'tento',
 'the',
 'tieto',
 'tým',
 'týmto',
 'tiež',
 'to',
 'toto',
 'toho',
 'tohoto',
 'tom',
 'tomto',
 'tomuto',
 'toto',
 'tu',
 'tú',
 'túto',
 'tvoj',
 'ty',
 'tvojími',
 'už',
 'v',
 'vám',
 'váš',
 'vaše',
 'vo',
 'viac',
 'však',
 'všetok',
 'vy',
 'z',
 'za',
 'zo',
 'že']

In [5]:
cv = CountVectorizer(stop_words=slovak_stopwords)

In [6]:
dtm = cv.fit_transform(banks['sentence'])

In [7]:
dtm

<890x3647 sparse matrix of type '<class 'numpy.int64'>'
	with 8117 stored elements in Compressed Sparse Row format>

In [13]:
LDA = LatentDirichletAllocation(n_components=5,random_state=42)

In [14]:
LDA.fit(dtm)

LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
                          evaluate_every=-1, learning_decay=0.7,
                          learning_method='batch', learning_offset=10.0,
                          max_doc_update_iter=100, max_iter=10,
                          mean_change_tol=0.001, n_components=5, n_jobs=None,
                          perp_tol=0.1, random_state=42, topic_word_prior=None,
                          total_samples=1000000.0, verbose=0)

In [15]:
cv.get_feature_names()

['00',
 '000',
 '01',
 '0185aec9cc53783197af1ced89e9e790',
 '0910',
 '10',
 '100',
 '1000',
 '100petcent',
 '10k',
 '10plus',
 '11',
 '1100',
 '12',
 '12m',
 '13',
 '13dni',
 '14',
 '15',
 '150',
 '155',
 '18',
 '1mesiac',
 '1nou',
 '1x',
 '20',
 '2018',
 '2019',
 '2021',
 '2022',
 '20k',
 '24',
 '2500',
 '27',
 '2x',
 '30',
 '300',
 '32',
 '327',
 '33',
 '333',
 '335',
 '339',
 '350',
 '362',
 '365',
 '38',
 '3d',
 '3pp',
 '3x',
 '42',
 '49',
 '50',
 '513',
 '550',
 '62',
 '676',
 '68',
 '6boxov',
 '738',
 '75',
 '775',
 '7x',
 '900',
 '927',
 '98',
 'a10',
 'a6',
 'abc',
 'abcd',
 'abn',
 'absolutne',
 'absolútne',
 'absurdná',
 'ach',
 'adrese',
 'adresu',
 'adresy',
 'adries',
 'agenda',
 'agenturu',
 'ahojte',
 'ajpreto',
 'akceptované',
 'ake',
 'akejkoľvek',
 'akoby',
 'akonáhle',
 'akou',
 'akoze',
 'akože',
 'aksagav',
 'aktivoval',
 'aktivovane',
 'aktivované',
 'aktiváciu',
 'aktivít',
 'aktualizacie',
 'aktualizacii',
 'aktualizaciou',
 'aktualizaciu',
 'aktualizcii',
 'akt

In [16]:
for index,topic in enumerate(LDA.components_):
    print(f'THE TOP 15 WORDS FOR TOPIC #{index}')
    print([cv.get_feature_names()[i] for i in topic.argsort()[-15:]])
    print('\n')

THE TOP 15 WORDS FOR TOPIC #0
['mozu', 'tipujem', 'su', 'abcd', 'myslím', 'investormi', 'môžu', 'vúb', 'investori', 'nich', 'byt', 'investorom', 'vsetci', 'investor', 'všetci']


THE TOP 15 WORDS FOR TOPIC #1
['problém', 'keďže', 'treba', 'dá', '30', 'dobrý', 'limit', 'tb', 'mám', 'apple', 'ze', 'deň', 'pay', 'tatra', 'banka']


THE TOP 15 WORDS FOR TOPIC #2
['aplikácie', '10', 'aktuálne', 'ste', 'nás', 'google', 'platby', 'ďakujeme', 'dobrý', 'tatra', 'banka', 'pay', 'pekný', 'prajeme', 'deň']


THE TOP 15 WORDS FOR TOPIC #3
['peter', 'tam', 'google', 'ze', 'tb', 'mňa', 'super', 'moze', 'ste', 'tatra', 'apple', 'jeden', 'banka', 'kazdy', 'pay']


THE TOP 15 WORDS FOR TOPIC #4
['klientom', 'vas', 'ked', 'zaoberáme', 'dobrý', 'myslim', 'veríme', 'pay', 'riešenie', 'banka', 'apple', 'pekný', 'prajeme', 'deň', 'ze']




In [36]:
topic_results = LDA.transform(dtm)

In [37]:
banks['Topic'] = topic_results.argmax(axis=1)

In [38]:
banks[['class', 'Topic']].corr()

Unnamed: 0,Topic
Topic,1.0


In [39]:
banks[['Topic','class', 'sentence']].groupby(['Topic','class']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,sentence
Topic,class,Unnamed: 2_level_1
0,Cena produktov / benefity,6
0,Interakcia,19
0,Neutral,9
0,Odpovede,56
0,Otázky,6
0,Ponuka produktov,9
0,Problémy s produktom,5
0,Problémy s produktov,15
0,Produkt,1
0,Súťaž,109
