## Topic modelling with Scikit-learn

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation
import pandas as pd
import pyLDAvis
import pyLDAvis.sklearn
import re

In [2]:
n_samples = 2000
n_features = 1000
n_components = 10
n_top_words = 20

In [3]:
data = pd.read_csv('final.csv', sep='\t',header = None,names = ['ID','Date','Time','Speaker','Party','Text'])
data

Unnamed: 0,ID,Date,Time,Speaker,Party,Text
0,0,2018-05-16,14:11:55,Sinuhe Wallinheimo,kok,Arvoisa puhemies! Lähetekeskusteluun olemme s...
1,1,2018-05-16,14:15:49,Kai Mykkänen,minister,Arvoisa puhemies! Käsillä on todella hallituk...
2,2,2018-05-16,14:19:26,Markus Mustajärvi,vas,Arvoisa puhemies! Ministeri maalasi kyllä aika...
3,3,2018-05-16,14:20:32,Maria Tolppanen,sd,Arvoisa puhemies! Tässä nyt täytyy ensin tode...
4,4,2018-05-16,14:21:37,Jari Myllykoski,vas,Arvoisa herra puhemies! Kaksi tässä edellä kä...
...,...,...,...,...,...,...
56654,56654,2019-02-14,21:48:56,Sami Savio,ps,Arvoisa puhemies! Vanhustenhoidon tila on tosi...
56655,56655,2019-02-14,21:52:15,Sirpa Paatero,sd,Arvoisa rouva puhemies! Kun tässä useammassa p...
56656,56656,2019-02-14,21:54:50,Mia Laiho,kok,Arvoisa puhemies! Sote-muutoksella nimenomaan ...
56657,56657,2019-02-14,21:58:01,Ben Zyskowicz,kok,Arvoisa rouva puhemies! Kun nyt puhujalistan v...


In [4]:
stopwords = ["aiemmin","aika","aikaa","aikaan","aikaisemmin","aikaisin","aikajen","aikana","aikoina","aikoo","aikovat","aina","ainakaan","ainakin","ainoa","ainoat","aiomme","aion","aiotte","aist","aivan","ajan","alas","alemmas","alkuisin","alkuun","alla","alle","aloitamme","aloitan","aloitat","aloitatte","aloitattivat","aloitettava","aloitettevaksi","aloitettu","aloitimme","aloitin","aloitit","aloititte","aloittaa","aloittamatta","aloitti","aloittivat","alta","aluksi","alussa","alusta","annettavaksi","annetteva","annettu","ansiosta","antaa","antamatta","antoi","aoua","apu","asia","asiaa","asian","asiasta","asiat","asioiden","asioihin","asioita","asti","avuksi","avulla","avun","avutta","edelle","edelleen","edellä","edeltä","edemmäs","edes","edessä","edestä","ehkä","ei","eikä","eilen","eivät","eli","ellei","elleivät","ellemme","ellen","ellet","ellette","emme","en","enemmän","eniten","ennen","ensi","ensimmäinen","ensimmäiseksi","ensimmäisen","ensimmäisenä","ensimmäiset","ensimmäisiksi","ensimmäisinä","ensimmäisiä","ensimmäistä","ensin","entinen","entisen","entisiä","entisten","entistä","enää","eri","erittäin","erityisesti","eräiden","eräs","eräät","esi","esiin","esillä","esimerkiksi","et","eteen","etenkin","etessa","ette","ettei","että","haikki","halua","haluaa","haluamatta","haluamme","haluan","haluat","haluatte","haluavat","halunnut","halusi","halusimme","halusin","halusit","halusitte","halusivat","halutessa","haluton","he","hei","heidän","heidät","heihin","heille","heillä","heiltä","heissä","heistä","heitä","helposti","heti","hetkellä","hieman","hitaasti","hoikein","huolimatta","huomenna","hyvien","hyviin","hyviksi","hyville","hyviltä","hyvin","hyvinä","hyvissä","hyvistä","hyviä","hyvä","hyvät","hyvää","hän","häneen","hänelle","hänellä","häneltä","hänen","hänessä","hänestä","hänet","häntä","ihan","ilman","ilmeisesti","itse","itsensä","itseään","ja","jo","johon","joiden","joihin","joiksi","joilla","joille","joilta","joina","joissa","joista","joita","joka","jokainen","jokin","joko","joksi","joku","jolla","jolle","jolloin","jolta","jompikumpi","jona","jonka","jonkin","jonne","joo","jopa","jos","joskus","jossa","josta","jota","jotain","joten","jotenkin","jotenkuten","jotka","jotta","jouduimme","jouduin","jouduit","jouduitte","joudumme","joudun","joudutte","joukkoon","joukossa","joukosta","joutua","joutui","joutuivat","joutumaan","joutuu","joutuvat","juuri","jälkeen","jälleen","jää","kahdeksan","kahdeksannen","kahdella","kahdelle","kahdelta","kahden","kahdessa","kahdesta","kahta","kahteen","kai","kaiken","kaikille","kaikilta","kaikkea","kaikki","kaikkia","kaikkiaan","kaikkialla","kaikkialle","kaikkialta","kaikkien","kaikkin","kaksi","kannalta","kannattaa","kanssa","kanssaan","kanssamme","kanssani","kanssanne","kanssasi","kauan","kauemmas","kaukana","kautta","kehen","keiden","keihin","keiksi","keille","keillä","keiltä","keinä","keissä","keistä","keitten","keittä","keitä","keneen","keneksi","kenelle","kenellä","keneltä","kenen","kenenä","kenessä","kenestä","kenet","kenettä","kennessästä","kenties","kerran","kerta","kertaa","keskellä","kesken","keskimäärin","ketkä","ketä","kiitos","kohti","koko","kokonaan","kolmas","kolme","kolmen","kolmesti","koska","koskaan","kovin","kuin","kuinka","kuinkan","kuitenkaan","kuitenkin","kuka","kukaan","kukin","kukka","kumpainen","kumpainenkaan","kumpi","kumpikaan","kumpikin","kun","kuten","kuuden","kuusi","kuutta","kylliksi","kyllä","kymmenen","kyse","liian","liki","lisäksi","lisää","lla","luo","luona","lähekkäin","lähelle","lähellä","läheltä","lähemmäs","lähes","lähinnä","lähtien","läpi","mahdollisimman","mahdollista","me","meidän","meidät","meihin","meille","meillä","meiltä","meissä","meistä","meitä","melkein","melko","menee","meneet","menemme","menen","menet","menette","menevät","meni","menimme","menin","menit","menivät","mennessä","mennyt","menossa","mihin","mikin","miksi","mikä","mikäli","mikään","mille","milloin","milloinkan","millä","miltä","minkä","minne","minua","minulla","minulle","minulta","minun","minussa","minusta","minut","minuun","minä","missä","mistä","miten","mitkä","mitä","mitään","moi","molemmat","mones","monesti","monet","moni","moniaalla","moniaalle","moniaalta","monta","muassa","muiden","muita","muka","mukaan","mukaansa","mukana","mutta","muu","muualla","muualle","muualta","muuanne","muulloin","muun","muut","muuta","muutama","muutaman","muuten","myöhemmin","myös","myöskin","myöskään","myötä","ne","neljä","neljän","neljää","niiden","niihin","niiksi","niille","niillä","niiltä","niin","niinä","niissä","niistä","niitä","noiden","noihin","noiksi","noilla","noille","noilta","noin","noina","noissa","noista","noita","nopeammin","nopeasti","nopeiten","nro","nuo","nyt","näiden","näihin","näiksi","näille","näillä","näiltä","näin","näinä","näissä","näissähin","näissälle","näissältä","näissästä","näistä","näitä","nämä","ohi","oikea","oikealla","oikein","ole","olemme","olen","olet","olette","oleva","olevan","olevat","oli","olimme","olin","olisi","olisimme","olisin","olisit","olisitte","olisivat","olit","olitte","olivat","olla","olleet","olli","ollut","oma","omaa","omaan","omaksi","omalle","omalta","oman","omassa","omat","omia","omien","omiin","omiksi","omille","omilta","omissa","omista","on","onkin","onko","ovat","paikoittain","paitsi","pakosti","paljon","paremmin","parempi","parhaillaan","parhaiten","perusteella","peräti","pian","pieneen","pieneksi","pienelle","pienellä","pieneltä","pienempi","pienestä","pieni","pienin","poikki","puolesta","puolestaan","päälle","runsaasti","saakka","sadam","sama","samaa","samaan","samalla","samallalta","samallassa","samallasta","saman","samat","samoin","sata","sataa","satojen","se","seitsemän","sekä","sen","seuraavat","siellä","sieltä","siihen","siinä","siis","siitä","sijaan","siksi","sille","silloin","sillä","silti","siltä","sinne","sinua","sinulla","sinulle","sinulta","sinun","sinussa","sinusta","sinut","sinuun","sinä","sisäkkäin","sisällä","siten","sitten","sitä","ssa","sta","suoraan","suuntaan","suuren","suuret","suuri","suuria","suurin","suurten","taa","taas","taemmas","tahansa","tai","takaa","takaisin","takana","takia","tallä","tapauksessa","tarpeeksi","tavalla","tavoitteena","te","teidän","teidät","teihin","teille","teillä","teiltä","teissä","teistä","teitä","tietysti","todella","toinen","toisaalla","toisaalle","toisaalta","toiseen","toiseksi","toisella","toiselle","toiselta","toisemme","toisen","toisensa","toisessa","toisesta","toista","toistaiseksi","toki","tosin","tuhannen","tuhat","tule","tulee","tulemme","tulen","tulet","tulette","tulevat","tulimme","tulin","tulisi","tulisimme","tulisin","tulisit","tulisitte","tulisivat","tulit","tulitte","tulivat","tulla","tulleet","tullut","tuntuu","tuo","tuohon","tuoksi","tuolla","tuolle","tuolloin","tuolta","tuon","tuona","tuonne","tuossa","tuosta","tuota","tuotä","tuskin","tykö","tähän","täksi","tälle","tällä","tällöin","tältä","tämä","tämän","tänne","tänä","tänään","tässä","tästä","täten","tätä","täysin","täytyvät","täytyy","täällä","täältä","ulkopuolella","usea","useasti","useimmiten","usein","useita","uudeksi","uudelleen","uuden","uudet","uusi","uusia","uusien","uusinta","uuteen","uutta","vaan","vahemmän","vai","vaiheessa","vaikea","vaikean","vaikeat","vaikeilla","vaikeille","vaikeilta","vaikeissa","vaikeista","vaikka","vain","varmasti","varsin","varsinkin","varten","vasen","vasenmalla","vasta","vastaan","vastakkain","vastan","verran","vielä","vierekkäin","vieressä","vieri","viiden","viime","viimeinen","viimeisen","viimeksi","viisi","voi","voidaan","voimme","voin","voisi","voit","voitte","voivat","vuoden","vuoksi","vuosi","vuosien","vuosina","vuotta","vähemmän","vähintään","vähiten","vähän","välillä","yhdeksän","yhden","yhdessä","yhteen","yhteensä","yhteydessä","yhteyteen","yhtä","yhtäälle","yhtäällä","yhtäältä","yhtään","yhä","yksi","yksin","yksittäin","yleensä","ylemmäs","yli","ylös","ympäri","älköön","älä"]

In [5]:
data['Text'] = [''.join([i for i in s if not i.isdigit()]) for s in data['Text']]
data['Text'] = [re.sub(r'[^\w]', ' ', i) for i in data['Text']]
data['Text'] = [re.sub(r' +', ' ', i) for i in data['Text']]

In [6]:
data['Text'][0:5]

0     Arvoisa puhemies Lähetekeskusteluun olemme sa...
1     Arvoisa puhemies Käsillä on todella hallituks...
2    Arvoisa puhemies Ministeri maalasi kyllä aika ...
3     Arvoisa puhemies Tässä nyt täytyy ensin todet...
4     Arvoisa herra puhemies Kaksi tässä edellä käy...
Name: Text, dtype: object

In [9]:
# Creating a vectorizer
vectorizer = CountVectorizer(min_df=5, max_df=0.9, lowercase=True, stop_words = stopwords,analyzer='word')
data_vectorized = vectorizer.fit_transform(data['Text'])

In [7]:
NUM_TOPICS = 30

In [93]:
lda = LatentDirichletAllocation(n_components=NUM_TOPICS, max_iter=20, learning_method='online',verbose=True)
data_lda = lda.fit_transform(data_vectorized)

iteration: 1 of max_iter: 20
iteration: 2 of max_iter: 20
iteration: 3 of max_iter: 20
iteration: 4 of max_iter: 20
iteration: 5 of max_iter: 20
iteration: 6 of max_iter: 20
iteration: 7 of max_iter: 20
iteration: 8 of max_iter: 20
iteration: 9 of max_iter: 20
iteration: 10 of max_iter: 20
iteration: 11 of max_iter: 20
iteration: 12 of max_iter: 20
iteration: 13 of max_iter: 20
iteration: 14 of max_iter: 20
iteration: 15 of max_iter: 20
iteration: 16 of max_iter: 20
iteration: 17 of max_iter: 20
iteration: 18 of max_iter: 20
iteration: 19 of max_iter: 20
iteration: 20 of max_iter: 20


In [97]:
nmf = NMF(n_components=NUM_TOPICS,verbose=True)
data_nmf = nmf.fit_transform(data_vectorized)

violation: 1.0
violation: 0.42242806827398877
violation: 0.30098928539592984
violation: 0.20296844468700173
violation: 0.1441958424901776
violation: 0.10098172501748533
violation: 0.07440675875146108
violation: 0.06417338982864802
violation: 0.059323937770265664
violation: 0.04959033349207574
violation: 0.037453062073613035
violation: 0.02686774929748703
violation: 0.020539486990540673
violation: 0.01614233669871793
violation: 0.013173089408209679
violation: 0.01116566109416175
violation: 0.009694925662787847
violation: 0.00863257382732034
violation: 0.007846571625128482
violation: 0.007366157756440032
violation: 0.0070672207183165095
violation: 0.006922536866653688
violation: 0.0068339931526894965
violation: 0.006784529213583204
violation: 0.006745153402054493
violation: 0.006708070658309213
violation: 0.006660264129081311
violation: 0.0065835847017966164
violation: 0.006474664183039061
violation: 0.006326262123582301
violation: 0.006125210426861397
violation: 0.005877366552423136
vio

In [98]:
from pprint import pprint
def print_topics(model, vectorizer, top_n=15):
    for idx, topic in enumerate(model.components_):
        print("Topic %d:" % (idx))
        pprint([(vectorizer.get_feature_names()[i])
                        for i in topic.argsort()[:-top_n - 1:-1]]) 

In [100]:
# Keywords for topics clustered by Latent Dirichlet Allocation
print("LDA Model:")
print_topics(lda, vectorizer)

LDA Model:
Topic 0:
['pitää',
 'suomessa',
 'saa',
 'rouva',
 'pitäisi',
 'saada',
 'huomiota',
 'ihmisten',
 'osa',
 'ihmiset',
 'ongelma',
 'käytännössä',
 'tilanteen',
 'määrä',
 'maksaa']
Topic 1:
['työtä',
 'työn',
 'työ',
 'töitä',
 'työpaikkoja',
 'työllisyyttä',
 'puhumme',
 'naisten',
 'töihin',
 'ihmisiä',
 'osa',
 'työntekijöiden',
 'toimia',
 'työllisyyden',
 'yritysten']
Topic 2:
['ongelmaa',
 'suinkaan',
 'alkoholin',
 'helsinki',
 'veteraanien',
 'osoitus',
 'velan',
 'minkään',
 'stä',
 'alkoholilain',
 'taustalla',
 'alkon',
 'sotiemme',
 'kulttuuriin',
 'höpö']
Topic 3:
['perustuslain',
 'laki',
 'lain',
 'lainsäädännön',
 'oikeus',
 'perustuslakivaliokunta',
 'perustuslakivaliokunnan',
 'viranomaisten',
 'hallinto',
 'lainsäädäntöä',
 'kansalaisten',
 'lainsäädäntö',
 'lakia',
 'henkilö',
 'lailla']
Topic 4:
['edustaja',
 'esille',
 'pitää',
 'mielestäni',
 'nimenomaan',
 'kysymys',
 'rouva',
 'asiassa',
 'sanoa',
 'pitäisi',
 'toivon',
 'eteenpäin',
 'keskustelua',


In [99]:
# Keywords for topics clustered by Non-Negative Matrix Factorization
print("NMF Model:")
print_topics(nmf, vectorizer)

NMF Model:
Topic 0:
['hallitus',
 'tekee',
 'pääministeri',
 'tehnyt',
 'leikkaukset',
 'sipilän',
 'kaikkein',
 'eduskunta',
 'leikkaa',
 'eduskunnan',
 'edellinen',
 'leikkauksia',
 'leikata',
 'koulutuksesta',
 'esittää']
Topic 1:
['att',
 'och',
 'det',
 'är',
 'som',
 'för',
 'på',
 'vi',
 'har',
 'den',
 'inte',
 'av',
 'här',
 'till',
 'med']
Topic 2:
['edustaja',
 'varapuhemies',
 'mieltä',
 'sanoi',
 'totesi',
 'kysyi',
 'pekkarinen',
 'mauri',
 'heinonen',
 'zyskowicz',
 'totta',
 'puheenvuoron',
 'no',
 'sanoa',
 'edustajat']
Topic 3:
['suomen',
 'suomi',
 'suomeen',
 'maan',
 'pankin',
 'suomalaisten',
 'maailman',
 'ruotsin',
 'irakin',
 'yk',
 'kansainvälisen',
 'ulko',
 'kehityksen',
 'suomea',
 'kestävän']
Topic 4:
['euroa',
 'miljoonaa',
 'euron',
 'miljoonan',
 'miljardia',
 'vuodelle',
 'eurolla',
 'vuonna',
 'miljoonalla',
 'rahaa',
 'esitetään',
 'vuodessa',
 'kuukaudessa',
 'osoitetaan',
 'kehittämiseen']
Topic 5:
['vuonna',
 'prosenttia',
 'määrä',
 'prosentin',


In [None]:
#pyLDAvis.enable_notebook()
#eduskunta_vis_data = pyLDAvis.sklearn.prepare(lda, data_vectorized, vectorizer, mds='tsne')

## Topic modelling with Gensim

In [None]:
print('test')