## Topic modelling with Scikit-learn

In [1]:
import re
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation

In [32]:
data = pd.read_csv('final.csv', sep='\t',header = None,names = ['ID','Date','Time','Speaker','Party','Text'])
display(data[0:5])

Unnamed: 0,ID,Date,Time,Speaker,Party,Text
3,3,2018-05-16,14:20:32,Maria Tolppanen,sd,Arvoisa puhemies! Tässä nyt täytyy ensin tode...
4,4,2018-05-16,14:21:37,Jari Myllykoski,vas,Arvoisa herra puhemies! Kaksi tässä edellä kä...


In [4]:
stopwords = ["aiemmin","aika","aikaa","aikaan","aikaisemmin","aikaisin","aikajen","aikana","aikoina","aikoo","aikovat","aina","ainakaan","ainakin","ainoa","ainoat","aiomme","aion","aiotte","aist","aivan","ajan","alas","alemmas","alkuisin","alkuun","alla","alle","aloitamme","aloitan","aloitat","aloitatte","aloitattivat","aloitettava","aloitettevaksi","aloitettu","aloitimme","aloitin","aloitit","aloititte","aloittaa","aloittamatta","aloitti","aloittivat","alta","aluksi","alussa","alusta","annettavaksi","annetteva","annettu","ansiosta","antaa","antamatta","antoi","aoua","apu","asia","asiaa","asian","asiasta","asiat","asioiden","asioihin","asioita","asti","avuksi","avulla","avun","avutta","edelle","edelleen","edellä","edeltä","edemmäs","edes","edessä","edestä","ehkä","ei","eikä","eilen","eivät","eli","ellei","elleivät","ellemme","ellen","ellet","ellette","emme","en","enemmän","eniten","ennen","ensi","ensimmäinen","ensimmäiseksi","ensimmäisen","ensimmäisenä","ensimmäiset","ensimmäisiksi","ensimmäisinä","ensimmäisiä","ensimmäistä","ensin","entinen","entisen","entisiä","entisten","entistä","enää","eri","erittäin","erityisesti","eräiden","eräs","eräät","esi","esiin","esillä","esimerkiksi","et","eteen","etenkin","etessa","ette","ettei","että","haikki","halua","haluaa","haluamatta","haluamme","haluan","haluat","haluatte","haluavat","halunnut","halusi","halusimme","halusin","halusit","halusitte","halusivat","halutessa","haluton","he","hei","heidän","heidät","heihin","heille","heillä","heiltä","heissä","heistä","heitä","helposti","heti","hetkellä","hieman","hitaasti","hoikein","huolimatta","huomenna","hyvien","hyviin","hyviksi","hyville","hyviltä","hyvin","hyvinä","hyvissä","hyvistä","hyviä","hyvä","hyvät","hyvää","hän","häneen","hänelle","hänellä","häneltä","hänen","hänessä","hänestä","hänet","häntä","ihan","ilman","ilmeisesti","itse","itsensä","itseään","ja","jo","johon","joiden","joihin","joiksi","joilla","joille","joilta","joina","joissa","joista","joita","joka","jokainen","jokin","joko","joksi","joku","jolla","jolle","jolloin","jolta","jompikumpi","jona","jonka","jonkin","jonne","joo","jopa","jos","joskus","jossa","josta","jota","jotain","joten","jotenkin","jotenkuten","jotka","jotta","jouduimme","jouduin","jouduit","jouduitte","joudumme","joudun","joudutte","joukkoon","joukossa","joukosta","joutua","joutui","joutuivat","joutumaan","joutuu","joutuvat","juuri","jälkeen","jälleen","jää","kahdeksan","kahdeksannen","kahdella","kahdelle","kahdelta","kahden","kahdessa","kahdesta","kahta","kahteen","kai","kaiken","kaikille","kaikilta","kaikkea","kaikki","kaikkia","kaikkiaan","kaikkialla","kaikkialle","kaikkialta","kaikkien","kaikkin","kaksi","kannalta","kannattaa","kanssa","kanssaan","kanssamme","kanssani","kanssanne","kanssasi","kauan","kauemmas","kaukana","kautta","kehen","keiden","keihin","keiksi","keille","keillä","keiltä","keinä","keissä","keistä","keitten","keittä","keitä","keneen","keneksi","kenelle","kenellä","keneltä","kenen","kenenä","kenessä","kenestä","kenet","kenettä","kennessästä","kenties","kerran","kerta","kertaa","keskellä","kesken","keskimäärin","ketkä","ketä","kiitos","kohti","koko","kokonaan","kolmas","kolme","kolmen","kolmesti","koska","koskaan","kovin","kuin","kuinka","kuinkan","kuitenkaan","kuitenkin","kuka","kukaan","kukin","kukka","kumpainen","kumpainenkaan","kumpi","kumpikaan","kumpikin","kun","kuten","kuuden","kuusi","kuutta","kylliksi","kyllä","kymmenen","kyse","liian","liki","lisäksi","lisää","lla","luo","luona","lähekkäin","lähelle","lähellä","läheltä","lähemmäs","lähes","lähinnä","lähtien","läpi","mahdollisimman","mahdollista","me","meidän","meidät","meihin","meille","meillä","meiltä","meissä","meistä","meitä","melkein","melko","menee","meneet","menemme","menen","menet","menette","menevät","meni","menimme","menin","menit","menivät","mennessä","mennyt","menossa","mihin","mikin","miksi","mikä","mikäli","mikään","mille","milloin","milloinkan","millä","miltä","minkä","minne","minua","minulla","minulle","minulta","minun","minussa","minusta","minut","minuun","minä","missä","mistä","miten","mitkä","mitä","mitään","moi","molemmat","mones","monesti","monet","moni","moniaalla","moniaalle","moniaalta","monta","muassa","muiden","muita","muka","mukaan","mukaansa","mukana","mutta","muu","muualla","muualle","muualta","muuanne","muulloin","muun","muut","muuta","muutama","muutaman","muuten","myöhemmin","myös","myöskin","myöskään","myötä","ne","neljä","neljän","neljää","niiden","niihin","niiksi","niille","niillä","niiltä","niin","niinä","niissä","niistä","niitä","noiden","noihin","noiksi","noilla","noille","noilta","noin","noina","noissa","noista","noita","nopeammin","nopeasti","nopeiten","nro","nuo","nyt","näiden","näihin","näiksi","näille","näillä","näiltä","näin","näinä","näissä","näissähin","näissälle","näissältä","näissästä","näistä","näitä","nämä","ohi","oikea","oikealla","oikein","ole","olemme","olen","olet","olette","oleva","olevan","olevat","oli","olimme","olin","olisi","olisimme","olisin","olisit","olisitte","olisivat","olit","olitte","olivat","olla","olleet","olli","ollut","oma","omaa","omaan","omaksi","omalle","omalta","oman","omassa","omat","omia","omien","omiin","omiksi","omille","omilta","omissa","omista","on","onkin","onko","ovat","paikoittain","paitsi","pakosti","paljon","paremmin","parempi","parhaillaan","parhaiten","perusteella","peräti","pian","pieneen","pieneksi","pienelle","pienellä","pieneltä","pienempi","pienestä","pieni","pienin","poikki","puolesta","puolestaan","päälle","runsaasti","saakka","sadam","sama","samaa","samaan","samalla","samallalta","samallassa","samallasta","saman","samat","samoin","sata","sataa","satojen","se","seitsemän","sekä","sen","seuraavat","siellä","sieltä","siihen","siinä","siis","siitä","sijaan","siksi","sille","silloin","sillä","silti","siltä","sinne","sinua","sinulla","sinulle","sinulta","sinun","sinussa","sinusta","sinut","sinuun","sinä","sisäkkäin","sisällä","siten","sitten","sitä","ssa","sta","suoraan","suuntaan","suuren","suuret","suuri","suuria","suurin","suurten","taa","taas","taemmas","tahansa","tai","takaa","takaisin","takana","takia","tallä","tapauksessa","tarpeeksi","tavalla","tavoitteena","te","teidän","teidät","teihin","teille","teillä","teiltä","teissä","teistä","teitä","tietysti","todella","toinen","toisaalla","toisaalle","toisaalta","toiseen","toiseksi","toisella","toiselle","toiselta","toisemme","toisen","toisensa","toisessa","toisesta","toista","toistaiseksi","toki","tosin","tuhannen","tuhat","tule","tulee","tulemme","tulen","tulet","tulette","tulevat","tulimme","tulin","tulisi","tulisimme","tulisin","tulisit","tulisitte","tulisivat","tulit","tulitte","tulivat","tulla","tulleet","tullut","tuntuu","tuo","tuohon","tuoksi","tuolla","tuolle","tuolloin","tuolta","tuon","tuona","tuonne","tuossa","tuosta","tuota","tuotä","tuskin","tykö","tähän","täksi","tälle","tällä","tällöin","tältä","tämä","tämän","tänne","tänä","tänään","tässä","tästä","täten","tätä","täysin","täytyvät","täytyy","täällä","täältä","ulkopuolella","usea","useasti","useimmiten","usein","useita","uudeksi","uudelleen","uuden","uudet","uusi","uusia","uusien","uusinta","uuteen","uutta","vaan","vahemmän","vai","vaiheessa","vaikea","vaikean","vaikeat","vaikeilla","vaikeille","vaikeilta","vaikeissa","vaikeista","vaikka","vain","varmasti","varsin","varsinkin","varten","vasen","vasenmalla","vasta","vastaan","vastakkain","vastan","verran","vielä","vierekkäin","vieressä","vieri","viiden","viime","viimeinen","viimeisen","viimeksi","viisi","voi","voidaan","voimme","voin","voisi","voit","voitte","voivat","vuoden","vuoksi","vuosi","vuosien","vuosina","vuotta","vähemmän","vähintään","vähiten","vähän","välillä","yhdeksän","yhden","yhdessä","yhteen","yhteensä","yhteydessä","yhteyteen","yhtä","yhtäälle","yhtäällä","yhtäältä","yhtään","yhä","yksi","yksin","yksittäin","yleensä","ylemmäs","yli","ylös","ympäri","älköön","älä"]

In [5]:
data['Text'] = [''.join([i for i in s if not i.isdigit()]) for s in data['Text']]
data['Text'] = [re.sub(r'[^\w]', ' ', i) for i in data['Text']]
data['Text'] = [re.sub(r' +', ' ', i) for i in data['Text']]

In [6]:
data['Text'][0:5]

0     Arvoisa puhemies Lähetekeskusteluun olemme sa...
1     Arvoisa puhemies Käsillä on todella hallituks...
2    Arvoisa puhemies Ministeri maalasi kyllä aika ...
3     Arvoisa puhemies Tässä nyt täytyy ensin todet...
4     Arvoisa herra puhemies Kaksi tässä edellä käy...
Name: Text, dtype: object

In [6]:
# Creating a vectorizer
vectorizer = CountVectorizer(min_df=5, max_df=0.9, lowercase=True, stop_words = stopwords,analyzer='word')
data_vectorized = vectorizer.fit_transform(data['Text'])
data_vectorized

<56659x90447 sparse matrix of type '<class 'numpy.int64'>'
	with 5337279 stored elements in Compressed Sparse Row format>

In [116]:
NUM_TOPICS = 20

In [117]:
lda = LatentDirichletAllocation(n_components=NUM_TOPICS, max_iter=20, learning_method='online',verbose=True)
data_lda = lda.fit_transform(data_vectorized)

iteration: 1 of max_iter: 20
iteration: 2 of max_iter: 20
iteration: 3 of max_iter: 20
iteration: 4 of max_iter: 20
iteration: 5 of max_iter: 20
iteration: 6 of max_iter: 20
iteration: 7 of max_iter: 20
iteration: 8 of max_iter: 20
iteration: 9 of max_iter: 20
iteration: 10 of max_iter: 20
iteration: 11 of max_iter: 20
iteration: 12 of max_iter: 20
iteration: 13 of max_iter: 20
iteration: 14 of max_iter: 20
iteration: 15 of max_iter: 20
iteration: 16 of max_iter: 20
iteration: 17 of max_iter: 20
iteration: 18 of max_iter: 20
iteration: 19 of max_iter: 20
iteration: 20 of max_iter: 20


In [10]:
nmf = NMF(n_components=NUM_TOPICS,verbose=True)
data_nmf = nmf.fit_transform(data_vectorized)

violation: 1.0
violation: 0.42375565054607905
violation: 0.29997033310738597
violation: 0.20193504276542643
violation: 0.1400352579460568
violation: 0.09489773662351629
violation: 0.07015940272830683
violation: 0.06007910015844343
violation: 0.05549469946967687
violation: 0.048337408527562124
violation: 0.039047546405194956
violation: 0.03103498578612701
violation: 0.024675647231405327
violation: 0.019187697454691652
violation: 0.01650960480781715
violation: 0.014608251434116743
violation: 0.013351113164975299
violation: 0.012356466765034513
violation: 0.011324482213861464
violation: 0.010458160459341783
violation: 0.00961116010945111
violation: 0.008754588356523565
violation: 0.007917063080745516
violation: 0.007129466213079994
violation: 0.006421872744438983
violation: 0.005823849930228526
violation: 0.005337128209242302
violation: 0.0049488302269731985
violation: 0.004588897912916102
violation: 0.0042615255163001185
violation: 0.004075638941295361
violation: 0.003973006487117412
vio

In [21]:
def print_topics(model, vectorizer, top_n=15):
    for idx, topic in enumerate(model.components_):
        print("Topic %d:" % (idx))
        print(', '.join([vectorizer.get_feature_names()[i]
                        for i in topic.argsort()[:-top_n - 1:-1]]))

In [79]:
def print_topics_as_df(model, vectorizer, top_n=15):
    df1 = pd.DataFrame([None]*15,columns=['1'])

    for idx, topic in enumerate(model.components_):
        df2 = pd.DataFrame([vectorizer.get_feature_names()[i]
                        for i in topic.argsort()[:-top_n - 1:-1]],columns=["Topic %d" % (idx)])
        df1 = df1.join(df2)
    df1 = df1.drop('1',axis=1)
    return df1

In [118]:
# Keywords for topics clustered by Latent Dirichlet Allocation
print("LDA Model:")
print_topics_as_df(lda, vectorizer)

LDA Model:


Unnamed: 0,Topic 0,Topic 1,Topic 2,Topic 3,Topic 4,Topic 5,Topic 6,Topic 7,Topic 8,Topic 9,Topic 10,Topic 11,Topic 12,Topic 13,Topic 14,Topic 15,Topic 16,Topic 17,Topic 18,Topic 19
0,eduskunta,koulutuksen,att,valtion,eduskunnan,prosenttia,esille,suomen,suomessa,edustaja,suomen,pitää,lasten,hallitus,sote,edustaja,poliisin,pitää,liikenne,hallituksen
1,edellyttää,nuorten,och,miljoonaa,mielestäni,liikenteen,tärkeää,hallitus,suomeen,pitää,eu,suomen,lapsen,hallituksen,sosiaali,ministeri,turvallisuuden,pitäisi,turvallisuus,esitys
2,valtioneuvoston,tasa,det,vuonna,eduskunta,suomessa,tärkeä,yritysten,suomen,tehdä,suomi,suomessa,oikeus,euroa,palvelut,koputtaa,viranomaisten,nimenomaan,liikenteen,valiokunta
3,harmaan,naisten,är,suomen,kysymys,hinta,pitää,työn,maassa,pitäisi,euroopan,maa,tasa,miljoonaa,kuntien,hallitus,poliisi,osalta,yhtiön,esityksessä
4,suinkaan,koulutus,som,euroa,eduskunnassa,asumisen,mielestäni,työpaikkoja,pitää,mieltä,unionin,suomi,lapset,talouden,uudistuksen,varapuhemies,kansalaisten,tehdä,irakin,esityksen
5,käsittelyn,asteen,för,osalta,asiassa,tukea,toivon,suomi,maan,salissa,maiden,eu,lapsia,vuonna,uudistus,hallituksen,huomiota,rouva,alkoholin,lain
6,vastalauseen,ammatillisen,på,tärkeää,perustuslain,energian,keskustelua,työtä,määrä,nimenomaan,yhteistyötä,maailman,lapsi,euron,palveluiden,kysymys,poliisien,saa,yleisradion,valiokunnan
7,selvityksen,koulutukseen,vi,tärkeä,lainsäädäntöä,maksavat,eteenpäin,yritykset,maissa,sanoa,kansainvälisen,maatalouden,perheiden,miljardia,terveydenhuollon,pekkarinen,turvallisuutta,saada,vuonna,osalta
8,mietinnön,koulutusta,har,ylen,laki,vuodessa,rouva,työttömyys,suomalaisten,rouva,venäjän,ilmastonmuutoksen,yk,kaikkein,palveluita,mauri,sisäisen,elikkä,selonteossa,laki
9,mukainen,opiskelijoiden,den,yle,oikeus,vuoteen,sanoa,hallituksen,saa,totta,neuvoston,kehityksen,varhaiskasvatuksen,miljoonan,palvelujen,rouva,rouva,ihmiset,oy,ehdotetaan


In LDA model we can see such topics as:

1. **Topic 1**: education (related especially to youth and women)
2. **Topic 2**: stopwords from Swedish texts (some speeches are done partially or completely in Swedish)
3. **Topic 3**: funding
4. **Topic 4**: legislation
5. **Topic 7**: work and unemployment
6. **Topic 8**: Finland
7. **Topic 10**: external affairs
8. **Topic 12**: family and children
9. **Topic 13**: economics
10. **Topic 14**: social policy reforms
11. **Topic 16**: security

In [81]:
# Keywords for topics clustered by Non-Negative Matrix Factorization
print("NMF Model:")
print_topics_as_df(nmf, vectorizer)

NMF Model:


Unnamed: 0,Topic 0,Topic 1,Topic 2,Topic 3,Topic 4,Topic 5,Topic 6,Topic 7,Topic 8,Topic 9,Topic 10,Topic 11,Topic 12,Topic 13,Topic 14,Topic 15,Topic 16,Topic 17,Topic 18,Topic 19,Topic 20,Topic 21,Topic 22,Topic 23,Topic 24,Topic 25,Topic 26,Topic 27,Topic 28,Topic 29
0,hallitus,att,edustaja,suomen,euroa,vuonna,hallituksen,pitää,eu,lapsen,valiokunta,koulutuksen,sote,ministeri,suomessa,talouden,pitäisi,lain,osalta,esille,euroopan,tärkeää,koputtaa,valtion,tehdä,prosenttia,rouva,työn,nimenomaan,mielestäni
1,tekee,och,varapuhemies,suomi,miljoonaa,kuntien,esitys,saada,suomi,lasten,valiokunnan,ammatillisen,sosiaali,orpo,suomeen,julkisen,kysymys,esitys,osin,nostaa,unionin,tärkeä,varapuhemies,kuntien,tehdään,kelan,toivon,työtä,asiassa,tietenkin
2,pääministeri,det,mieltä,suomeen,euron,määrä,esityksen,muistaa,maiden,lapsi,huomiota,nuorten,uudistuksen,minuuttia,maassa,talous,saa,esityksen,eteenpäin,tuli,suomi,todellakin,herra,valtio,työtä,prosentin,saadaan,tasa,jatkossa,pidän
3,leikkaukset,är,sanoi,maan,miljoonan,vuoteen,esityksessä,kiinni,komission,varhaiskasvatuksen,toteaa,asteen,uudistus,varapuhemies,saa,harmaan,asiassa,esityksessä,tehty,toi,neuvoston,äärimmäisen,pekkarinen,metsähallituksen,päätöksiä,osa,maria,suomi,mielessä,asiassa
4,tehnyt,som,totesi,pankin,miljardia,eduskunnan,esitystä,pystyä,maatalouden,oikeus,tärkeänä,koulutukseen,terveydenhuollon,kysymys,ruotsissa,euron,sanoa,laki,tehdään,nosti,venäjän,tarvitaan,mauri,metsähallitus,tehty,osuus,risikko,osa,ollaan,toivon
5,eduskunta,för,kysyi,maailman,vuodelle,miljardia,sipilän,huolta,britannian,lapset,korostaa,koulutus,palvelut,lindström,suomesta,työllisyyden,elikkä,ehdotetaan,ollaan,oikeusasiamiehen,pohjoismaiden,saadaan,pääministeri,yhtiön,tekemään,kela,lohela,ihmisten,saadaan,ylen
6,sipilän,på,pekkarinen,suomalaisten,eurolla,eurolla,edellisen,totta,unionin,lapsia,kiinnittää,tasa,palveluiden,risikko,suomalainen,kasvu,saada,eduskunnan,kuntien,keskustelussa,venäjä,eteenpäin,välihuutoja,miljardia,toimia,määrä,paula,työ,kaikkein,yle
7,kaikkein,vi,totta,ruotsin,miljoonalla,tilanne,leikkaukset,ottaa,suomelle,vanhempien,eduskunnan,koulutusta,kuntien,ministerin,määrä,kasvun,ihmiset,jatkossa,liikenteen,otti,unioni,tietenkin,kysymys,yhtiöiden,voitaisiin,eläkeläisten,maassa,tarvitaan,totta,herra
8,leikkaa,har,mauri,irakin,rahaa,asiassa,esitykseen,saadaan,tasolla,varhaiskasvatukseen,pitää,opiskelijoiden,palveluita,sanoi,maissa,kasvua,tilanne,perustuslain,osa,ottaa,yhteistyötä,toivon,hälinää,maa,töitä,tarkoittaa,tilanne,kehityksen,tehdään,keskustelua
9,eduskunnan,den,heinonen,yk,vuodessa,prosentin,linja,tarvitaan,komissio,tasa,mietinnössään,koulutuksesta,palvelujen,kysyn,suomalaisen,miljardin,ihmisiä,voimaan,tietenkin,elikkä,tilanne,erityisen,puheenvuoron,oy,eduskunnan,vuodessa,tulevaisuudessa,yhteiskunnan,huomiota,mielessä


In NMF model we can see such topics as:

1. **Topic 0**: cuts
2. **Topic 1**: stopwords from Swedish texts (some speeches are done partially or completely in Swedish)
3. **Topic 9**: family and children
4. **Topic 11**: education and reforms
5. **Topic 12**: social policy reforms
6. **Topic 15**: economics and employment
7. **Topic 17**: law
8. **Topic 20**: foreign affairs