# Constructing the bag-of-words


In [21]:
import csv 
import numpy as np
import pandas as pd

In [58]:
dr_data = pd.read_csv('dr_frequent_articles.csv', sep = ',')
dr_data.head()

Unnamed: 0,Publish date,Text,Title,URL,Date month
0,2013-06-06 21:14:35+00:00,"Den mexicanske hær har befriet 165 migranter, ...",Mexicansk hær befrier 165 migranter,http://dr.dk/nyheder/udland/mexicansk-haer-bef...,2013-06
1,2013-04-11 20:30:00+00:00,Italienske kystvagter udrettede torsdag noget ...,Italien: Kystvagter redder 500 afrikanske migr...,http://dr.dk/nyheder/udland/italien-kystvagter...,2013-04
2,2012-10-08 13:03:00+00:00,Politiet i Københavns Lufthavn lader mange ill...,Blad: Politi lader illegale passere,http://dr.dk/nyheder/indland/blad-politi-lader...,2012-10
3,2013-10-04 05:05:00+00:00,Det store antal døde afrikanske asylsøgere ud ...,Bådkatastrofe sætter spot på flygtningeproblem,http://dr.dk/nyheder/udland/baadkatastrofe-sae...,2013-10
4,2012-01-31 22:35:00+00:00,Håbet om en bedre fremtid fik en dødelig udgan...,1500 døde på vej til Europa sidste år,http://dr.dk/nyheder/udland/1500-doede-paa-vej...,2012-01


In [59]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [80]:
# construct the vocabolary of the bag-of-words
count = CountVectorizer(max_df=.10, max_features = 500)
X = count.fit_transform(dr_data['Text'].values)

In [81]:
# define number of topics and method for setting up the lda model
lda = LatentDirichletAllocation(n_topics=10, random_state=123, learning_method='batch')
X_topics = lda.fit_transform(X)



In [82]:
# print the top five words of each of the 10 categories
n_top_words = 5
feature_names = count.get_feature_names()
for topic_idx, topic in enumerate(lda.components_):
    print("Topic %d:" % (topic_idx + 1))
    print(" ".join([feature_names[i]
                    for i in topic.argsort()\
                    [:-n_top_words - 1:-1]]))

Topic 1:
unge min røde kors liv
Topic 2:
partiet parti valg kvoteflygtninge stemme
Topic 3:
støjberg inger schmidt integrationsminister thorning
Topic 4:
italien middelhavet libyen italienske migranterne
Topic 5:
usa trump amerikanske præsident donald
Topic 6:
flygtningehjælp rapporten udlændingestyrelsen eritrea irak
Topic 7:
løkke lars martin rasmussen mette
Topic 8:
kommune kommunerne kommuner sverige job
Topic 9:
tyrkiet tyske grækenland merkel ungarn
Topic 10:
afviste opholdstilladelse midlertidig ophold familiesammenføring


In [84]:
# check that the category municipality is relevant for three random articles
Municipalities = X_topics[:, 7].argsort()[::-1]
for iter_idx, movie_idx in enumerate(Municipalities[:3]):
    print('\nMunicipalities #%d:' % (iter_idx + 1))
    print(dr_data['Text'][movie_idx][:300], '...')


Municipalities #1:
Flere flygtninge skal ud og lave mad på et plejehjem, passe børn eller i andet arbejde. Det mener en række af landets kommuner, der derfor har ansat en integrations-og beskæftigelsesambassadør, der skal sikre, at især flere kvindelige og unge flygtninge kommer i job. Allerød Kommune: 1.769.954 kr. V ...

Municipalities #2:
I dag er der 493.468 - i 2060 vil der være 867.258 ikke-vestlige indvandrere eller efterkommere, viser en ny fremskrivning fra Danmarks Statistik. Det skaber en række udfordringer, fordi denne befolkningsgruppe i øjeblikket halter efter personer med dansk oprindelse, når det eksempelvis handler om b ...

Municipalities #3:
Tirsdag fordelte Social-og Indenrigsministeriet de 325 millioner kroner, som kommunerne får i tilskud til at modtage og integrere flygtninge i 2016. Men tilskuddet vækker ærgrelse i Odense, der i alt modtager 9,7 millioner kroner. Fire millioner kroner af tilskuddet er nemlig øremærket til at invest ...
