In [16]:
import pandas as pd
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation


In [17]:
# Download NL Core News LG model for Dutch language
try:
    nlp = spacy.load('nl_core_news_lg')
except:
    !python -m spacy download nl_core_news_lg


In [26]:


# Load SpaCy Dutch language model - Dutch stop words
nlp = spacy.load('nl_core_news_lg')
dutch_stop_words = nlp.Defaults.stop_words

# Load your preprocessed dataset
df = pd.read_csv('C:/Users/xx/dutch_newspapers_preprocessed_n.csv')

# Combine the 'preprocessed_content' and 'preprocessed_titel' columns
text_data = df['processed_content'] + ' ' + df['processed_titel']


In [27]:
# Thematic Analysis and Keyword Extraction using TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words=list(dutch_stop_words))
tfidf = tfidf_vectorizer.fit_transform(text_data)
feature_names = tfidf_vectorizer.get_feature_names_out()


In [28]:
# Print the top 10 keywords for each document
for i in range(tfidf.shape[0]):
    print(f"Top keywords for document {i}:")
    sorted_indices = tfidf[i].toarray().flatten().argsort()[-10:][::-1]
    for index in sorted_indices:
        print(f"{feature_names[index]}: {tfidf[i, index]:.4f}")
    print()


Top keywords for document 0:
zn: 0.2158
blijken: 0.1755
krant: 0.1700
gaan: 0.1551
miljoen: 0.1525
maand: 0.1347
jaar: 0.1313
dag: 0.1313
krijgen: 0.1225
zó: 0.1194

Top keywords for document 1:
tsjechoslowakije: 0.3038
onrecht: 0.2678
bedrijven: 0.2202
adam: 0.2103
demonstreren: 0.1786
demonstratie: 0.1753
vraag: 0.1668
zoiets: 0.1645
ambtenaar: 0.1513
beslissing: 0.1372

Top keywords for document 2:
machtiging: 0.3530
voorwaarde: 0.2703
extrareiskos: 0.2596
stempel: 0.2391
vergoeden: 0.2030
ministerie: 0.1958
voldoen: 0.1865
paspoort: 0.1560
verblijf: 0.1491
istanboel: 0.1473

Top keywords for document 3:
stempel: 0.2805
voorwaarde: 0.2378
machtiging: 0.2329
consulaat: 0.2205
aanvragen: 0.1932
voorlopig: 0.1850
zaterdag: 0.1841
minstens: 0.1731
ministerie: 0.1723
passen: 0.1661

Top keywords for document 4:
tilanus: 0.3217
onjuist: 0.2697
verzoeken: 0.2594
drs: 0.2507
voorlichting: 0.2455
minister: 0.1902
formaliteit: 0.1660
singerdekker: 0.1660
informeren: 0.1609
justitie: 0.1532

T

pleegouder: 0.5106
sedat: 0.2437
bewegen: 0.1997
westduits: 0.1965
vermoedelijk: 0.1702
woordvoerder: 0.1567
baby: 0.1458
snel: 0.1416
werkende: 0.1276
ndet: 0.1276

Top keywords for document 69:
kleijn: 0.4507
balkon: 0.3076
mevrouw: 0.2922
wurgen: 0.2725
hospita: 0.2092
trachten: 0.1641
trekken: 0.1444
hooiveld: 0.1264
wierp: 0.1207
hek: 0.1207

Top keywords for document 70:
handi: 0.4674
güler: 0.3700
officier: 0.2112
staaf: 0.1887
hel: 0.1359
ijzeren: 0.1314
27: 0.1185
rotterdam: 0.1138
doodslag: 0.1099
bed: 0.1099

Top keywords for document 71:
guler: 0.4324
akbal: 0.2530
handi: 0.2530
echtgenoot: 0.1712
aanvallen: 0.1544
beschonken: 0.1544
eenzelfde: 0.1441
rotterdam: 0.1438
man: 0.1416
bui: 0.1402

Top keywords for document 72:
amsterdam: 0.3733
gids: 0.1963
haven: 0.1832
journalist: 0.1739
grote: 0.1637
mond: 0.1536
vreemdeling: 0.1460
groot: 0.1449
krant: 0.1346
club: 0.1160

Top keywords for document 73:
weyland: 0.2803
etage: 0.2163
buurtbewoner: 0.2016
charges: 0.1957
lugti

hoofdagent: 0.3161
agent: 0.2833
vervolging: 0.1983
bureau: 0.1646
justitie: 0.1586
zaak: 0.1529
politiekorps: 0.1246
stal: 0.1246
geil: 0.1246
dook: 0.1246

Top keywords for document 131:
bijenkorfrechercheurs: 0.3357
hotel: 0.2777
dollar: 0.2777
agent: 0.2544
bedrag: 0.2282
hotelkamer: 0.1678
hasjiesj: 0.1678
verkla: 0.1678
damrak: 0.1678
ue: 0.1602

Top keywords for document 132:
agent: 0.4627
justitie: 0.2591
verklaring: 0.2537
inschakeling: 0.2035
kwalijk: 0.1872
handelwijze: 0.1872
stuiten: 0.1813
strafrechtelijk: 0.1813
winkeldiefstal: 0.1813
volstrekt: 0.1813

Top keywords for document 133:
werkgroep: 0.4748
gezondheidzorg: 0.2336
familielid: 0.2155
rapport: 0.2024
dunk: 0.1518
familieleden: 0.1518
onvolledig: 0.1449
turken: 0.1449
inschreven: 0.1449
ziektekost: 0.1449

Top keywords for document 134:
kritiek: 0.2623
politieoptreden: 0.2491
walraven: 0.2491
mes: 0.2061
burgemeester: 0.1749
gewond: 0.1730
zwaar: 0.1519
19jarig: 0.1246
gist: 0.1246
weerloos: 0.1246

Top keywords f

mevrouw: 0.2039
soetens: 0.1965
keulen: 0.1654
gastarbeiderskinderen: 0.1521
pro: 0.1369
verschijnsel: 0.1341
buitenlands: 0.1337
komen: 0.1139
maw: 0.1103
jong: 0.1063

Top keywords for document 218:
gab: 0.4610
werkgever: 0.2202
buitenlander: 0.2025
gastarbeider: 0.1867
werknemer: 0.1639
onlangs: 0.1342
gemeente: 0.1287
surinamer: 0.1246
50: 0.1183
nederlands: 0.1176

Top keywords for document 219:
hulpverlener: 0.4066
lijst: 0.1870
marokkaans: 0.1554
hulpmiddel: 0.1474
buitenlander: 0.1457
maken: 0.1444
aantal: 0.1372
cliënt: 0.1355
ondersteuning: 0.1355
materiaal: 0.1278

Top keywords for document 220:
firma: 0.4205
misstand: 0.2796
sociaal: 0.1615
uien: 0.1434
voedingsbond: 0.1228
schandelijk: 0.1075
staalt: 0.1075
doorbetaling: 0.1075
bg: 0.1075
dapper: 0.1075

Top keywords for document 221:
ploegmakers: 0.2793
brief: 0.2744
bedrijf: 0.1882
voedingsbond: 0.1732
mr: 0.1692
laat: 0.1680
cao: 0.1640
uitbuiting: 0.1516
onrechtmatig: 0.1448
afnemer: 0.1375

Top keywords for document 2

pakket: 0.3769
abortus: 0.3553
voorlichting: 0.2787
marokkaans: 0.2592
folder: 0.2049
voorlichtingsmateriaal: 0.2049
gezondheidszorg: 0.1956
geboorteregeling: 0.1956
stimezo: 0.1956
brochure: 0.1956

Top keywords for document 304:
brand: 0.5549
kind: 0.2158
faberstraat: 0.2028
jaar: 0.1942
slaap: 0.1925
huis: 0.1829
bovenverdieping: 0.1811
woonhuis: 0.1780
31jarig: 0.1780
omkomen: 0.1635

Top keywords for document 305:
schiphol: 0.2553
ingrijpen: 0.1789
zorgen: 0.1576
zenden: 0.1514
minister: 0.1342
turkije: 0.1309
toelaten: 0.1308
week: 0.1282
bedrijfleider: 0.1252
man: 0.1240

Top keywords for document 306:
turk: 0.2127
bloemkool: 0.2017
liefde: 0.1669
spakenburg: 0.1605
turkije: 0.1555
uysallar: 0.1529
sparen: 0.1416
stempel: 0.1239
blijken: 0.1227
schiphol: 0.1212

Top keywords for document 307:
fakkel: 0.2453
kleijn: 0.2290
charge: 0.2227
hospita: 0.2126
alkmaar: 0.2045
branden: 0.1846
trachten: 0.1668
dam: 0.1578
onrustig: 0.1285
sneuvelen: 0.1285

Top keywords for document 308:


chinees: 0.3412
auto: 0.2744
belanden: 0.2553
heup: 0.2437
sloot: 0.2275
leeuwarden: 0.2213
provincie: 0.2213
rijden: 0.1591
slingeren: 0.1276
diakonessenhuis: 0.1276

Top keywords for document 361:
wethouder: 0.2636
buurtbewoner: 0.2389
mulder: 0.2133
gezin: 0.2000
onderhouden: 0.1919
januari: 0.1732
eindhoven: 0.1687
21: 0.1593
steun: 0.1532
maand: 0.1476

Top keywords for document 362:
wenneker: 0.3297
kliniek: 0.2274
vroedman: 0.1792
hartstikke: 0.1711
beroep: 0.1651
administratief: 0.1648
wennekers: 0.1648
vak: 0.1483
24: 0.1358
leuk: 0.1321

Top keywords for document 363:
vroedvrouw: 0.3203
opleiding: 0.2523
man: 0.2447
schuwheid: 0.2396
wenneker: 0.2204
verloskundig: 0.1743
bevalling: 0.1598
spraak: 0.1412
voorbehouden: 0.1198
baren: 0.1198

Top keywords for document 364:
cholera: 0.4857
nader: 0.2152
mededeling: 0.1944
woordvoerder: 0.1839
ministerie: 0.1506
uitslag: 0.1498
besmetting: 0.1498
verluiden: 0.1430
behandelingsmogelijkhed: 0.1430
diarree: 0.1430

Top keywords for do

berichtgeving: 0.1566

Top keywords for document 421:
leiden: 0.4228
jongen: 0.3722
oegstgeesterweg: 0.2623
slachtoffer: 0.2233
minnaar: 0.2219
fabrieksarbeider: 0.2052
moeder: 0.1786
politie: 0.1537
akbryik: 0.1311
i3: 0.1311

Top keywords for document 422:
gewicht: 0.5025
wensen: 0.2803
auto: 0.1957
ietwat: 0.1821
denken: 0.1800
wogen: 0.1739
nadeel: 0.1739
belasting: 0.1675
vermelden: 0.1675
38: 0.1579

Top keywords for document 423:
putse: 0.3483
haan: 0.3388
poort: 0.3234
turk: 0.2404
gepast: 0.1954
kerstfeest: 0.1797
bloemhof: 0.1741
kerstdag: 0.1694
doorbrengen: 0.1617
kerstmis: 0.1617

Top keywords for document 424:
werkster: 0.4741
gom: 0.3788
school: 0.2057
bond: 0.1752
rotterdams: 0.1620
laten: 0.1586
baars: 0.1515
steek: 0.1394
eind: 0.1385
oor: 0.1254

Top keywords for document 425:
handi: 0.3649
akbal: 0.3649
güler: 0.2696
ijzeren: 0.2394
28: 0.2324
staaf: 0.2292
bedreigen: 0.2208
doodslag: 0.2002
anderhalf: 0.1910
conform: 0.1555

Top keywords for document 426:
be: 0.387

agca: 0.3885
gülbeden: 0.3195
mevrouw: 0.2071
verloskundig: 0.1956
haasberger: 0.1711
damziekenhuis: 0.1649
assistente: 0.1554
ziekenhuis: 0.1323
patiënt: 0.1195
haars: 0.1184

Top keywords for document 492:
pleiten: 0.4456
exechtgenoot: 0.2748
moedig: 0.2748
vlissingen: 0.2624
assistente: 0.2382
respect: 0.2228
mishandeld: 0.2187
eventueel: 0.2025
verloskundig: 0.1999
willen: 0.1764

Top keywords for document 493:
dijk: 0.3273
ploegmaker: 0.2422
schelling: 0.2227
bond: 0.2157
brief: 0.2026
strijdmiddel: 0.1781
uitspraak: 0.1744
ploegmakers: 0.1718
fnv: 0.1628
winnen: 0.1543

Top keywords for document 494:
agca: 0.3285
verloskundig: 0.2757
verlenen: 0.2399
verblijfsvergunning: 0.2164
staat: 0.2069
noemen: 0.1897
bena: 0.1895
deren: 0.1895
damziekenhuis: 0.1743
uitwezen: 0.1743

Top keywords for document 495:
cao: 0.3659
klacht: 0.2461
weigeren: 0.2186
gens: 0.1879
doorvoeren: 0.1879
gemaakt: 0.1879
pfeil: 0.1879
icier: 0.1879
nb: 0.1794
groentenschoonmaakbedrijf: 0.1794

Top keywords f

jeugdig: 0.1864
twist: 0.1864
poos: 0.1780

Top keywords for document 559:
verblijfsvergunning: 0.3543
haasberger: 0.2962
mevrouw: 0.2867
tweedekamerlid: 0.2765
agca: 0.2689
vragen: 0.2530
state: 0.2427
kamerlid: 0.2352
alsnog: 0.2352
pvda: 0.2154

Top keywords for document 560:
delfzijl: 0.4100
gewroken: 0.2365
achterneef: 0.2175
cel: 0.2107
30jarig: 0.1918
eten: 0.1431
zeven: 0.1393
man: 0.1380
pleegen: 0.1182
weloverwogen: 0.1182

Top keywords for document 561:
almelo: 0.3312
christenturken: 0.2639
haars: 0.2229
bennekom: 0.1902
geding: 0.1822
grote: 0.1790
41: 0.1731
vonnis: 0.1616
mr: 0.1614
advocaat: 0.1472

Top keywords for document 562:
36: 0.3107
almelo: 0.2415
ondergedoken: 0.2137
christenturken: 0.2137
leiding: 0.2071
haars: 0.1805
staatssecretaris: 0.1703
verlaten: 0.1476
turk: 0.1441
politiearts: 0.1366

Top keywords for document 563:
marianne: 0.5514
lange: 0.4452
krijnen: 0.1908
peter: 0.1515
podium: 0.1332
onverbiddelijk: 0.1272
vermijden: 0.1272
knap: 0.1225
materiaal:

gebr: 0.3194
voedingsbond: 0.3184
rectificatie: 0.3077
afnemer: 0.3033
brief: 0.2422
ploegmakers: 0.2054
oordelen: 0.1987
vonnis: 0.1602
utrecht: 0.1237
geding: 0.1205

Top keywords for document 615:
aanhouden: 0.2754
plaste: 0.2175
doodsloeg: 0.2076
verstandelijk: 0.2076
tussenarrest: 0.2076
suheyla: 0.2000
vermogen: 0.2000
thuisland: 0.1885
haag: 0.1882
zesjarig: 0.1840

Top keywords for document 616:
rotterdams: 0.3533
arresteren: 0.3217
joke: 0.2944
recherche: 0.2585
25jarig: 0.2435
verdenken: 0.2346
moord: 0.2014
turk: 0.1742
0t: 0.1652
tus: 0.1652

Top keywords for document 617:
westland: 0.2503
werk: 0.2493
groepjes: 0.2390
werkgever: 0.2305
tegelijk: 0.1992
helaas: 0.1870
goed: 0.1781
komen: 0.1292
duin: 0.1251
barrière: 0.1251

Top keywords for document 618:
huilen: 0.3140
eerde: 0.2896
uienschoonmaakster: 0.2034
per: 0.2007
voedingsbonden: 0.1830
touw: 0.1830
daarentegen: 0.1730
firma: 0.1730
tevreden: 0.1702
dag: 0.1677

Top keywords for document 619:
raadvrouwe: 0.3259
fatm

In [29]:
# Topic Modeling using LDA
# Specify the number of topics you want to extract
number_of_topics = 50  # Change this to the desired number of topics

lda = LatentDirichletAllocation(n_components=50, random_state=0)
lda.fit(tfidf)



In [30]:
# Print the top 10 words for each topic
for index, topic in enumerate(lda.components_):
    print(f"Top words for topic {index}:")
    sorted_indices = topic.argsort()[-10:][::-1]
    for i in sorted_indices:
        print(f"{feature_names[i]}: {topic[i]:.4f}")
    print()

Top words for topic 0:
schelling: 0.6209
werkster: 0.4703
gom: 0.3988
uienpelsters: 0.3688
televisieprogramma: 0.3626
restauratie: 0.3385
varaombudsman: 0.3208
rectificatie: 0.3193
pikken: 0.2966
bouwen: 0.2653

Top words for topic 1:
rijbewijs: 2.0038
caféhouder: 1.3181
nuran: 0.9230
hofwijckstraat: 0.8821
41jarig: 0.8187
pistoolschot: 0.8180
exwerkgever: 0.7931
29jarig: 0.7834
pistool: 0.7762
76: 0.7539

Top words for topic 2:
zn: 0.7251
categorie: 0.4003
vergeefs: 0.3952
mankeren: 0.3768
jarige: 0.3624
opname: 0.3484
verkeer: 0.3391
huiselijk: 0.3250
twist: 0.3106
verbazing: 0.3075

Top words for topic 3:
stempel: 4.8603
machtiging: 4.4068
consulaat: 2.9466
voorlopig: 2.4013
paspoort: 2.3736
verblijf: 2.0562
agca: 1.7942
istanboel: 1.7903
gezinshereniging: 1.7712
schiphol: 1.7321

Top words for topic 4:
hoofdagent: 0.9438
bedrag: 0.8518
corruptie: 0.7890
hotel: 0.6853
winkeldievegge: 0.6306
27jarig: 0.5909
ecevit: 0.5533
33jarig: 0.5337
nijmegen: 0.5307
verdenking: 0.5275

Top words