# Zoeken op basis van Text & Data Mining


## installeren en importeren van modules

In dit tutorial vind je uitleg over hoe je het corpus van "Soldaat in Indonesie" kunt doorzoeken op basis van Text & Data Mining. Er wordt hierbij gebruik gemaakt van de programmeertaal Python. Dit tutorial is echter geen basisintroductie tot programmeren in Python. De voorbeelden hieronder laten alleen zien hoe je het corpus kunt doorzoeken met behulp van bestaande modules en bibliotheken. Modules zijn kant en klare en herbruikbare ‘pakketjes’ code waarin specifieke functionaliteiten worden aangeboden. De meeste modules zijn generiek, en kunnen dus op verschillende datasets worden toegepast.

Voordat je van deze modules gebruik kunt maken moet je ze eerst installeren. Je kunt dit vergelijken met het installeren van een nieuw programma op je computer. Na de installatie worden alle functionaliteiten van deze module of bibliotheek beschikbaar voor nieuwe programma's. Modules en bibliotheken kunnen via de onderstaande commando's worden geinstalleerd. Plaats de cursor in de onderstaande cel staan, en klik daarna op [shift] + [Enter]. Hierna verschijnen er, als het goed is, een aantal meldingen over het installatieproces.

In [None]:
import sys
!conda install --yes --prefix {sys.prefix} os
!conda install --yes --prefix {sys.prefix} nltk
!conda install --yes --prefix {sys.prefix} wordcloud
!conda install --yes --prefix {sys.prefix} matplotlib

In dit tutorial wordt onder meer gebruik gemaakt van de module ‘os’. Deze module biedt een aantal functies waarmee je contact kunt maken met het besturingssysteem van je computer (de letters in 'os' staan voor 'operating system'). Met de functies in deze module kun je onder meer de inhoud van een map op je computer lezen. 

'nltk' is een verzameling modules die je kunt gebruiken bij analyses op het gebied van Natural Language Processing. Zo kun je paragrafen op laten splitsen in afzonderlijke zinnen, je kunt de stam van een woord of een werkwoord vinden, en je kunt de computer vragen om grammaticale categorieën toe te voegen aan woorden.

Als alle modules correct zijn geinstelleerd kunnen deze worden geimporteerd. Zo'n import zorgt er vervolgens voor dat alle code ook in het huidige programma gebruikt kunnen worden. De import zelf geeft, als alle modules goed zijn geinstalleerd, geen meldingen. Je kunt dit vergelijken met het openen van een programma of een app. Als de installatie goed gelukt is, kun je het programma zonder problemen of zonder foutmeldingen openen. 

Plaats de cursor in de onderstaande cel staan, en klik daarna op [shift] + [Enter]. Als alle modules goed zijn geinstalleerd verschijnen er hierna geen meldingen. 

In [2]:
import os
from os.path import isfile, join , isdir
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
from kitlvTdm import *

De module ‘kitlvTdm’ is specifiek ontwikkeld voor dit KITLV corpus van memoires en bevat een aantal basisoperaties op het gebied van Text & Data Mining.


## Zoeken naar een specifieke term

De onderstaande code laat zien hoe je op zoek kunt gaan naar egodocumenten die een bepaald trefwoord bevatten. Het woord dat gezocht moet worden moet worden opgegeven als waarde van de variable '*searchTerm*'. De waarde van de variabele '*searchTerm*', tussen de twee aanhalingstekens, kan worden aangepast. 

Er wordt in de onderstaande code gebruik gemaakt van de module 're', waarmee je kunt zoeken naar zogenaamde reguliere expressies of woordpatronen. Wanneer de code wordt uitgevoerd toont het programma een lijst van alle documenten waar de opgegeven term die in voorkomt, samen met alle gevonden passages. De grootte van deze passages kan worden bepaald met de variabele 'window'. Het getal dat wordt opgegeven bepaalt het aantal woorden voorafgaand aan en volgend op de gebruikte term.

Tijdens het digitaliseren van de egocumenten in het corpus van 'Soldaat in Indonesië' hebben alle documenten een eigen numerieke code gekregen. Deze codes zijn ook gebruikt in de bestandsnamen. De functie '*showTitle()*', in de module kitlvTdm, zoekt de volledige titles bij deze documentcodes. Er wordt hierbij gebruik gemaakt van een bestand met de naam '*metadata.csv*'.

Deze specifieke vorm van tekstanalyse wordt ook wel 'concordantie' genoemd. Een andere veelgebruikte term is 'keywords in context' (KWIC). 

In [16]:
dir = 'corpus'
searchTerm = 'baboe'
window = 4

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        
        book = open( join( dir , file ) )
        if re.search( searchTerm , book.read() , re.IGNORECASE ):
            title = showTitle(file)
            
            print( '\n\nOccurrences in {} ({}):\n\n'.format( title , file ) )

            matches = concordance( join( dir , file ) , searchTerm , window )
            for match in matches:
                print(match)





Occurrences in De vergeten dagboeken (03392.txt):


preek mee isan onze baboe staat ons na te 
en lachen naar de baboes die ons lekkere dingen 
zo ook mina de baboe 21e lacht verleidelijk tegen 
de mogelijkheden om een baboe te krijgen dick heeft 
binnen het uur een baboe komt ik sta er 
één woord een model baboe donderdag 6 februari 1947 
het stoeien met de baboe van hier naast eerst 
protest stuur ik de baboe naar haar eigen huis 
hoe al die andere baboe s nog mogen heten 
ik had aan die baboe nog wel gevraagd waar 
zijn met itje de baboe van de verbindingspost een 
ze teruggegaan zijn de baboe lacht hun uit  
ik dat kees onze baboe onna mee neemt onder 
heel gedonder over de baboes eerst willen ze alle 
van rundberg met de baboe van de v.p die 
telefoonsectie vragen of hun baboe ook in de weap 
het eind moeten alle baboes in een drietonner maar 
een beetje overspannen en baboe is er vandaag niet 
met een heel stel baboes een leuk ritje naar 
en vraag naar een baboe die voor ons wi

ging open en vier baboes kwamen sloffend naar binnen 
voor hun nokken de baboes af voor de de 
het lag halverwege de merbaboe een 3142 meter hoge 
indië gearriveerd waren met baboes die zich in de 


Occurrences in "Soldaat E. Kerkdijk : registratienummer 25.12.12.159 (03429.txt):


meeste koelies djongossen en baboes niet werkten en tevens 
hangt hebben zelfs de baboes en de djongossen in 
5 wagens met meubilair baboes djongossen enz enz en 
van post tjibaroesa staan baboes djongossen te gillen te 


Occurrences in Portret mozaik spandrich Bonnet : Belanda - Indonesia - Belanda = Portret in mozaiek van soldaat 1e klas Kees Bonnet : Nederland - Indonesie - Nederland. (03430.txt):


rond de waterput de baboes doende met de was 
ook wacht gehad de baboe was nog op de 
een grap met de baboe hij sprak immers zo 
zo goed maleisnam de baboe in zijn armen en 
bomen jmm êëm de baboes twee worden omarmd door 
een badhokje toegewezen de baboe kwam naar mij toe 
mijn privékamer een andere baboe k

de bottelier tussen de wasbaboes in de marinekazerne twee 
men de beschikking over wasbaboes voor een redelijke vergoeding 
altijd een wat oudere baboe aanwezig zij had toestemming 


Occurrences in Respect en erkenning : veteranen Schaijk-Reek in Nederlands-Indie? 1945-1950 (03467.txt):


grote verrassing vroegen de baboes of zij naar djogjakarta 
theo samen met de baboe op de pasar inkopen 
de top van de merbaboe jan schouten eerste van 
gewapend patrouille de berg merbaboe op  
door een van de baboes die bij mij werkte 
morgen inlandse vrouwen de baboes haalden de messtins op 
van de soldaten de baboes brachten het eten de 
djongos knechtje of n baboe wasvrouwtje we hoorden doffe 
rivier wacht bij vuur baboe bale bale baroe bawan 


Occurrences in Indië vergeet je nooit! (1945) (03468.txt):


is dat van de baboe die een peloton soldaten 
het verraad van de baboe alleen al vanwege dit 


Occurrences in Wij van de 4e Hulpverbandplaats Afdeling : herdenkingsboek van de 4e Hp.V.A. (0347

een hospitaalsoldaat haalde een baboe die me moest masseren 
door het bezoek van baboe issam duurde het echter 
er0p 9.elegen cantine gingde baboes gingen in de vijfhonderd 
het andere was voor baboes en djongossen gedurende de 
wacht in de brenpunt baboe en djongos kobus handelslieden 
en herrie appèl a.p.r.a baboe babu bali desa banyak 


Occurrences in Eindelijk erkenning : met het vergeten leger in Indië (03505.txt):




Occurrences in Soldaat zonder franje (1928) (03507.txt):


voet van de vulkanen merbaboe en de rokende merapi 
kampong waar we de baboe hadden afgezet de volgende 
hij had zijn persoonlijke baboe meegenomen maar dat mocht 
de bedden opmaakte zijn baboe verdween ergens in de 


Occurrences in Vaarwel, kameraad! : met het vergeten leger in Indie? (03509.txt):


de merapi en de merbaboe heel even wazig te 


Occurrences in 1-1 R.I. (03510.txt):


mee aan de vrouwen baboes en t werd schoner 


Occurrences in Herinneringen aan de 42e Zibva (03511.txt):


met de ons toeg

wist precies bij welke baboe ze een druiper en 
met soms nederlandse leiding baboe een vrouwelijke huisbediende bonkaarten 


Occurrences in Klein Nederlands soldatenboek : eerder aangekondigd als Groot Nederlands soldatenboek (03542.txt):




Occurrences in Mijn reis door drie jaren dienstplicht (1947-1950) (1947) (03544.txt):


feestje bezoek van hun baboe gehad met alle trieste 


Occurrences in Onze joo?s in de tropen 1945-1950 (03545.txt):


hoofd voor een paar baboes om onze kleren te 


Occurrences in Kemphanen : herinneringen aan 2-3-12 R.I. (03546.txt):


was wordt verricht door baboes dit levert de nodige 
de wasserij door de baboes is thans goregold deze 
is thans goregold deze baboes zullen worden gekeurd door 
wordt steeds regelmatiger de baboe s zijn door de 
de kleding door de baboes is nu een oude 
middag torug mot do baboes wolke dos morgons waren 
vertrok op patrouille naar baboes rawa en nam de 
de harde grond de baboes werden in bekassi achtergelaten 
kölker j.b.m v

het toezicht over de baboes wasvrouwen en de koelies 
man was er één baboe ik gaf dan de 
ik gaf dan de baboes zeep voor de was 
alles schoon houden de baboes liepen mooi gekleed maar 
we kregen ook een baboe en een loopjongetje er 
boycotten het werd vele baboes en djongossen verboden om 
alang lang rietachtig gras baboe vrouwelijke dienstbode bandjir zeer 


Occurrences in Zomaar wat herinneringen aan mijn verblijf in Nederlands-Indie? (03573.txt):


zijn onze koelies en baboes niet verschenen  


Occurrences in Mariniersbrigade : uitgereikt ter gelegenheid van de herdenking 50 jaar Marbrig : 20 april 1994 van Ghent-kazerne Rotterdam (03574.txt):


djago sendirianv kirden de baboes waarmee ze uitdrukking gaven 
gekheid maingilah met de baboes moerti en noesia waarvan 
kamertjes voor de beide baboes voor oosting en voor 
aminah aminah was mijn baboe op haar blote kakkies 
in soerabaja waar de baboes zich presenteerden als wasvrouwen 
wist dat zij de baboe was van de toean 
andere dag 

page 155 een baboe krijgen een indië vrouw 


Occurrences in Indie? 1947-1948 : een prachtig land in oorlog (03603.txt):


een familie samen de baboe poetst de schoenen en 
87 ernacht met die baboes mee naar de kampongs 
lenen van de andere baboes zodat ze er vanwege 
we ons een leuke baboe opgesnord die onze was 
mogen wij hier geen baboes hebben we hebben nu 


Occurrences in Veldhovense jongens in Nederlands-Indie? en Nederlands Nieuw-Guinea 1945-1962 (03605.txt):


kreeg ieder groepje een baboe wasvrouw toegewezen en een 


Occurrences in Herinnering Indie?-Veteranen Laarbeek 1973-1998 : [hoe is het ons vergaan in en na onze tropentijd] (03606.txt):


anak kind babi varken baboe wasvrouw bagoes mooi goed 
p gielens soesi de baboe m v.d elzen van 
nog een of andere baboe mee gesmokkeld zou zijn 


Occurrences in Hop en palmen : herinneringsboek van Schijndelse militairen in Nederlands-Indie?, 1945-1950 (03607.txt):


onze baboe had een leuke naam 
een werkster was een baboe deur dic

als pech voor de baboes want die moeten het 
ik nogal regelmatig de baboe plaagde maar daar stond 
de overste achter de baboes aangegaan de lt eshuis 
lt eshuis heeft deze baboes op zijn kamer gelaten 
trof ik onze vroegere baboe watini nog even op 


Occurrences in 1e Cie 4e Bataljon 11e Regt. Infanterie : uit het dagboek van een soldaat van de 1e Cie (1994) (03641.txt):


even herrie over een baboe die te lui is 


Occurrences in Herinneringen aan 43e Z.V.E. (03642.txt):


geweer en werden de baboes toegewezen die konden gelijk 
en zo hadden de baboes ook weer werk na 
zei tot de angstige baboes maak je baas maar 
dit schoon er zijn baboes die voor ons gewassen 
zoals bekend waren de baboes nogal eens in verwachting 
en nam de baboe vóór in de cabine 
te kijken naar de baboes die zich kwamen wassen 


Occurrences in In de greep van Soekarno : achtergronden van een proces tegen een Nederlander (1961) (03646.txt):


goede plaatsvervangster voor het baboetje de echtgenoot schoot echter 

die maar aan de baboe kaas dat vreten de 
mijn badkamer met mijn baboe een kunstje te maken 


Occurrences in Een bataljon trok voorbij : de belevenissen van een O.V.W.-bataljon 1944-1948 : 1-3 R.I., 1e bataljon 3e Regiment Infanterie (1948) (03686.txt):


het als er geen baboe was we gingen op 


Occurrences in Tussen goenoeng en guerilla (tussen berg en vrijheidsstrijd) (1986) (03687.txt):


de baboe was bij de nonnen 
een fraaie jonge javaanse baboe ter beschikking  
keurig bediend door aardige baboetjes op de dag vermaakten 


Occurrences in 5e ESK. VEW. - 1e ESK. PAW. : 1947-1950 (1950) (03689.txt):


moeite gespannen en de baboes tjoetji ontfermden zich op 


Occurrences in Kroniek van het eerste bataljon jagers ovw 1945-1948 : jagers en jagerslatijn (1991) (03690.txt):


de pasar naast de baboe in de jeep of 


Occurrences in Het vreemde leger (1985) (03692.txt):


ongeveer alsof hij een baboe een opdracht gaf he 


Occurrences in Ons eskadron : gedenkboek van het derde Eskadron

van een daar wonende baboe.omtoverde in vodden toen echter 
diezelfde morgen kwam de baboe mot de in stukken 
nog vertellen van die baboes en 70 meer daar 
zo romeu lopen onze baboes  
wel zeggen dat de baboes-een sociale taak.gingen vervullen in 
öm malaistegaan leren dez-e baboes immers waren door hunvoortdurendsomgang 
vermistwerd maar metonschuldiggezichts oönc baboe aan ts betogen aat 
voor twee getrouwde baboes wier man als koelie 
dus zouden velen een baboe verkieselijker vinden ook andere 
onder ons blijft echter baboes om dé was te 
een-tikje spijt aan c.e baboes en koelies terug denken 


Occurrences in 2e Genie Park cie te Bandoeng, Batavia, Semarang, Purwokerto, Tegal, Djockja, Solo en Magelang : 1947-1950 (1950) (03718.txt):


de week en tevens baboebaas stond hierdoor voor veel 
goede wasgelegenheid voor de baboes was te vinden werd 
er met veel pijn baboes aangenomen en door deze 


Occurrences in Het Derde : belevenissen van een infanterie-peloton op Zuid-Sumatra 1947-1

van wassen door de baboes die met de kledingstukken 


Occurrences in Zo was het : Gedenkboek 3-5-R.I. 1946-1950 (1950) (03762.txt):


en luitenant adjudant die baboe had een sarong aan 
we geen djongos of baboe hadden gehad dan was 
er niet die ene baboe ik weet niet meer 
1 iéil wmsl charmante baboes op de passar over 
toen een of andere baboe de cantine binnenkwam onder 


Occurrences in 1e Bataljon, 5e Regiment Infanterie : gedenkboek 1945-1948. (1951) (03763.txt):




Occurrences in Het eerste eskadron pantserwagens, Regiment Huzaren van Boreel : 10 Januari 1946 - 22 October 1949. (1949) (03764.txt):


vinden behalve met enige baboes waar hij zonder verklaarbare 
medan geen koelies en baboes waren dus namen we 
ze dus op een baboe is aangewezen voor het 
hebben we een aantal baboes en koelies van java 


Occurrences in Tiga doeabelas : gedenkboek 3-12 r.i. (1951) (03765.txt):


verblijf kon binnentreden de baboe wies elke dag getrouw 
dat langzaam aan de baboe er als heer ging 
er

beetje water dat de baboes om beurten trachtten te 
wat eitjes kopen de baboetjes kookten ze voor ons 
in de tent de baboe was bezig met pindabrokken 
daar werd een baboetje een beetje verliefd op 
de post zat de baboes hadden we  
hij zag helemaal geen baboes meer en dat deed 
193 boe tjoetji cde baboe doet de was i 


Occurrences in Pioniers overzee : de geschiedenis van het Bataljon Genietroepen van de Eerste Divisie '7 December' ('C' divisie), 1945-1950. (1950) (03799.txt):


we hurkten naast kakelende baboes die er onze was 
keurig net door de baboe gestreken pakean aan te 
lagere personeel met de baboe en djongos als laatsten 
zulke dingen meer de baboes deden dienst als sleur-aan-juffrouwen 
alsmede de mess-mea-west patima baboe en kokkie zouden van 
maken tussen de ene baboe en de andere en 
het vertrek stonden onze baboes schuchter bij haar schamele 
complexen in geprojecteerd de baboewasbarak is op een uitspringend 
5x15 5x9 120 m2 baboewasplaats gezien de wenselijkheid de 
g

huis te huren voor baboes te zorgen en een 
naar wendid is ook baboe minna meegeweest we zijn 
7 afscheid genomen van baboe mina die mocht niet 
nemen van een huilende baboe mina de blanda-vrouwen mochten 
meling 19 onze kokkie baboe mina ging ook mee 
7 afscheid genomen van baboe mina die mocht niet 


Occurrences in Indisch avontuur van een dienstplichtig soldaat (2011) (03830.txt):


de beschikking over twee baboes hulp in de huishouding 
beschikking hadden over twee baboes vatten sommige van de 
gedeelte door de twee baboes en de djongos uitgevoerd 


Occurrences in Mijn levensloop, 1920-1950 (2005) (03831.txt):


vaak getrouwd met de baboe deze deed de was 
het kind en de baboe gedienstige voor de was 


Occurrences in "De verhalen van de sobats van het 3e Bataljon Garderegiment ""Prinses Irene""" (2012) (03832.txt):


gouden tip van mijn baboe was het met de 
billik wand van gevlochten baboe-bast red plopper toegewezen die 
enfin baboe af natuurlijk en ik 
groot vermaak van de ba

bordje boeboer rijstepap de baboe en de djongos keken 


Occurrences in Ik wilde soldaat worden: herinneringen aan Indië en Korea (2004) (03868.txt):


waar wij allemaal een baboe hadden zon baboe een 
een baboe hadden zon baboe een vrouwelijke hulp deed 
mee naar bed mijn baboe heette soesiati die mij 


Occurrences in Met opgeheven hoofd: herinneringen van LuA-mannen aan hun diensttijd in Nederlands-Indië 1946-1949 (1987) (03869.txt):


een zekere baboe oena wordt onvergetelijk onder 
wordt onvergetelijk onder de baboes heerst armoede dat is 
uiteraard irritatie daardoor schurkt baboe oena zich geregeld  
het een appèl bij baboe oena naar de broek 
wordt geïnformeerd de vraag baboe ada broek krijgt als 
antwoord ada toean en baboe oena slaat de jute 
die mortierspugende heuvel geen baboe mag zich in die 
wij elke week onze baboe een rijksdaalder extra zouden 
haar wel eens vloeken baboe ripas ilaha ilalo werd 
ook als zou zon baboe ooit voor een kom 


Occurrences in 43e Hulpverbandp

per adit man een baboe voor het schoonmaken van 
we we missen onze baboe die s morgens de 
atap dak van palmblad baboe dienstmeisje barang bagage bedjak 


Occurrences in Soldaat overzee : Indonesie? zoals wij dat zagen! : een fotoboek (03982.txt):


javas meest bekende vulkanen merbaboe en merapi beide meer 


Occurrences in De laatste man : een herinnering (03983.txt):




Occurrences in De medische geschiedenis van een infanterie-bataljon der Koninklijke Landmacht gedurende drie jaar actieve dienst op Java, 1946-1950 (03984.txt):


gekend waarschijnlijk vaak met wasbaboes van het onderdeel  


Occurrences in Op klompen door de dessa : Indie?gangers vertellen (03985.txt):


baboe napsie werkt niet meer 
wat al te hitsige baboe de hele dag heeft 
natuurlijk dat hebben onze baboes en koelies vanmorgen vast 
1954 visser dirk de baboe el de blanda een 
319 verklarende woordenlijst adjunct)-wedana baboe bamboe doeri banjak sakit 


Occurrences in Wel en wee der A.A.T. (1980) (03986.txt):


# *Oefening 1*

Dubbelklik in de bovenstaade cel. Vervang de waarde van de variabele 'searchTerm' met een zoekterm die mogelijk van belang is voor je eigen onderzoek. Probeer ook de waarde van de variabele 'window' te variëren.  Klik vervolgens op [Shift] + [Enter]

## Collocatie

Net als bij een concordantie (zie hierboven) richt een collocatie-analyse zich op de context van specifieke zoektermen. Bij een collocatie-analyse worden alle woorden in de context geteld. Op deze manier kan er een beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. 

Variabele '*egodocument*' verwijst naar de tekst die moet worden doorzocht, '*searchTerm*' is de term waarnaar wordt gezicht, en '*window*' bepaalt het aantal woorden voor en na de opgegeven zoekterm. 

In de onderstaande code wordt ook de functie '_removeStopwords()_' gebruikt. Deze functie heeft als effect dat veelvoorkomende woorden zonder veel betekenis (lidwoorden, voornaamwoorden, voorzetstel) buiten beschouwing worden gelaten.

Let er hierbij op dat de analyse zich zich op een specifiek egodocument. In de onderstaande code bepaalt de variabele 'egodocument' in welk bestand wordt gezorgd. In deze context moet er een bestandsnaam worden opgegeven. De code die hierboven wordt gegeven (onder 'zoeken naar een specifieke term') kan helpen bij het vinden van de bestandsnaam. 

In [None]:
egodocument = '03390.txt'
dir = 'corpus'
searchTerm = 'java'
window = 30

freq = collocation( join( dir , egodocument ) , searchTerm , window )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0


print( f'The following words are used most frequently in the vicinity of "{ searchTerm }": \n' )

for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

## *Oefening 2*

Voer een collocatie-analyse uit, aan de hand van een zoekterm die van belang kan zijn voor jouw onderzoek. Experimenteer met verschilende waarden voor de variabelen '*searchTerm*', '*egodocument*' en '*window*'

## Woordfrequenties


Welke woorden komen het meeste voor in een bepaald egodocument? De onderstaande code berekent de frequenties van alle woorden in de tekst die wordt genoemd in de variabele 'egodocument'. Deze code maakt net als bovenstaande code gebruik van de functie '_removeStopWords()_'.

Deze frequentie-analyse richt zich, evenals de collocatie-analyse die hierboven is besproken, op één speciefiek egodocument.  

De code toont bovendien uitsluitend de 30 meest frequente termen. Het aantal termen dat wordt geprint wordt bepaald door de variabele '*max*'

In [5]:
egodocument = '03391.txt'

freq = calculateWordFrequencies( join( dir , egodocument ) )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0

print( f'The following words occur most frequently in the text { egodocument } ({ showTitle( egodocument )}).\n' )


for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

The following words occur most frequently in the text 03391.txt (Indonesie? liet me nooit meer los : vijftig jaar antikoloniale strijd).

naar =>  568
ook =>  507
indonesië =>  424
nog =>  386
tot =>  316
page =>  284
indonesische =>  246
al =>  206
tijd =>  196
meer =>  188
cpn =>  187
na =>  184
nederland =>  178
partij =>  174
onder =>  171
pki =>  165
hadden =>  162
kon =>  161
haar =>  161
moest =>  153
nederlandse =>  153
veel =>  150
ons =>  146
deze =>  144
waarheid =>  144
ging =>  143
hun =>  136
kwam =>  131
groot =>  130
gaan =>  129


## *Oefening 3*

Bepaal de meet frequente woorden in een van de egodocumenten in het corpus van "Soldaat in Indonesie". Experimenteer met verschilende waarden voor de variabelen '*egodocument*' en '*max*'.

## Het maken van een export

In de code die tot nu toe is besproken worden de resultaten van de code simpelweg getoond in dit notebook. Het kan uiteraard ook nuttig zijn om de resutaten te exporteren naar een tekstbestand, zodat deze resultaten dan ook weer in andere programma's kunnen worden bekeken of worden geanayseerd. 

In de onderstaande code worden de resultaten van de concordantie-analyse en van de frequentie-analyse weggeschreven als tekstbestanden. De bestanden worden aangemaakt op dezelfde plaats als waar dit notebook is opgeslagen. De bestandsnamen worden bepaald door de variabelen 'out1' en out2.

In [19]:
out1 = 'concordantie.txt'


### Bestand 1

outFile = open( out1 , 'w')

dir = 'corpus'
searchTerm = 'baboe'
window = 4

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        
        book = open( join( dir , file ) )
        if re.search( searchTerm , book.read() , re.IGNORECASE ):
            title = showTitle(file)
            
            outFile.write( '\n\nOccurrences in {} ({}):\n\n'.format( title , file ) )

            matches = concordance( join( dir , file ) , searchTerm , window )
            for match in matches:
                outFile.write(match)

outFile.close()


In [21]:
out2 = 'frequentie.csv'
outFile = open( out2 , 'w')

egodocument = '03391.txt'

freq = calculateWordFrequencies( join( dir , egodocument ) )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0

outFile.write( 'term,frequency\n' )


for f in reversed( sorted_f ):
    i += 1
    outFile.write( '{},{}\n'.format( f , freq[f] ) )
    if i == max:
        break
        
outFile.close()

## *Oefening 4*

Probeer twee exports te maken van onderzoeksdata die relevant lijken voor jouw onderzoek.