## Zoeken op basis van Text & Data Mining


In dit tutorial vind je uitleg over hoe je het corpus van "Soldaat in Indonesie" kunt doorzoeken op basis van Text & Data Mining. Er wordt hierbij gebruik gemaakt van de programmeertaal Python. Dit tutorial is echter geen basis-introductie tot programmeren in Python. De voorbeelden hieronder laten alleen zien hoe je dit corpus kunt doorzoeken met behulp van bestaande modules en bibliotheken. Modules zijn kant en klare en herbruikbare ‘pakketjes’ software code waarin specifieke functionaliteiten worden aangeboden. De meeste modules zijn generiek, en kunnen dus op verschillende datasets worden toegepast waarbij je dan alleen bijvoorbeeld de zoekterm moet aanpassen of het bestand waarin je wilt zoeken.


## Installeren en importeren van modules


In dit tutorial maken we gebruik van de module ‘os’, dat staat voor ‘operating system’. De module biedt een aantal functies waarmee je contact kunt maken met het besturingssysteem van je computer. Een van die functies is dat je de inhoud van een map op je computer kunt lezen.

'nltk' is een verzameling modules die je kunt gebruiken bij analyses op het gebied van Natural Language Processing. Zo kun je paragrafen op laten splitsen in afzonderlijke zinnen, je kunt de stam van een woord of een werkwoord vinden, en je kunt de software opdracht geven om grammaticale categorieën toe te voegen aan woorden (werkwoord, eigennaam, lidwoord, zelfstandig naamwoord).

De module ‘kitlvTdm’ is specifiek ontwikkeld voor dit KITLV corpus van memoires en bevat een aantal basisinstructies op op het gebied van Text & Data Mining.

Als je Python hebt geïnstalleerd via Anaconda en als je hiernaast ook alle benodigde bestanden uit de Github-repository op de juiste manier hebt gekopieerd naar je computer, hoef je deze modules niet meer afzonderlijk te installeren. Anaconda bevat namelijk alle benodigde modules. 

Als je Python op een andere manier hebt geïnstalleerd, dan is het wellicht wel nodig om die modules te installeren. Je kunt dit vergelijken met het installeren van een nieuw programma op je computer. Na de installatie komen alle functionaliteiten van deze module of bibliotheek beschikbaar. Modules en bibliotheken kunnen via de onderstaande commando's worden geïnstalleerd. Plaats de cursor in de onderstaande cel, en klik daarna op [shift] + [Enter]. Hierna verschijnen er, als het goed is, een aantal meldingen over het installatieproces.

In [1]:
# !conda install --yes --prefix {sys.prefix} os
# !conda install --yes --prefix {sys.prefix} nltk
# !conda install --yes --prefix {sys.prefix} matplotlib 
# !conda install --yes --prefix {sys.prefix} re

Als alle modules correct zijn geïnstalleerd kunnen ze in de code worden geïmporteerd. Zo'n import zorgt er vervolgens voor dat alle code ook in het huidige programma gebruikt kunnen worden. 

Plaats de cursor in de onderstaande cel , en klik daarna op [shift] + [Enter]. Als alle modules goed zijn geïnstalleerd verschijnen er hierna geen meldingen.

In [8]:
import os
from os.path import isfile, join , isdir
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
from kitlvTdm import *
import pandas as pd

## 1. Zoeken naar een specifieke term

Je kunt op de eerste plaats op zoek gaan naar passages met een bepaald trefwoord in de verzameling egodocumenten. In de onderstaande code moet dit trefwoord worden opgegeven als waarde van de variabele `search_term` (bv. “Baboe” of “geweer”). Binnen de aanhalingstekens kan de zoekterm dus worden aangepast. 

Wanneer de code wordt uitgevoerd toont het programma een lijst van alle documenten waar de opgegeven term in voorkomt, samen met alle gevonden passages. De resultaten worden weergegeven als een zogenaamde ‘concordantie’. Zo'n concordantie wordt ook wel een *keyword in context* (KWIC) lijst genoemd. Dit betekent dat de term die je zoekt wordt weergegeven met een specifiek aantal woorden voor en na de opgegeven zoekterm. De grootte van deze passages kan worden bepaald met de variabele `window`. Het getal dat wordt opgegeven bepaalt het aantal woorden voorafgaand aan en volgend op de gebruikte term. Als die op bv. op 3 staat, en je zoekt op “geweer”, dan kun je een zin terugkrijgen als ‘ik pak mijn geweer en schiet op’. Het odnerstaande voorbeeld gebruikt de term ‘baboe’ oftewel ‘wasvrouw’. Dit is een woord dat in veel van de ego-documenten voorkomt. 

Tijdens het digitaliseren van de egodocumenten in het corpus van 'Soldaat in Indonesië' hebben alle documenten een eigen numerieke code gekregen. Deze codes zijn ook gebruikt in de bestandsnamen. De functie 'showTitle()', in de module kitlvTdm, zoekt de volledige titels bij deze documentcodes. Die titels worden gehaald uit het bestand 'metadata.csv', dat te vinden is in de verzameling documenten van de Master "Soldaat in Indonesië".

In [9]:

# Hier specificeer je de map ("dir") waar de corpus staat, de searchterm en hoe veel woorden om zoekterm je terug wilt krijgen (window)
dir = '../toy_corpus' 
search_term = 'baboe'
window = 10

# Voor ieder bestand in de dir
for file in os.listdir( dir ):

    # Kijk of het bestand een "txt" is, oftewel een tekst bestand. Zo niet, probeer het volgende bestand. Anders: 
    if re.search( '[.]txt$' , file ):
        
        # Open het boek.
        book = open( join( dir , file ), encoding = 'utf-8' )
        
        # Zoek naar de search_term die hierboven is gekozen in de tekst. Als die gevonden is:
        if re.search( search_term , book.read() , re.IGNORECASE):
            
            # Sla de titel van het boek op in de variabele titel
            title = showTitle(file)
            
            # zoek voor de concordantie(s) en sla ze op in de variabele "matches".
            matches = concordance( join( dir , file ) , search_term , window )
            
            # Als er matches gevonden zijn:
            if len(matches)>1:
                
                # Laat de titel en de naam van het bestand (boek) zien
                print( '\n\nOccurrences in {} ({}):\n'.format( title , file ) )
                
                # voor iedere concordantie in de gevonden concordanties
                for match in matches:
                    
                    # Laat de matches zien
                    print(match)



Occurrences in De vergeten dagboeken (03392.txt):

van aarden en krijg een hele preek mee isan onze baboe staat ons na te wuiven tot we geheel uit het 
mooie benen van elly en etty en lachen naar de baboes die ons lekkere dingen uit de keuken brengen en zelfs 
wakker maar liggen nog in bed zo ook mina de baboe 21e lacht verleidelijk tegen mij de deken gooit ze weg 
natuurlijk weer heerlijk was bespreken we de mogelijkheden om een baboe te krijgen dick heeft natuurlijk weer geweldige plannen en beloften 
kletsen hij zal zorgen dat er binnen het uur een baboe komt ik sta er sceptisch tegenover  
zijn maakt de tafel schoon in één woord een model baboe donderdag 6 februari 1947 tjikalon koelong ik ben vrij en 
de jongens zijn aan het stoeien met de baboe van hier naast eerst laat ik ze hun gang gaan 
het genoeg geweest is onder veel protest stuur ik de baboe naar haar eigen huis maar het blijft nog lang rumoerig 
zwaaiend naar oda mimi tina en hoe al die andere baboe s nog mogen heten va



Occurrences in Herinneringen = Memoirs (03414.txt):

ik vond al vlug een geschikte baboe die ons trouw gediend heeft tot de dag dat ze 
holland with his family i knew he had brought a baboe with him from java so i went to enquire there 


Occurrences in De wedergeboorte van het Vliegveld Pakan Baroe tijdens en na de tweede politionele actie (03415.txt):

dan 8 man we hadden dus nu recht op een baboe  
optocht van drums rollende militairen djongossen burgers en zelfs de baboe hielp mee het halen van de benzinedrums was gemakkelijk het 
en haar kinderen die onmiddellijk bezit namen van hun roema baboe waarop voor eenmaal de nederlandse vlag stond  
we hadden het met onze baboe goed getroffen ze was goed in alles wat een huishoudelijke 
9r|be subs i ssssssk me m jggst fa voor onze baboe kwam nog een verrassing op de een of andere manier 
de auto onze mandoer de dochter van ah min onze baboe boeng de trouwe djongos en jim beudeker op het bord 


Occurrences in De grote patrouille : belev



Occurrences in De rijst is al pap geworden : Indie?-veteranen vertellen hun verhaal (03433.txt):

rustig winkelen ilf if 11111 erffin page 21 m*r 13 baboes doen de was 14 aardappelen schillen in de tropen page 
wij hadden als soldaten bedienden ter beschikking meest jonge vrouwen baboes en jonge mannen djongossen zij deden voor ons de was 
met mijn baboe santani ging het niet zo goed ik zei tegen een 
sommige jongens leefden met hun baboe als getrouwde stellen page 108 in pasoeroean ging een van 
getrouwde stellen page 108 in pasoeroean ging een van de baboes naar tjermee ik vroeg haar of ze wilde informeren naar 
santani gevonden santani zelf heeft een moeilijk leven gehad als baboe voor de hollanders werken was nog net acceptabel maar een 


Occurrences in Mijn leven : autobiografie (03435.txt):

hoefde we nu zelf niet te doen daar hadden ze baboes voor javaanse meisjes die dat werk deden zij werden door 
schrijven kon toch af en toe een brieije schreef onze baboes werkten goe je h



Occurrences in De Haantjes in vogelvlucht : het Veluwebataljon I-8 R.I. in IndiÃ«, 1945-1948 (03450.txt):

naar huis de uitgenodigde kampongbevolking en ons eigen personeel met baboes en djongossen genieten met volle teugen van het hollands-indische taaltje 
van een verscheurd tropenland het land van tanige tanis boenende baboes hete sawas en koele bergen  


Occurrences in 1-15 R.I. De Blijvertjes : onbewust voorloper van de Luchtmobiele Brigade (03454.txt):

i.d post bodja ii door i.d post bodja werden de baboes en koelies van 3-1-15 r.i gescreend door de i.d te 
3-1-15 r.i gescreend door de i.d te oengaran werden de baboes en koelies van de staf-cie 2 cie en een gedeelte 
zijn dit is ook de mening van de bevolking 2 baboes en 7 koelies gescreend voor 3-1-15 r.i ons inziens allen 
door i.d post bodja en deze screende tevens weer 3 baboes en 3 koelies allen geschikt  


Occurrences in IndiÃ« blijft ons bezighouden (03456.txt):

een soldaat 49 brieven uit het veld 57 hoe een baboe ee



Occurrences in Onhoorbaar groeit de padi : front-soldaten in een verloren oorlog : Indonesie 1948-1950 (03478.txt):

naar djating aleh een noordelijke hooggelegen buitenwijk van de stad baboe en djongos ze gedroegen zich zoals ik verwacht had  
een bijgebouwtje van ons kantoor verbleven sumira en tina onze baboes die voor het eten en de was zorgden het was 
geen paradijs maar toch ook het 403e bataljon infanterie het baboeprobleem elke morgen om een uur of zeven staat de baboe 
baboeprobleem elke morgen om een uur of zeven staat de baboe onze wandelende wasserij geduldig te wachten op het moment dat 
zijn we een stapje verder we weten nu dat de baboe strijken moet al stribbelt ze ook nog zo hard tegenf 
nog niet weten hoe ze zich ten opzichte van de baboe hebben te gedragen wanneer we vriendschappelijk zijn gekheid maken en 
gedragen en geen aanleiding geven tot intimiteiten dan zullen de baboes zich ook behoorlijk gedragen de lezer zou graag weten wie 


Occurrences in Indonesie? al



Occurrences in Opdracht uitgevoerd : een verhaal over de Tweede Wereldoorlog die voor de Nederlandse jongens 10 jaar duurde (03498.txt):

misverstandje op de cp m ngawi was een uitgebreid legertje baboes djongos en katjongs aanwezig die verschillende werk7 pkn!pten zo waste 
en katjongs aanwezig die verschillende werk7 pkn!pten zo waste een baboe wasvrouw oor 8 militairen dagelijks de tropenuniformen sokken als we 
was voorgevallen en kreeg het verhaal te horen dat de baboe de kamer waar hij sliep aan het vegen was toen 
om beiden uit te leggen waar de verontwaardiging van de baboe in besloten lag aan anema nota bene kandidaat drs economie 
had ik het adres gevonden en belde welgemoed aan de baboe deed open en ik vroeg naar de heer des huizes 
zag dat bijna ogenblikkelijk bevestigd mijn gastheer had namelijk de baboe 20 gulden meegegeven om op de pasar een slof sigaretten 
waren 21 gulden geworden zogenaamde dagprijzen enige malen werd de baboe voor stom dom en achterlijk uitgeschold



Occurrences in Staphorster militairen in de tropen (03518.txt):

de voet van de nogal eens vuurspuwende bergen van de merbaboe en merabi deze laatste berg is de gevaarlijkste en is 
een linke patrouille il op 1 mei 1948 zijn onze baboes vrouwelijke en djongossen mannen lijke indonesiche hulpjes met autos weggebracht 
t i baboe toerina stond tegen mij aan geleund te snikken als een 


Occurrences in Klappermelk & klompen : veteranen vertellen over Nederlands-IndiÃ« en Nieuw-Guinea (03519.txt):

meer hoe ze zich moesten gedragen sommige mensen gebruikten hun baboe gewoon als slaaf ik geef je een voorbeeld een vrouw 
luie stoel riep als ze haar zakdoek liet vallen de baboe om hem op te rapen dat hoort niet ik deed 


Dubbelklik in de bovenstaande cel en klik daarna op [shift] + [Enter]. In de vierkante haken linksboven buiten het veld, verschijnt dan een asterisk. Dit betekent dat de zoekactie in uitvoering is. Deze is afgerond als de asterisk verandert in een getal. 

Als je een ‘error’ krijgt, ga dan naar dit lijstje van de meest voorkomende errors met tips over hoe je die kunt oplossen.

In de bovenstaande code worden de resultaten simpelweg getoond in dit Notebook. Het kan uiteraard ook nuttig zijn om de resultaten te exporteren naar een tekstbestand, zodat deze resultaten dan ook weer in andere programma's (zoals Google sheets of Excel) kunnen worden bekeken of worden geanalyseerd. In die andere programma's kun je kolommen toevoegen, met, bijvoorbeeld, eigen commentaar of codes. 

Als je de resultaten van deze code wilt bewaren kun je deze naar een bestand exporteren via de onderstaande code. Die komen terecht op dezelfde plaats als waar dit notebook is opgeslagen. Het exportbestand heeft het *Comma Separated Value* (CSV) formaat. De naam van dit tekstbestand wordt bepaald door de variabele 'outFile'. De onderstaande code werkt alleen als eerst de bovenstaande code is uitgevoerd. 

In dit export bestand wordt ook het aantal treffers geteld. Naast het totaal aantal treffers wordt ook het aantal treffers per egodocument berekend.  

In [7]:
# Hier specificeer je weer map van de corpus, de zoekterm, de window en nu ook de naam van het bestand waar de resultaten
# in opgeslagen worden (de "outFile")
dir = '../corpus'
search_term = 'baboe'
window = 10
outFile = 'concordantie'

# Maak een Pandas DataFrame aan, een soort grote tabel met extra functionaliteit. 
df = pd.DataFrame(columns = ['count_within_document','file','title','fragment'])

# Voor ieder bestand in de dir:
for file in os.listdir( dir ):
    
    # Als het een text bestand is dan ga door hier onder. Zo niet, ga terug naar boven naar het volgende bestand.
    if re.search( '[.]txt$' , file ):
        
        # Maak een variabele "documentCount" en zet die op 0. Deze variabele houdt bij hoeveel concordanties er zijn gevonden
        # in één boek.
        documentCount = 0 

        # Maak het pad naar het boek door het pad naar de corpus map en de naam van het bestand samen te voegen (join).
        # Open dit boek en sla dit op in de variabele "book". "encoding = 'utf-8'" zorgt ervoor dat de bits op het geheugen goed
        # naar letters worden omgezet
        book = open( join( dir , file ), encoding = 'utf-8' )
        
        # Zoek in het boek naar de zoekterm. re.IGNORECASE zorgt ervoor dat hoofdletters geen invloed hebben. 
        # Als de zoekterm in het boek gevonden is ga door hier onder. Zo niet, ga naar terug naar boven naar het volgende bestand.
        if re.search( search_term , book.read() , re.IGNORECASE ):
            
            # vind de titel van het bestand (showTitle(file)) en sla die op in de variabele "title".
            title = showTitle(file)
            
            # Verwieder de komma (,) in de titel.
            title = re.sub( ',' , '' , title )

            # Zoek alle concordanties (zo groot als de window) in het bestand (join) die de zoekterm bevatten (search_term).
            # sla ze op in de variabele "concordances"
            concordances = concordance( join( dir , file ) , search_term , window )
            
            # Voor iedere aparte gevonden concordantie (concordance) in alle gevonden concordancies (concordances) in het boek:
            for conc in concordances:
                
                # Tel één op bij het aantal gevonden concordanties in dit boek
                documentCount += 1
                
                # Maak een nieuwe rij in de tabel met de volgende opmaak. "kolom titel : variabele". 
                # Ga daarna verder naar de volgende concordantie in dit boek. Als er geen meer zijn: ga verder naar het volgende 
                # bestand.
                df = df.append({'count_within_document' : documentCount,
                                'file' : file, 'title' : title, 'match' : conc}, ignore_index = True)

# Wanneer alle boeken doorzocht zijn, sla de tabel op als een excel bestand in de map results, met de naam gespecificeerd in de
# variabele "outFile" plus de zoekterm.
df.to_excel("results/" + outFile + "_" + search_term + '.xlsx')
print("Excel bestand is opgeslagen")

FileCreateError: [Errno 2] No such file or directory: 'results/concordantie_baboe.xlsx'

Als je naar de resultaten van, bijvoorbeeld ‘baboe’ kijkt met 4 woorden ervoor en erna, blijkt het lastig duiding te geven aan de variëteit van de context waarin het woord voorkomt. Dit eerste hele basale voorbeeld is gekozen om het principe duidelijk te maken. We moeten daarom nu de opdracht uitbreiden. 

Je zult je misschien afvragen waarom je met Python zou moeten zoeken, als je passages met een trefwoord ook in een gewone online zoekomgeving zou kunnen vinden. Het verschil is dat je met Python code veel flexibeler bent, en zelf kunt bepalen op welke manier gezocht wordt en in welke vorm de resultaten getoond worden. Ook is het makkelijker de resultaten te exporteren om ze verder te kunnen bewerken. 

**Oefening 1: Experimenteer eerst met een andere zoektermen en een ander bereik, bijvoorbeeld 20 woorden er voor en er na, door de waarden van de variabalen `search_term` en `window` aan te passen. Klik vervolgens op [Shift] + [Enter].**

## 2. Collocatie - het tellen van woorden in de buurt van een term 

Net als bij een concordantie richt een collocatie-analyse zich op de context van specifieke zoektermen. Het verschil is dat bij een collocatie-analyse alle woorden in de context worden geteld. Op deze manier kan er een beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. 

In de code hieronder verwijst `search_term` weer naat de term waarnaar wordt gezocht, en `window` bepaalt weer het aantal woorden voor en na de opgegeven zoekterm.

In de onderstaande code wordt ook de functie 'removeStopwords()' gebruikt. Deze functie heeft als effect dat de woorden die in alle documenten gemiddeld genomen even vaak voorkomen (bv. de, het, een wij, zijn, hebben, geweest, allen, doen, ik, jullie, etc.) en dus niet onderscheidend zijn voor een bepaald document, verwijderd worden. 

De onderstaande code zoekt in het gehele corpus, dat uit ca. 600 egodocumenten bestaat, en het uitvoeren van de code kan daarom enige tijd in beslag nemen. De analyse kan worden toegespitst op een specifieke periode. In de onderstaande code geeft de variabele 'start' het begin van de periode aan, en de variabele 'end' het einde. De code berekent alleen de woordfrequenties in de documenten die gepubliceerd zijn binnen de periode die op deze manier is vastgelegd.


In [22]:

# Maak drie variabelen, de dir (directory/map) corpus, de zoekterm 'baboe', en de search window: 30/
dir = '../toy_corpus'
searchTerm = 'baboe'
window = 30

# Maak een dictionary corpusFreq (een variabele die werkt in de vorm {key : value, key : value})
corpusFreq = dict()

# Voor ieder bestand in de map in de variabele dir ('corpus')
for file in os.listdir( dir ):
    
    # Als het bestand een tekst bestand is:
    if re.search( '[.]txt$' , file ):
#         print("Reading {}  ...".format( file ))

        # Vind de frequencies van alle woorden die voorkomen in de buurt van de zoekterm. Sla ze op in de variabele freq
        # "In de buurt" wordt dus aangegeven door de variabele 'window'
        freq = collocation( join( dir , file ) , searchTerm , window )
        
        # Verwijder de stopwoorden uit de gevonden collocaties 
        freq = removeStopwords( freq )
        
        # Voeg de gevonden collocaties zonder stopwoorden toe aan de variabele corpusFreq.
        corpusFreq.update(freq)
        
# Het aantal collocaties dat je wilt laten zien
max = 30

# De teller die bijhoudt hoeveel collocaties er zijn getoond.
i = 0
# Als er collocaties zijn gevonden:
if len(corpusFreq)> 0:
    
    # Sorteer de collocaties van hoog naar laag. "key = lambda x: corpusFreq[x]" is nodig voor het juist sorteren aangezien de
    # frequenties opgeslagen zijn in een dictionary (een data type). "reverse = True" zorgt ervoor het van hoog naar laag 
    # is gesorteerd (ipv de automatische laag naar hoog).
    corpusFreqSorted = sorted(corpusFreq, key = lambda x: corpusFreq[x], reverse = True)
    
    # Print het volgendende waarbij searchTerm de eerder gedefinieerde zoekterm is.
    print( f'The following words are used most frequently in the vicinity of "{ searchTerm }": \n' )

    # Voor iedere collocatie in de van hoog naar laag gesorteerde frequenties
    for f in corpusFreqSorted:
        
        # Teller plus 1
        i += 1
        # Laat het woord en de frequentie zien waarmee het voorkomt in de buurt van de zoekterm
        print( '{} =>  {}'.format( f , corpusFreq[f] ) )
        
        # Als er "max" (hierboven gedefinieerd) collocatie frequenties zijn getoond:
        if i == max:
            
            # Stop met laten zien
            break
            
else:
    print('\n\nThe search term you provided does not occur in the documents published during the selected period.')

{'bewonderen': 1, 'mooie': 1, 'benen': 1, 'elly': 1, 'etty': 1, 'lachen': 1, 'baboes': 1, 'lekkere': 1, 'dingen': 1, 'keuken': 1, 'brengen': 1, 'sigaretten': 4, 'begint': 1, 'dagen': 1, 'loop': 1, 'achterkant': 1, 'huis': 2, 'djongossen': 1, 'wakker': 1, 'liggen': 1, 'bed': 1, 'mina': 1, '21e': 1, 'lacht': 3, 'verleidelijk': 1, 'deken': 1, 'gooit': 1, 'sarong': 2, 'los': 1, 'gegaan': 1, 'zie': 1, 'prachtig': 1, 'lichaam': 1, 'wild': 1, 'komt': 2, 'bloed': 1, 'opstand': 1, 'woensdag': 1, 'februari': 1, 'tjikalon': 1, 'koelon': 1, 'jeffie': 1, 'vervangen': 1, 'peter': 3, 'opdeweg': 1, 'hier': 1, 'natuurlijk': 1, 'heerlijk': 1, 'bespreken': 1, 'mogelijkheden': 1, 'krijgen': 1, 'dick': 1, 'geweldige': 2, 'plannen': 2, 'beloften': 2, 'niets': 1, 'terecht': 1, 'gaat': 3, 'lou': 2, 'kok': 3, 'kletsen': 2, 'zorgen': 2, 'uur': 1, 'sta': 1, 'sceptisch': 1, 'tegenover': 3, 'haalt': 1, 'direct': 1, 'wacht': 1, 'maakt': 1, 'tafel': 1, 'schoon': 1, 'één': 1, 'woord': 1, 'model': 1, 'avonds': 1, 'sch

Wanneer je de code voor de collocatie-analyse hebt uitgevoerd kun je het resultaat opslaan met de code in de onderstaande cel. Deze code maakt een bestand aan met de naam 'collocation.csv' waarin de woorden en de frequenties terug te vinden zijn. 

In [24]:

max = 30
df = pd.DataFrame(columns = ["term", "frequency"])
outFile = 'collocation'

count = 0
for f in corpusFreq:
    count += 1
    df.append({"term" : f, "frequency" : corpusFreq[f]}, ignore_index = True)
    if count == max:
        break
        
df.to_excel(outFile + ".xlsx")

In [8]:
corpusFreq

{'bewonderen': 1,
 'mooie': 1,
 'benen': 1,
 'elly': 1,
 'etty': 1,
 'lachen': 1,
 'baboes': 1,
 'lekkere': 1,
 'dingen': 1,
 'keuken': 1,
 'brengen': 1,
 'sigaretten': 4,
 'begint': 1,
 'dagen': 1,
 'loop': 1,
 'achterkant': 1,
 'huis': 2,
 'djongossen': 1,
 'wakker': 1,
 'liggen': 1,
 'bed': 1,
 'mina': 1,
 '21e': 1,
 'lacht': 3,
 'verleidelijk': 1,
 'deken': 1,
 'gooit': 1,
 'sarong': 2,
 'los': 1,
 'gegaan': 1,
 'zie': 1,
 'prachtig': 1,
 'lichaam': 1,
 'wild': 1,
 'komt': 2,
 'bloed': 1,
 'opstand': 1,
 'woensdag': 1,
 'februari': 1,
 'tjikalon': 1,
 'koelon': 1,
 'jeffie': 1,
 'vervangen': 1,
 'peter': 3,
 'opdeweg': 1,
 'hier': 1,
 'natuurlijk': 1,
 'heerlijk': 1,
 'bespreken': 1,
 'mogelijkheden': 1,
 'krijgen': 1,
 'dick': 1,
 'geweldige': 2,
 'plannen': 2,
 'beloften': 2,
 'niets': 1,
 'terecht': 1,
 'gaat': 3,
 'lou': 2,
 'kok': 3,
 'kletsen': 2,
 'zorgen': 2,
 'uur': 1,
 'sta': 1,
 'sceptisch': 1,
 'tegenover': 3,
 'haalt': 1,
 'direct': 1,
 'wacht': 1,
 'maakt': 1,
 'tafel

**Oefening 2: Voer een collocatie-analyse uit, aan de hand van een zoekterm die van belang kan zijn voor jouw onderzoek. Experimenteer met verschillende waarden voor de variabelen `search_term`, `window`.**

## 3. Zoeken naar een combinatie van termen 

Als je op zoek bent naar samenhang tussen twee zaken wil je testen of de termen die naar die zaken verwijzen inderdaad in combinatie met elkaar voorkomen. Dan moet je bepalen op welke varianten van die twee termen je wilt zoeken en wat de minimale en maximale afstand tussen die termen moet zijn. 

In de onderstaande code kun je op de eerste plaats twee zoektermen opgeven, als waarden van `search_term1` en `search_term2`. De variabele `window` specificeert de maximale afstand tussen deze twee woorden. 

De code gaat vervolgens op zoek naar alle passages van de opgegeven lengte waar de beide zoektermen in voorkomen. De gevonden passages worden in dit notebook getoond wanneer de code wordt uitgevoerd, en de resultaten worden eveneens weggeschreven in een bestand met de naam 'cooccurrence.txt'. 

In [13]:
from kitlvTdm import *
import os
from os.path import join
import re


# Defineer de zoektermen en de seach window
search_term1 = 'soldaat'
search_term2 = 'geweer'
window = 30

# In deze map gaat er gezocht worden
dir = "../toy_Corpus"

df = pd.DataFrame(columns = ['count_within_document','file','title','fragment'])

# Het zoeken is hoofdletter gevoelig, daarom worden alle hoofdletters in kleine letters veranderd
search_term1 = search_term1.lower()
search_term2 = search_term2.lower()

pattern = '####'


# Voor ieder bestand in de eerder gedefineerde map
for file in os.listdir( dir ):
    
    # Laat zien welk bestand het programma aan het lezen is
    print( "Reading " + file + ' ... ' )
    
    # Maak een lijst aan waar alle fragmenten in komen
    fragments = []
    
    # Als het bestand een tekst bestand is:
    if re.search( 'txt$' , file ):
        
        # Open het bestand en laad de tekst in de variabele 'fullText'
        with open( join( dir , file) , encoding = 'utf-8') as egodocument:
            fullText = egodocument.read()
            
        # Zoek en sla alleen de tekst op van iedere bladzijde (bijvoorbeeld niet het bladzijde nummer)
        fullText = re.sub( 'page\s+\d+', '' , fullText )
        
        # Verander alle hoofdletters in kleine letters
        fullText =  fullText.lower()
        
        # Identificeer de losse woorden
        words = tokenise(fullText)
        
        # Voor iedere locatie van een woord
        for i in range( 0 , (len(words)) ):
            
            # creeer een fragment van de grootte die gespecificeerd is in 'window'
            fragment = ' '.join( words[ i : window+i ] )
            
            # als de gezochte woorden beide voorkomen als los woord in het fragment
            if re.search( r'\b{}\b'.format(search_term1) , fragment , re.IGNORECASE ) and re.search( r'\b{}\b'.format(search_term2) , fragment , re.IGNORECASE ):
                
                '''
                Dit stukje zorgt ervoor dat een fragment niet vaker gevonden wordt. Als er één woord tussen soldaat en geweer zit
                en de 'window' is 30 zijn er 27 verschillende fragmenten voor dezelfde gevonden combinatie.
                Om dit te voorkomen wordt er gekeken of in een gevonden fragment de zoektermen op een andere manier tot elkaar staan
                en daarmee ook daadwerkelijk een nieuw fragment zijn.
                
                ! Dit herschrijven
                
                '''
                if not( re.search( pattern , fragment , re.IGNORECASE ) ):
                    
                    # Voeg het gevonden fragment toe aan de lijst fragments
                    fragments.append( fragment )
            
                    # Voor ieder nummer tussen 0 en het nummer 'window'
                    for findex in range( 0 , window ):
                        
                        # Als de het patroon al bekent is stop met de bovenstaande 'for loop'
                        if re.search( r'\b{}\b'.format(search_term1) , words[i + findex] , re.IGNORECASE ) or re.search( r'\b{}\b'.format(search_term2) , words[i + findex] , re.IGNORECASE ):
                            break
                    
                    # Anders update de variabele pattern naar het nieuw gevonden patroon
                    pattern = ' '.join( words[ i + findex : window+i  ] )

            # Tel een op bij de plek waar we zijn bij het doorzoeken van de woorden (bovenste for loop)
            i = window + i
            
    documentCount = 0
    # Als er hits gevonden zijn
    if len(fragments) > 0:
        
        # Vind de titel van het boek en sla het op in de variabele 'title'
        title = showTitle(file)
        
        # Laat het volgende zien met de titel en de naam van het bestand
        print("Occurrences in {} ({})\n".format( title , file ))
        
        # Voor ieder gevonden fragment 
        for fragment in fragments:
            
            documentCount += 1
            
            # Laat het fragment zien
            print(h + '\n')
            
            # Schrijf het fragment op in het bestand
            df = df.append({'count_within_document' : documentCount,'file' : file, 'title' : title, 'fragment' : fragment}, ignore_index = True)


df.to_excel("testcoocurence.xlsx")
out.close()


Reading 03391.txt ... 
Reading 03392.txt ... 
Occurrences in De vergeten dagboeken (03392.txt)

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

Reading 03393.txt ... 
Occurrences in Hij ging, kwam terug en keerde weer (03393.txt)

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

Reading 03394.txt ... 

Occurrences in Camouflagepak, politiepet en narrenkap (03457.txt)

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

Reading 03458.txt ... 
Reading 03459.txt ... 
Reading 03460.txt ... 
Reading 03461.txt ... 
Reading 03462.txt ... 
Reading 03463.txt ... 
Reading 03464.txt ... 
Reading 03465.txt ... 
Reading 03466.txt ... 
Occurrences in Een Indonesie? weigeraar vertelt zijn verhaal : Jan Maassen over strijd en gevangenschap (03466.txt)

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergre

Reading 03511.txt ... 
Occurrences in Herinneringen aan de 42e Zibva (03511.txt)

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

Reading 03512.txt ... 
Reading 03513.txt ... 
Reading 03514.txt ... 
Reading 03515.txt ... 
Reading 03516.txt ... 
Occurrences in Het oerwoud beangstigt mij! : dagboek van een dienstplicht (03516.txt)

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

Reading 03517.txt ... 
Occurrences in De marsroute van 1-11 R.I. (03517.txt)

om de boel op orde te krijgen wat uiteindelijk is gelukt al op 4 mei 1979 viel het eerste slachtoffer een geweer dat niet was vergrendeld ging af een soldaat

om

FileCreateError: [Errno 13] Permission denied: 'testcoocurence.xlsx'

**Ofening 3: Ga, met behulp van de bovenstaande code, op zoek naar passages waarin twee relevante zoektermen in voorkomen. Pas de waarden van de variabelen `search_term1` en `search_term2` aan. Indien nodig kun je ook de waarde van `window` aanpassen.**

## 4. Woordfrequenties - hoe vaak komt een woord voor in een document of een corpus? 

Welke woorden komen het meeste voor in een bepaald egodocument? De onderstaande code berekent de frequenties van alle woorden in een enkele tekst. De tekst waarin wordt gezocht wordt bepaald door de waarde van de variabele `egodocument`. De code toont vervolgens de 30 meest voorkomende woorden in deze tekst. De variabele `max` het aantal woorden dat wordt getoond. 

Ook hier is het van belang de stopwoordenlijst te gebruiken om alleen zinvolle frequenties in de resultaten terug te krijgen die te maken hebben met de inhoud, en om niet ter zake doende lidwoorden, bijwoorden en voorzetsels er uit te filteren. 

In [21]:
# Specificeer de map waar de corpus staat (dir), de naam van het document (egodocument) en het maximaal aantal woorden waarvan
# de frequentie wordt getoond (max).
dir = '../corpus'
egodocument = '03391.txt'
max = 30

# Vind de frequenties van alle woorden in het boek.
freq = calculateWordFrequencies(join( dir, egodocument))

# Verwijder de stopwoorden uit de frequenties
freq = removeStopwords(freq)

# Sorteer de frequenties van hoog naar laag. "key=lambda x: freq[x]" is nodig voor het juist sorteren aangezien de frequenties
# opgeslagen zijn in een dictionary (een data type). "reverse = True" zorgt ervoor het van hoog naar laag is gesorteerd
sorted_f = sorted(freq, key=lambda x: freq[x], reverse = True)
print(sorted_f)

# Laat het volgende zien waarbij showTitle de titel van het egodocument laat zien.
print( f'The following words occur most frequently in the text { egodocument } ({ showTitle( egodocument )}).\n' )

# Maak een teller die bij houdt hoeveel woorden er zijn laten zien.
count = 0

# Voor iedere frequentie in de van hoog naar laag gesorteerde lijst met frequenties:
for f in sorted_f:
    
    # Laat het woord en de frequentie zien. ".format" vult de "{}" in. Hier met respectievelijk het woord (f) en de frequentie
    # van het woord f (freq[f]).
    print( '{} => {}'.format(f, freq[f]))
    
    # Tel een op bij het aantal woorden wat er is getoond
    count += 1
    
    # Als het maximale aantal woorden is getoond, stop met laten zien
    if count == max:
        break

['indonesië', 'indonesische', 'tijd', 'cpn', 'nederland', 'partij', 'pki', 'nederlandse', 'veel', 'waarheid', 'ging', 'kwam', 'groot', 'enkele', 'politiek', 'grote', 'zoals', 'oorlog', 'jaren', 'paar', 'redactie', 'indonesiërs', 'kreeg', 'land', 'wilde', 'keer', 'chinese', 'sukarno', 'jaar', 'goed', 'bleef', 'situatie', 'aantal', 'suharto', 'krant', 'communistische', 'strijd', 'politieke', 'artikel', 'an', 'nieuwe', 'mensen', 'bleek', 'gaf', 'één', 'bezoek', 'joop', 'amsterdam', 'china', 'maken', 'enige', 'schreef', 'dagen', 'artikelen', 'zei', 'ter', 'maakte', 'deel', 'eigen', 'doen', 'internationale', 'moskou', 'plaats', 'communisten', 'aandacht', 'lid', 'men', 'jakarta', 'regering', 'laten', 'komen', 'huis', 'soms', 'zelf', 'toe', 'geven', 'annie', 'naam', 'boeken', 'tweede', 'militaire', 'gehouden', 'koloniale', 'reis', 'terug', 'blijven', 'militairen', 'daarbij', 'paul', 'kwamen', 'wordt', 'cultuur', 'vrienden', 'partijen', 'wolff', 'buitenlandse', 'sowjet-unie', 'af', 'geheel', '

**Oefening 4: Bepaal de meest frequente woorden in een van de egodocumenten in het corpus van "Soldaat in Indonesië". Experimenteer met verschillende waarden voor de variabelen `egodocument` en `max`.**

De woordfrequenties geven deels een vertekend beeld, omdat in veel memoires letterlijk passages of hele delen van dagboeken uit de tijd zelf worden gebruikt. Eigenlijk zou je die boeken die verhoudingsgewijze veel van deze teksten bevatten moeten kunnen isoleren, zodat de boeken zonder deze passages kunnen worden geanalyseerd. Dat kan alleen door extra codes aan de publicaties toe te voegen die dit verschil aangeeft. Die laag is er nu nog niet, maar staat wel in de planning. 

Veranderingen in woordgebruik zijn gebonden aan tijd en veranderingen in de samenleving. Omdat dit corpus zich uitstrekt vanaf de periode van het conflict zelf (1945-1949) tot aan 2017, is het interessant om het voorkomen van bepaalde termen chronologisch te vergelijken. De onderstaande code verdeelt het corpus in perioden van 5 jaar, en berekent vervolgens de woordfrequenties voor de egodocumenten die in deze verschillende tijdvakken verschenen. Hierbij moet wel de kanttekening worden geplaatst dat niet alle egodocumenten konden worden gedateerd. Bij deze analyse worden de teksten die nog niet zijn gedateerd genegeerd. Verder is het uiteraard ook zo dat er een onevenredige verdeling is van het aantal boeken over deze perioden. De absolute frequenties kunnen daardoor niet zonder meer worden vergeleken. OM de frequenties toch vergelijkbaar te maken zijn de absolute tellingen steeds gedeeld door het totaal aantal woorden in de egoducmenten uit de verschillende perioden.

De lengte van de geanlyseerde periode kan overgens worden aangepast via de variabele `period_length`. 

De resultaten worden getoond in dit Notebook, maar worden eveneens weggeschreven in een bestand met de naam `frequency_chronological.csv`. 

In [None]:
from kitlvTdm import *
import os
from os.path import join



start = 1930
end = 2020
period_length = 5
nr_words = 20

dir = 'Corpus'

def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])

intervals = []

out = open( 'frequency_chronological.csv' , 'w' , encoding = 'utf-8' )
out.write( 'year_from,year_to,tokenCount,term,frequency\n' )

for year in range( start , end , period_length ):
    intervals.append(year)

for year in intervals:
    year_from = year
    year_to =  period_length -1 + year

    freqTotal = dict()
    tokensTotal = 0
    egodocuments = 0

    for file in os.listdir(dir):
        if re.search( 'txt$' , file ):
            year = showYear( file )
            if year is not None:
                if year >= year_from and year <= year_to:
                    egodocuments += 1
                    freq = calculateWordFrequencies( join( dir, file ) )
                    freqTotal.update(freq)
                    tokensTotal += numberOfTokens( join( dir, file ) )

    print( f'\n{ year_from }-{ year_to }\n{tokensTotal} words in total in {egodocuments} egodocuments\n\n' )


    freqTotal = removeStopwords( freqTotal )

    count = 0
    for word in reversed( sortedByValue(freqTotal) ):
        out.write( f'{year_from},{year_to},{tokensTotal},{word},{freqTotal[word]}\n' )
        print( f' { word } => { freqTotal[word] / tokensTotal }' )
        count += 1
        if count == nr_words:
            break

out.close()


**Oefening 4: Probeer met behulp van de bovenstaande code te verkennen hoe het woordgebruik zich ontwikkelde over de loop van de afgelopen decennia. Verander hiervoor de waarde van de variabelen `period_length` en `nr_words`.**

Woordsoorten als zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden drukken zijn over het algemeen het meest bepalend voor de betekenis van zinnen. Het kan daarom nuttig en informatief zijn om frequentie-analyses te beperken tot dit soort woorden. In de onderstaande cellen worden uitsluitend de zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden geteld, door gebruik te maken van de hierboven al genoemde module `nltk`. Deze module richt zich normaal gesproken op Engelstalige teksten. Om `nltk` ook toe te kunnen passen op Nederlandstalige teksten moet eerst de onderstaande code worden uitgevoerd. 

In [None]:
import nltk
nltk.download('alpino')

from nltk.corpus import alpino as alp
from nltk.tag import UnigramTagger, BigramTagger
training_corpus = alp.tagged_sents()
unitagger = UnigramTagger(training_corpus)
bitagger = BigramTagger(training_corpus, backoff=unitagger)
pos_tag = bitagger.tag

Als de installatie van de Nederlandstalige variant van `nltk` geen problemen opleverde, kan de onderstaande, meer gerichte frequentie-analyse worden uitgevoerd. Let er hierbij op dat het toekennen van grammaticale categorieën wel enige rekenkracht vergt. Het uitvoeren van de code kan dus enige tijd in beslag nemen.  

In [None]:
from kitlvTdm import *
import os
from os.path import join


nr_words = 100

dir = 'Corpus'
egodocument = '03391.txt'

def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])



out = open( 'frequency_POS.csv' , 'w' , encoding = 'utf-8' )
out.write( 'word,frequency\n' )



freqTotal = dict()

countFile = 0 

for file in os.listdir(dir):
    if re.search( 'txt$' , file ):
        countFile += 1
        if file == egodocument:
        #print( '\rReading {} ... ({}/577)'.format(file , countFile ) )
            with open( join( dir, file ) ) as fileName:
                fullText = fileName.read()
                sent = sent_tokenize(fullText)
                for s in sent:
                    words = word_tokenize(s)
                    pos = pos_tag(words)
                    for p in pos:
                        if p[1] is not None:
                            if re.search( r'^(adj)|(noun)|(verb)' , p[1] ):
                                freqTotal[ p[0]  ] = freqTotal.get( p[0] ,0 ) + 1


freqTotal = removeStopwords( freqTotal )

for word in reversed( sortedByValue(freqTotal) ):
    out.write( f'{word},{freqTotal[word]}\n' )
    print( f' { word } => { freqTotal[word] / tokensTotal }' )
    count += 1
    if count == nr_words:
        break

out.close()

**Oefening 5: Probeer een lijst te generen van de 150 meest frequente zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden.**

# 5. Distributiegrafiek



Historische ontwikkelingen kunnen ook op een andere manier worden geanalyseerd. Appplicaties zoals de [Google Books Ngram viewer](https://books.google.com/ngrams) maken gebruik van distributie-grafieken waarin woordfrequenties per jaar worden berekend. De onderstaande ocde doet iets vergelikbaar voor het corpus van "Soldaat in Indonesië". Zoals te zien is in de eerste regels van de onderstaande cel wordt er eerst een lljst van woorden opgegeven. Deze woorden worden allemaal vastgelegd onder de naam `search_terms`. De code berekent vervolgens per jaar hoe vaak deze woorden zijn gebruikt. De resultaten worden vastgelegd in een CSV-bestand waarin de relatieve frequenties (het aantal voorkomens va deze woorden, gedeeld door het totaal aantal woorden in dat jaar) worden vastgelegd. 

In [None]:
import re

search_terms = '''
gestoken
vuur
schieten
gevangen
doodgeschoten
schoten
neergeschoten
gevangenen
patrouille
gevangene
dood
geschoten
soldaten
doden
bloed
geweer
gedood
wapens
beschoten
schoot
kogel
gewonden
geslagen
vermoord
verhoord
zuiveringsactie
hinderlaag
slachtoffers
executie
patrouilles
wraak
inlichtingendienst
extremisten
kogels
woede
moord
mortieren
krijgsraad
vuurgevecht
incident
kampement
gewonde
handgranaat
vluchtende
gevecht
geëxecuteerd
pistool
gewond
oorlog
fik
tegenstanders
krijgsgevangenen
strijd
mitrailleur
spion
platgebrand
kapot
afgebrand
zuivering
bajonet
salvo
mishandeld
omsingeld
granaten
gevangengenomen
bataljon
vernietigd
represaille
beschieting
tegenpartij
terroristen
plunderaars
doodschieten
brandende
hardhandig
moordenaars
genadeschot
pijn
revolver
gemarteld
gefusilleerd
mes
wapen
aangevallen
neerschieten
gezuiverd
brandde
plunderen
vijanden
beschietingen
gedreigd
geplunderd
slaag
executeren
aanslag
geschreeuw
handgranaten
afschuwelijke
gebombardeerd
verminkt
gemene
burgerslachtoffers
plundering
plunderingen
krijgsgevangene
moorden
excessief
geweldsexcessen
mishandeling
gevechten
sadistische
vuurstoot
weerloze
martelen
executies
doodgeslagen
schreeuwde
schietend
onthoofd
represailles
fosforgranaten
verminkte
gruwelijk
nekschot
tegenaanval
overval
verwond
moordenaar
bewapend
opblazen
executiepeloton
verkracht
vuurstoten
vuurwapens
vergelding
beestachtige
doodstraf
trekker
stervende
neergeknald
platbranden
artillerie
bedreiging
slachting
verwondingen
vreselijke
ontgelden
gummiknuppel
knallen
gevaarlijk
slachtoffer
marteling
beestachtig
platgeschoten
lijden
uitgemoord
schietpartij
bloedbad
mortiergranaten
misdadigers
massagraf
gruwelijke
afgehakt
kapmes
bombardement
schokkende
zuiveringsopdracht
'''

search_terms = search_terms.strip()
terms_list = re.split( r'\n' , search_terms.lower() )



frequency_year = dict()
word_count_year  = dict()
    
dir = 'corpus'

corpusFreq = dict()



for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        print( f"Reading { file } ..." )
        if showYear( file ) is not None:
            year = int(showYear( file ) )
            freq = calculateWordFrequencies( join( dir , file ) )
            freq = removeStopwords( freq )
            tokens = numberOfTokens( join( dir , file ) )
            word_count_year[ year ] = word_count_year.get( year , 0 ) + tokens
            for term in terms_list:
                if term in freq:
                    frequency_year[year] = frequency_year.get( year , 0 ) + freq[ term ]

                
            
out = open( 'dispersion_data.csv', 'w' , encoding = 'utf-8' )
out.write( 'year,frequency\n' )

for year in sorted( frequency_year  ):
    out.write( '{},{}\n'.format( year , frequency_year[ year ] / word_count_year[year] ) )
    print( '{} times in {}.'.format( frequency_year[ year ] , year ) )

out.close()

print('The CSV file has been created.')



De frequenties kunnen hierna worden gevisualiseerd met de onderstaande code.

In [None]:
%matplotlib inline

import pandas as pd
df = pd.read_csv( 'dispersion_data.csv' )

import matplotlib.pyplot as plt

plt.style.use('ggplot')

fig = plt.figure( figsize = ( 15, 4))
ax = plt.axes()

ax.plot( df['year'] , df['frequency'] , color = '#930d08' , linestyle = 'solid')

ax.set_xlabel('Years')
ax.set_ylabel('Word frequency')


ax.set_xlim( df['year'].min() , df['year'].max() )

ax.set_title( 'Dispersion graph')

plt.show()

**Oefening 6: Pas de waarde van de variabele `search_terms` aan. Geef een aantal woorden op die van belang zijn voor jouw onderzoek. Probeer hierna een distributiegrafiek te maken die de historische ontwikkelingen in het gebruik van deze termen kan verduidelijken.**