## Zoeken op basis van Text & Data Mining


In dit tutorial vind je uitleg over hoe je het corpus van "Soldaat in Indonesie" kunt doorzoeken op basis van Text & Data Mining. Er wordt hierbij gebruik gemaakt van de programmeertaal Python. Dit tutorial is echter geen basis-introductie tot programmeren in Python. De voorbeelden hieronder laten alleen zien hoe je dit corpus kunt doorzoeken met behulp van bestaande modules en bibliotheken. Modules zijn kant en klare en herbruikbare ‘pakketjes’ software code waarin specifieke functionaliteiten worden aangeboden. De meeste modules zijn generiek, en kunnen dus op verschillende datasets worden toegepast waarbij je dan alleen bijvoorbeeld de zoekterm moet aanpassen of het bestand waarin je wilt zoeken.


## Installeren en importeren van modules


In dit tutorial maken we gebruik van de module ‘os’, dat staat voor ‘operating system’. De module biedt een aantal functies waarmee je contact kunt maken met het besturingssysteem van je computer. Een van die functies is dat je de inhoud van een map op je computer kunt lezen.

'nltk' is een verzameling modules die je kunt gebruiken bij analyses op het gebied van Natural Language Processing. Zo kun je paragrafen op laten splitsen in afzonderlijke zinnen, je kunt de stam van een woord of een werkwoord vinden, en je kunt de software opdracht geven om grammaticale categorieën toe te voegen aan woorden (werkwoord, eigennaam, lidwoord, zelfstandig naamwoord).

De module ‘kitlvTdm’ is specifiek ontwikkeld voor dit KITLV corpus van memoires en bevat een aantal basisinstructies op op het gebied van Text & Data Mining.

Als je Python hebt geïnstalleerd via Anaconda en als je hiernaast ook alle benodigde bestanden uit de Github-repository op de juiste manier hebt gekopieerd naar je computer, hoef je deze modules niet meer afzonderlijk te installeren. Anaconda bevat namelijk alle benodigde modules. 

Als je Python op een andere manier hebt geïnstalleerd, dan is het wellicht wel nodig om die modules te installeren. Je kunt dit vergelijken met het installeren van een nieuw programma op je computer. Na de installatie komen alle functionaliteiten van deze module of bibliotheek beschikbaar. Modules en bibliotheken kunnen via de onderstaande commando's worden geïnstalleerd. Plaats de cursor in de onderstaande cel, en klik daarna op [shift] + [Enter]. Hierna verschijnen er, als het goed is, een aantal meldingen over het installatieproces.

In [None]:
!conda install --yes --prefix {sys.prefix} os
!conda install --yes --prefix {sys.prefix} nltk
!conda install --yes --prefix {sys.prefix} matplotlib 
!conda install --yes --prefix {sys.prefix} re

Als alle modules correct zijn geïnstalleerd kunnen ze in de code worden geïmporteerd. Zo'n import zorgt er vervolgens voor dat alle code ook in het huidige programma gebruikt kunnen worden. 

Plaats de cursor in de onderstaande cel , en klik daarna op [shift] + [Enter]. Als alle modules goed zijn geïnstalleerd verschijnen er hierna geen meldingen.

In [None]:
import os
from os.path import isfile, join , isdir
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
from kitlvTdm import *

## 1. Zoeken naar een specifieke term

Je kunt op de eerste plaats op zoek gaan naar passages met een bepaald trefwoord in de verzameling egodocumenten. In de onderstaande code moet dit trefwoord worden opgegeven als waarde van de variabele `search_term` (bv. “Baboe” of “geweer”). Binnen de aanhalingstekens kan de zoekterm dus worden aangepast. 

Wanneer de code wordt uitgevoerd toont het programma een lijst van alle documenten waar de opgegeven term in voorkomt, samen met alle gevonden passages. De resultaten worden weergegeven als een zogenaamde ‘concordantie’. Zo'n concordantie wordt ook wel een *keyword in context* (KWIC) lijst genoemd. Dit betekent dat de term die je zoekt wordt weergegeven met een specifiek aantal woorden voor en na de opgegeven zoekterm. De grootte van deze passages kan worden bepaald met de variabele `window`. Het getal dat wordt opgegeven bepaalt het aantal woorden voorafgaand aan en volgend op de gebruikte term. Als die op bv. op 3 staat, en je zoekt op “geweer”, dan kun je een zin terugkrijgen als ‘ik pak mijn geweer en schiet op’. Het odnerstaande voorbeeld gebruikt de term ‘baboe’ oftewel ‘wasvrouw’. Dit is een woord dat in veel van de ego-documenten voorkomt. 

Tijdens het digitaliseren van de egodocumenten in het corpus van 'Soldaat in Indonesië' hebben alle documenten een eigen numerieke code gekregen. Deze codes zijn ook gebruikt in de bestandsnamen. De functie 'showTitle()', in de module kitlvTdm, zoekt de volledige titels bij deze documentcodes. Die titels worden gehaald uit het bestand 'metadata.csv', dat te vinden is in de verzameling documenten van de Master "Soldaat in Indonesië".

In [None]:
dir = 'corpus'
search_term = 'baboe'
window = 10

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        book = open( join( dir , file ) )
        if re.search( search_term , book.read() , re.IGNORECASE ):
            title = showTitle(file)
            matches = concordance( join( dir , file ) , search_term , window )
            if len(matches)>1:
                print( '\n\nOccurrences in {} ({}):\n'.format( title , file ) )
                for match in matches:
                    print(match)

Dubbelklik in de bovenstaande cel en klik daarna op [shift] + [Enter]. In de vierkante haken linksboven buiten het veld, verschijnt dan een asterisk. Dit betekent dat de zoekactie in uitvoering is. Deze is afgerond als de asterisk verandert in een getal. 

Als je een ‘error’ krijgt, ga dan naar dit lijstje van de meest voorkomende errors met tips over hoe je die kunt oplossen.

In de bovenstaande code worden de resultaten simpelweg getoond in dit Notebook. Het kan uiteraard ook nuttig zijn om de resultaten te exporteren naar een tekstbestand, zodat deze resultaten dan ook weer in andere programma's (zoals Google sheets of Excel) kunnen worden bekeken of worden geanalyseerd. In die andere programma's kun je kolommen toevoegen, met, bijvoorbeeld, eigen commentaar of codes. 

Als je de resultaten van deze code wilt bewaren kun je deze naar een bestand exporteren via de onderstaande code. Die komen terecht op dezelfde plaats als waar dit notebook is opgeslagen. Het exportbestand heeft het *Comma Separated Value* (CSV) formaat. De naam van dit tekstbestand wordt bepaald door de variabele 'outFile'. De onderstaande code werkt alleen als eerst de bovenstaande code is uitgevoerd. 

In dit export bestand wordt ook het aantal treffers geteld. Naast het totaal aantal treffers wordt ook het aantal treffers per egodocument berekend.  

In [None]:
outFile = 'concordantieExport.csv'

out = open( outFile , 'w' )
out.write( 'total_count,count_within_document,file,title,fragment\n' )

totalCount = 0


for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        documentCount = 0 

        
        book = open( join( dir , file ) )
        if re.search( search_term , book.read() , re.IGNORECASE ):
            title = showTitle(file)
            title = re.sub( ',' , '' , title )
            out.write("Occurrences in {} ({})\n".format( title , file ))

            matches = concordance( join( dir , file ) , search_term , window )
            for match in matches:
                totalCount += 1
                documentCount += 1
                out.write('{},{},{},{},{}\n'.format( totalCount , documentCount , file, title, match ) )

out.close()

Als je naar de resultaten van, bijvoorbeeld ‘baboe’ kijkt met 4 woorden ervoor en erna, blijkt het lastig duiding te geven aan de variëteit van de context waarin het woord voorkomt. Dit eerste hele basale voorbeeld is gekozen om het principe duidelijk te maken. We moeten daarom nu de opdracht uitbreiden. 

Je zult je misschien afvragen waarom je met Python zou moeten zoeken, als je passages met een trefwoord ook in een gewone online zoekomgeving zou kunnen vinden. Het verschil is dat je met Python code veel flexibeler bent, en zelf kunt bepalen op welke manier gezocht wordt en in welke vorm de resultaten getoond worden. Ook is het makkelijker de resultaten te exporteren om ze verder te kunnen bewerken. 

**Oefening 1: Experimenteer eerst met een andere zoektermen en een ander bereik, bijvoorbeeld 20 woorden er voor en er na, door de waarden van de variabalen `search_term` en `window` aan te passen. Klik vervolgens op [Shift] + [Enter].**

## 2. Collocatie - het tellen van woorden in de buurt van een term 

Net als bij een concordantie richt een collocatie-analyse zich op de context van specifieke zoektermen. Het verschil is dat bij een collocatie-analyse alle woorden in de context worden geteld. Op deze manier kan er een beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. 

In de code hieronder verwijst `search_term` weer naat de term waarnaar wordt gezocht, en `window` bepaalt weer het aantal woorden voor en na de opgegeven zoekterm.

In de onderstaande code wordt ook de functie 'removeStopwords()' gebruikt. Deze functie heeft als effect dat de woorden die in alle documenten gemiddeld genomen even vaak voorkomen (bv. de, het, een wij, zijn, hebben, geweest, allen, doen, ik, jullie, etc.) en dus niet onderscheidend zijn voor een bepaald document, verwijderd worden. 

De onderstaande code zoekt in het gehele corpus, dat uit ca. 600 egodocumenten bestaat, en het uitvoeren van de code kan daarom enige tijd in beslag nemen. De analyse kan worden toegespitst op een specifieke periode. In de onderstaande code geeft de variabele 'start' het begin van de periode aan, en de variabele 'end' het einde. De code berekent alleen de woordfrequenties in de documenten die gepubliceerd zijn binnen de periode die op deze manier is vastgelegd.


In [None]:
dir = 'corpus'
searchTerm = 'baboe'
window = 30





corpusFreq = dict()

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        print("Reading {}  ...".format( file ))
        freq = collocation( join( dir , file ) , searchTerm , window )
        freq = removeStopwords( freq )
        corpusFreq.update(freq)
        
        
freq.clear()
freq.update( removeStopwords( corpusFreq ) )        


def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])

max = 30
i = 0

if len(freq)> 0:

    print( f'The following words are used most frequently in the vicinity of "{ searchTerm }": \n' )

    for f in reversed( sortedByValue( freq ) ):
        i += 1
        print( '{} =>  {}'.format( f , freq[f] ) )
        if i == max:
            break
            
else:
    print('\n\nThe search term you provided does not occur in the documents published during the selected period.')

Wanneer je de code voor de collocatie-analyse hebt uitgevoerd kun je het resultaat opslaan met de code in de onderstaande cel. Deze code maakt een bestand aan met de naam 'collocation.csv' waarin de woorden en de frequenties terug te vinden zijn. 

In [None]:
outFile = 'collocation.csv'
out = open( outFile , 'w' )

out.write('term,frequency\n')

for f in reversed( sortedByValue( freq ) ):
    i += 1
    out.write( '{},{}\n'.format( f , freq[f] ) )
    if i == max:
        break
        
out.close()

**Oefening 2: Voer een collocatie-analyse uit, aan de hand van een zoekterm die van belang kan zijn voor jouw onderzoek. Experimenteer met verschillende waarden voor de variabelen `search_term`, `window`.**

## 3. Zoeken naar een combinatie van termen 

Als je op zoek bent naar samenhang tussen twee zaken wil je testen of de termen die naar die zaken verwijzen inderdaad in combinatie met elkaar voorkomen. Dan moet je bepalen op welke varianten van die twee termen je wilt zoeken en wat de minimale en maximale afstand tussen die termen moet zijn. 

In de onderstaande code kun je op de eerste plaats twee zoektermen opgeven, als waarden van `search_term1` en `search_term2`. De variabele `window` specificeert de maximale afstand tussen deze twee woorden. 

De code gaat vervolgens op zoek naar alle passages van de opgegeven lengte waar de beide zoektermen in voorkomen. De gevonden passages worden in dit notebook getoond wanneer de code wordt uitgevoerd, en de resultaten worden eveneens weggeschreven in een bestand met de naam 'cooccurrence.txt'. 

In [None]:
from kitlvTdm import *
import os
from os.path import join
import re


search_term1 = 'soldaat'
search_term2 = 'geweer'
window = 30

dir = "Corpus"


out = open( 'cooccurrence.txt' , 'w' , encoding = 'utf-8' )

search_term = searchTerm1.lower()
search_term = searchTerm2.lower()
pattern = '####'

for file in os.listdir( dir ):
    print( "Reading " + file + ' ... ' )
    hits = []
    if re.search( 'txt$' , file ):
        with open( join( dir , file) ) as egodocument:
            fullText = egodocument.read()
        fullText = re.sub( 'page\s+\d+', '' , fullText )
        fullText =  fullText.lower()
        words = tokenise(fullText)

        for i in range( 0 , (len(words)) ):
            fragment = ' '.join( words[ i : window+i ] )
            if re.search( r'\b{}\b'.format(searchTerm1) , fragment , re.IGNORECASE ) and re.search( r'\b{}\b'.format(searchTerm2) , fragment , re.IGNORECASE ):
                if not( re.search( pattern , fragment , re.IGNORECASE ) ):
                    hits.append( fragment )
            
                    for findex in range( 0 , window ):
                        if re.search( r'\b{}\b'.format(searchTerm1) , words[i + findex] , re.IGNORECASE ) or re.search( r'\b{}\b'.format(searchTerm2) , words[i + findex] , re.IGNORECASE ):
                            break
                    pattern = ' '.join( words[ i + findex : window+i  ] )

        
            i = window+i
    if len(hits) > 0:
        title = showTitle(file)
        out.write("Occurrences in {} ({})\n".format( title , file ))
        print("Occurrences in {} ({})\n".format( title , file ))
        for h in hits:
            print(h + '\n')
            out.write(h + '\n')

out.close()


**Ofening 3: Ga, met behulp van de bovenstaande code, op zoek naar passages waarin twee relevante zoektermen in voorkomen. Pas de waarden van de variabelen `search_term1` en `search_term2` aan. Indien nodig kun je ook de waarde van `window` aanpassen.**

## 4. Woordfrequenties - hoe vaak komt een woord voor in een document of een corpus? 

Welke woorden komen het meeste voor in een bepaald egodocument? De onderstaande code berekent de frequenties van alle woorden in een enkele tekst. De tekst waarin wordt gezocht wordt bepaald door de waarde van de variabele `egodocument`. De code toont vervolgens de 30 meest voorkomende woorden in deze tekst. De variabele `max` het aantal woorden dat wordt getoond. 

Ook hier is het van belang de stopwoordenlijst te gebruiken om alleen zinvolle frequenties in de resultaten terug te krijgen die te maken hebben met de inhoud, en om niet ter zake doende lidwoorden, bijwoorden en voorzetsels er uit te filteren. 

In [None]:
dir = 'corpus'
egodocument = '03391.txt'
max = 30


freq = calculateWordFrequencies( join( dir , egodocument ) )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])

i = 0

print( f'The following words occur most frequently in the text { egodocument } ({ showTitle( egodocument )}).\n' )

for f in reversed( sorted_f ):
    i += 1
    print( '{} => {}'.format( f , freq[f] ) )
    if i == max:
        break

**Oefening 4: Bepaal de meest frequente woorden in een van de egodocumenten in het corpus van "Soldaat in Indonesië". Experimenteer met verschillende waarden voor de variabelen `egodocument` en `max`.**

De woordfrequenties geven deels een vertekend beeld, omdat in veel memoires letterlijk passages of hele delen van dagboeken uit de tijd zelf worden gebruikt. Eigenlijk zou je die boeken die verhoudingsgewijze veel van deze teksten bevatten moeten kunnen isoleren, zodat de boeken zonder deze passages kunnen worden geanalyseerd. Dat kan alleen door extra codes aan de publicaties toe te voegen die dit verschil aangeeft. Die laag is er nu nog niet, maar staat wel in de planning. 

Veranderingen in woordgebruik zijn gebonden aan tijd en veranderingen in de samenleving. Omdat dit corpus zich uitstrekt vanaf de periode van het conflict zelf (1945-1949) tot aan 2017, is het interessant om het voorkomen van bepaalde termen chronologisch te vergelijken. De onderstaande code verdeelt het corpus in perioden van 5 jaar, en berekent vervolgens de woordfrequenties voor de egodocumenten die in deze verschillende tijdvakken verschenen. Hierbij moet wel de kanttekening worden geplaatst dat niet alle egodocumenten konden worden gedateerd. Bij deze analyse worden de teksten die nog niet zijn gedateerd genegeerd. Verder is het uiteraard ook zo dat er een onevenredige verdeling is van het aantal boeken over deze perioden. De absolute frequenties kunnen daardoor niet zonder meer worden vergeleken. OM de frequenties toch vergelijkbaar te maken zijn de absolute tellingen steeds gedeeld door het totaal aantal woorden in de egoducmenten uit de verschillende perioden.

De lengte van de geanlyseerde periode kan overgens worden aangepast via de variabele `period_length`. 

De resultaten worden getoond in dit Notebook, maar worden eveneens weggeschreven in een bestand met de naam `frequency_chronological.csv`. 

In [None]:
from kitlvTdm import *
import os
from os.path import join



start = 1930
end = 2020
period_length = 5
nr_words = 20

dir = 'Corpus'

def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])

intervals = []

out = open( 'frequency_chronological.csv' , 'w' , encoding = 'utf-8' )
out.write( 'year_from,year_to,tokenCount,term,frequency\n' )

for year in range( start , end , period_length ):
    intervals.append(year)

for year in intervals:
    year_from = year
    year_to =  period_length -1 + year

    freqTotal = dict()
    tokensTotal = 0
    egodocuments = 0

    for file in os.listdir(dir):
        if re.search( 'txt$' , file ):
            year = showYear( file )
            if year is not None:
                if year >= year_from and year <= year_to:
                    egodocuments += 1
                    freq = calculateWordFrequencies( join( dir, file ) )
                    freqTotal.update(freq)
                    tokensTotal += numberOfTokens( join( dir, file ) )

    print( f'\n{ year_from }-{ year_to }\n{tokensTotal} words in total in {egodocuments} egodocuments\n\n' )


    freqTotal = removeStopwords( freqTotal )

    count = 0
    for word in reversed( sortedByValue(freqTotal) ):
        out.write( f'{year_from},{year_to},{tokensTotal},{word},{freqTotal[word]}\n' )
        print( f' { word } => { freqTotal[word] / tokensTotal }' )
        count += 1
        if count == nr_words:
            break

out.close()


**Oefening 4: Probeer met behulp van de bovenstaande code te verkennen hoe het woordgebruik zich ontwikkelde over de loop van de afgelopen decennia. Verander hiervoor de waarde van de variabelen `period_length` en `nr_words`.**

Woordsoorten als zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden drukken zijn over het algemeen het meest bepalend voor de betekenis van zinnen. Het kan daarom nuttig en informatief zijn om frequentie-analyses te beperken tot dit soort woorden. In de onderstaande cellen worden uitsluitend de zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden geteld, door gebruik te maken van de hierboven al genoemde module `nltk`. Deze module richt zich normaal gesproken op Engelstalige teksten. Om `nltk` ook toe te kunnen passen op Nederlandstalige teksten moet eerst de onderstaande code worden uitgevoerd. 

In [None]:
import nltk
nltk.download('alpino')

from nltk.corpus import alpino as alp
from nltk.tag import UnigramTagger, BigramTagger
training_corpus = alp.tagged_sents()
unitagger = UnigramTagger(training_corpus)
bitagger = BigramTagger(training_corpus, backoff=unitagger)
pos_tag = bitagger.tag

Als de installatie van de Nederlandstalige variant van `nltk` geen problemen opleverde, kan de onderstaande, meer gerichte frequentie-analyse worden uitgevoerd. Let er hierbij op dat het toekennen van grammaticale categorieën wel enige rekenkracht vergt. Het uitvoeren van de code kan dus enige tijd in beslag nemen.  

In [None]:
from kitlvTdm import *
import os
from os.path import join


nr_words = 100

dir = 'Corpus'
egodocument = '03391.txt'

def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])



out = open( 'frequency_POS.csv' , 'w' , encoding = 'utf-8' )
out.write( 'word,frequency\n' )



freqTotal = dict()

countFile = 0 

for file in os.listdir(dir):
    if re.search( 'txt$' , file ):
        countFile += 1
        if file == egodocument:
        #print( '\rReading {} ... ({}/577)'.format(file , countFile ) )
            with open( join( dir, file ) ) as fileName:
                fullText = fileName.read()
                sent = sent_tokenize(fullText)
                for s in sent:
                    words = word_tokenize(s)
                    pos = pos_tag(words)
                    for p in pos:
                        if p[1] is not None:
                            if re.search( r'^(adj)|(noun)|(verb)' , p[1] ):
                                freqTotal[ p[0]  ] = freqTotal.get( p[0] ,0 ) + 1


freqTotal = removeStopwords( freqTotal )

for word in reversed( sortedByValue(freqTotal) ):
    out.write( f'{word},{freqTotal[word]}\n' )
    print( f' { word } => { freqTotal[word] / tokensTotal }' )
    count += 1
    if count == nr_words:
        break

out.close()

**Oefening 5: Probeer een lijst te generen van de 150 meest frequente zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden.**

# 5. Distributiegrafiek



Historische ontwikkelingen kunnen ook op een andere manier worden geanalyseerd. Appplicaties zoals de [Google Books Ngram viewer](https://books.google.com/ngrams) maken gebruik van distributie-grafieken waarin woordfrequenties per jaar worden berekend. De onderstaande ocde doet iets vergelikbaar voor het corpus van "Soldaat in Indonesië". Zoals te zien is in de eerste regels van de onderstaande cel wordt er eerst een lljst van woorden opgegeven. Deze woorden worden allemaal vastgelegd onder de naam `search_terms`. De code berekent vervolgens per jaar hoe vaak deze woorden zijn gebruikt. De resultaten worden vastgelegd in een CSV-bestand waarin de relatieve frequenties (het aantal voorkomens va deze woorden, gedeeld door het totaal aantal woorden in dat jaar) worden vastgelegd. 

In [None]:
import re

search_terms = '''
gestoken
vuur
schieten
gevangen
doodgeschoten
schoten
neergeschoten
gevangenen
patrouille
gevangene
dood
geschoten
soldaten
doden
bloed
geweer
gedood
wapens
beschoten
schoot
kogel
gewonden
geslagen
vermoord
verhoord
zuiveringsactie
hinderlaag
slachtoffers
executie
patrouilles
wraak
inlichtingendienst
extremisten
kogels
woede
moord
mortieren
krijgsraad
vuurgevecht
incident
kampement
gewonde
handgranaat
vluchtende
gevecht
geëxecuteerd
pistool
gewond
oorlog
fik
tegenstanders
krijgsgevangenen
strijd
mitrailleur
spion
platgebrand
kapot
afgebrand
zuivering
bajonet
salvo
mishandeld
omsingeld
granaten
gevangengenomen
bataljon
vernietigd
represaille
beschieting
tegenpartij
terroristen
plunderaars
doodschieten
brandende
hardhandig
moordenaars
genadeschot
pijn
revolver
gemarteld
gefusilleerd
mes
wapen
aangevallen
neerschieten
gezuiverd
brandde
plunderen
vijanden
beschietingen
gedreigd
geplunderd
slaag
executeren
aanslag
geschreeuw
handgranaten
afschuwelijke
gebombardeerd
verminkt
gemene
burgerslachtoffers
plundering
plunderingen
krijgsgevangene
moorden
excessief
geweldsexcessen
mishandeling
gevechten
sadistische
vuurstoot
weerloze
martelen
executies
doodgeslagen
schreeuwde
schietend
onthoofd
represailles
fosforgranaten
verminkte
gruwelijk
nekschot
tegenaanval
overval
verwond
moordenaar
bewapend
opblazen
executiepeloton
verkracht
vuurstoten
vuurwapens
vergelding
beestachtige
doodstraf
trekker
stervende
neergeknald
platbranden
artillerie
bedreiging
slachting
verwondingen
vreselijke
ontgelden
gummiknuppel
knallen
gevaarlijk
slachtoffer
marteling
beestachtig
platgeschoten
lijden
uitgemoord
schietpartij
bloedbad
mortiergranaten
misdadigers
massagraf
gruwelijke
afgehakt
kapmes
bombardement
schokkende
zuiveringsopdracht
'''

search_terms = search_terms.strip()
terms_list = re.split( r'\n' , search_terms.lower() )



frequency_year = dict()
word_count_year  = dict()
    
dir = 'corpus'

corpusFreq = dict()



for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        print( f"Reading { file } ..." )
        if showYear( file ) is not None:
            year = int(showYear( file ) )
            freq = calculateWordFrequencies( join( dir , file ) )
            freq = removeStopwords( freq )
            tokens = numberOfTokens( join( dir , file ) )
            word_count_year[ year ] = word_count_year.get( year , 0 ) + tokens
            for term in terms_list:
                if term in freq:
                    frequency_year[year] = frequency_year.get( year , 0 ) + freq[ term ]

                
            
out = open( 'dispersion_data.csv', 'w' , encoding = 'utf-8' )
out.write( 'year,frequency\n' )

for year in sorted( frequency_year  ):
    out.write( '{},{}\n'.format( year , frequency_year[ year ] / word_count_year[year] ) )
    print( '{} times in {}.'.format( frequency_year[ year ] , year ) )

out.close()

print('The CSV file has been created.')



De frequenties kunnen hierna worden gevisualiseerd met de onderstaande code.

In [None]:
%matplotlib inline

import pandas as pd
df = pd.read_csv( 'dispersion_data.csv' )

import matplotlib.pyplot as plt

plt.style.use('ggplot')

fig = plt.figure( figsize = ( 15, 4))
ax = plt.axes()

ax.plot( df['year'] , df['frequency'] , color = '#930d08' , linestyle = 'solid')

ax.set_xlabel('Years')
ax.set_ylabel('Word frequency')


ax.set_xlim( df['year'].min() , df['year'].max() )

ax.set_title( 'Dispersion graph')

plt.show()

**Oefening 6: Pas de waarde van de variabele `search_terms` aan. Geef een aantal woorden op die van belang zijn voor jouw onderzoek. Probeer hierna een distributiegrafiek te maken die de historische ontwikkelingen in het gebruik van deze termen kan verduidelijken.**