# 4. Woordfrequenties - hoe vaak komt een woord voor in een document of een corpus?

Welke woorden komen het meeste voor in een bepaald egodocument? De onderstaande code berekent de frequenties van alle woorden in een enkele tekst. De tekst waarin wordt gezocht wordt bepaald door de waarde van de variabele `egodocument`. De code toont vervolgens de 30 meest voorkomende woorden in deze tekst. De variabele `max` het aantal woorden dat wordt getoond. 

Ook hier is het van belang de stopwoordenlijst te gebruiken om alleen zinvolle frequenties in de resultaten terug te krijgen die te maken hebben met de inhoud, en om niet ter zake doende lidwoorden, bijwoorden en voorzetsels er uit te filteren. 

In [1]:
from kitlvTdm import *
import os
from os.path import join
import re
import pandas as pd

In [4]:
# Specificeer de map waar de corpus staat (dir), de naam van het document (egodocument) en het maximaal aantal woorden waarvan
# de frequentie wordt getoond (max).
path = '../corpus'
egodocument = '03391.txt'
max = 30

# Vind de frequenties van alle woorden in het boek.
freq = calculateWordFrequencies(join( path, egodocument))

# Verwijder de stopwoorden uit de frequenties
freq = removeStopwords(freq)

# Sorteer de frequenties van hoog naar laag. "key=lambda x: freq[x]" is nodig voor het juist sorteren aangezien de frequenties
# opgeslagen zijn in een dictionary (een data type). "reverse = True" zorgt ervoor het van hoog naar laag is gesorteerd
sorted_f = sorted(freq, key=lambda x: freq[x], reverse = True)

# Laat het volgende zien waarbij showTitle de titel van het egodocument laat zien.
print( f'The following words occur most frequently in the text { egodocument } ({ showTitle( egodocument )}).\n' )

# Maak een teller die bij houdt hoeveel woorden er zijn laten zien.
count = 0

# Voor iedere frequentie in de van hoog naar laag gesorteerde lijst met frequenties:
for f in sorted_f:
    
    # Laat het woord en de frequentie zien. ".format" vult de "{}" in. Hier met respectievelijk het woord (f) en de frequentie
    # van het woord f (freq[f]).
    print( '{} => {}'.format(f, freq[f]))
    
    # Tel een op bij het aantal woorden wat er is getoond
    count += 1
    
    # Als het maximale aantal woorden is getoond, stop met laten zien
    if count == max:
        break

The following words occur most frequently in the text 03391.txt (Indonesie? liet me nooit meer los : vijftig jaar antikoloniale strijd).

indonesië => 424
indonesische => 246
tijd => 196
cpn => 187
nederland => 178
partij => 174
pki => 165
nederlandse => 153
veel => 150
waarheid => 144
ging => 143
kwam => 131
groot => 130
enkele => 125
politiek => 116
grote => 115
zoals => 101
oorlog => 100
jaren => 97
paar => 97
redactie => 88
indonesiërs => 86
kreeg => 86
land => 86
wilde => 85
keer => 83
chinese => 83
sukarno => 82
jaar => 81
goed => 80


**Oefening 4: Bepaal de meest frequente woorden in een van de egodocumenten in het corpus van "Soldaat in Indonesië". Experimenteer met verschillende waarden voor de variabelen `egodocument` en `max`.**

De woordfrequenties geven deels een vertekend beeld, omdat in veel memoires letterlijk passages of hele delen van dagboeken uit de tijd zelf worden gebruikt. Eigenlijk zou je die boeken die verhoudingsgewijze veel van deze teksten bevatten moeten kunnen isoleren, zodat de boeken zonder deze passages kunnen worden geanalyseerd. Dat kan alleen door extra codes aan de publicaties toe te voegen die dit verschil aangeeft. Die laag is er nu nog niet, maar staat wel in de planning.

Veranderingen in woordgebruik zijn gebonden aan tijd en veranderingen in de samenleving. Omdat dit corpus zich uitstrekt vanaf de periode van het conflict zelf (1945-1949) tot aan 2017, is het interessant om het voorkomen van bepaalde termen chronologisch te vergelijken. De onderstaande code verdeelt het corpus in perioden van 5 jaar, en berekent vervolgens de woordfrequenties voor de egodocumenten die in deze verschillende tijdvakken verschenen. Hierbij moet wel de kanttekening worden geplaatst dat niet alle egodocumenten konden worden gedateerd. Bij deze analyse worden de teksten die nog niet zijn gedateerd genegeerd. Verder is het uiteraard ook zo dat er een onevenredige verdeling is van het aantal boeken over deze perioden. De absolute frequenties kunnen daardoor niet zonder meer worden vergeleken. OM de frequenties toch vergelijkbaar te maken zijn de absolute tellingen steeds gedeeld door het totaal aantal woorden in de egoducmenten uit de verschillende perioden.

De lengte van de geanlyseerde periode kan overgens worden aangepast via de variabele `period_length`. 

De resultaten worden getoond in dit Notebook, maar worden eveneens weggeschreven in een bestand met de naam `frequency_chronological.csv`. 
# CSV VERANDEREN NAAR EXCEL?

In [6]:
# Hier gebeurd nog iets raars
start = 1930
end = 2020
period_length = 5
nr_words = 20

path = '../Corpus'

def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])

intervals = []

out = open( 'frequency_chronological.csv' , 'w' , encoding = 'utf-8' )
out.write( 'year_from,year_to,tokenCount,term,frequency\n' )

for year in range( start , end , period_length ):
    intervals.append(year)

for year in intervals:
    year_from = year
    year_to =  period_length -1 + year

    freqTotal = dict()
    tokensTotal = 0
    egodocuments = 0

    for file in os.listdir(path):
        if re.search( 'txt$' , file ):
            year = showYear( file )
            if year is not None:
                if year >= year_from and year <= year_to:
                    egodocuments += 1
                    freq = calculateWordFrequencies( join( path, file ) )
                    freqTotal.update(freq)
                    tokensTotal += numberOfTokens( join( path, file ) )

    print( f'\n{ year_from }-{ year_to }\n{tokensTotal} words in total in {egodocuments} egodocuments\n\n' )


    freqTotal = removeStopwords( freqTotal )

    count = 0
    for word in reversed( sortedByValue(freqTotal) ):
        out.write( f'{year_from},{year_to},{tokensTotal},{word},{freqTotal[word]}\n' )
        print( f' { word } => { freqTotal[word] / tokensTotal }' )
        count += 1
        if count == nr_words:
            break

out.close()



1930-1934
0 words in total in 0 egodocuments



1935-1939
243456 words in total in 3 egodocuments


 hier => 0.0016142547318611987
 berghem => 0.0011459976340694007
 aktie => 0.0007968585699263933
 veel => 0.0007023856466876971
 uur => 0.0006695254994742376
 paar => 0.0006325578338590957
 nou => 0.0005380849106203996
 komen => 0.0005257623554153522
 wordt => 0.0005134398002103049
 batavia => 0.0005052247634069401
 tijd => 0.0004887946898002103
 week => 0.0004846871713985279
 natuurlijk => 0.00047236461619348054
 alles => 0.00046414957939011566
 één => 0.00045182702418506836
 thuisfront => 0.0004436119873817035
 dagen => 0.0004230743953732913
 heel => 0.0004148593585699264
 boeijen => 0.00040664432176656153
 jongens => 0.00040253680336487907

1940-1944
154217 words in total in 4 egodocuments


 delft => 0.0006095307261845322
 studenten => 0.000557655770764572
 vorrink => 0.00035015594908473127
 amsterdam => 0.0003307028408022462
 bijlage => 0.00029828099366477107
 veel => 0.00029828099


2000-2004
426797 words in total in 14 egodocuments


 denk => 0.0003842576213047421
 medan => 0.00037254244992349994
 sibolga => 0.00029756535308355026
 poera => 0.00025304770183483017
 froukje => 0.0001640123993373899
 4-2 => 0.00014761115940365092
 metslawier => 0.0001452681251274025
 brigade => 0.0001382390222986572
 kerk => 0.00012652385091741508
 sake => 0.00011480867953617294
 haulerwijk => 0.00011246564525992451
 neede => 0.00011246564525992451
 the => 0.00010777957670742765
 wél => 0.00010543654243117922
 tarutung => 0.00010543654243117922
 jammer => 0.00010543654243117922
 barus => 0.00010075047387868237
 tjiandjoer => 9.137833677368867e-05
 16-6-2004 => 9.137833677368867e-05
 chinezen => 9.137833677368867e-05

2005-2009
327844 words in total in 18 egodocuments


 nico => 0.001436658898744525
 menado => 0.0004819365307890338
 kotamobagoe => 0.0002714705774697722
 5-5 => 0.00022876734056441478
 con => 0.00019216456607410842
 tienen => 0.00019216456607410842
 r.l => 0.000186064

**Oefening 4: Probeer met behulp van de bovenstaande code te verkennen hoe het woordgebruik zich ontwikkelde over de loop van de afgelopen decennia. Verander hiervoor de waarde van de variabelen `period_length` en `nr_words`.**

Woordsoorten als zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden drukken zijn over het algemeen het meest bepalend voor de betekenis van zinnen. Het kan daarom nuttig en informatief zijn om frequentie-analyses te beperken tot dit soort woorden. In de onderstaande cellen worden uitsluitend de zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden geteld, door gebruik te maken van de hierboven al genoemde module `nltk`. Deze module richt zich normaal gesproken op Engelstalige teksten. Om `nltk` ook toe te kunnen passen op Nederlandstalige teksten moet eerst de onderstaande code worden uitgevoerd. 

In [8]:
import nltk
nltk.download('alpino')

from nltk.corpus import alpino as alp
from nltk.tag import UnigramTagger, BigramTagger
training_corpus = alp.tagged_sents()
unitagger = UnigramTagger(training_corpus)
bitagger = BigramTagger(training_corpus, backoff=unitagger)
pos_tag = bitagger.tag

[nltk_data] Downloading package alpino to
[nltk_data]     C:\Users\Gebruiker\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\alpino.zip.


Als de installatie van de Nederlandstalige variant van `nltk` geen problemen opleverde, kan de onderstaande, meer gerichte frequentie-analyse worden uitgevoerd. Let er hierbij op dat het toekennen van grammaticale categorieën wel enige rekenkracht vergt. Het uitvoeren van de code kan dus enige tijd in beslag nemen.  

In [11]:
from kitlvTdm import *
import os
from os.path import join
from nltk.tokenize import sent_tokenize, word_tokenize

nr_words = 100

path = 'toyCorpus'
egodocument = '03391.txt'

def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])



out = open( 'frequency_POS.csv' , 'w' , encoding = 'utf-8' )
out.write( 'word,frequency\n' )



freqTotal = dict()

countFile = 0 

for file in os.listdir(path):
    if re.search( 'txt$' , file ):
        countFile += 1
        if file == egodocument:
        #print( '\rReading {} ... ({}/577)'.format(file , countFile ) )
            with open( join( path, file ) ) as fileName:
                fullText = fileName.read()
                sent = sent_tokenize(fullText)
                for s in sent:
                    words = word_tokenize(s)
                    pos = pos_tag(words)
                    for p in pos:
                        if p[1] is not None:
                            if re.search( r'^(adj)|(noun)|(verb)' , p[1] ):
                                freqTotal[ p[0]  ] = freqTotal.get( p[0] ,0 ) + 1


freqTotal = removeStopwords( freqTotal )

for word in reversed( sortedByValue(freqTotal) ):
    out.write( f'{word},{freqTotal[word]}\n' )
    print( f' { word } => { freqTotal[word] / tokensTotal }' )
    count += 1
    if count == nr_words:
        break

out.close()

FileNotFoundError: [WinError 3] Het systeem kan het opgegeven pad niet vinden: 'toyCorpus'

**Oefening 5: Probeer een lijst te generen van de 150 meest frequente zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden.**