# 2. Collocatie - het tellen van woorden in de buurt van een term
Net als bij een concordantie richt een collocatie-analyse zich op de context van specifieke zoektermen. Het verschil is dat bij een collocatie-analyse alle woorden in de context worden geteld. Op deze manier kan er een beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. 

In de code hieronder verwijst `search_term` weer naat de term waarnaar wordt gezocht, en `window` bepaalt weer het aantal woorden voor en na de opgegeven zoekterm.

In de onderstaande code wordt ook de functie 'removeStopwords()' gebruikt. Deze functie heeft als effect dat de woorden die in alle documenten gemiddeld genomen even vaak voorkomen (bv. de, het, een wij, zijn, hebben, geweest, allen, doen, ik, jullie, etc.) en dus niet onderscheidend zijn voor een bepaald document, verwijderd worden. 

De onderstaande code zoekt in het gehele corpus, dat uit ca. 600 egodocumenten bestaat, en het uitvoeren van de code kan daarom enige tijd in beslag nemen.

In [5]:
import os
from os.path import join
import re
import pandas as pd
from kitlvTdm import *

# Maak drie variabelen, de dir (directory/map) corpus, de zoekterm 'baboe', en de search window: 30/

path = 'Corpus'
searchTerm = 'joden'
window = 30

min_year = 1900
max_year = 1950

# Maak een dictionary corpusFreq (een variabele die werkt in de vorm {key : value, key : value})
corpusFreq = dict()

# Voor ieder bestand in de map in de variabele dir ('corpus')
for i, file in enumerate(os.listdir( path )):
    
    # Bereken en toon het percentage van de boeken dat is gelezen
    percentage_done = i / len(os.listdir(path)) * 100
    print("percentage done: {:.2f}%".format(percentage_done), end = "\r")
    
    # Als het bestand een tekst bestand is:
    if re.search( '[.]txt$' , file ):
        year = showYear(file)

        # Hier wordt gecheckt er een jaar van het boek bekent is en het jaar uit 4 tekens bestaat.
        if year != "" and len(year) == 4:
            year = int(year) # Zo ja: maak er een nummer ipv tekst van

            # Hier wordt gecheckt of het jaar van het boek in de periode valt.
            if year >= min_year and year <= max_year:
                
                # Vind de frequencies van alle woorden die voorkomen in de buurt van de zoekterm. Sla ze op in de variabele freq
                # "In de buurt" wordt dus aangegeven door de variabele 'window'
                freq = collocation( join( path , file ) , searchTerm , window )

                # Verwijder de stopwoorden uit de gevonden collocaties 
                freq = removeStopwords( freq )

                
                # Voeg de gevonden collocaties zonder stopwoorden toe aan de variabele corpusFreq.
                for word in freq:
                    if word  in corpusFreq: # Als het woord al in corpusFreq staat: tel extra aantal erbij op
                        corpusFreq[word] += freq[word]
                    else: # anders, plaats het woord in corpusFreq
                        corpusFreq[word] = freq[word]
        
        
# Het aantal collocaties dat je wilt laten zien
max = 30

# De teller die bijhoudt hoeveel collocaties er zijn getoond.
i = 0

# Als er collocaties zijn gevonden:
if len(corpusFreq)> 0:

    # Sorteer de collocaties van hoog naar laag. "key = lambda x: corpusFreq[x]" is nodig voor het juist sorteren aangezien de
    # frequenties opgeslagen zijn in een dictionary (een data type). "reverse = True" zorgt ervoor het van hoog naar laag 
    # is gesorteerd (ipv de automatische laag naar hoog).
    corpusFreqSorted = sorted(corpusFreq, key = lambda x: corpusFreq[x], reverse = True)

    print( f'De volgende woorden komen het vaakste voor bij { searchTerm }: \n' )

    # Print het volgendende waarbij searchTerm de eerder gedefinieerde zoekterm is

    for f in corpusFreqSorted:
        i += 1

        # Voor iedere collocatie in de van hoog naar laag gesorteerde frequenties
        # Teller plus 1
        # Laat het woord en de frequentie zien waarmee het voorkomt in de buurt van de zoekterm
        print( '{} =>  {}'.format( f , corpusFreq[f] ) )



        # Als er "max" (hierboven gedefinieerd) collocatie frequenties zijn getoond:
        # Stop met laten zien
        if i == max: 
            break


    
    
           
            

De volgende woorden komen het vaakste voor bij joden: 

mensen =>  15
oorlog =>  15
nederlandse =>  12
men =>  10
wordt =>  9
duitse =>  9
onderduikers =>  9
i =>  9
wereldoorlog =>  8
joodse =>  8
grote =>  8
zien =>  8
mm =>  8
transport =>  7
nederland =>  7
jaar =>  7
maken =>  7
één =>  7
aantal =>  7
tweede =>  6
israël =>  6
tijd =>  6
bekend =>  6
dood =>  6
kwam =>  6
sinti =>  6
palestina =>  5
veel =>  5
iets =>  5
films =>  5


Wanneer je de code voor de collocatie-analyse hebt uitgevoerd kun je het resultaat opslaan met de code in de onderstaande cel. Deze code maakt een bestand aan met de naam 'collocation.csv' waarin de woorden en de frequenties terug te vinden zijn. 

# BESTANDS NAAM VERANDEREN IN DEZE TEKST

In [6]:
import os
from os.path import join
import re
import pandas as pd
from kitlvTdm import *

# Maximaal aantal woorden waarvan de frequentie wordt opgeslagen in excel bestand, gesorteerd van hoog naar laag.
max = 30

# De naam van het bestand dat wordt opgeslagen.
outFile = 'joden-collocation'

## VOOR STEF: het kan ook automatisch als:
outFile = f'{searchTerm}-collocation'

# Maak een Pandas DataFrame, een soort tabel met extra functionaliteit, met gespecificeerde kolom namen.
df = pd.DataFrame(columns = ["term", "frequency"])

# Een teller die op nul staat.
count = 0

# Voor ieder woord in de van hoog naar laag gesorteerde frequenties.
for f in corpusFreqSorted:
    
    # Voeg een rij toe aan het dataframe met de volgende structuur: {"naam van de kolom"} : waarde.
    df = df.append({"term" : f, "frequency" : corpusFreq[f]}, ignore_index = True)
    
    # Tel een op bij de teller
    count += 1
    
    # als het maximaal aantal woorden zijn toegevoegd aan het dataframe stop met toevoegen.
    if count == max:
        break
        
# Sla het DataFrame op als excel bestand.
df.to_excel(f"{outFile}_{min_year}_{max_year}.xlsx")
print(f"Excel file saved as {outFile}_{min_year}_{max_year}.xlsx" )


Excel file saved as joden-collocation_1900_2500.xlsx


**Oefening 2: Voer een collocatie-analyse uit, aan de hand van een zoekterm die van belang kan zijn voor jouw onderzoek. Experimenteer met verschillende waarden voor de variabelen `search_term`, `window`.**