# Zoeken op basis van Text & Data Mining


## installeren en importeren van modules

In dit tutorial vind je uitleg over hoe je het corpus van "Soldaat in Indonesie" kunt doorzoeken op basis van Text & Data Mining. Er wordt hierbij gebruik gemaakt van de programmeertaal Python. Dit tutorial is echter geen basisintroductie tot programmeren in Python. De voorbeelden hieronder laten alleen zien hoe je het corpus kunt doorzoeken met behulp van bestaande modules en bibliotheken. Modules zijn kant en klare en herbruikbare ‘pakketjes’ code waarin specifieke functionaliteiten worden aangeboden. De meeste modules zijn generiek, en kunnen dus op verschillende datasets worden toegepast.

Voordat je van deze modules gebruik kunt maken moet je ze eerst installeren. Modules en bibliotheken kunnen via de onderstaande commando's worden geinstalleerd. Plaats de cursor in de onderstaande cel staan, en klik daarna op [shift] + [Enter]. Hierna verschijnen er, als het goed is, een aantal meldingen over het installatieproces.


In [None]:
import sys
!conda install --yes --prefix {sys.prefix} os
!conda install --yes --prefix {sys.prefix} nltk
!conda install --yes --prefix {sys.prefix} wordcloud
!conda install --yes --prefix {sys.prefix} matplotlib

In dit tutorial wordt onder meer gebruik gemaakt van de module ‘os’. Deze module biedt een aantal functies waarmee je contact kunt maken met het besturingssysteem van je computer (de letters in 'os' staan voor 'operating system'). Met de functies in deze module kun je onder meer de inhoud van een map op je computer lezen. 

'nltk' is een verzameling modules die je kunt gebruiken bij analyses op het gebied van Natural Language Processing. Zo kun je paragrafen op laten splitsen in afzonderlijke zinnen, je kunt de stam van een woord of een werkwoord vinden, en je kunt de computer vragen om grammaticale categorieën toe te voegen aan woorden.

Als alle modules correct zijn geinstelleerd kunnen deze worden geimporteerd. Zo'n import zorgt er vervolgens voor dat alle code ook in het huidige programma gebruikt kunnen worden. 

Plaats de cursor in de onderstaande cel staan, en klik daarna op [shift] + [Enter]. Als alle modules goed zijn geinstalleerd verschijnen er hierna geen meldingen. 

In [None]:
import os
from os.path import isfile, join , isdir
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
from kitlvTdm import *

De module ‘kitlvTdm’ is specifiek ontwikkeld voor dit KITLV corpus van memoires en bevat een aantal basisoperaties op het gebied van Text & Data Mining.


## Zoeken naar een specifieke term

De onderstaande code laat zien hoe je op zoek kunt gaan naar egodocumenten die een bepaald trefwoord bevatten. Het woord dat gezocht moet worden moet worden opgegeven als waarde van de variable '*searchTerm*'. De waarde van de variabele '*searchTerm*', tussen de twee aanhalingstekens, kan worden aangepast. 

Er wordt in de onderstaande code gebruik gemaakt van de module 're', waarmee je kunt zoeken naar zogenaamde reguliere expressies of woordpatronen. Wanneer de code wordt uitgevoerd toont het programma een lijst van alle documenten waar de term die is opgegeven in voorkomt. 

Tijdens het digitaliseren van de egocumenten in het corpus van 'Soldaat in Indonesië' hebben alle documenten een eigen numerieke code gekregen. Deze codes zijn ook gebruikt in de bestandsnamen. De functie '*showTitle()*', in de module kitlvTdm, zoekt de volledige titles bij deze documentcodes. Er wordt hierbij gebruik gemaakt van een bestand met de naam '*metadata.csv*'.

In [None]:
searchTerm = 'molukker'

dir = 'corpus'

print( 'The term \'{}\' occurs in the following titles:\n'.format( searchTerm ) )

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        egodocument = open( join( dir , file ) )
        if re.search( searchTerm , egodocument.read() ):
            print(  file + ': ' + showTitle( file )  )


## *Oefening 1*

Dubbelklik in de bovenstaade cel. Vervang de waarde van de variabele 'searchTerm' met een zoekterm die mogelijk van belang is voor je eigen onderzoek. Klik vervolgens op [Shift] + [Enter]

Met de onderstaande code kunnen alle paragrafen waar de opgegeven zoekterm in voorkomt worden gevonden. De variabele "searchTerm" bepaalt de zoekterm, en de variable "file" geeft de bestandsnaam aan. 

In [None]:
searchTerm = 'molukker'

dir = 'corpus'
file = '03391.txt'

print(  'All occurrences of "{}" in "{}":\n\n'.format( searchTerm , showTitle( file ) ) )


egodocument = open( join( dir , file ) )
for par in egodocument:
    if re.search( searchTerm , par ):
            print(  par  )

## *Oefening 2*

Vervang de waarde van de variabelen "searchTerm" en "file", op basis van de resultaten van oefening 1. 

## Concordantie

Om de relevante passages te bekijken kan eveneens gebruik worden gemaakt van een een concordantie (of een keyword-in-context-list). Dit is een lijst van alle fragmenten waar het genoemde trefwoord in voorkomt, met een vast aantal wooren voor en een vast aantal woorden na het trefwoord.

In de onderstaande code moet er op de eerste plaats een zoekterm worden opgegeven, als waarde van de variabele *searchTerm*. De omvang van de context (het aantal woorden voor en na het trefwoord) moet worden vastgelegd via de variabele 'window'. 

In [None]:
dir = 'corpus'

searchTerm = 'baboe'
window = 2

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        book = open( join( dir , file ) )
        if re.search( searchTerm , book.read() , re.IGNORECASE ):
            
            print( '\n\nOccurrences in: ' + showTitle( file ) + '\n\n' )

            matches = concordance( join( dir , file ) , searchTerm , window )
            for match in matches:
                print(match)



## *Oefening 3*

Maak een concordantielijst voor een zoekterm die van belang kan zijn voor jouw onderzoek. Experimenteer met verschilende waarden voor de variabelen '*searchTerm*' en '*window*'

## Collocatie

Net als bij een concordantie (zie hierboven) richt een collocatie-analyse zich op de context van specifieke zoektermen. Bij een collocatie-analyse worden alle woorden in de context geteld. Op deze manier kan er een beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. 

Variabele '*egodocument*' verwijst naar de tekst die moet worden doorzocht, '*searchTerm*' is de term waarnaar wordt gezicht, en '*window*' bepaalt het aantal woorden voor en na de opgegeven zoekterm. 

In de onderstaande code wordt ook de functie '_removeStopwords()_' gebruikt. Deze functie heeft als effect dat veelvoorkomende woorden zonder veel betekenis (lidwoorden, voornaamwoorden, voorzetstel) buiten beschouwing worden gelaten.

In [None]:
egodocument = '03390.txt'
dir = 'corpus'
searchTerm = 'java'
window = 30

freq = collocation( join( dir , egodocument ) , searchTerm , window )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0


print( f'The following words are used most frequently in the vicinity of "{ searchTerm }": \n' )

for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

## *Oefening 4*

Voer een collocatie-analyse uit, aan de hand van een zoekterm die van belang kan zijn voor jouw onderzoek. Experimenteer met verschilende waarden voor de variabelen '*searchTerm*', '*egodocument*' en '*window*'

## Woordfrequenties


Welke woorden komen het meeste voor in een bepaald egodocument? De onderstaande code berekent de woorden die het meeste voorkomen in de tekst die wordt genoemd in de variabele 'egodocument'. Deze code maakt net als bovenstaande code gebruik van de functie '_removeStopWords()_'.

In [None]:
egodocument = '03391.txt'

freq = calculateWordFrequencies( join( dir , egodocument ) )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0

print( f'The following words occur most frequently in the text { egodocument } ({ showTitle( egodocument )}).\n' )


for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

## *Oefening 5*

Bepaal de meet frequente woorden in een van de egodocumenten in het corpus van "Soldaat in Indonesie". Experimenteer met verschilende waarden voor de variabelen '*egodocument*'.