# Simpele zoekacties

In dit tutorial vindt je uitleg over hoe je het corpus van "Soldaat in Indonesie" kunt doorzoeken op basis van Text & Data Mining. Er wordt hierbij gebruik gemaakt van de programmeertaal Python. Dit tutorial is echter geen basisintroductie tot programmeren in Python. De voorbeelden hieronder laten allen zien hoe je het corpus kunt doorzoeken met behup van bestaande modules en bibliotheken. Modules zijn kant en klare en herbruikbare ‘pakketjes’ code waarin specifieke functionaliteiten worden aangeboden. De meeste modules zijn generiek, en kunnen dus op verschillende datasets worden toegepast. 

In dit tutorial wordt onder meer gebruik gemaakt van de module  ‘os’. Deze module biedt een aantal functies waarmee je contact kunt maken met het besturingssysteem (de letters in 'os' staan voor 'operating system'). Met de functies in deze module kun je onder meer de inhoud van een map op je computer lezen. 'nltk' is eveneens een verzameling modules. De 'Natural Language Toolkit' is een verzameling functies die je kunnen helpen om de methodologie van Natural Language Processing toe te passen. Je kunt paragrafen in afzonderlijke zinnen, je kunt de stam van een woord of werkwoord als apart onderdeel in je resultaten te krijgen, of je kunt de computer vragen om grammaticale categorieen toe te kennen.

De module kitlvTdm is specifiek ontwikkeld voor het KITLV. Deze module bevat een aantal basisoperaties op het gebied van Text & Data Mining.

Voordat je van deze bestaande modules gebruik kunt maken moet je deze eerst importeren via het commando 'import'. In de cel hieronder worden alle benodigde modules geimporteerd. Ga met de cursor in dze cel staan, en klik daarna op [shift] + [Enter].


In [None]:
import os
from os.path import isfile, join , isdir
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
import xml.etree.ElementTree as ET
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from kitlvTdm import *

Wanneer de bovenstaande cel foutmeldingen oplevert kan dit mogelijk worden veroorzaakt doordat de modules ng niet zijn geinstalleerd. Modules kunnen namelijk alleen worden geimporteerd wanneer ze eerst zijn geinstalleerd. Modules en bibliotheken kunnen via de onderstaande commando's worden geinstalleerd.

In [None]:
import sys
!conda install --yes --prefix {sys.prefix} os
!conda install --yes --prefix {sys.prefix} nltk
!conda install --yes --prefix {sys.prefix} wordcloud
!conda install --yes --prefix {sys.prefix} matplotlib

De code laat zien hoe je op zoek kunt gaan naar egodocumenten die een bepaald trefwoord bevatten. Het woord dat gezocht moet worden moet worden opgegeven als waarde van de variable '*searchTerm*'. De onderstaande code zoekt naar egodocumenten waar het woord 'molukker' in voor komt. De waarde van de variabele '*searchTerm*', tussen de twee aanhalingstekens, kan worden aangepast. 

Er wordt in de onderstaande code gebruik gemaakt van de module 're', waarmee je kunt zoeken naar zogenaamde reuliere expressies of woordpatronen. Wanneer de code wordt uitgevoerd toont het programma een lijst van alle documenten waar de term die is opgegeven in voorkomt. 

In het corpus worden eigen codes gebruikt voor de gedigitaliseerde teksten. Via een bestand 'metadata.csv' worden de juiste titels bij deze codes gezocht. De waarde van de variable _searchTerm_ kan worden aangepast. 

In [5]:
searchTerm = 'molukker'

print( 'The term \'{}\' occurs in the following titles:\n'.format( searchTerm ) )

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        book = open( join( dir , file ) )
        if re.search( searchTerm , book.read() ):
            print(  file + ': ' + showTitle( file )  )


The term 'molukker' occurs in the following titles:

03391.txt: Indonesie? liet me nooit meer los : vijftig jaar antikoloniale strijd
03393.txt: Hij ging, kwam terug en keerde weer
03500.txt: Van de polder naar de sawa (1940)
03585.txt: Indie?-gangers uit Ootmarsum vertellen!
03649.txt: IJsbloemen en witte velden : Ger V. en een spoor van geweld (1989)
03662.txt: De hinderlaag bij Sindoeradja : militaire acties op Java, 1948-1950 (1987)
03664.txt: Ned. Indië 1940-1950 in kort bestek : en enkele gevolgen, o.a. de coup-Westerling en het Zuidmolukse verzet (1989)
03994.txt: De witte karbouw : herinneringen aan een oorlog in de tropen (1992)


Om de relevante passages te bekijken kan gebruik worden gemaakt van een een concordantie (of een keyword-in-context-list). Dit is een lijst van alle fragmenten waar het genoemde trefwoord in voorkomt, met een vast aantal wooren voor en een vast aantal woorden na het trefwoord.

In de onderstaande code moet er op de eerste plaats een zoekterm worden opgegeven, als waarde van de variabele *searchTerm*. De omvang van de context (het aantal woorden voor en na het trefwoord) moet worden vastgelegd via de variabele 'window'. 

In [14]:
searchTerm = 'molukker'
window = 1


for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        book = open( join( dir , file ) )
        if re.search( searchTerm , book.read() , re.IGNORECASE ):
            
            print( '\n\nOccurrences in: ' + showTitle( file ) + '\n\n' )
            matches = concordance( join( dir , file ) , regex , window )
            for match in matches:
                print(match + '\n')
    




Occurrences in: Indonesie? liet me nooit meer los : vijftig jaar antikoloniale strijd


ONTMOETINGEN MET AMBONEZEN BEZOEK SUKARNO AAN BONDSREPUBLIEK niets met de Indonesische Republiek op had. Het werd mij duideh lijk, dat de leefgemeenschap niet alleen Ambonezen betrof, maar e ook mensen van andere kleinere eilanden in de Molukken. De r I naam Molukkers is meer op zijn plaats.
Als resultaat van deze twee reportages kreeg ik een ontmoeting met enkele Molukkers in een dorpje nabij Appelscha, in het huis van een kleine Friese boer, die met een Amsterdamse was getrouwd. Zij had een brief aan het partijbestuurslid Cees Meijer geschreven over haar contact met Molukkers. Cees nam het op met Amsterdam en ik ging erheen. Drie van hen, belijdend christen, kwamen voor het gesprek. Zij hadden hun vertrouwen in de Nederlandse overheid verloren, maar toonden eveneens weinig begrip voor de Indonesische Republiek. Uit hun geest was het idee van een Republiek der Zuid-Molukken niet helemaal verdwene



Occurrences in: Een stilte die spreekt : herdenken in diversiteit


DE BEZETTING VAN NEDERLAND GEVOLGEN VOOR BURGERS DE BEZETTING VAN NEDERLAND-INDIË BURGERSLACHTOFFERS MILITAIREN IN EUROPA EN AZIË Max Tauran É* ^er (1932) is een actieve Molukker. Zijn belevenissen in de oorlog op Ceram maakten hem voor zijn dertiende volwassen.
Als ik terugdenk aan de oorlog denk ik vaak aan mijn oom Amos. Japan was al vroeg in 1942 begonnen met infiltratie op de Molukse eilanden, omdat de Molukkers bekend stonden als keiharde vechtersbazen van de Nederlandse regering. Op een dag gingen mijn vader, oom Amos en ik naar onze klapper-plantage vlakbij Kamarian. Een tuinman daar had de Kempeitai, de Japanse geheime politie, op de hoogte gesteld van onze komst. Mijn vader en oom werden toegetakeld, en mij gooiden die Kempeitai naar de kali, de rivier. Ik kwam met mijn rug op de stenen, waardoor ik tot op de dag vandaag last van mijn rug heb. Oom Amos was zo zwaar gewond dat hij de volgende dag is overlede



Occurrences in: Bij de inlichtingendienst op Midden-Java


Degenen die een Nederlands paspoort bezaten, kwamen voor repatriëring in aanmerking, terwijl ook de Molukkers naar Nederland mochten. Toen deze mannen uit de Oost in Nederland aankwamen werden zij met de nek aangekeken en kregen zij het etiket moordenaar opgeplakt. De ontsporingen werden uitvergroot en de goede dingen bleven buiten schot. Hierbij werd volledig voorbijgegaan aan het feit dat aan de pen van menig politicus meer bloed kleeft dan aan de bajonet van Jan Soldaat.


Occurrences in: Op weg naar de ondergang (1918)


Zesduizend en zeshonderd gesneuvelden. Tien duizenden die hun leven verwoest is door het trauma Indië Het ergste wat deze jongens allemaal is overkomen, dat ze bij thuiskomst en ook later door onze regering in de steek zijn gelaten. Dat heeft pijn gedaan. Dan zeg ik maar, ze hebben ons verraden. Ik heb daar een speciaal boek over geschreven, wat er niet om liegt, en dat gedeeltelijk hier achter komt, zoda



Occurrences in: Staphorster militairen in de tropen


Direct werd er groot alarm geslagen en moesten wij met al onze uitrusting het veld in. We reden op vrachtwagens in het donker een eind in de bewuste richting. Wij waren al van de vrachtwagen en zouden het veld ingaan toen er een tegenbericht kwam dat wij weer op de vrachtwagens moesten en terugrijden naar ons kampement. Een peloton Ambonezen (Zuid Molukkers) hadden tegen onze commandant gezegd dat zij wel vrijwillig het veld in wilden gaan. Wij hadden de hele dag al patrouille gelopen en nog geen ervaring om bij nacht op pad te gaan. Zij hadden routine opgedaan om bij nacht te patrouilleren. Ze gingen tot voorbij de plaats waar het drama zich had afgespeeld. Daar gingen ze in linie de ochtend afwachten. De man die alleen was achtergebleven en zich had ingegraven kreeg weer de schrik van zijn leven toen hij die Ambonezen voor de vijand aanzag omdat hij hen allen hoorde fluisteren in de Maleise taal. Hij had gehoord hoe zijn kamerad



Occurrences in: Toen had je de politionele acties : maar zonder 5-2 RI : 5-2 RI, 1947-1950: Nijmegen, Celebes, Java, Sumatra, Borneo : een beknopte geschiedenis van het bataljon 5-2 RI tegen de achtergrond van het Nederlands-Indonesisch conflict aan de hand van de belevenissen van soldaat eerste klas Nico Messing (2008)


WOORD VOORAF 7 WAT ERAAN VOORAFGING 9 Nederlands-lndië vanaf de VOC tot de Tweede Wereldoorlog 9 Nederlands-lndië na de Japanse capitulatie 13 Nederlandse dienstplichtigen naar Indië 17 Linggadjati, de Eerste Politionele Actie en de Renville-Overeenkomst 20 DE TIJD IN NIJMEGEN EN DE REIS NAAR INDIë 23 De opleiding in Nijmegen 30 Intermezzo: De Indonesië-weigeraars 37 Aan boord van de Groote Beer 39 De zeeroute naar Indië 43 Intermezzo: Soldaat Wessel Messing naar Batavia in 1743 46 De aankomst in Indië 47 DE TIJD OP CELEBES 50 De eerste standplaats Kotamobagoe 52 Intermezzo: De Maleise taal 56 De tangsi in Kota 57 Intermezzo: De communistische opstand in Madioen 59 



Occurrences in: Indië moet vrij : mijn bewogen jaren als oorlogsvrijwilliger in Nederlands Oost-Indië, 1945-1948


Korte tijd later blies Bung Soekamo de federale Republiek op en kondigde de eenheidsstaat Republiek Indonesia af. Het leger kreeg bevel alle onwillige potentaten en hun aanhang in de archipel zonodig met geweld te onderwerpen. De Javaanse strijdmacht voer daarop met de schepen van de Nederlandse pakketmaatschappij die zij van Nederland hadden overgenomen naar de kusten van de eilanden. Sommige staten pleegden verzet. De Zuid-Molukkers hesen de vrijheidsvlag. Zij wilden niet een provincie van de Republiek worden en beriepen zich op de gesloten overeenkomst. De militaire arm van het KNIL waren juist de Ambonezen.


Occurrences in: Pancrassers onder de wapenen in de tropen, 1946-1962


Evenals Piet Booy, Piet de Wit en Jan van Zelm toog Wiedijk met een accordeon naar Indië Na tweeëneenhalf jaar kwam hij weer thuis. Over zijn ervaringen sprak hij amper. Eén uitspraak is zijn



Occurrences in: IJsbloemen en witte velden : Ger V. en een spoor van geweld (1989)


Rothuizen had dat niet zo goed begrepen. Het was niet de Sunday Times geweest, maar Renate Rubinstein die gesuggereerd had dat hij in Indonesië officier in het leger en een bewonderaar van Westerling was geweest. Zij had, met haar gebruikelijke journalistieke methodiek van grote stappen, gauw thuis die conclusie getrokken uit een duistere tekst in de Sunday Times, waarin een assistent van hem ten tonele werd gevoerd, die luitenant zou zijn in het geheime leger van de Zuidmolukkers. De enige die voor die glorieuze rol in aanmerking kon komen was een Molukse jongen van de administratie, Bennie, die overigens op de dag van de kaping niet bij de telex was weg te slaan en kennelijk wist dat er iets stond te gebeuren.
De Zuidmolukkers hebben ons er mee voor de gek gehouden, aldus de heer V.
Ongetwijfeld hebben in het perscircuit de verhalen de ronde gedaan van de bestorming van het woonhuis van de Indonesi



Occurrences in: Wij waren ingedeeld bij het 4de Bataljon Garde Jagers op Oost-Java en Madoera : onze belevenissen in de jaren 1946-1950 op Madoera en in Oost-Java (1988)


Madoerézen en Molukkers samen Kregen niet de vrijheid, die hen was beloofd Soekarno met zijn duistere trawanten kwamen En de "R.I.S." werd van haar inhoud sluw beroofd.


Occurrences in: De onzalige erfenis van het KNIL (1977)


J)P De kapingen en gijzelingen door de Molukkers hebben een historische achtergrond. Niet alleen vanwege het onrecht dat hun door de Staat der Nederlanden is aangedaan, maar ook vanwege de militante methoden die direct teruggaan op de handelwijze van het KNIL. Het Koninklijk Nederlands-lndisch Leger was vóór 1940 vooral een goed getraind inheems politieleger dat het Nederlandse gezag efficiënt ondersteunde. Na 1945 werd het tot de verdediger van de oude koloniale orde die i van geen akkoord met de republikeinen 1 wilde weten. Harm van Dijk beschrijft zijn ervaringen in gevangenschap en het 

Als we ooit een morele verplichting zijn aangegaan ten opzichte van de volkeren van Nederlands Indië is het wel dat we de schade, veroorzaakt door de introductie van onze eigen smetstoffen, behoren te herstellen. Wij hebben het pad geëffend voor de ergste tirannie die van het ene inheemse ras over het andere. Kunnen we met een gerust hart toezien bij de sluipmoord op twintig verschillende volkeren die de archipel bewonen, door het Sukamo-regime, onder het voorwendsel dat deze laatste groter in aantal is, agressiever en meer beïnvloed door de overheersende ideologische ideeën van Europa dan de andere volkeren? Waarom zouden de Batakkers, de Soendanezen, de Molukkers, de Dajaks en de andere volkeren hun eigen taal niet kunnen behouden. De taal, die de drager is van hun eigen cultuur, hun wetten, gebruiken, hun eigen etnische identiteit het kostbaarste dat een volk (of een indië bezit? In welk opzicht zou hun onderwerping aan de Javanen een weldaad zijn? In Javaans opzicht, generaal. Dat 



Occurrences in: Promotie '42 (1992)


In mei 1950 kreeg ik het commando over de 4e Cie van het Doorgangskamp Semarang, en werd belast met de afwikkeling van het KNIL-personeel in Midden-Java. Als zodanig bleek dat ik "onmisbaar" was zolang de Molukkers niet naar hun geboorteland terug wilden. Alle Menadonezen, Javanen, Timorezen, Surinamers, Soendanezen, Madoerezen en Chinezen werden uit militaire dienst ontslagen en verder "afgewerkt"; de gezinnen werden van kleding voorzien, uitbetaald en op transport gesteld naar hun woonplaatsen. Het is onnodig te vertellen dat voor menigeen het afscheid van het KNIL soms wel zwaar viel.


Occurrences in: 41 Hpva 1948-1950 Het boek (1993)


Als je pas in de tropen bent ken je alleen onderscheid tussen Europeanen en "anderen". Ze zijn zonder uitzondering klein, bruin en hebben allemaal platte neuzen. Totdat iemand, die er al wat langer is je opmerkzaam maakt op toch wel (merk je later pas: grote) verschillen. Je leert dat de Chinees toch een veel 

Net als bij een concordantie (zie hierboven) richt een collocatie-analyse zich op de context van specifieke zoektermen. Bij een collocatie-analyse worden alle woorden in de context geteld. Op deze manier kan er een beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. Variabele 'book' verwijst naar de tekst die moet worden doorzocht, 'searchTerm' is de term waarnaar wordt gezicht, en 'window' bepaalt het aantal woorden voor en na de opgegeven zoekterm. In de onderstaande code wordt ook de functie _removeStopwords()_ gebruikt. Deze functie heeft als effect dat veelvoorkomende woorden zonder veel betekenis (lidwoorden, voornaamwoorden, voorzetstel) buiten beschouwing worden gelaten.

In [None]:
book = '03390.txt'
searchTerm = 'java'
window = 30

freq = collocation( join( dir , book ) , searchTerm , window )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0

for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

De onderstaande code berekent de woorden die het meeste voorkomen in de tekst die wordt genoemd in de variabele 'book'. Deze code maakt net als bovenstaande code gebruik van de functie _removeStopWords()_.

In [None]:
book = '03391.txt'

freq = calculateWordFrequencies( join( dir , book ) )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0

for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

De resultaten van de collocatie-analyse en van de berekening van de meest frequente woorden kunnen ook grafisch worden weergegeven. MatPlotLub is een veelgebruikte visualisatie-bibliotheek in Python. De onderstaande code maakt bivendien gebruik van de _wordcloud_-module. Wanneer via een van de bovenstaande blokken een variable met de naam 'freq' is aangemaakt, worden de woorden, op basis van de bijbehorende tellingen, in een woordenwolk weergegeven.

In [None]:
%matplotlib inline

wordcloud = WordCloud( background_color="white",  width=1500,height=1000, max_words= 100,relative_scaling=1,normalize_plurals=False).generate_from_frequencies(freq)


plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
