# Zoeken op basis van Text & Data Mining


## 1. installeren en importeren van modules

In dit tutorial vind je uitleg over hoe je het corpus van "Soldaat in Indonesie" kunt doorzoeken op basis van Text & Data Mining. Er wordt hierbij gebruik gemaakt van de programmeertaal Python. Dit tutorial is echter geen basisintroductie tot programmeren in Python. De voorbeelden hieronder laten alleen zien hoe je het corpus kunt doorzoeken met behulp van bestaande modules en bibliotheken. Modules zijn kant en klare en herbruikbare ‘pakketjes’ code waarin specifieke functionaliteiten worden aangeboden. De meeste modules zijn generiek, en kunnen dus op verschillende datasets worden toegepast.

Voordat je van deze modules gebruik kunt maken moet je ze eerst installeren. Je kunt dit vergelijken met het installeren van een nieuw programma op je computer. Na de installatie van deze modules worden alle functionaliteiten die hierin worden geboden beschikbaar binnen de nieuwe code die je wilt gaan schijven. Modules en bibliotheken kunnen via de onderstaande commando's worden geinstalleerd. Plaats de cursor in de onderstaande cel staan, en klik daarna op [shift] + [Enter]. Hierna verschijnen er, als het goed is, een aantal meldingen over het installatieproces.

In [None]:
import sys
!conda install --yes --prefix {sys.prefix} os
!conda install --yes --prefix {sys.prefix} nltk
!conda install --yes --prefix {sys.prefix} wordcloud
!conda install --yes --prefix {sys.prefix} wordCloud
!conda install --yes --prefix {sys.prefix} matplotlib

!{sys.executable} -m pip install wordcloud
!{sys.executable} -m pip install wordCloud

In dit tutorial wordt onder meer gebruik gemaakt van de module ‘os’. Deze module biedt een aantal functies waarmee je contact kunt maken met het besturingssysteem van je computer (de letters in 'os' staan voor 'operating system'). Met de functies in deze module kun je onder meer de inhoud van een map op je computer lezen. 

'nltk' is een verzameling modules die je kunt gebruiken bij analyses op het gebied van Natural Language Processing. Zo kun je paragrafen op laten splitsen in afzonderlijke zinnen, je kunt de stam van een woord of een werkwoord vinden, en je kunt de computer vragen om grammaticale categorieën toe te voegen aan woorden.

Als alle modules correct zijn geinstalleerd kunnen deze worden geimporteerd. Zo'n import zorgt er vervolgens voor dat alle functies van deze modules ook in de nieuwe te schrijven code gebruikt kunnen worden. De import zelf geeft, als alle modules goed zijn geinstalleerd, geen meldingen. Je kunt dit vergelijken met het openen van een programma of een app. Als de installatie goed gelukt is, kun je het programma zonder problemen of zonder foutmeldingen openen. 

Plaats de cursor in de onderstaande cel staan, en klik daarna op [shift] + [Enter]. Als alle modules goed zijn geinstalleerd verschijnen er hierna geen meldingen. 

In [None]:
import os
from os.path import isfile, join , isdir
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
from kitlvTdm import *

from wordcloud import WordCloud
import matplotlib.pyplot as plt

from IPython.display import Markdown, display
def printmd(string):
    display(Markdown(string))

De module ‘kitlvTdm’ is specifiek ontwikkeld voor dit KITLV corpus van memoires en bevat een aantal basisoperaties op het gebied van Text & Data Mining.

Let erop dat het corpus met alle gedigitaliseerde egodocumenten moet worden opgeslagen in de map waar ook dit Notebook staat. Een-zip bestand met alle teksten kan worden gedownload via de volgende URL:

https://surfdrive.surf.nl/files/index.php/s/IFb16WXK8pIjuDs

Na het downloaden van het ZIP-bestand moet de map ook worden uitgepakt. 

## 2. Zoeken naar een specifieke term

De onderstaande code laat zien hoe je op zoek kunt gaan naar egodocumenten die een bepaald trefwoord bevatten. Het woord dat gezocht moet worden moet worden opgegeven als waarde van de variable '*searchTerm*'. De waarde van de variabele '*searchTerm*', tussen de twee aanhalingstekens, kan worden aangepast. 

Er wordt in de onderstaande code gebruik gemaakt van de module 're', waarmee je kunt zoeken naar zogenaamde reguliere expressies of woordpatronen. Wanneer de code wordt uitgevoerd toont het programma een lijst van alle documenten waar de opgegeven term die in voorkomt, samen met alle gevonden passages. De grootte van deze passages kan worden bepaald met de variabele 'window'. Het getal dat wordt opgegeven bepaalt het aantal woorden voorafgaand aan en volgend op de gebruikte term.

Tijdens het digitaliseren van de egocumenten in het corpus van 'Soldaat in Indonesië' hebben alle documenten een eigen numerieke code gekregen. Deze codes zijn ook gebruikt in de bestandsnamen. De functie '*showTitle()*', in de module kitlvTdm, zoekt de volledige titles bij deze documentcodes. Er wordt hierbij gebruik gemaakt van een bestand met de naam '*metadata.csv*'. Dat bestand staat in de zelfde map als het corpus en als dit bestand, de notebook met code en instructies. 

Deze specifieke vorm van tekstanalyse wordt ook wel 'concordantie' genoemd. Een andere veelgebruikte term is 'keywords in context' (KWIC). 

Voer de voorbeeldoefening uit door in onderstaande cel dubbel te klikken, en vervolgens op [Shift] + [Enter]

In [None]:
dir = 'corpus'
searchTerm = 'baboe'
window = 4

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        
        book = open( join( dir , file ) , encoding = 'utf-8' , errors = 'ignore' )
        if re.search( searchTerm , book.read() , re.IGNORECASE ):
            title = showTitle(file)
            printmd("<span style='font-weight: bold; color:#6b0617; '>Occurrences in {} ({})</span>".format( title , file))

            matches = concordance( join( dir , file ) , searchTerm , window )
            for match in matches:
                print(' ... {} ... \n'.format( match ) )

Vervang de waarde van de variabele 'searchTerm' met een zoekterm die mogelijk van belang is voor je eigen onderzoek. Probeer ook de waarde van de variabele 'window' te variëren. Als je uit de context wilt kunnen opmaken hoe de betekenis van de term bedoeld is, is het raadzaam minstens 30 woorden er voor en er na te kiezen. Ga weer in de cel staan en klik vervolgens op [Shift] + [Enter]. Je hoeft de eerdere resultaten  niet te wissen. Deze worden vanzelf overschreven.

De resultaten kunnen naar een tekst-bestand worden geexporteerd via de onderstaande code. De bestandsnaam wordt bepaald door de variabele '*outFile*'.

In [None]:
dir = 'corpus'
searchTerm = 'baboe'
window = 4


outFile = 'concordantieExport.txt'
out = open( outFile , 'w' )



for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        
        book = open( join( dir , file ) , encoding = 'utf-8' , errors = 'ignore' )
        if re.search( searchTerm , book.read() , re.IGNORECASE ):
            title = showTitle(file)
            out.write("Occurrences in {} ({})\n".format( title , file ))

            matches = concordance( join( dir , file ) , searchTerm , window )
            for match in matches:
                out.write(' ... {} ... \n'.format( match ) )

out.close()

## 3. Collocatie

Net als bij een concordantie (zie hierboven) richt een collocatie-analyse zich op de context van specifieke zoektermen. Alleen worden bij een collocatie-analyse alle woorden in de context geteld. Op deze manier kan er een numeriek beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. 

We gaan hier weer in het corpus zoeken naar de frequentie van woorden voor en na de term. 'searchTerm' is de term waarnaar wordt gezocht, en 'window' bepaalt het aantal woorden voor en na de opgegeven zoekterm. De analyse wordt beperkt tot een specifieke periode. De start van deze periode wordt aangegeven via de variable 'start', en het einde door de variabele 'end'. De onderstaande code berekent allen collocaties voor de egodocumenten die tijdens de genoemde periode zijn gepubliceerd. 

'*searchTerm*' is de term waarnaar wordt gezicht, en '*window*' bepaalt het aantal woorden voor en na de opgegeven zoekterm. 

In de onderstaande code wordt ook de functie '_removeStopwords()_' gebruikt. Deze functie heeft als effect dat veelvoorkomende woorden zonder veel betekenis (lidwoorden, voornaamwoorden, voorzetstel) buiten beschouwing worden gelaten. De frequenties van dit soort woorden zijn waarschijnijk weinig betekenisvol.

Ga in de cel staan en klik weer op [Shift] + [Enter].

In [None]:
start = 1945
end = 1947

dir = 'corpus'
searchTerm = 'baboe'
window = 30

corpusFreq = dict()

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        if showYear( file ) is not None:
            year = int(showYear( file ) )
            if year >= start and year <= end:
                print( file + ' (' + str(year) + ')' )
                freq = collocation( join( dir , file ) , searchTerm , window )
                freq = removeStopwords( freq )
                corpusFreq.update(freq)
        
        
freq.clear()
freq.update( removeStopwords( corpusFreq ) )        


def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])

max = 30
i = 0

if len(freq)> 0:

    print( f'The following words are used most frequently in the vicinity of "{ searchTerm }": \n' )

    for f in reversed( sortedByValue( freq ) ):
        i += 1
        print( '{} =>  {}'.format( f , freq[f] ) )
        if i == max:
            break
            
else:
    print('\n\nThe search term you provided does not occur in the documents published during the selected period.')

Voer nu samen een collocatie-analyse uit, aan de hand van een zoekterm die van belang kan zijn voor jullie onderzoek. Experimenteer met verschilende waarden voor de variabelen 'searchTerm', en 'window'

Bespreek het resultaat met je buurman of -vrouw, en bedenk aan welke voorwaarden de zoekactie moet voldoen om betekenisvol te zijn voor jouw bronnenonderzoek. 

De gevonden worden kunnen worden geëxporteerd via de onderstaande code.

In [None]:
outFile = 'collocation.csv'
out = open( outFile , 'w' )

out.write('term,frequency\n')

for f in reversed( sortedByValue( freq ) ):
    i += 1
    out.write( '{},{}\n'.format( f , freq[f] ) )
    if i == max:
        break
        
out.close()

## 3. Woordfrequenties


Welke woorden komen het meeste voor in het corpus? De onderstaande code berekent de frequenties van alle woorden in de tekst die wordt genoemd in de variabele 'egodocument'. Deze code maakt net als bovenstaande code gebruik van de functie '_removeStopWords()_'.

De analyse kan worden toegespitst op een specifieke periode. In de onderstaande code geeft de variabele 'start' het begin van de periode aan, en de variabele 'end' het einde. De code berekent alleen de woordfrequenties in de documenten die gepubliceerd zijn binnen de periode die op deze manier is vastgelegd. 

De code toont bovendien uitsluitend de 30 meest frequente termen. Het aantal termen dat wordt geprint wordt bepaald door de variabele '*max*'

In [None]:
start = 1945
end = 1946

dir = 'corpus'

corpusFreq = dict()

print('The following egodocuments were published during the specified period:\n')

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        if showYear( file ) is not None:
            year = int(showYear( file ) )
            if year >= start and year <= end:
                print( file + ' (' + str(year) + ')' )
                freq = calculateWordFrequencies( join( dir , file ) )
                freq = removeStopwords( freq )
                corpusFreq.update(freq)

freq.clear()
freq.update( removeStopwords( corpusFreq ) )  

def sortedByValue( dict ):
    return sorted( dict , key=lambda x: dict[x])

max = 500
i = 0


print( '\nThe following words occur most frequently in the corpus in between {} and {}.\n'.format( start , end ) )

for f in reversed( sortedByValue( freq ) ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break


Bepaal de meest frequente woorden in een van specifiek onderdeel van het corpus van "Soldaat in Indonesie", door te experimenteren met verschilende waarden voor de variabelen '*start*', '*end*' en '*max*'.

Als de bovenstaande code is uitgevoerd kunnen de gevonden woorden met de code die hieronder staat worden wergegeven als een *word cloud*. 

In [None]:
%matplotlib inline

aantalWoorden = 60

wordcloud = WordCloud( background_color="white",  width=600,height=500, max_words= aantalWoorden,relative_scaling=1,normalize_plurals=False).generate_from_frequencies( freq )

fig = plt.figure( figsize=(10,10) )

plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()


De onderstaande code slaat de wordcloud op als een bestand. De naam wordt opgegegeven in de variabele met de naam '*naamOutFile*'

In [None]:
naamOutFile = 'frequencies.jpg'

aantalWoorden = 80

wordcloud = WordCloud( background_color="white",  width=600,height=500, max_words= aantalWoorden,relative_scaling=1,normalize_plurals=False).generate_from_frequencies( freq )

fig = plt.figure( figsize=(10,10) )

plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")


plt.savefig( naamOutFile )


## 4. Combinaties van verwijzingen naar Molukkers en verwijzingen naar geweld

De onderstaande code is ontwikkeld om op zoek te gaan naar passages waarin geweldsdaden worden beschreven van Molukse en ook andere Indonesische militairen die aan Nederlandse zijde meevochten, veelal in het Koninklijk Nederlands-Indisch Leger (KNIL). 

Om deze passages te vinden is op de eerste plaats gebruik gemaakt van een lijst met termen die duiden op het gebruik van geweld. Deze lijst is op het volgende adres te vinden: 

https://raw.githubusercontent.com/peterverhaar/soldaat-in-indonesie/master/geweld.txt

Hierbij is gewerkt met de aanname dat, wanneer een paragraaf veel woorden van deze lijst bevat, het waarschijnlijk is dat er een geweldsdaad wordt beschreven. 

De lijst met passages is hiernaast op een tweede manier gefilterd. Het tekstfragment moet ook een verwijzing bevatten naar Molukse of andere Indonesische militairen. Er wordt hierbij gebruik gemaakt van een reguliere expressie, een tekstpatroon waarin de gelijktijdig naar verschillende naamsvarianten en spellingswijzen kan worden gezocht. 

`regex = r'((molukker\\w*)|(moluks\\w*)|(ambonn?ees\\w*)|((ambonn?ezen))|(menadonees(ch)?)|(menadonezen?)|(minahasa))'`

De gevonden passages worden weggeschreven in een bestand met de naam 'gevondenPassages.txt'. 


In [None]:
from kitlvTdm import *
import requests
import xml.etree.ElementTree as ET
from nltk.tokenize import sent_tokenize
import requests


directory = 'Corpus'
regex = r'((molukker\\w*)|(moluks\\w*)|(ambonn?ees\\w*)|((ambonn?ezen))|(menadonees(ch)?)|(menadonezen?)|(minahasa))'


url = "https://raw.githubusercontent.com/peterverhaar/soldaat-in-indonesie/master/geweld.txt"
response = requests.get(url)
if response.status_code == 200:
    response.encoding = 'utf-8' 

violence = re.split('\s+' , response.text )

'''
violence = [ '' , '' , '' ]
'''


ranking = dict()
page = dict()
book = dict()
wordsDict = dict()
fullText = dict()

fileIds = open( 'fileId2s.txt' , 'w')

for file in os.listdir( directory ):
    if file.endswith(".txt"):
        print(file)
        pageNr = 0
        paragraphCount = 0


        length = 0
        text = open(os.path.join( directory , file))
        for paragraph in text:
            paragraphCount += 1
            if re.search( '^page' , paragraph ):
                ## keep track of pagenumbers
                pageNr = paragraph.strip()
                pageNr = re.sub( '^page\s+' , '' , pageNr )
                
            else:
                
                if re.search( regex , paragraph , re.IGNORECASE ):

                    ## which ethnic group?
                    match = re.search( regex , paragraph , re.IGNORECASE )
                    found = match.group(1).lower()
                    text = paragraph



                    freq = dict()
                    words = tokenise(paragraph)
                    count = 0
                    for w in words:
                        if w.lower() in violence:
                            freq[w] = freq.get( w , 0 ) +1
                            count += 1



                            if len(words) > 50:
                                frId =  file + '-' + str(paragraphCount)
                                fileIds.write( frId + '\n')
                                fullText[ frId ] = text
                            
                                ranking[ frId ] = len(freq) /  len(words)
                                page[ frId ] = pageNr
                                book[ frId ] = file

                                wordsList = ''
                                for w in freq:
                                    wordsList += '{} ({}) ; '.format( w , freq[w] )
                                wordsList = re.sub( ';\s+$' , '' , wordsList )
                                wordsDict[ frId ] = wordsList

                        paragraph = ''
                        length = 0


out = open( 'gevondenPassages.txt' , 'w' , encoding = 'utf-8' )


sorted_f = sorted( ranking , key=lambda x: ranking[x])

for f in reversed( sorted_f ) :
    bookId = re.sub( '[.]txt' , '' , f)
    bookId = bookId.split('-')[0]
    if ranking[f] > 0.01:
        out.write( bookId  + '. ' + showTitle( book[f] ) )
        out.write( ', pagina ' + page[f] + '\n' )
        out.write( fullText[f].strip() + '\n' + wordsDict[f] + '\n' )
        out.write( str( ranking[f] ) + '\n\n' )


out.close()
print('Done!')

Met de code in de onderstaande cel kan een vergelijkbare analyse worden uitgevoerd. Een belangrijk verschil is dat je zelf een reeks van woorden kunt opgeven, als waarde van de variabele 'lexiconStr'. De verchillende woorden moete alle op een afzonderlijke regel worden geplaatst. De code zoekt vervolgens naar passages waarin verwijzingen naar Molukkers worden gecombineerd met een van de opgegegeven woorden. 

In [None]:
from kitlvTdm import *
import requests
import xml.etree.ElementTree as ET
from nltk.tokenize import sent_tokenize
import requests


directory = 'Corpus'
regex = r'((molukker\\w*)|(moluks\\w*)|(ambonn?ees\\w*)|((ambonn?ezen))|(menadonees(ch)?)|(menadonezen?)|(minahasa))'


lexiconWords = re.split( '\s+' , lexiconStr )
lexicon = []
for w in lexiconWords:
    if re.search( '\w' , w ):
        lexicon.append(w)
        

ranking = dict()
page = dict()
book = dict()
wordsDict = dict()
fullText = dict()

fileIds = open( 'fileId2s.txt' , 'w')

for file in os.listdir( directory ):
    if file.endswith(".txt"):
        print(file)
        pageNr = 0
        paragraphCount = 0


        length = 0
        text = open(os.path.join( directory , file))
        for paragraph in text:
            paragraphCount += 1
            if re.search( '^page' , paragraph ):
                ## keep track of pagenumbers
                pageNr = paragraph.strip()
                pageNr = re.sub( '^page\s+' , '' , pageNr )
                
            else:
                
                if re.search( regex , paragraph , re.IGNORECASE ):

                    ## which ethnic group?
                    match = re.search( regex , paragraph , re.IGNORECASE )
                    found = match.group(1).lower()
                    text = paragraph



                    freq = dict()
                    words = tokenise(paragraph)
                    count = 0
                    for w in words:
                        if w.lower() in lexicon:
                            freq[w] = freq.get( w , 0 ) +1
                            count += 1



                            if len(words) > 50:
                                frId =  file + '-' + str(paragraphCount)
                                fileIds.write( frId + '\n')
                                fullText[ frId ] = text
                            
                                ranking[ frId ] = len(freq) /  len(words)
                                page[ frId ] = pageNr
                                book[ frId ] = file

                                wordsList = ''
                                for w in freq:
                                    wordsList += '{} ({}) ; '.format( w , freq[w] )
                                wordsList = re.sub( ';\s+$' , '' , wordsList )
                                wordsDict[ frId ] = wordsList

                        paragraph = ''
                        length = 0


out = open( 'gevondenPassages.txt' , 'w' , encoding = 'utf-8' )


sorted_f = sorted( ranking , key=lambda x: ranking[x])

for f in reversed( sorted_f ) :
    bookId = re.sub( '[.]txt' , '' , f)
    bookId = bookId.split('-')[0]
    if ranking[f] > 0.01:
        out.write( bookId  + '. ' + showTitle( book[f] ) )
        out.write( ', pagina ' + page[f] + '\n' )
        out.write( fullText[f].strip() + '\n' + wordsDict[f] + '\n' )
        out.write( str( ranking[f] ) + '\n\n' )


out.close()
print('Done!')