# KITLV Workshop deel 1


Programmeurs die code beschikbaar willen stellen aan anderen voor hergebruik kunnen hun code bundelen in 'modules'. Code voor specifieke functies kan op die manier eenvoudig worden hergebruikt. In deze workshop zal gebruik worden gemaakt van een aantal basis-modules voor het lezen van bestanden en het bewerken van teksten. Deze modules kunnen worden opgenomen in een programma door de naam van de module te noemen na 'import'. De module is 'kitlvTdm' is specifiek voor deze workshop geprogrammeerd.

In [None]:
import re
import os
from os.path import isfile, join , isdir
import string
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
import xml.etree.ElementTree as ET
import requests
import zipfile
import math
import os
from os.path import isfile, join , isdir
from wordcloud import WordCloud
import matplotlib.pyplot as plt

from kitlvTdm import *

dir = 'corpus'

Mocht een van de genoemde modules nog niet zijn geinstalleerd, voer dan het onderstaande commando uit: 

`!source activate py352;pip install [naam module]`

Kopieer de '[Naam module]' uit de code hierboven.

In [None]:
!source activate py36;pip install gensim
!source activate py36;pip install wordcloud
!source activate py36;pip install matplotlib
!source activate py36;pip install gensim
!source activate py36;pip install wordcloud
!source activate py36;pip install matplotlib
!source activate py36;pip install math
!source activate py36;pip install zipfile
!source activate py36;pip install requests

Het corpus kan worden gedownload via de onderstaande code. Voor de variabelen 'username' en 'passowrd' moeten nog de juiste waarden worden ingevuld.

In [None]:
download_corpus("https://pino.leidenuniv.nl/kitlv/texts/corpus.zip", "username", "password")

De code hieronder demonstreert onder meer het gebruik van de functie _showTitle()_ uit de module kitlvTdm. Wanneer de code wordt uitgevoerd toont het programma een lijst van alle documenten waar de term die is opgegeven via de variabele 'searchTerm' in voorkomt. In het corpus worden eigen codes gebruikt voor de gedigitaliseerde teksten. Via een bestand 'metadata.csv' worden de juiste titels bij deze codes gezocht. De waarde van de variable _searchTerm_ kan worden aangepast. 

In [None]:

searchTerm = 'java'

print( 'The term \'{}\' occurs in the following titles:\n'.format( searchTerm ) )

for file in os.listdir( dir ):
    if re.search( '[.]txt$' , file ):
        book = open( join( dir , file ) )
        if re.search( searchTerm , book.read() ):
            print(  file + ': ' + showTitle( file )  )


Om een concordantie (of een keyword-in-context-list) te maken moet er op de eerste plaats een zoekterm worden opgegeven. In de onderstaande code kan dan via de variabele 'searchTerm'. Wanneer de code wordt uitgevoerd zoekt de computer alle passages in de tekst waar de zoekterm in voorkomt. Bij het weergeven van de resultaten wordt ook de context weergeveven. Er worden dan een vast aantal karakters voor en na het gevonden trefwoord getoond. In de onderstaande code wordt het aantal karakters voor en na het trefwoord vastgelegd via de variabele 'window'. Deze onderstaande code richt zich op een individuele tekst. In de variabele 'book' moet worden opgegeven welk boek moet worden doorzocht.

In [None]:

book = '03845.txt'
searchTerm = 'java'
window = 40

print( 'Occurrences in: ' + showTitle( book ) + '\n\n' )


matches = concordance( join( dir , book ) , searchTerm , window )
for match in matches:
    print(match)



Net als bij een concordantie (zie hierboven) richt een collocatie-analyse zich op de context van specifieke zoektermen. Bij een collocatie-analyse worden alle woorden in de context geteld. Op deze manier kan er een beeld ontstaan van de woorden die veel in de omgeving van een specifieke zoekterm worden gebruikt. Variabele 'book' verwijst naar de tekst die moet worden doorzocht, 'searchTerm' is de term waarnaar wordt gezicht, en 'window' bepaalt het aantal woorden voor en na de opgegeven zoekterm. In de onderstaande code wordt ook de functie _removeStopwords()_ gebruikt. Deze functie heeft als effect dat veelvoorkomende woorden zonder veel betekenis (lidwoorden, voornaamwoorden, voorzetstel) buiten beschouwing worden gelaten.

In [None]:
book = '03391.txt'
searchTerm = 'java'
window = 30

freq = collocation( join( dir , book ) , searchTerm , window )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0

for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

De onderstaande code berekent de woorden die het meeste voorkomen in de tekst die wordt genoemd in de variabele 'book'. Deze code maakt net als bovenstaande code gebruik van de functie _removeStopWords()_.

In [None]:
book = '03391.txt'

freq = calculateWordFrequencies( join( dir , book ) )
freq = removeStopwords( freq )

sorted_f = sorted( freq , key=lambda x: freq[x])
max = 30
i = 0

for f in reversed( sorted_f ):
    i += 1
    print( '{} =>  {}'.format( f , freq[f] ) )
    if i == max:
        break

De resultaten van de collocatie-analyse en van de berekening van de meest frequente woorden kunnen ook grafisch worden weergegeven. MatPlotLub is een veelgebruikte visualisatie-bibliotheek in Python. De onderstaande code maakt bivendien gebruik van de _wordcloud_-module. Wanneer via een van de bovenstaande blokken een variable met de naam 'freq' is aangemaakt, worden de woorden, op basis van de bijbehorende tellingen, in een woordenwolk weergegeven.

In [None]:
%matplotlib inline

wordcloud = WordCloud( background_color="white",  width=1500,height=1000, max_words= 100,relative_scaling=1,normalize_plurals=False).generate_from_frequencies(freq)


plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

