# EXAMPLE
Deze notebook bevat voorbeelden voor het gebruik van de functies en code in deze repository.

## Import Packages
Deze cellen importeren de benodigde packages en codes.

In [1]:
# import all methods from scraper in folder /code
# from code.scraper import * #alleen als deze package is geïnstalleerd in je environment
import sys; sys.path.append('./code') # import scraper vanuit de relatieve folder in dit project (dus niet vanuit je python environment)
from utils import *

## Methods
De volgende cellen laten een voorbeeld zien van alle methodes/functies in de scraper package

### `pdf_extractor(file)`

Deze functie neemt een filepath string naar een file in .pdf format en converteert die naar .txt format en returned een list met daarin de string per pagina. 

### `scrub(text)`
Deze functie neemt een string en schoont die op aan de hand van bepaalde regels. `pdf_extractor()` returned een file waar soms unicode instances in kunnen staan die lastig leesbaar zijn.

In [2]:
text = '\\n Lorem ipsum dolor sit amet, \\uf0ac'
scrub(text)

' Lorem ipsum dolor sit amet, '

### `lower(data)`
Deze functie neemt een string en returned een string waarin alle uppercase characters zijn vervangen door lowercas.

In [3]:
data = 'DINGEN en Dingen en dingen'
lower(data)

'dingen en dingen en dingen'

### `remove_net(data)`
Deze functie neemt een string en verwijderd aan de hand van bepaalde hardcoded regels substrings die veelvoorkomende mail/url characters bevatten.

In [4]:
data = 'Hallo, mijn email adres is mail@adres.nl op het domein adres.nl.'
remove_net(data)

'Hallo, mijn email adres is op het domein'

### `remove_punctuation(data)`
Deze functie neemt een string verwijderd de leestekens uit de string.

In [5]:
data = 'Hallo, hoe heet jij? Ik ben mijn naam vergeten...'
remove_punctuation(data)

'Hallo hoe heet jij Ik ben mijn naam vergeten'

### `remove_digit(data)`
Deze functie verdwijderd getallen uit een string.

In [7]:
data = 'ik ben 6 jaar oud, ik kom uit 2015'
remove_digit(data)

'ik ben jaar oud, ik kom uit'

### `remove_dates(data)`
Deze functie verwijderd substrings die datums bevatten zoals maanden en dagen, deze substrings zijn gehardcode.

In [2]:
data = 'Ik ben geboren op een maandag in Oktober'
remove_dates(data)

'Ik ben geboren op een in'

### `remove_stops(data)`
Deze functie verwijderd Nederlandse stopwoorden aan de hand van de `nltk` package.

In [3]:
data = 'Ik weet niet zo goed wat en hoe en zo.'
remove_stops(data)

'Ik weet goed zo.'

### `map_to_func(data, funcs)`
Deze functie past een reeks functies in de lijst `funcs` toe op `data`, deze functies worde in serie toegepast op de data dus de volgorde is belangrijk.

In [4]:
data = 'Ik kom uit 2021 en ben nog niet eens 1 jaar oud!'
funcs = [lower, remove_digit, remove_punctuation]
map_to_func(data, funcs)

'ik kom uit en ben nog niet eens jaar oud'

### `tokenize(data)`
Deze functie split een string in een lijst van tokens.

In [6]:
data = 'Zoveel verschillende woorden.'
tokenize(data)

['Zoveel', 'verschillende', 'woorden.']

### `lemmatize(text, allowed_postags=["NOUN", "ADJ", "VERB", "ADV"])`
Deze functie neemt een string en returned een lijst waarvan de substrings/tokens alleen uit de lemma van het originele worod betsaan. Deze functie gebruikt de `spacy` package.

In [7]:
text = 'Hallo, wij hebben allerlei kleine dingetjes gevonden'
lemmatize(text)

['klein', 'ding', 'vinden']

### `ngram(tokens, n)`
Deze functie neemt een lijst van tokens en returned ngrams in tuples van lengte `n`.

In [2]:
tokens = ['klein', 'ding', 'vinden']
ngram(tokens, 2)

[('klein', 'ding'), ('ding', 'vinden')]

### `ngrams(tokens, n)`
Deze functie neemt een iteratieve lijst (list of lists etc.) en returned ngrams in een lijst van dezelfde structuur in tuples van lengte `n`.

In [3]:
tokens = [['klein', 'ding', 'vinden'], ['aap', 'noot', 'mies']]
ngrams(tokens, 2)

[[('klein', 'ding'), ('ding', 'vinden')], [('aap', 'noot'), ('noot', 'mies')]]

### `onehot_matrix(tokens)`
Deze functie neemt een lijst van tokens en zijt deze om in een one-hot-encoded dataframe.

In [4]:
tokens = ['klein', 'ding', 'vinden']
onehot_matrix(tokens)

Unnamed: 0,ding,klein,vinden
0,0,1,0
1,1,0,0
2,0,0,1


### `tf_idf(data, ngram_range=(1,1))`
Deze functie returned een dataframe met tf-idf wegingen gegeven een lijst van tokens en een dictionary met de vocabulary in de tokens.

In [6]:
tokens = ['klein', 'ding', 'vinden']
tf_idf(tokens, ngram_range=(1, 2))

(          0    1    2
 ding    0.0  1.0  0.0
 klein   1.0  0.0  0.0
 vinden  0.0  0.0  1.0,
 {'klein': 1, 'ding': 0, 'vinden': 2})