# 1. Tokenisation

In deze notebook laden we de commentaren van de enquête in en passen we tokenisation toe: het splitsen van de tekst in aparte woorden/entiteiten.

## 1.1 Imports

We laden uitbreidingen in die we nodig hebben om de dataset in te laden.

In [None]:
import pandas as pd
from spacy_download import load_spacy

## 1.2 Dataset inladen

We laden de dataset in en tonen een preview.

In [None]:
df = pd.read_csv("data/data_text.csv")

In [None]:
df.head()

## 1.3 Tokenisation

[spaCy](https://spacy.io/) is een bekende package om tekst te parsen en verwerken. Met spaCy kan je héél veel (POS-taggen, tokenisen, lemmatisen, named entity recognition). Wij gaan gewoon alles opsplitsen in woordjes.

Ik heb [load_spacy](https://github.com/BramVanroy/spacy_download) van collega Bram Vanroy gebruikt, omdat dit automatisch ook het model downloadt als je het nog niet hebt. Verder werkt alles zoals je zou verwachten van spaCy.

In [31]:
nlp = load_spacy("nl_core_news_lg", exclude=["parser", "tagger"])
nlp.add_pipe("sentencizer")
nlp

<spacy.lang.nl.Dutch at 0x7f74323a01c0>

Ik toon hoe je een zin kunt tokeniseren met spaCy:

In [34]:
doc = nlp("Freek Van de Velde neemt deel aan de fantastische taalkundequiz. Ik speel graag Minecraft.")
for sentence_number, sentence in enumerate(doc.sents):
    for token in sentence:
        print(sentence_number, token.text, token.lemma_, token.pos_)

0 Freek Freek PROPN
0 Van Van PROPN
0 de de PROPN
0 Velde Velde PROPN
0 neemt aannemen VERB
0 deel deel NOUN
0 aan aan ADP
0 de de DET
0 fantastische fantastisch ADJ
0 taalkundequiz taalkundequiz NOUN
0 . . PUNCT
1 Ik ik PRON
1 speel speel VERB
1 graag graag ADV
1 Minecraft Minecraft PROPN
1 . . PUNCT


Nu is het de bedoeling dat we hetzelfde doen met de commentaren uit de enquête. Ik geef een voorzet:

In [None]:
# We itereren over elke rij van de dataset
for index, row in df.iterrows():
    # Je kunt een kolom opvragen door die te indexeren
    # bv. row["Q9_ELAB"]

    # Soms is er niks ingevuld, dan is de waarde van de kolom "nan" of "null"
    # pd.isnull() kan hiervoor testen (True/False)
    print(row["Q9_ELAB"])

    # Tokenisation

We willen voor elke token een aparte rij in onze dataset. Zoiets:

|sentence_no|token|lemma|pos|
|---|---|---|---|
|0|Freek|Freek|PROPN|
|0|neemt|nemen|VERB|
|0|deel|deel|NOUN|

Je kunt als volgt een eigen dataset maken:

In [35]:
rows = []
row = { "sentence_no": 0, "token": "neemt", "lemma": "nemen", "pos": "VERB" }
rows.append(row)

Je ziet hoe je deze snippet in de loop hierboven kunt zetten om zo een nieuwe dataset te maken.

In [36]:
new_df = pd.DataFrame.from_dict(rows)
new_df.head()

Unnamed: 0,sentence_no,token,lemma,pos
0,0,neemt,nemen,VERB
