In [1]:
!pip install gensim




In [2]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\serin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\serin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\serin\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

# Stap 1

In [3]:
# 1. Originele tekst
text = "Dit is een voorbeeld tekst die ik zo meteen ga gebruiken. Ik ga nu een paar getallen toevoegen: 1, 2, 3 en ik ga nog wat tekens toevoegen: @ # *"

print("Original Text:\n", text)

Original Text:
 Dit is een voorbeeld tekst die ik zo meteen ga gebruiken. Ik ga nu een paar getallen toevoegen: 1, 2, 3 en ik ga nog wat tekens toevoegen: @ # *


In [4]:
# 2. Lowercasing
text_lower = text.lower()
print("\nLowered text:\n", text_lower)


Lowered text:
 dit is een voorbeeld tekst die ik zo meteen ga gebruiken. ik ga nu een paar getallen toevoegen: 1, 2, 3 en ik ga nog wat tekens toevoegen: @ # *


In [5]:
# 3. Cijfers verwijderen
text_no_numbers = re.sub(r'\d+', '', text_lower)
print("\nText without numbers:\n", text_no_numbers)


Text without numbers:
 dit is een voorbeeld tekst die ik zo meteen ga gebruiken. ik ga nu een paar getallen toevoegen: , ,  en ik ga nog wat tekens toevoegen: @ # *


In [6]:
# 4. Leestekens verwijderen
text_no_punctuation = re.sub(r'[^\w\s]', ' ', text_no_numbers)
print("\nText without punctuation:\n", text_no_punctuation)


Text without punctuation:
 dit is een voorbeeld tekst die ik zo meteen ga gebruiken  ik ga nu een paar getallen toevoegen       en ik ga nog wat tekens toevoegen       


In [7]:
# 5. Tokenization (woorden)
words = word_tokenize(text_no_punctuation, language='dutch')
print("\nTokenized Words:\n", words)


Tokenized Words:
 ['dit', 'is', 'een', 'voorbeeld', 'tekst', 'die', 'ik', 'zo', 'meteen', 'ga', 'gebruiken', 'ik', 'ga', 'nu', 'een', 'paar', 'getallen', 'toevoegen', 'en', 'ik', 'ga', 'nog', 'wat', 'tekens', 'toevoegen']


In [8]:
# 6. Stopwoorden verwijderen
stop_words = set(stopwords.words('dutch'))
words_no_stop = [w for w in words if w not in stop_words]
print("\nWords after Stopword Removal:\n", words_no_stop)


Words after Stopword Removal:
 ['voorbeeld', 'tekst', 'meteen', 'ga', 'gebruiken', 'ga', 'paar', 'getallen', 'toevoegen', 'ga', 'tekens', 'toevoegen']


In [9]:
# 7. Lemmatization
lemmatizer = WordNetLemmatizer()
words_lemmatized = [lemmatizer.lemmatize(w) for w in words_no_stop]
print("\nLemmatized Words:\n", words_lemmatized)


Lemmatized Words:
 ['voorbeeld', 'tekst', 'meteen', 'ga', 'gebruiken', 'ga', 'paar', 'getallen', 'toevoegen', 'ga', 'tekens', 'toevoegen']


In [10]:
# 8. Stemming
stemmer = PorterStemmer()
words_stemmed = [stemmer.stem(w) for w in words_no_stop]
print("\nStemmed Words:\n", words_stemmed)


Stemmed Words:
 ['voorbeeld', 'tekst', 'meteen', 'ga', 'gebruiken', 'ga', 'paar', 'getallen', 'toevoegen', 'ga', 'teken', 'toevoegen']


In [11]:
# 9. Schoon gemaakte tekst
clean_text = " ".join(words_lemmatized)
print("\nCleaned Text:\n", clean_text)


Cleaned Text:
 voorbeeld tekst meteen ga gebruiken ga paar getallen toevoegen ga tekens toevoegen


# Reflectie stap 1

- Welke woorden verdwenen tijdens het schoonmaken?

Woorden die vaak voorkomen zoals "dit, is, een, die, ik, ga, nu, en" zijn verwijderd als stopwoorden. Ook cijfers en speciale tekens zijn weggehaald.

- Waarom is dat nuttig bij NLP?

Deze woorden en tekens dragen weinig bij aan de betekenis van de zin. Door ze te verwijderen, wordt de tekst korter en wordt het model minder afgeleid door overbodige woorden.

- Welke informatie kan eventueel verloren gaan?

Soms bevatten stopwoorden toch betekenis, of geven cijfers belangrijke informatie. Door die te verwijderen kan context verloren gaan.

# Stap 2

In [12]:
from collections import Counter
from nltk.tokenize import word_tokenize, sent_tokenize


# Word tokenization op de schoongemaakte tekst
tokens = word_tokenize(clean_text, language='dutch')
print("Tokens:\n", tokens)

Tokens:
 ['voorbeeld', 'tekst', 'meteen', 'ga', 'gebruiken', 'ga', 'paar', 'getallen', 'toevoegen', 'ga', 'tekens', 'toevoegen']


In [13]:
# Aantal unieke woorden
unique_words = set(tokens)
print("\nAantal tokens:", len(tokens))
print("Aantal unieke woorden:", len(unique_words))


Aantal tokens: 12
Aantal unieke woorden: 9


In [14]:
# Frequentietabel
freq_table = Counter(tokens)
print("\nFrequentietabel:\n", freq_table)


Frequentietabel:
 Counter({'ga': 3, 'toevoegen': 2, 'voorbeeld': 1, 'tekst': 1, 'meteen': 1, 'gebruiken': 1, 'paar': 1, 'getallen': 1, 'tekens': 1})


In [15]:
# Sentence tokenization op de originele tekst
sentences = sent_tokenize(text, language='dutch')
print("\nZinnen (sentence tokenization op originele tekst):")
for i, s in enumerate(sentences, start=1):
    print(f"Zin {i}: {s}")


Zinnen (sentence tokenization op originele tekst):
Zin 1: Dit is een voorbeeld tekst die ik zo meteen ga gebruiken.
Zin 2: Ik ga nu een paar getallen toevoegen: 1, 2, 3 en ik ga nog wat tekens toevoegen: @ # *


# Stap 3

In [16]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

documents = [clean_text]

# One Hot Encoding
cv_onehot = CountVectorizer(binary=True)
X_onehot = cv_onehot.fit_transform(documents)

onehot_df = pd.DataFrame(X_onehot.toarray(),
                         columns=cv_onehot.get_feature_names_out())
print("One Hot Encoding matrix:")
display(onehot_df)

One Hot Encoding matrix:


Unnamed: 0,ga,gebruiken,getallen,meteen,paar,tekens,tekst,toevoegen,voorbeeld
0,1,1,1,1,1,1,1,1,1


In [17]:
# Bag of Words
cv_bow = CountVectorizer(binary=False)
X_bow = cv_bow.fit_transform(documents)

bow_df = pd.DataFrame(X_bow.toarray(),
                      columns=cv_bow.get_feature_names_out())
print("\nBag of Words matrix:")
display(bow_df)


Bag of Words matrix:


Unnamed: 0,ga,gebruiken,getallen,meteen,paar,tekens,tekst,toevoegen,voorbeeld
0,3,1,1,1,1,1,1,2,1


# Reflectie bij stap 3

- Verschil tussen One Hot Encoding en Bag of Words?

One Hot Encoding slaat alleen op of een woord in een document voorkomt op een binaire manier.

Bag of Words slaat op hoe vaak een woord voorkomt.

- Wanneer gebruik je welke?

One Hot is voor als je alleen aanwezigheid/afwezigheid wilt, bijvoorbeeld bij heel simpele classificatieproblemen.

Bag of Words is nuttig wanneer het belangrijk is hoevaak een woord voorkomt, bijvoorbeeld om te zien welke woorden typerend zijn voor een document.

# Stap 4

| Representatie      | Houdt volgorde van woorden? | Gebruikt frequentie? | Interpretatie                                                                 |
|--------------------|-----------------------------|----------------------|-------------------------------------------------------------------------------|
| One Hot Encoding   | Nee                         | Nee (alleen 0/1)     | Je ziet alleen of een woord voorkomt in de tekst, niet hoe vaak of waar.     |
| Bag of Words       | Nee                         | Ja                   | Je ziet hoe vaak elk woord voorkomt, maar niet de volgorde in de tekst.      |


# Stap 5

1. Waarom moet tekst eerst worden genormaliseerd vóórdat we modellen trainen?

    Omdat ruwe tekst veel variatie en onnodige woorden bevat (hoofdletters, leestekens, meervouden, stopwoorden). Normalisatie maakt de data consistenter, vermindert de dimensie van je feature-ruimte en helpt modellen om patronen beter te herkennen.

2. Wat is het verschil tussen NLP, NLU en NLG?

    - NLP (Natural Language Processing): alle technieken om natuurlijke taal te verwerken (tokenization, tagging, parsing, etc.).

    - NLU (Natural Language Understanding): onderdeel van NLP dat zich richt op begrijpen van betekenis, intenties en relaties in tekst.

    - NLG (Natural Language Generation): het automatisch genereren van natuurlijke taal, zoals tekst of antwoorden.


3. Waar zou je NLP in het echte leven kunnen toepassen?

    Bijvoorbeeld bij spamfilters, automatische vertaling, chatbots, sentimentanalyse op reviews, zoekmachines, spraakassistenten, het automatisch samenvatten van teksten, etc.