In [3]:
import re
import pandas as pd

import spacy

import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\su.osmond\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## **Load Data**

In [26]:
# Load the datasets
df_user_inputs = pd.read_csv('../dataset/user_inputs.csv', delimiter=';')
df_labels = pd.read_csv('../dataset/labels.csv', delimiter=";")

# Remove unnecessary index columns
df_user_inputs.drop(df_user_inputs.columns[0], axis=1, inplace=True)
df_labels.drop(df_labels.columns[0], axis=1, inplace=True)

# Remove classes with < 2 instances (this is only 'no complaints' label with 0 instance so not a big deal)
# We need to do this to split the data later with stratification
df_labels = df_labels.loc[:, (df_labels.sum(axis=0) >= 2)]

# Ensure alignment
assert len(df_labels) == len(df_user_inputs), "Datasets do not align!"

print(df_user_inputs.shape)
df_user_inputs.head(10)

(3974, 1)


Unnamed: 0,text
0,Er is een teek op mijn been. Ik ben bang dat d...
1,Er is een teek op mijn rug en ik krijg hem er ...
2,Op mijn been zit een teek. Ik heb hem geprobee...
3,Ik heb allergieen
4,huid
5,roodheid
6,schilfering
7,Ik heb wratten onder mijn voet
8,Ik heb gisteren naar het bos geweest en zie nu...
9,Ik voelde iets prikken


## **Preprocess Data**

In [16]:
## Preprocess user input text

# Load the Dutch language model from Spacy
#nlp = spacy.load("nl_core_news_sm")

# Set of Dutch stopwords from NLTK
dutch_stopwords = set(stopwords.words('dutch'))

def preprocess_text(text):
    """
    Preprocesses the input text by lowercasing, removing special characters, and removing stopwords.
    Args:
        text (str): The text to preprocess.
    Returns:
        str: The preprocessed text.
    """

    # Convert to lowercase
    text = text.lower()

    # Remove special characters
    text = re.sub(r'\W+', ' ', text)
    """
    # Tokenize text
    tokens = word_tokenize(text)

    # Remove stopwords
    filtered_tokens = [token for token in tokens if token not in dutch_stopwords]

    # Lemmatize each token
    doc = nlp(" ".join(filtered_tokens))
    lemmas = [token.lemma_ for token in doc]

    text = ' '.join(lemmas)
    """
    return text

df_user_inputs['text'] = df_user_inputs['text'].apply(preprocess_text)

df_user_inputs.head(10)

Unnamed: 0,text
0,er is een teek op mijn been ik ben bang dat di...
1,er is een teek op mijn rug en ik krijg hem er ...
2,op mijn been zit een teek ik heb hem geprobeer...
3,ik heb allergieen
4,huid
5,roodheid
6,schilfering
7,ik heb wratten onder mijn voet
8,ik heb gisteren naar het bos geweest en zie nu...
9,ik voelde iets prikken


In [17]:
df_user_inputs.to_csv('user_inputs_cleaned.csv')

In [18]:
df_labels.to_csv('labels_cleaned.csv')