# Preprocess comment text

In [25]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import re

In [26]:
# load NLTK resources
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/adrianpeter/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/adrianpeter/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/adrianpeter/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [27]:
# function to prepare text for nlp
def preprocess_text(text):
    # remove special characters and numbers
    text = re.sub(r'[^\w\säöüÄÖÜß]', '', text)

    # tokenize words
    words = word_tokenize(text)

    # remove stop words
    stop_words = set(stopwords.words("german"))
    words = [word.lower() for word in words if word.lower() not in stop_words]

    # Lemmatize words
    lemmatizer = WordNetLemmatizer()
    words = [lemmatizer.lemmatize(word.lower()) for word in words]

    # return processed text
    return " ".join(words)

In [28]:
df = pd.read_csv('../data/raw_comments.csv',sep=';')
df["preprocessed_comment"] = df["comments"].apply(preprocess_text)
print(df[["comments", "preprocessed_comment"]].head())

                                            comments   
0  Zum Übernachten optimal für eine Person.\nFür ...  \
1  Super Gastgeber!\nStudio für das Geld absolut ...   
2  Gut gelegene und günstige Unterkunft mitten in...   
3  Für Kurzübernachtungen gut, sauber sowohl Zimm...   
4  Freundliche Hausbewohner und ich konnte auf de...   

                                preprocessed_comment  
0  übernachten optimal person längere aufenthalte...  
1  super gastgeber studio geld absolut empfehlen ...  
2  gut gelegene günstige unterkunft mitten oerlik...  
3  kurzübernachtungen gut sauber sowohl zimmer ba...  
4  freundliche hausbewohner konnte innenhof koste...  


In [29]:
#save new df to csv
df.to_csv('../data/processed_comments.csv',sep=';')