In [1]:
import pandas as pd
from gensim.utils import simple_preprocess
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import spacy

stemmer = PorterStemmer()

In [2]:
def load_tools(language, stopwords=stopwords):
    """
    Load open tasks in DataFrame from csv file.
    Define stopwords and lemmatizer appropriate to given language of data.
    """
    if language == "german": 
        df = pd.read_csv("data/open_tasks_DE.csv") 
        stopwords = stopwords.words('german') 
        lemmatizer = spacy.load("de_core_news_sm") 
    elif language == "english": 
        df = pd.read_csv("data/open_tasks_EN.csv") 
        stopwords = stopwords.words('english')
        lemmatizer = spacy.load('en_core_web_sm')
    else:
        raise language + " language not supported." 
    return df, stopwords, lemmatizer 

def preprocess(text, lemmatizer, stopwords, stemmer=stemmer):
    # lowercase, remove punctuation, tokenize 
    words = simple_preprocess(text, deacc=True, min_len=1, max_len=50)
    # remove stopwords 
    tokens = [word for word in words if word not in stopwords]
    # stemming
    stems = [stemmer.stem(token) for token in tokens]
    # lemmatize
    stemmed_doc = lemmatizer(" ".join(stems))
    lemmas = [s.lemma_ for s in stemmed_doc]
    return " ".join(lemmas)

In [3]:
df, stopwords, lemmatizer = load_tools("english")
text = df["description"][14917]
text, preprocess(text, lemmatizer, stopwords)

('What are the courses that clients can book at Swiss Connect Academy?',
 'cours client book swiss connect academi')

In [4]:
df["preprocess_desc"] = df["description"].apply(lambda text: preprocess(text, lemmatizer, stopwords))
df["preprocess_context"] = df["context"].apply(lambda text: preprocess(text, lemmatizer, stopwords) if isinstance(text, str) else "")
df.to_csv("data/preprocessed_open_tasks_EN.csv", index_label=False)

In [5]:
df, stopwords, lemmatizer = load_tools("german")
text = df["description"][14838]
text, preprocess(text, lemmatizer, stopwords)

('Ersetze die markierte bildhafte Wendung durch einen gleichbedeutenden Ausdruck: Da Tonio daheim seine Zeit vertrödelte, beim Unterricht langsamen und abgewandten Geistes war und bei den Lehrern schlecht angeschrieben stand, fielen seine Noten ins Bodenlose , was seinen Vater, einen Kaufmann aus Bremen, sehr erzürnte. Der Mutter Tonios jedoch, die Consuelo mit Vornamen hieß und überhaupt so anders war als die übrigen Damen der Stadt, weil der Vater sie sich einstmals von ganz unten auf der Landkarte heraufgeholt hatte, waren die Zeugnisse einerlei… Thomas Mann: Tonio Kröger (leicht verändert)',
 'Ersetz markieren Bildhaft Wendung gleichbedeutend Ausdruck Tonio daheim Zeit vertrodeln bei Unterricht langsamen abgewandten Geist Lehrer schlecht anschreiben stehen fallen Not bodenlos Vater Kaufmann Bremen erzurnen Mutter tonio jedoch Consuelo vornamen heißen uberhaupt ubrig dam Stadt Vater einstmal ganz unten landkart Heraufgeholt Zeugniss einerlei Thoma Mann tonio Kroger leicht verandern'

In [6]:
df["preprocess_desc"] = df["description"].apply(lambda text: preprocess(text, lemmatizer, stopwords))
df["preprocess_context"] = df["context"].apply(lambda text: preprocess(text, lemmatizer, stopwords) if isinstance(text, str) else "")
df.to_csv("data/preprocessed_open_tasks_DE.csv", index_label=False)