# Preprocessing

This notebook does tokenization, lemmatization, stemming based on the augmented dataset and stores all the columns in a single dataset. During training we can choose what column brings best results.

**At the beginning I decided to do this task at a central step during preprocessing. Taking the right tokenization or preprocessing approach feels very model dependent  and should maybe be part of the pipeline in the model.**

In [1]:
from pandas import concat, read_parquet

from data import file
from preprocessing.text import tokenize
from preprocessing.token import ignore_stopwords
from preprocessing.token import stem, lemma
from preprocessing.text import join

In [2]:
data = read_parquet(file.news_articles_augmented)

In [3]:
%%time
tokenized = data.text_original.map(tokenize).rename('text_tokenized')

CPU times: user 32.6 s, sys: 198 ms, total: 32.8 s
Wall time: 32.8 s


In [4]:
%%time
keywords = tokenized.map(ignore_stopwords).rename('text_tokenized_keywords')
keywords_text = keywords.map(join).rename('text_keywords')

CPU times: user 629 ms, sys: 24 ms, total: 653 ms
Wall time: 651 ms


In [5]:
%%time
lemmas = keywords.map(lemma).rename('text_tokenized_lemmas')
lemmas_text = lemmas.map(join).rename('text_lemmas')

CPU times: user 2min 18s, sys: 385 ms, total: 2min 19s
Wall time: 2min 19s


In [6]:
%%time
stem = keywords.map(stem).rename('text_tokenized_stemmed')
stem_text = stem.map(join).rename('text_stem')

CPU times: user 15.3 s, sys: 112 ms, total: 15.4 s
Wall time: 15.4 s


In [7]:
result_train = concat([data, tokenized, keywords, keywords_text, lemmas, lemmas_text, stem, stem_text], axis=1)
result_train

Unnamed: 0,text_original,label,text_tokenized,text_tokenized_keywords,text_keywords,text_tokenized_lemmas,text_lemmas,text_tokenized_stemmed,text_stem
0,21-Jähriger fällt wohl bis Saisonende aus. Wie...,Sport,"[21-jähriger, fällt, wohl, bis, saisonende, au...","[21-jähriger, fällt, wohl, saisonende, ., wien...",21-jähriger fällt wohl saisonende . wien – rap...,"[21-jähriger, fällen, wohl, saisonende, wien, ...",21-jähriger fällen wohl saisonende wien rapid ...,"[21-jahrig, fallt, wohl, saison, wien, rapid, ...",21-jahrig fallt wohl saison wien rapid wohl sa...
1,"Erfundene Bilder zu Filmen, die als verloren g...",Kultur,"[erfundene, bilder, zu, filmen, ,, die, als, v...","[erfundene, bilder, filmen, ,, verloren, gelte...","erfundene bilder filmen , verloren gelten : ``...","[erfunden, bilder, filmen, verlieren, gelten, ...",erfunden bilder filmen verlieren gelten `` the...,"[erfund, bild, film, verlor, gelt, ``, the, fo...",erfund bild film verlor gelt `` the forbidd ro...
2,Der frischgekürte CEO Sundar Pichai setzt auf ...,Web,"[der, frischgekürte, ceo, sundar, pichai, setz...","[frischgekürte, ceo, sundar, pichai, setzt, um...",frischgekürte ceo sundar pichai setzt umgängli...,"[frischgekürte, ceo, sundar, pichai, setzen, u...",frischgekürte ceo sundar pichai setzen umgängl...,"[frischgekurt, ceo, sundar, pichai, setzt, umg...",frischgekurt ceo sundar pichai setzt umgang fu...
3,"Putin: ""Einigung, dass wir Menge auf Niveau vo...",Wirtschaft,"[putin, :, ``, einigung, ,, dass, wir, menge, ...","[putin, :, ``, einigung, ,, menge, niveau, jän...","putin : `` einigung , menge niveau jänner halt...","[putin, ``, einigung, menge, niveau, jänner, h...",putin `` einigung menge niveau jänner halten m...,"[putin, ``, einig, meng, niveau, jann, halt, '...",putin `` einig meng niveau jann halt '' moskau...
4,Estland sieht den künftigen österreichischen P...,Inland,"[estland, sieht, den, künftigen, österreichisc...","[estland, sieht, künftigen, österreichischen, ...",estland sieht künftigen österreichischen präsi...,"[estland, sehen, künftig, österreichisch, präs...",estland sehen künftig österreichisch präsident...,"[estland, sieht, kunftig, osterreich, prasiden...",estland sieht kunftig osterreich prasident est...
...,...,...,...,...,...,...,...,...,...
10,SSC nach 5: 1-Erfolg bei Robert Gucher's Frosi...,Sport,"[ssc, nach, 5, :, 1-erfolg, bei, robert, guche...","[ssc, 5, :, 1-erfolg, robert, gucher, 's, fros...",ssc 5 : 1-erfolg robert gucher 's frosinone ne...,"[ssc, 5, 1-erfolg, robert, gucher, 's, frosino...",ssc 5 1-erfolg robert gucher 's frosinone neu ...,"[ssc, 5, 1-erfolg, robert, guch, 's, frosinon,...",ssc 5 1-erfolg robert guch 's frosinon neu lea...
13,Leicesters Teamkapitän Christian Fuchs denkt o...,Sport,"[leicesters, teamkapitän, christian, fuchs, de...","[leicesters, teamkapitän, christian, fuchs, de...",leicesters teamkapitän christian fuchs denkt o...,"[leicesters, teamkapitän, christian, fuchs, de...",leicesters teamkapitän christian fuchs denken ...,"[leicest, teamkapitan, christian, fuch, denkt,...",leicest teamkapitan christian fuch denkt offen...
29,Surrey / Lund - Der Begriff Jetset tauchte in ...,Wissenschaft,"[surrey, /, lund, -, der, begriff, jetset, tau...","[surrey, /, lund, -, begriff, jetset, tauchte,...",surrey / lund - begriff jetset tauchte 1950er ...,"[surrey, lund, begriff, jetset, tauchen, 1950e...",surrey lund begriff jetset tauchen 1950er jahr...,"[surrey, lund, begriff, jetset, taucht, 1950er...",surrey lund begriff jetset taucht 1950er jahr ...
34,Kampf um Klimaanlagen: Das bleibende Vermächtn...,Wissenschaft,"[kampf, um, klimaanlagen, :, das, bleibende, v...","[kampf, klimaanlagen, :, bleibende, vermächtni...",kampf klimaanlagen : bleibende vermächtnis dän...,"[kampf, klimaanlagen, bleibend, vermächtnis, d...",kampf klimaanlagen bleibend vermächtnis dänisc...,"[kampf, klimaanlag, bleibend, vermachtnis, dan...",kampf klimaanlag bleibend vermachtnis danisch ...


In [8]:
result_train.to_parquet(path=file.news_articles_cleaned)