# Normalization

In [1]:
from pandas import concat, read_parquet

from data import file
from preprocessing.text import tokenize
from preprocessing.token import ignore_stopwords
from preprocessing.token import stem, lemma
from preprocessing.text import join

In [2]:
data = read_parquet(file.news_articles_augmented)

In [3]:
%%time
tokenized = data.text_original.map(tokenize).rename('text_tokenized')

CPU times: user 32 s, sys: 137 ms, total: 32.1 s
Wall time: 32.2 s


In [4]:
%%time
keywords = tokenized.map(ignore_stopwords).rename('text_tokenized_keywords')
keywords_text = keywords.map(join).rename('text_keywords')

CPU times: user 601 ms, sys: 12 ms, total: 613 ms
Wall time: 612 ms


In [5]:
%%time
lemmas = keywords.map(lemma).rename('text_tokenized_lemmas')
lemmas_text = lemmas.map(join).rename('text_lemmas')

CPU times: user 2min 11s, sys: 438 ms, total: 2min 11s
Wall time: 2min 11s


In [6]:
%%time
stem = keywords.map(stem).rename('text_tokenized_stemmed')
stem_text = stem.map(join).rename('text_stem')

CPU times: user 14.4 s, sys: 108 ms, total: 14.5 s
Wall time: 14.5 s


In [7]:
result_train = concat([data, tokenized, keywords, keywords_text, lemmas, lemmas_text, stem, stem_text], axis=1)
result_train

Unnamed: 0,text_original,label,text_tokenized,text_tokenized_keywords,text_keywords,text_tokenized_lemmas,text_lemmas,text_tokenized_stemmed,text_stem
0,21-Jähriger fällt wohl bis Saisonende aus. Wie...,Sport,"[21-jähriger, fällt, wohl, bis, saisonende, au...","[21-jähriger, fällt, wohl, saisonende, ., wien...",21-jähriger fällt wohl saisonende . wien – rap...,"[21-jähriger, fällen, wohl, saisonende, wien, ...",21-jähriger fällen wohl saisonende wien rapid ...,"[21-jahrig, fallt, wohl, saison, wien, rapid, ...",21-jahrig fallt wohl saison wien rapid wohl sa...
1,"Erfundene Bilder zu Filmen, die als verloren g...",Kultur,"[erfundene, bilder, zu, filmen, ,, die, als, v...","[erfundene, bilder, filmen, ,, verloren, gelte...","erfundene bilder filmen , verloren gelten : ``...","[erfunden, bilder, filmen, verlieren, gelten, ...",erfunden bilder filmen verlieren gelten `` the...,"[erfund, bild, film, verlor, gelt, ``, the, fo...",erfund bild film verlor gelt `` the forbidd ro...
2,Der frischgekürte CEO Sundar Pichai setzt auf ...,Web,"[der, frischgekürte, ceo, sundar, pichai, setz...","[frischgekürte, ceo, sundar, pichai, setzt, um...",frischgekürte ceo sundar pichai setzt umgängli...,"[frischgekürte, ceo, sundar, pichai, setzen, u...",frischgekürte ceo sundar pichai setzen umgängl...,"[frischgekurt, ceo, sundar, pichai, setzt, umg...",frischgekurt ceo sundar pichai setzt umgang fu...
3,"Putin: ""Einigung, dass wir Menge auf Niveau vo...",Wirtschaft,"[putin, :, ``, einigung, ,, dass, wir, menge, ...","[putin, :, ``, einigung, ,, menge, niveau, jän...","putin : `` einigung , menge niveau jänner halt...","[putin, ``, einigung, menge, niveau, jänner, h...",putin `` einigung menge niveau jänner halten m...,"[putin, ``, einig, meng, niveau, jann, halt, '...",putin `` einig meng niveau jann halt '' moskau...
4,Estland sieht den künftigen österreichischen P...,Inland,"[estland, sieht, den, künftigen, österreichisc...","[estland, sieht, künftigen, österreichischen, ...",estland sieht künftigen österreichischen präsi...,"[estland, sehen, künftig, österreichisch, präs...",estland sehen künftig österreichisch präsident...,"[estland, sieht, kunftig, osterreich, prasiden...",estland sieht kunftig osterreich prasident est...
...,...,...,...,...,...,...,...,...,...
1,Erfundene Bilder zu als verloren geltenden Fil...,Kultur,"[erfundene, bilder, zu, als, verloren, geltend...","[erfundene, bilder, verloren, geltenden, filme...",erfundene bilder verloren geltenden filmen : `...,"[erfunden, bilder, verlieren, geltend, filmen,...",erfunden bilder verlieren geltend filmen `` th...,"[erfund, bild, verlor, geltend, film, ``, the,...",erfund bild verlor geltend film `` the forbidd...
25,"Der neue ""King of Pop"" sollte es sein. Aber re...",Kultur,"[der, neue, ``, king, of, pop, '', sollte, es,...","[neue, ``, king, of, pop, '', ., reicht, wirkl...","neue `` king of pop '' . reicht wirklich , trü...","[neue, ``, king, of, pop, reichen, wirklich, t...",neue `` king of pop reichen wirklich trüb tag ...,"[neu, ``, king, of, pop, '', reicht, wirklich,...",neu `` king of pop '' reicht wirklich trub tag...
32,Das Duo Attwenger trifft bei der Eröffnung auf...,Kultur,"[das, duo, attwenger, trifft, bei, der, eröffn...","[duo, attwenger, trifft, eröffnung, symphonisc...",duo attwenger trifft eröffnung symphonische bl...,"[duo, attwenger, treffen, eröffnung, symphonis...",duo attwenger treffen eröffnung symphonische b...,"[duo, attweng, trifft, eroffn, symphon, blasmu...",duo attweng trifft eroffn symphon blasmus viel...
0,Wien - Rapid wird wohl bis zum Ende der Saison...,Sport,"[wien, -, rapid, wird, wohl, bis, zum, ende, d...","[wien, -, rapid, wohl, ende, saison, offensivs...",wien - rapid wohl ende saison offensivspieler ...,"[wien, rapid, wohl, ende, saison, offensivspie...",wien rapid wohl ende saison offensivspieler th...,"[wien, rapid, wohl, end, saison, offensivspiel...",wien rapid wohl end saison offensivspiel thoma...


In [8]:
result_train.to_parquet(path=file.news_articles_cleaned)