In [11]:
#########################################################
# Vectorizing preprocessed data and training vector model
#########################################################

In [None]:
# restarting the kernel
from IPython.core.display import HTML
HTML("<script>Jupyter.notebook.kernel.restart()</script>")

In [1]:
# optionally run preprocessing again
#%run ./import_and_preprocess.ipynb

In [2]:
# imports
from TrainTestSplitter import TrainTestSplitter
from Storage import Storage
from SessionConfigReader import SessionConfigReader
from Vectorizer import Vectorizer

Using TensorFlow backend.


In [3]:
prepped_texts = 'tenkgnad_preprocessed'
train_id = 'tenkgnad_preprocessed_train'
test_id = 'tenkgnad_preprocessed_test'
train_vectorized_id = 'tenkgnad_train'
test_vectorized_id = 'tenkgnad_test'
gensim_model_id = SessionConfigReader.read_value('vec_model_id')

In [4]:
# Deleting previous data dumps from this script
Storage.delete_pd_frame(train_id)
Storage.delete_pd_frame(test_id)
Storage.delete_model(gensim_model_id)
Storage.delete_pd_frame(train_vectorized_id+'_vectorized')
Storage.delete_pd_frame(test_vectorized_id+'_vectorized')

In [5]:
# Splitting into training and test set
TrainTestSplitter.split_train_test(prepped_texts)

In [6]:
df_train = Storage.load_pd_frame(train_id)
df_train

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,Der amerikanische Rohstoffriese Samson Resourc...,amerikanische Rohstoffriese Samson Resources p...,amerikanische Rohstoffriese Samson Resources p...
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...",Wenn man den Menschen in Glück ersäuft dann fä...,Menschen Glück ersäuft fällt Glücklichen Besse...,Mensch glücken ersaufen fällen Glückliche Bess...
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...",Nächster Fall von Hassposting der zu Jobverlus...,Nächster Fall Hassposting Jobverlust führt ein...,Nächster Fall Hassposting Jobverlust führen ei...
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...",Spaniens Energieriesen verfeuern Braunkohle um...,Spaniens Energieriesen verfeuern Braunkohle Be...,Spanien Energieriesen verfeuern Braunkohle Bed...
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,Ursache muss noch untersucht werden Wien Kurz ...,Ursache untersucht Wien Kurz Heiligen Abend mü...,Ursache untersuchen Wien Kurz Heilige Abend mü...
...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,Jährigem drohten Peitschenhiebe London Ein Ja...,Jährigem drohten Peitschenhiebe London Jahre a...,Jährigem drohen Peitschenhiebe London Jahr alt...
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,Bernd Saurer war Bridge Juniorenweltmeister un...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,Bernd Saurer Bridge Juniorenweltmeister Krauss...
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch bleiben Klopp treu Sevilla unterstr...
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,Außenamt Beurteilung durch UN Arbeitsgruppe en...,Außenamt Beurteilung UN Arbeitsgruppe entspric...,Außenamt Beurteilung UN Arbeitsgruppe entsprec...


In [7]:
df_test = Storage.load_pd_frame(test_id)
df_test

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed
1,[Etat],App sei nicht so angenommen worden wie geplant...,App sei nicht so angenommen worden wie geplant...,App sei angenommen worden geplant Wegen gering...,App sein annehmen werden planen Weg gering Nut...
2,[Etat],"Zum Welttag der Suizidprävention ist es Zeit, ...",Zum Welttag der Suizidprävention ist es Zeit d...,Welttag Suizidprävention Zeit alte Dogma Suizi...,Welttag Suizidprävention Zeit alt Dogma Suizid...
3,[Etat],Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreicht Eigentümervertretern Pe...
4,[Etat],Service: Jobwechsel in der Kommunikationsbranc...,Service Jobwechsel in der Kommunikationsbranch...,Service Jobwechsel Kommunikationsbranche Überb...,Service Jobwechsel Kommunikationsbranche Überb...
5,[Etat],Was Sie über diese Woche wissen sollten - und ...,Was Sie über diese Woche wissen sollten und wa...,Woche wissen sollten gleich vergessen Wien Woc...,Woche wissen sollen gleichen vergessen Wien Wo...
...,...,...,...,...,...
10262,[Wissenschaft],"Archäologin: ""Einige Monumente wie der Torboge...",Archäologin Einige Monumente wie der Torbogen ...,Archäologin Monumente Torbogen leicht errichte...,Archäologin Monument Torbogen leicht errichten...
10263,[Wissenschaft],800 Wissenschafter zu großer Konferenz in Wien...,Wissenschafter zu großer Konferenz in Wien er...,Wissenschafter großer Konferenz Wien erwartet ...,Wissenschafter groß Konferenz Wien erwarten we...
10264,[Wissenschaft],Vor seinem Untergang befand sich das Schiff de...,Vor seinem Untergang befand sich das Schiff de...,Untergang befand Schiff britischen Entdeckers ...,Untergang befinden schiffen britisch Entdecker...
10270,[Wissenschaft],Die zentrale Frage des Projekts: Siedelten Ägy...,Die zentrale Frage des Projekts Siedelten Ägyp...,zentrale Frage Projekts Siedelten Ägypter hier...,zentrale Frage Projekt Siedelten Ägypter hierh...


In [8]:
model_id = Vectorizer.create_model(df_train, new_model_id=gensim_model_id, col_name='preprocessed')
model_id

'articles_train_word2vec_001'

In [9]:
df_train_vectorized = Vectorizer.vectorize(df_train, storage_level=2, storage_name=train_vectorized_id)
df_train_vectorized

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed,document vector
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,Der amerikanische Rohstoffriese Samson Resourc...,amerikanische Rohstoffriese Samson Resources p...,amerikanische Rohstoffriese Samson Resources p...,"[0.2728187310439284, 0.4690067686781447, -0.46..."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...",Wenn man den Menschen in Glück ersäuft dann fä...,Menschen Glück ersäuft fällt Glücklichen Besse...,Mensch glücken ersaufen fällen Glückliche Bess...,"[0.09031773135454084, 0.25771937094476827, -0...."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...",Nächster Fall von Hassposting der zu Jobverlus...,Nächster Fall Hassposting Jobverlust führt ein...,Nächster Fall Hassposting Jobverlust führen ei...,"[0.10271164055913687, 0.2699618990020827, -0.3..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...",Spaniens Energieriesen verfeuern Braunkohle um...,Spaniens Energieriesen verfeuern Braunkohle Be...,Spanien Energieriesen verfeuern Braunkohle Bed...,"[0.18346077081386594, 0.3339426528207016, -0.4..."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,Ursache muss noch untersucht werden Wien Kurz ...,Ursache untersucht Wien Kurz Heiligen Abend mü...,Ursache untersuchen Wien Kurz Heilige Abend mü...,"[0.08313710819602002, 0.25298156725488946, -0...."
...,...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,Jährigem drohten Peitschenhiebe London Ein Ja...,Jährigem drohten Peitschenhiebe London Jahre a...,Jährigem drohen Peitschenhiebe London Jahr alt...,"[0.05154200183325122, 0.3419939869375856, -0.3..."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,Bernd Saurer war Bridge Juniorenweltmeister un...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,"[-0.0043711272028690955, 0.019311631964073775,..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch bleiben Klopp treu Sevilla unterstr...,"[0.14975114926346578, 0.10966875355976906, -0...."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,Außenamt Beurteilung durch UN Arbeitsgruppe en...,Außenamt Beurteilung UN Arbeitsgruppe entspric...,Außenamt Beurteilung UN Arbeitsgruppe entsprec...,"[-0.004153681874716615, 0.25654005668669316, -..."


In [10]:
df_test_vectorized = Vectorizer.vectorize(df_test, storage_level=2, storage_name=test_vectorized_id)
df_test_vectorized

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed,document vector
1,[Etat],App sei nicht so angenommen worden wie geplant...,App sei nicht so angenommen worden wie geplant...,App sei angenommen worden geplant Wegen gering...,App sein annehmen werden planen Weg gering Nut...,"[0.2924905421345362, 0.45000449421682526, -0.5..."
2,[Etat],"Zum Welttag der Suizidprävention ist es Zeit, ...",Zum Welttag der Suizidprävention ist es Zeit d...,Welttag Suizidprävention Zeit alte Dogma Suizi...,Welttag Suizidprävention Zeit alt Dogma Suizid...,"[0.09761859809597288, 0.2691012496721842, -0.3..."
3,[Etat],Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreicht Eigentümervertretern Pe...,"[0.11031757747993544, 0.24812877261059818, -0...."
4,[Etat],Service: Jobwechsel in der Kommunikationsbranc...,Service Jobwechsel in der Kommunikationsbranch...,Service Jobwechsel Kommunikationsbranche Überb...,Service Jobwechsel Kommunikationsbranche Überb...,"[0.1832138229695008, 0.29189331736944785, -0.7..."
5,[Etat],Was Sie über diese Woche wissen sollten - und ...,Was Sie über diese Woche wissen sollten und wa...,Woche wissen sollten gleich vergessen Wien Woc...,Woche wissen sollen gleichen vergessen Wien Wo...,"[0.12205990955408197, 0.20291839434503345, -0...."
...,...,...,...,...,...,...
10262,[Wissenschaft],"Archäologin: ""Einige Monumente wie der Torboge...",Archäologin Einige Monumente wie der Torbogen ...,Archäologin Monumente Torbogen leicht errichte...,Archäologin Monument Torbogen leicht errichten...,"[-0.008009227180446032, 0.26546023419505216, -..."
10263,[Wissenschaft],800 Wissenschafter zu großer Konferenz in Wien...,Wissenschafter zu großer Konferenz in Wien er...,Wissenschafter großer Konferenz Wien erwartet ...,Wissenschafter groß Konferenz Wien erwarten we...,"[0.0591137161481411, 0.22429947981018114, -0.2..."
10264,[Wissenschaft],Vor seinem Untergang befand sich das Schiff de...,Vor seinem Untergang befand sich das Schiff de...,Untergang befand Schiff britischen Entdeckers ...,Untergang befinden schiffen britisch Entdecker...,"[0.1834530476189684, 0.35776291489047113, -0.3..."
10270,[Wissenschaft],Die zentrale Frage des Projekts: Siedelten Ägy...,Die zentrale Frage des Projekts Siedelten Ägyp...,zentrale Frage Projekts Siedelten Ägypter hier...,zentrale Frage Projekt Siedelten Ägypter hierh...,"[0.14406885148750412, 0.2927967147280773, -0.3..."
