In [1]:
#########################################################
# Vectorizing preprocessed data and training vector model
#########################################################

In [None]:
# restarting the kernel
from IPython.core.display import HTML
HTML("<script>Jupyter.notebook.kernel.restart()</script>")

In [2]:
# optionally run preprocessing again
#%run ./import_and_preprocess.ipynb

In [3]:
# imports
from TrainTestSplitter import TrainTestSplitter
from Storage import Storage
from SessionConfigReader import SessionConfigReader
from Vectorizer import Vectorizer

Using TensorFlow backend.


In [4]:
prepped_texts = 'articles_preprocessed'
train_id = 'articles_preprocessed_train'
test_id = 'articles_preprocessed_test'
train_vectorized_id = 'articles_train'
test_vectorized_id = 'articles_test'
gensim_model_id = SessionConfigReader.read_value('vec_model_id')

In [5]:
# Deleting previous data dumps from this script
Storage.delete_pd_frame(train_id)
Storage.delete_pd_frame(test_id)
Storage.delete_model(gensim_model_id)
Storage.delete_pd_frame(train_vectorized_id+'_vectorized')
Storage.delete_pd_frame(test_vectorized_id+'_vectorized')

In [6]:
# Splitting into training and test set
TrainTestSplitter.split_train_test(prepped_texts)

In [7]:
df_train = Storage.load_pd_frame(train_id)
df_train

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,Der amerikanische Rohstoffriese Samson Resourc...,amerikanische Rohstoffriese Samson Resources p...,amerikanische Rohstoffriese Samson Resources p...
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...",Wenn man den Menschen in Glück ersäuft dann fä...,Menschen Glück ersäuft fällt Glücklichen Besse...,Mensch glücken ersaufen fällen Glückliche Bess...
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...",Nächster Fall von Hassposting der zu Jobverlus...,Nächster Fall Hassposting Jobverlust führt ein...,Nächster Fall Hassposting Jobverlust führen ei...
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...",Spaniens Energieriesen verfeuern Braunkohle um...,Spaniens Energieriesen verfeuern Braunkohle Be...,Spanien Energieriesen verfeuern Braunkohle Bed...
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,Ursache muss noch untersucht werden Wien Kurz ...,Ursache untersucht Wien Kurz Heiligen Abend mü...,Ursache untersuchen Wien Kurz Heilige Abend mü...
...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,Jährigem drohten Peitschenhiebe London Ein Ja...,Jährigem drohten Peitschenhiebe London Jahre a...,Jährigem drohen Peitschenhiebe London Jahr alt...
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,Bernd Saurer war Bridge Juniorenweltmeister un...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,Bernd Saurer Bridge Juniorenweltmeister Krauss...
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch bleiben Klopp treu Sevilla unterstr...
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,Außenamt Beurteilung durch UN Arbeitsgruppe en...,Außenamt Beurteilung UN Arbeitsgruppe entspric...,Außenamt Beurteilung UN Arbeitsgruppe entsprec...


In [8]:
df_test = Storage.load_pd_frame(test_id)
df_test

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed
1,[Etat],App sei nicht so angenommen worden wie geplant...,App sei nicht so angenommen worden wie geplant...,App sei angenommen worden geplant Wegen gering...,App sein annehmen werden planen Weg gering Nut...
2,[Etat],"Zum Welttag der Suizidprävention ist es Zeit, ...",Zum Welttag der Suizidprävention ist es Zeit d...,Welttag Suizidprävention Zeit alte Dogma Suizi...,Welttag Suizidprävention Zeit alt Dogma Suizid...
3,[Etat],Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreicht Eigentümervertretern Pe...
4,[Etat],Service: Jobwechsel in der Kommunikationsbranc...,Service Jobwechsel in der Kommunikationsbranch...,Service Jobwechsel Kommunikationsbranche Überb...,Service Jobwechsel Kommunikationsbranche Überb...
5,[Etat],Was Sie über diese Woche wissen sollten - und ...,Was Sie über diese Woche wissen sollten und wa...,Woche wissen sollten gleich vergessen Wien Woc...,Woche wissen sollen gleichen vergessen Wien Wo...
...,...,...,...,...,...
10262,[Wissenschaft],"Archäologin: ""Einige Monumente wie der Torboge...",Archäologin Einige Monumente wie der Torbogen ...,Archäologin Monumente Torbogen leicht errichte...,Archäologin Monument Torbogen leicht errichten...
10263,[Wissenschaft],800 Wissenschafter zu großer Konferenz in Wien...,Wissenschafter zu großer Konferenz in Wien er...,Wissenschafter großer Konferenz Wien erwartet ...,Wissenschafter groß Konferenz Wien erwarten we...
10264,[Wissenschaft],Vor seinem Untergang befand sich das Schiff de...,Vor seinem Untergang befand sich das Schiff de...,Untergang befand Schiff britischen Entdeckers ...,Untergang befinden schiffen britisch Entdecker...
10270,[Wissenschaft],Die zentrale Frage des Projekts: Siedelten Ägy...,Die zentrale Frage des Projekts Siedelten Ägyp...,zentrale Frage Projekts Siedelten Ägypter hier...,zentrale Frage Projekt Siedelten Ägypter hierh...


In [9]:
model_id = Vectorizer.create_model(df_train, new_model_id=gensim_model_id, col_name='preprocessed')
model_id

'articles_train_word2vec_001'

In [10]:
df_train_vectorized = Vectorizer.vectorize(df_train, storage_level=2, storage_name=train_vectorized_id)
df_train_vectorized

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed,document vector
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,Der amerikanische Rohstoffriese Samson Resourc...,amerikanische Rohstoffriese Samson Resources p...,amerikanische Rohstoffriese Samson Resources p...,"[0.2490101255869533, -0.19364042608668247, -0...."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...",Wenn man den Menschen in Glück ersäuft dann fä...,Menschen Glück ersäuft fällt Glücklichen Besse...,Mensch glücken ersaufen fällen Glückliche Bess...,"[0.2775443969423779, -0.13158075775977018, -0...."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...",Nächster Fall von Hassposting der zu Jobverlus...,Nächster Fall Hassposting Jobverlust führt ein...,Nächster Fall Hassposting Jobverlust führen ei...,"[0.31568419103045015, -0.13366419196361676, -0..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...",Spaniens Energieriesen verfeuern Braunkohle um...,Spaniens Energieriesen verfeuern Braunkohle Be...,Spanien Energieriesen verfeuern Braunkohle Bed...,"[0.4154998466249678, -0.13577979533155296, -0...."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,Ursache muss noch untersucht werden Wien Kurz ...,Ursache untersucht Wien Kurz Heiligen Abend mü...,Ursache untersuchen Wien Kurz Heilige Abend mü...,"[0.2284945207467335, -0.0821207987663775, -0.0..."
...,...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,Jährigem drohten Peitschenhiebe London Ein Ja...,Jährigem drohten Peitschenhiebe London Jahre a...,Jährigem drohen Peitschenhiebe London Jahr alt...,"[0.4176037944311839, -0.10229097418676586, -0...."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,Bernd Saurer war Bridge Juniorenweltmeister un...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,"[0.2277167585450522, 0.06321682860134194, -0.0..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch bleiben Klopp treu Sevilla unterstr...,"[0.434561253709641, -0.12695886906052087, -0.1..."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,Außenamt Beurteilung durch UN Arbeitsgruppe en...,Außenamt Beurteilung UN Arbeitsgruppe entspric...,Außenamt Beurteilung UN Arbeitsgruppe entsprec...,"[0.2580930808132204, -0.09712476860901613, -0...."


In [11]:
df_test_vectorized = Vectorizer.vectorize(df_test, storage_level=2, storage_name=test_vectorized_id)
df_test_vectorized

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed,document vector
1,[Etat],App sei nicht so angenommen worden wie geplant...,App sei nicht so angenommen worden wie geplant...,App sei angenommen worden geplant Wegen gering...,App sein annehmen werden planen Weg gering Nut...,"[0.39530070764677866, -0.23964616719500295, -0..."
2,[Etat],"Zum Welttag der Suizidprävention ist es Zeit, ...",Zum Welttag der Suizidprävention ist es Zeit d...,Welttag Suizidprävention Zeit alte Dogma Suizi...,Welttag Suizidprävention Zeit alt Dogma Suizid...,"[0.3255458307990228, -0.18829256407791814, -0...."
3,[Etat],Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreichten Eigentümervertretern ...,Mitarbeiter überreicht Eigentümervertretern Pe...,"[0.30378349925959686, -0.04361086992812293, -0..."
4,[Etat],Service: Jobwechsel in der Kommunikationsbranc...,Service Jobwechsel in der Kommunikationsbranch...,Service Jobwechsel Kommunikationsbranche Überb...,Service Jobwechsel Kommunikationsbranche Überb...,"[0.38095428341199666, -0.35288267811306584, 0...."
5,[Etat],Was Sie über diese Woche wissen sollten - und ...,Was Sie über diese Woche wissen sollten und wa...,Woche wissen sollten gleich vergessen Wien Woc...,Woche wissen sollen gleichen vergessen Wien Wo...,"[0.3160305998365705, -0.24576140217201706, -0...."
...,...,...,...,...,...,...
10262,[Wissenschaft],"Archäologin: ""Einige Monumente wie der Torboge...",Archäologin Einige Monumente wie der Torbogen ...,Archäologin Monumente Torbogen leicht errichte...,Archäologin Monument Torbogen leicht errichten...,"[0.2687826882873196, -0.14626336341170826, -0...."
10263,[Wissenschaft],800 Wissenschafter zu großer Konferenz in Wien...,Wissenschafter zu großer Konferenz in Wien er...,Wissenschafter großer Konferenz Wien erwartet ...,Wissenschafter groß Konferenz Wien erwarten we...,"[0.23208048956297422, -0.11530571520039491, -0..."
10264,[Wissenschaft],Vor seinem Untergang befand sich das Schiff de...,Vor seinem Untergang befand sich das Schiff de...,Untergang befand Schiff britischen Entdeckers ...,Untergang befinden schiffen britisch Entdecker...,"[0.33146269986944565, -0.1507061942444037, -0...."
10270,[Wissenschaft],Die zentrale Frage des Projekts: Siedelten Ägy...,Die zentrale Frage des Projekts Siedelten Ägyp...,zentrale Frage Projekts Siedelten Ägypter hier...,zentrale Frage Projekt Siedelten Ägypter hierh...,"[0.25973136383626194, -0.19709823316338265, -0..."
