In [32]:
############################################################
# Training Classifier with vectorized data and running tests
############################################################

In [None]:
# restarting the kernel
from IPython.core.display import HTML
HTML("<script>Jupyter.notebook.kernel.restart()</script>")

In [1]:
# optionally run preprocessing again
#%run ./import_and_preprocess.ipynb
# optionally run vectorization again
#%run ./vectorize.ipynb

In [2]:
# imports
from ClassificationInterpreter import ClassificationInterpreter
from Storage import Storage
from SessionConfigReader import SessionConfigReader
from Classifier import Classifier
from EvaluationHandler import EvaluationHandler

Using TensorFlow backend.


In [3]:
vec_model_id = SessionConfigReader.read_value('vec_model_id')
nn_model_id = SessionConfigReader.read_value('keras_nn_model_id')
print(vec_model_id)
print(nn_model_id)
train_vec_id = 'articles_train_vectorized'
test_vec_id = 'articles_test_vectorized'

articles_train_word2vec_001
articles_train_keras_nn_001


In [4]:
Storage.delete_h5_model(nn_model_id)

In [5]:
train_vec = Storage.load_pd_frame(train_vec_id)
test_vec = Storage.load_pd_frame(test_vec_id)

In [6]:
train_vec

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed,document vector
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,Der amerikanische Rohstoffriese Samson Resourc...,amerikanische Rohstoffriese Samson Resources p...,amerikanische Rohstoffriese Samson Resources p...,"[0.35116067564275155, 0.10396467288736985, -0...."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...",Wenn man den Menschen in Glück ersäuft dann fä...,Menschen Glück ersäuft fällt Glücklichen Besse...,Mensch glücken ersaufen fällen Glückliche Bess...,"[0.27171568838982946, 0.1320875390730281, 0.04..."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...",Nächster Fall von Hassposting der zu Jobverlus...,Nächster Fall Hassposting Jobverlust führt ein...,Nächster Fall Hassposting Jobverlust führen ei...,"[0.2786971673381049, 0.11880292560439557, 0.03..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...",Spaniens Energieriesen verfeuern Braunkohle um...,Spaniens Energieriesen verfeuern Braunkohle Be...,Spanien Energieriesen verfeuern Braunkohle Bed...,"[0.35139737237285784, 0.23918282515932243, -0...."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,Ursache muss noch untersucht werden Wien Kurz ...,Ursache untersucht Wien Kurz Heiligen Abend mü...,Ursache untersuchen Wien Kurz Heilige Abend mü...,"[0.23216174450306887, 0.07704747765426706, 0.0..."
...,...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,Jährigem drohten Peitschenhiebe London Ein Ja...,Jährigem drohten Peitschenhiebe London Jahre a...,Jährigem drohen Peitschenhiebe London Jahr alt...,"[0.356084035609329, 0.11922967937933335, -0.10..."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,Bernd Saurer war Bridge Juniorenweltmeister un...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,"[0.2291977620445826, 0.18525625636647555, 0.00..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch bleiben Klopp treu Sevilla unterstr...,"[0.3283075856355329, 0.3772200811120759, -0.01..."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,Außenamt Beurteilung durch UN Arbeitsgruppe en...,Außenamt Beurteilung UN Arbeitsgruppe entspric...,Außenamt Beurteilung UN Arbeitsgruppe entsprec...,"[0.2781579718575813, 0.10152218217262998, 0.00..."


In [7]:
train_vec = train_vec.drop(columns=['noise removed', 'stopwords removed', 'preprocessed'])
train_vec_cats_out = ClassificationInterpreter.create_out_vectors(train_vec)
train_vec_cats_out

Unnamed: 0,categories,text,document vector,category vector
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,"[0.35116067564275155, 0.10396467288736985, -0....","[0.6316933482885361, 0.5150488093495369, 0.535..."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...","[0.27171568838982946, 0.1320875390730281, 0.04...","[0.5749996975064278, 0.5365331657230854, 0.557..."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...","[0.2786971673381049, 0.11880292560439557, 0.03...","[0.5425518825650215, 0.5334372371435165, 0.504..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...","[0.35139737237285784, 0.23918282515932243, -0....","[0.6316933482885361, 0.5150488093495369, 0.535..."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,"[0.23216174450306887, 0.07704747765426706, 0.0...","[0.6316933482885361, 0.5150488093495369, 0.535..."
...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,"[0.356084035609329, 0.11922967937933335, -0.10...","[0.5741550773382187, 0.5454485453665257, 0.493..."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,"[0.2291977620445826, 0.18525625636647555, 0.00...","[0.5246094726026058, 0.5045751528814435, 0.502..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,"[0.3283075856355329, 0.3772200811120759, -0.01...","[0.569934718310833, 0.5755672007799149, 0.5210..."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,"[0.2781579718575813, 0.10152218217262998, 0.00...","[0.5425518825650215, 0.5334372371435165, 0.504..."


In [9]:
test_vec = test_vec.drop(columns=['noise removed', 'stopwords removed', 'preprocessed'])
test_vec

Unnamed: 0,categories,text,document vector
1,[Etat],App sei nicht so angenommen worden wie geplant...,"[0.43275529039757593, 0.14660344502356434, -0...."
2,[Etat],"Zum Welttag der Suizidprävention ist es Zeit, ...","[0.3089651198270509, 0.14324529158572355, 0.10..."
3,[Etat],Mitarbeiter überreichten Eigentümervertretern ...,"[0.27314701859378604, 0.1375068294044624, -0.0..."
4,[Etat],Service: Jobwechsel in der Kommunikationsbranc...,"[0.5494780564777456, 0.030977784897890184, -0...."
5,[Etat],Was Sie über diese Woche wissen sollten - und ...,"[0.42542389830729616, 0.08715114129396777, -0...."
...,...,...,...
10262,[Wissenschaft],"Archäologin: ""Einige Monumente wie der Torboge...","[0.32293636752292515, 0.0826208355545532, 0.02..."
10263,[Wissenschaft],800 Wissenschafter zu großer Konferenz in Wien...,"[0.27630487958975564, 0.1332450757531085, 0.03..."
10264,[Wissenschaft],Vor seinem Untergang befand sich das Schiff de...,"[0.3142480892858591, 0.13729275871034577, -0.0..."
10270,[Wissenschaft],Die zentrale Frage des Projekts: Siedelten Ägy...,"[0.3231603068196111, 0.1403274620559791, 0.059..."


In [10]:
# Training...
new_model_id = Classifier.create_model(train_vec_cats_out, fv_col_name='document vector', cat_v_col_name='categories vector')
new_model_id

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


'articles_train_keras_nn_001'

In [11]:
# Testing...
classified_df = Classifier.classify(train_vec)
classified_df

Unnamed: 0,categories,text,document vector,classification output
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,"[0.35116067564275155, 0.10396467288736985, -0....","[0.01172394, 0.01043851, 0.010372504, 0.007297..."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...","[0.27171568838982946, 0.1320875390730281, 0.04...","[0.010925056, 0.0104245, 0.010350671, 0.008303..."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...","[0.2786971673381049, 0.11880292560439557, 0.03...","[0.010878026, 0.0103934435, 0.01033352, 0.0083..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...","[0.35139737237285784, 0.23918282515932243, -0....","[0.011436826, 0.01067316, 0.010290198, 0.00766..."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,"[0.23216174450306887, 0.07704747765426706, 0.0...","[0.010804897, 0.010215528, 0.0102545535, 0.008..."
...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,"[0.356084035609329, 0.11922967937933335, -0.10...","[0.011227061, 0.010597333, 0.009885465, 0.0080..."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,"[0.2291977620445826, 0.18525625636647555, 0.00...","[0.010559445, 0.010079206, 0.010040715, 0.0091..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,"[0.3283075856355329, 0.3772200811120759, -0.01...","[0.011425081, 0.011412066, 0.010140392, 0.0076..."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,"[0.2781579718575813, 0.10152218217262998, 0.00...","[0.011360618, 0.010539273, 0.010081844, 0.0077..."


In [19]:
interpreted = ClassificationInterpreter.interpret_output(classified_df)
interpreted

Unnamed: 0,categories,text,document vector,classification output,result
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,"[0.35116067564275155, 0.10396467288736985, -0....","[0.01172394, 0.01043851, 0.010372504, 0.007297...",[Wirtschaft]
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...","[0.27171568838982946, 0.1320875390730281, 0.04...","[0.010925056, 0.0104245, 0.010350671, 0.008303...",[Wirtschaft]
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...","[0.2786971673381049, 0.11880292560439557, 0.03...","[0.010878026, 0.0103934435, 0.01033352, 0.0083...",[Wirtschaft]
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...","[0.35139737237285784, 0.23918282515932243, -0....","[0.011436826, 0.01067316, 0.010290198, 0.00766...",[Wirtschaft]
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,"[0.23216174450306887, 0.07704747765426706, 0.0...","[0.010804897, 0.010215528, 0.0102545535, 0.008...",[Wirtschaft]
...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,"[0.356084035609329, 0.11922967937933335, -0.10...","[0.011227061, 0.010597333, 0.009885465, 0.0080...",[Wirtschaft]
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,"[0.2291977620445826, 0.18525625636647555, 0.00...","[0.010559445, 0.010079206, 0.010040715, 0.0091...",[Wirtschaft]
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,"[0.3283075856355329, 0.3772200811120759, -0.01...","[0.011425081, 0.011412066, 0.010140392, 0.0076...",[Wirtschaft]
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,"[0.2781579718575813, 0.10152218217262998, 0.00...","[0.011360618, 0.010539273, 0.010081844, 0.0077...",[Wirtschaft]


In [20]:
score = ClassificationInterpreter.evaluate_output(interpreted)
score

0.1366822429906542

In [13]:
#EvaluationHandler.clear_evaluations()
EvaluationHandler.add_evaluation(score)

In [14]:
evaluations = EvaluationHandler.load_evaluations()
evaluations

Unnamed: 0,timestamp,session id,config id,score
0,2020-02-19 00:46:17,session_001,session_config_0001,0.436052
0,2020-02-19 01:27:46,session_001,session_config_0001,0.448316


In [15]:
best_score = EvaluationHandler.compare_evaluations()
best_score

Unnamed: 0,timestamp,session id,config id,score
0,2020-02-19 01:27:46,session_001,session_config_0001,0.448316
