In [21]:
############################################################
# Training Classifier with vectorized data and running tests
############################################################

In [None]:
# restarting the kernel
from IPython.core.display import HTML
HTML("<script>Jupyter.notebook.kernel.restart()</script>")

In [1]:
# optionally run preprocessing again
#%run ./import_and_preprocess.ipynb
# optionally run vectorization again
#%run ./vectorize.ipynb

In [2]:
# imports
from ClassificationInterpreter import ClassificationInterpreter
from Storage import Storage
from SessionConfigReader import SessionConfigReader
from Classifier import Classifier
from EvaluationHandler import EvaluationHandler

Using TensorFlow backend.


In [3]:
vec_model_id = SessionConfigReader.read_value('vec_model_id')
nn_model_id = SessionConfigReader.read_value('keras_nn_model_id')
print(vec_model_id)
print(nn_model_id)
train_vec_id = 'tenkgnad_train_vectorized'
test_vec_id = 'tenkgnad_test_vectorized'

articles_train_word2vec_001
articles_train_keras_nn_001


In [4]:
Storage.delete_h5_model(nn_model_id)

In [5]:
train_vec = Storage.load_pd_frame(train_vec_id)
test_vec = Storage.load_pd_frame(test_vec_id)

In [6]:
train_vec

Unnamed: 0,categories,text,noise removed,stopwords removed,preprocessed,document vector
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,Der amerikanische Rohstoffriese Samson Resourc...,amerikanische Rohstoffriese Samson Resources p...,amerikanische Rohstoffriese Samson Resources p...,"[0.2728187310439284, 0.4690067686781447, -0.46..."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...",Wenn man den Menschen in Glück ersäuft dann fä...,Menschen Glück ersäuft fällt Glücklichen Besse...,Mensch glücken ersaufen fällen Glückliche Bess...,"[0.09031773135454084, 0.25771937094476827, -0...."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...",Nächster Fall von Hassposting der zu Jobverlus...,Nächster Fall Hassposting Jobverlust führt ein...,Nächster Fall Hassposting Jobverlust führen ei...,"[0.10271164055913687, 0.2699618990020827, -0.3..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...",Spaniens Energieriesen verfeuern Braunkohle um...,Spaniens Energieriesen verfeuern Braunkohle Be...,Spanien Energieriesen verfeuern Braunkohle Bed...,"[0.18346077081386594, 0.3339426528207016, -0.4..."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,Ursache muss noch untersucht werden Wien Kurz ...,Ursache untersucht Wien Kurz Heiligen Abend mü...,Ursache untersuchen Wien Kurz Heilige Abend mü...,"[0.08313710819602002, 0.25298156725488946, -0...."
...,...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,Jährigem drohten Peitschenhiebe London Ein Ja...,Jährigem drohten Peitschenhiebe London Jahre a...,Jährigem drohen Peitschenhiebe London Jahr alt...,"[0.05154200183325122, 0.3419939869375856, -0.3..."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,Bernd Saurer war Bridge Juniorenweltmeister un...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,Bernd Saurer Bridge Juniorenweltmeister Krauss...,"[-0.0043711272028690955, 0.019311631964073775,..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch blieb Klopp treu Sevilla unterstric...,Finalfluch bleiben Klopp treu Sevilla unterstr...,"[0.14975114926346578, 0.10966875355976906, -0...."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,Außenamt Beurteilung durch UN Arbeitsgruppe en...,Außenamt Beurteilung UN Arbeitsgruppe entspric...,Außenamt Beurteilung UN Arbeitsgruppe entsprec...,"[-0.004153681874716615, 0.25654005668669316, -..."


In [7]:
train_vec = train_vec.drop(columns=['noise removed', 'stopwords removed', 'preprocessed'])
train_vec_cats_out = ClassificationInterpreter.create_out_vectors(train_vec)
train_vec_cats_out

Unnamed: 0,categories,text,document vector,categories vector
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,"[0.2728187310439284, 0.4690067686781447, -0.46...","[0.5366196595132351, 0.6549957394599915, 0.397..."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...","[0.09031773135454084, 0.25771937094476827, -0....","[0.492366143502295, 0.546677190810442, 0.43846..."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...","[0.10271164055913687, 0.2699618990020827, -0.3...","[0.5351509302854538, 0.538571260869503, 0.4450..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...","[0.18346077081386594, 0.3339426528207016, -0.4...","[0.5366196595132351, 0.6549957394599915, 0.397..."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,"[0.08313710819602002, 0.25298156725488946, -0....","[0.5366196595132351, 0.6549957394599915, 0.397..."
...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,"[0.05154200183325122, 0.3419939869375856, -0.3...","[0.5254810955375433, 0.5577098950743675, 0.440..."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,"[-0.0043711272028690955, 0.019311631964073775,...","[0.5139087541028857, 0.5300306472927332, 0.471..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,"[0.14975114926346578, 0.10966875355976906, -0....","[0.5349565781652927, 0.5272373612970114, 0.408..."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,"[-0.004153681874716615, 0.25654005668669316, -...","[0.5351509302854538, 0.538571260869503, 0.4450..."


In [8]:
test_vec = test_vec.drop(columns=['noise removed', 'stopwords removed', 'preprocessed'])
test_vec

Unnamed: 0,categories,text,document vector
1,[Etat],App sei nicht so angenommen worden wie geplant...,"[0.2924905421345362, 0.45000449421682526, -0.5..."
2,[Etat],"Zum Welttag der Suizidprävention ist es Zeit, ...","[0.09761859809597288, 0.2691012496721842, -0.3..."
3,[Etat],Mitarbeiter überreichten Eigentümervertretern ...,"[0.11031757747993544, 0.24812877261059818, -0...."
4,[Etat],Service: Jobwechsel in der Kommunikationsbranc...,"[0.1832138229695008, 0.29189331736944785, -0.7..."
5,[Etat],Was Sie über diese Woche wissen sollten - und ...,"[0.12205990955408197, 0.20291839434503345, -0...."
...,...,...,...
10262,[Wissenschaft],"Archäologin: ""Einige Monumente wie der Torboge...","[-0.008009227180446032, 0.26546023419505216, -..."
10263,[Wissenschaft],800 Wissenschafter zu großer Konferenz in Wien...,"[0.0591137161481411, 0.22429947981018114, -0.2..."
10264,[Wissenschaft],Vor seinem Untergang befand sich das Schiff de...,"[0.1834530476189684, 0.35776291489047113, -0.3..."
10270,[Wissenschaft],Die zentrale Frage des Projekts: Siedelten Ägy...,"[0.14406885148750412, 0.2927967147280773, -0.3..."


In [9]:
# Training...
new_model_id = Classifier.create_model(train_vec_cats_out, fv_col_name='document vector', cat_v_col_name='categories vector')
new_model_id

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


'articles_train_keras_nn_001'

In [10]:
# Testing...
classified_df = Classifier.classify(train_vec)
classified_df

Unnamed: 0,categories,text,document vector,classification output
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,"[0.2728187310439284, 0.4690067686781447, -0.46...","[0.010651599, 0.011669588, 0.008553203, 0.0101..."
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...","[0.09031773135454084, 0.25771937094476827, -0....","[0.010167787, 0.010699158, 0.009144986, 0.0100..."
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...","[0.10271164055913687, 0.2699618990020827, -0.3...","[0.010157434, 0.010614511, 0.009192587, 0.0100..."
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...","[0.18346077081386594, 0.3339426528207016, -0.4...","[0.010463155, 0.011079872, 0.008605628, 0.0100..."
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,"[0.08313710819602002, 0.25298156725488946, -0....","[0.010208283, 0.010690436, 0.009362845, 0.0100..."
...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,"[0.05154200183325122, 0.3419939869375856, -0.3...","[0.010359452, 0.010844771, 0.008979256, 0.0101..."
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,"[-0.0043711272028690955, 0.019311631964073775,...","[0.010205521, 0.010495645, 0.009537988, 0.0100..."
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,"[0.14975114926346578, 0.10966875355976906, -0....","[0.01057891, 0.01047403, 0.008040147, 0.009775..."
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,"[-0.004153681874716615, 0.25654005668669316, -...","[0.010414421, 0.01113414, 0.008824853, 0.01012..."


In [11]:
interpreted = ClassificationInterpreter.interpret_output(classified_df)
interpreted

Unnamed: 0,categories,text,document vector,classification output,result
9254,[Wirtschaft],Der amerikanische Rohstoffriese Samson Resourc...,"[0.2728187310439284, 0.4690067686781447, -0.46...","[0.010651599, 0.011669588, 0.008553203, 0.0101...",[Wirtschaft]
3584,[Kultur],"Wenn man den Menschen in Glück ersäuft, dann f...","[0.09031773135454084, 0.25771937094476827, -0....","[0.010167787, 0.010699158, 0.009144986, 0.0100...",[Wirtschaft]
7766,[Web],"Nächster Fall von Hassposting, der zu Jobverlu...","[0.10271164055913687, 0.2699618990020827, -0.3...","[0.010157434, 0.010614511, 0.009192587, 0.0100...",[Wirtschaft]
9632,[Wirtschaft],"Spaniens Energieriesen verfeuern Braunkohle, u...","[0.18346077081386594, 0.3339426528207016, -0.4...","[0.010463155, 0.011079872, 0.008605628, 0.0100...",[Wirtschaft]
8732,[Wirtschaft],Ursache muss noch untersucht werden. Wien – Ku...,"[0.08313710819602002, 0.25298156725488946, -0....","[0.010208283, 0.010690436, 0.009362845, 0.0100...",[Wirtschaft]
...,...,...,...,...,...
3029,[International],74-Jährigem drohten 350 Peitschenhiebe. London...,"[0.05154200183325122, 0.3419939869375856, -0.3...","[0.010359452, 0.010844771, 0.008979256, 0.0101...",[Wirtschaft]
711,[Inland],Bernd Saurer war Bridge-Juniorenweltmeister un...,"[-0.0043711272028690955, 0.019311631964073775,...","[0.010205521, 0.010495645, 0.009537988, 0.0100...",[Wirtschaft]
5772,[Sport],Finalfluch blieb Klopp treu – Sevilla unterstr...,"[0.14975114926346578, 0.10966875355976906, -0....","[0.01057891, 0.01047403, 0.008040147, 0.009775...",[Wirtschaft]
7926,[Web],Außenamt: Beurteilung durch UN-Arbeitsgruppe e...,"[-0.004153681874716615, 0.25654005668669316, -...","[0.010414421, 0.01113414, 0.008824853, 0.01012...",[Wirtschaft]


In [12]:
score = ClassificationInterpreter.evaluate_output(interpreted)
score

0.1366822429906542

In [13]:
#EvaluationHandler.clear_evaluations()
EvaluationHandler.add_evaluation(score)

In [2]:
from EvaluationHandler import EvaluationHandler
evaluations = EvaluationHandler.load_evaluations()
evaluations = evaluations.sort_values(by=[EvaluationHandler.score_col], ascending=False)
evaluations

Unnamed: 0,timestamp,session id,config id,score
0,2020-02-23 15:35:39,session_001,session_configs/conf504,0.553825
0,2020-02-23 15:42:11,session_001,session_configs/conf511,0.551684
0,2020-02-23 15:44:50,session_001,session_configs/conf514,0.551684
0,2020-02-23 15:36:00,session_001,session_configs/conf505,0.545844
0,2020-02-23 15:38:10,session_001,session_configs/conf508,0.544481
...,...,...,...,...
0,2020-02-23 18:31:08,session_001,conf550,0.000000
0,2020-02-23 18:31:08,session_001,conf100,0.000000
0,2020-02-23 18:31:08,session_001,conf803,0.000000
0,2020-02-23 18:31:08,session_001,conf1331,0.000000


In [15]:
best_score = EvaluationHandler.compare_evaluations()
best_score

Unnamed: 0,timestamp,session id,config id,score
0,2020-02-19 01:27:46,session_001,session_config_0001,0.448316
