### Import Functions

In [1]:
from ipynb.fs.full.utilities import *
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
import pickle
from sklearn.metrics import classification_report

### Data Prep

In [2]:
X_train_60 = load_json('../../data/Train_60_X.json')
y_train_60 = load_json('../../data/Train_60_y.json')
X_test_20 = load_json('../../data/Test_20_X.json')
y_test_20 = load_json('../../data/Test_20_y.json')

In [3]:
verify_prepped_data(X_train_60, y_train_60)
verify_prepped_data(X_test_20, y_test_20)

In [4]:
X_train_60_flat = [word for sentence in X_train_60 for word in sentence]
y_train_60_flat = [label for sentence in y_train_60 for label in sentence]
X_test_20_flat = [word for sentence in X_test_20 for word in sentence]
y_test_20_flat = [label for sentence in y_test_20 for label in sentence]

In [5]:
print(len(X_train_60_flat) == len(y_train_60_flat))
print(len(X_test_20_flat) == len(y_test_20_flat))

True
True


In [6]:
X_train_60[0]

[{'word': '^',
  'sent_len': 6,
  'upos': 'PART',
  'first_word_in_sent': 'нека',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'Te',
  'BOS': True,
  'next_word': 'нека',
  'next_word_upos': 'PART',
  'next_word_xpos_type': 'Tv',
  'word_after_next_word': 'не',
  'word_after_next_word_upos': 'PART',
  'word_after_next_word_xpos_type': 'Tn',
  'contains_publicistic_word': False},
 {'word': 'нека',
  'sent_len': 6,
  'upos': 'PART',
  'first_word_in_sent': 'нека',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'Tv',
  'prev_word': '^',
  'prev_word_upos': 'PART',
  'prev_word_xpos_type': 'Te',
  'next_word': 'не',
  'next_word_upos': 'PART',
  'next_word_x

In [7]:
X_test_20[0]

[{'word': '^',
  'sent_len': 20,
  'upos': 'PART',
  'first_word_in_sent': 'защото',
  'contains_interrogative_word': True,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'contains_publicistic_word': False,
  'word_xpos_type': 'punct',
  'BOS': True,
  'next_word': 'защото',
  'next_word_upos': 'ADV',
  'next_word_xpos_type': 'Pr',
  'next_word_xpos_gender_number_article': '',
  'word_after_next_word': 'ако',
  'word_after_next_word_upos': 'SCONJ',
  'word_after_next_word_xpos_type': 'Cs'},
 {'word': 'защото',
  'sent_len': 20,
  'upos': 'ADV',
  'first_word_in_sent': 'защото',
  'contains_interrogative_word': True,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'contains_publicistic_word': False,
  'word_xpos_type': 'Pr',
  'word_xpos_gender_number_article': '',
  'pre

In [8]:
v = DictVectorizer()
X_train_60_lr = v.fit_transform(X_train_60_flat)
X_test_20_lr = v.transform(X_test_20_flat)

In [9]:
le = preprocessing.LabelEncoder()
y_train_60_lr = le.fit_transform(y_train_60_flat)
y_test_20_lr = le.transform(y_test_20_flat)

### Estimate Pretrained Model on Test Set

In [10]:
pkl_filename = '../../models/logreg_v3_model.pkl'
with open(pkl_filename, 'rb') as file:
    clf = pickle.load(file)

In [11]:
labels = list(clf.classes_)
y_pred = clf.predict(X_test_20_lr)
target_names = list(le.classes_)
target_names.remove('')
labels.remove(0)
print(classification_report(y_test_20_lr, y_pred, labels=labels, target_names=target_names, digits=3))

  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

           !      0.470     0.127     0.200       747
           "      0.629     0.057     0.105      4380
          ",      0.704     0.519     0.598      1587
          ".      0.485     0.023     0.043       708
           (      0.936     0.888     0.912      3443
           )      0.832     0.834     0.833      2038
          ),      0.832     0.571     0.677       797
          ).      0.892     0.839     0.865       553
           ,      0.820     0.624     0.709     37483
           -      0.628     0.067     0.121      2047
           .      0.929     0.984     0.956     22826
         ...      0.000     0.000     0.000       139
           :      0.859     0.540     0.663      2018
          :"      0.600     0.026     0.050       116
           ;      0.443     0.057     0.101      1344
           ?      0.782     0.734     0.757       872

   micro avg      0.863     0.674     0.757     81098
   macro avg      0.678   

In [12]:
actual_y_pred = le.inverse_transform(y_pred[:10000])
punctuated_sentences = scikit_punctuate(X_test_20_flat[:10000], actual_y_pred)
print(punctuated_sentences)

защото, ако авраам е бил оправдан чрез дела, той има с какво да се хвали, но не пред бога. аз иисус изпратих ангела си да ви засвидетелства това за църквите. да направиш петдесет петлици на едната завеса и петдесет петлици да направиш по края на завесата, която е във второто съединение, петлиците да са един срещу друг. тогава един от дванадесетте наречен юда искариотски отиде при главните свещеници и каза: какво ще ми дадете и аз ще ви го предам? но аз съм сред вас, като онзи, който слугува. и господ каза: ще ви предадат. само добитъка взехме за себе си като плячка и заграбеното от градовете, които превзехме. но ако някой ходи нощем се препъва, защото светлината не е в него. при реките на вавилон там седяхме и плачехме, когато си спомняхме сион. дечица да не любим с думи, нито с език, а с дело и истина. елате нощувайте във вретище служители на моя бог, защото хлебният принос и възлиянията са задържани от дома на вашия бог. и всичките дни на матусал станаха деветстотин шестдесет и девет