### Import Functions

In [1]:
from ipynb.fs.full.utilities import *
from sklearn.naive_bayes import BernoulliNB, ComplementNB, MultinomialNB
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
import pickle
from sklearn.metrics import classification_report

### Data Prep

In [2]:
X_train_60 = load_json('../../data/Train_60_X.json')
y_train_60 = load_json('../../data/Train_60_y.json')
X_dev = load_json('../../data/Dev_X.json')
y_dev = load_json('../../data/Dev_y.json')

In [3]:
verify_prepped_data(X_train_60, y_train_60)

In [4]:
verify_prepped_data(X_dev, y_dev)

In [5]:
X_train_60_flat = [word for sentence in X_train_60 for word in sentence]
y_train_60_flat = [label for sentence in y_train_60 for label in sentence]
X_dev_flat = [word for sentence in X_dev for word in sentence]
y_dev_flat = [label for sentence in y_dev for label in sentence]

In [6]:
len(X_train_60_flat) == len(y_train_60_flat)

True

In [7]:
len(X_dev_flat) == len(y_dev_flat)

True

In [8]:
X_train_60[0]

[{'word': '^',
  'sent_len': 6,
  'upos': 'PART',
  'first_word_in_sent': 'нека',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'Te',
  'BOS': True,
  'next_word': 'нека',
  'next_word_upos': 'PART',
  'next_word_xpos_type': 'Tv',
  'word_after_next_word': 'не',
  'word_after_next_word_upos': 'PART',
  'word_after_next_word_xpos_type': 'Tn',
  'contains_publicistic_word': False},
 {'word': 'нека',
  'sent_len': 6,
  'upos': 'PART',
  'first_word_in_sent': 'нека',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'Tv',
  'prev_word': '^',
  'prev_word_upos': 'PART',
  'prev_word_xpos_type': 'Te',
  'next_word': 'не',
  'next_word_upos': 'PART',
  'next_word_x

In [9]:
X_dev[0]

[{'word': '^',
  'sent_len': 42,
  'upos': 'CCONJ',
  'first_word_in_sent': 'но',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'punct',
  'BOS': True,
  'next_word': 'но',
  'next_word_upos': 'CCONJ',
  'next_word_xpos_type': 'Cc',
  'word_after_next_word': 'синовете',
  'word_after_next_word_upos': 'NOUN',
  'word_after_next_word_xpos_type': 'Nc',
  'word_after_next_word_xpos_gender_number_article': 'mpd',
  'contains_publicistic_word': True},
 {'word': 'но',
  'sent_len': 42,
  'upos': 'CCONJ',
  'first_word_in_sent': 'но',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'Cc',
  'prev_word': '^',
  'prev_word_upos': 'CCONJ',
  'prev_word_xpos_type': 'pu

In [10]:
v = DictVectorizer()
X_train_60_svm = v.fit_transform(X_train_60_flat)
X_dev_svm = v.transform(X_dev_flat)

In [11]:
le = preprocessing.LabelEncoder()
y_train_60_svm = le.fit_transform(y_train_60_flat)
y_dev_svm = le.transform(y_dev_flat)

In [12]:
le.classes_

array(['', '!', '"', '",', '".', '(', ')', '),', ').', ',', '-', '.',
       '...', ':', ':"', ';', '?'], dtype='<U3')

### Bernoulli NB Model

In [22]:
%%time
clf = BernoulliNB(alpha=0.3)
clf.fit(X_train_60_svm, y_train_60_svm)

CPU times: user 1.22 s, sys: 101 ms, total: 1.32 s
Wall time: 1.32 s


BernoulliNB(alpha=0.3)

In [23]:
pkl_filename = '../../data/bernoulli_nb_model.pkl'
with open(pkl_filename, 'wb') as file:
    pickle.dump(clf, file)

In [24]:
labels = list(clf.classes_)

In [25]:
y_pred = clf.predict(X_dev_svm)

In [26]:
target_names = list(le.classes_)

In [27]:
print(classification_report(y_dev_svm, y_pred, labels=labels, target_names=target_names, digits=3))

              precision    recall  f1-score   support

                  0.967     0.914     0.940    240418
           !      0.000     0.000     0.000       373
           "      0.275     0.239     0.256      2243
          ",      0.858     0.150     0.255       848
          ".      0.000     0.000     0.000       300
           (      0.753     0.779     0.766      1693
           )      0.765     0.663     0.710      1003
          ),      0.000     0.000     0.000       385
          ).      0.000     0.000     0.000       271
           ,      0.403     0.765     0.528     18651
           -      0.800     0.034     0.066       935
           .      0.870     0.987     0.925     11435
         ...      0.000     0.000     0.000        70
           :      0.816     0.276     0.412       935
          :"      0.000     0.000     0.000        68
           ;      0.000     0.000     0.000       628
           ?      0.000     0.000     0.000       453

    accuracy              

  _warn_prf(average, modifier, msg_start, len(result))


In [28]:
target_names.remove('')

In [29]:
labels.remove(0)

In [30]:
print(classification_report(y_dev_svm, y_pred, labels=labels, target_names=target_names, digits=3))

              precision    recall  f1-score   support

           !      0.000     0.000     0.000       373
           "      0.275     0.239     0.256      2243
          ",      0.858     0.150     0.255       848
          ".      0.000     0.000     0.000       300
           (      0.753     0.779     0.766      1693
           )      0.765     0.663     0.710      1003
          ),      0.000     0.000     0.000       385
          ).      0.000     0.000     0.000       271
           ,      0.403     0.765     0.528     18651
           -      0.800     0.034     0.066       935
           .      0.870     0.987     0.925     11435
         ...      0.000     0.000     0.000        70
           :      0.816     0.276     0.412       935
          :"      0.000     0.000     0.000        68
           ;      0.000     0.000     0.000       628
           ?      0.000     0.000     0.000       453

   micro avg      0.533     0.707     0.608     40291
   macro avg      0.346   

In [149]:
actual_y_pred = le.inverse_transform(y_pred)

In [150]:
punctuated_sentences = scikit_punctuate(X_dev_flat, actual_y_pred)

In [153]:
print(punctuated_sentences[:10822])

но синовете им не умъртви, защото постъпи според писаното в закона в книгата на мойсей, където господ заповяда, и каза бащите, да не умират заради синовете, и синовете, да не умират заради бащите, а всеки да умира за собствения си грях. но когато ти говоря, ще отворя устата ти, и ти, им кажи: така, казва господ, бог, който слуша: нека слуша, а който не слуша, нека не слуша, защото са бунтовен дом. защото, кой е по-голям, този, който седи на трапезата ли или онзи, който слугува. а след това, ще се насели, както в предишните дни, заявява господ. а той беше на задната част заспал на възглавница. ефрем е като птица славата му ще отлети. и така, той си отиде от него на известно разстояние. не бягам при халдейците. и израилевите синове, излязоха от египетската земя, строени а когато ахитофел, видя, че съветът му не се изпълни оседла магарето си, и стана, и отиде у дома си в своя град, и нареди домашните си работи, и се обеси. ако умре някое животно, от добитъка, който можете да ядете, който 

#### Results: Not many classes get predictions. Bad precision for commas. With lower alpha the recall grows but the precision drops.

### Complement NB Model

In [173]:
%%time
clf = ComplementNB(alpha=6)
clf.fit(X_train_60_svm, y_train_60_svm)

CPU times: user 1.07 s, sys: 67.8 ms, total: 1.14 s
Wall time: 1.14 s


ComplementNB(alpha=6)

In [174]:
pkl_filename = '../../data/complement_nb_model.pkl'
with open(pkl_filename, 'wb') as file:
    pickle.dump(clf, file)

In [175]:
labels = list(clf.classes_)
y_pred = clf.predict(X_dev_svm)
target_names = list(le.classes_)
print(classification_report(y_dev_svm, y_pred, labels=labels, target_names=target_names, digits=3))
target_names.remove('')
labels.remove(0)
print(classification_report(y_dev_svm, y_pred, labels=labels, target_names=target_names, digits=3))

  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

                  0.933     0.975     0.954    240418
           !      0.000     0.000     0.000       373
           "      0.600     0.053     0.098      2243
          ",      0.660     0.039     0.073       848
          ".      0.000     0.000     0.000       300
           (      0.830     0.740     0.782      1693
           )      0.654     0.440     0.526      1003
          ),      0.000     0.000     0.000       385
          ).      0.000     0.000     0.000       271
           ,      0.605     0.456     0.520     18651
           -      0.588     0.011     0.021       935
           .      0.787     0.891     0.836     11435
         ...      0.000     0.000     0.000        70
           :      0.897     0.065     0.122       935
          :"      0.000     0.000     0.000        68
           ;      0.500     0.002     0.003       628
           ?      0.000     0.000     0.000       453

    accuracy              

In [177]:
actual_y_pred = le.inverse_transform(y_pred)
punctuated_sentences = scikit_punctuate(X_dev_flat, actual_y_pred)
print(punctuated_sentences[:10567])

но синовете им не умъртви защото постъпи според писаното в закона в книгата на мойсей, където господ заповяда и каза бащите да не умират заради синовете и синовете да не умират заради бащите, а всеки да умира за собствения си грях. но когато ти говоря ще отворя устата ти и ти им кажи, така казва господ бог, който слуша нека слуша а който не слуша нека не слуша защото са бунтовен дом. защото кой е по-голям този, който седи на трапезата ли или онзи, който слугува а след това ще се насели, както в предишните дни, заявява господ. а той беше на задната част. заспал на възглавница. ефрем е като птица славата му ще отлети. и така той си отиде от него на известно разстояние. не бягам при халдейците. и израилевите синове, излязоха от египетската земя, строени а когато ахитофел видя, че съветът му не се изпълни оседла магарето си и стана и отиде у дома си в своя град, и нареди домашните си работи и се обеси. ако умре някое животно от добитъка, който можете да ядете, който се допре до мършата му 

#### Result: Not many classes get predictions. Bad precision/recall balance.

### Multinomial NB Model

In [197]:
%%time
clf = MultinomialNB(alpha=1.5)
clf.fit(X_train_60_svm, y_train_60_svm)

CPU times: user 1.07 s, sys: 70.1 ms, total: 1.14 s
Wall time: 1.14 s


MultinomialNB(alpha=1.5)

In [198]:
pkl_filename = '../../data/multinomial_nb_model.pkl'
with open(pkl_filename, 'wb') as file:
    pickle.dump(clf, file)

In [199]:
labels = list(clf.classes_)
y_pred = clf.predict(X_dev_svm)
target_names = list(le.classes_)
print(classification_report(y_dev_svm, y_pred, labels=labels, target_names=target_names, digits=3))
target_names.remove('')
labels.remove(0)
print(classification_report(y_dev_svm, y_pred, labels=labels, target_names=target_names, digits=3))

  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

                  0.942     0.963     0.952    240418
           !      0.000     0.000     0.000       373
           "      0.032     0.000     0.001      2243
          ",      0.000     0.000     0.000       848
          ".      0.000     0.000     0.000       300
           (      0.998     0.393     0.564      1693
           )      0.750     0.003     0.006      1003
          ),      0.000     0.000     0.000       385
          ).      0.000     0.000     0.000       271
           ,      0.516     0.612     0.560     18651
           -      0.000     0.000     0.000       935
           .      0.877     0.936     0.906     11435
         ...      0.000     0.000     0.000        70
           :      1.000     0.002     0.004       935
          :"      0.000     0.000     0.000        68
           ;      0.000     0.000     0.000       628
           ?      0.000     0.000     0.000       453

    accuracy              

In [200]:
actual_y_pred = le.inverse_transform(y_pred)
punctuated_sentences = scikit_punctuate(X_dev_flat, actual_y_pred)
print(punctuated_sentences[:10567])

но синовете им не умъртви, защото постъпи според писаното в закона в книгата на мойсей, където господ заповяда и каза бащите да не умират заради синовете и синовете да не умират заради бащите, а всеки да умира за собствения си грях. но когато ти говоря ще отворя устата ти, и ти им кажи, така казва господ бог, който слуша, нека слуша, а който не слуша, нека не слуша, защото са бунтовен дом. защото кой е по-голям този, който седи на трапезата ли или онзи, който слугува а след това ще се насели, както в предишните дни, заявява господ. а той беше на задната част заспал на възглавница. ефрем е като птица славата му ще отлети. и така, той си отиде от него на известно разстояние. не бягам при халдейците. и израилевите синове, излязоха от египетската земя, строени а когато ахитофел видя, че съветът му не се изпълни оседла магарето си, и стана и отиде у дома си в своя град, и нареди домашните си работи, и се обеси. ако умре някое животно от добитъка, който можете да ядете, който се допре до мър

#### Result: Not many classes get predictions. Bad precision/recall balance.