### Import Functions

In [1]:
from ipynb.fs.full.utilities import *
from sklearn.naive_bayes import BernoulliNB, ComplementNB, MultinomialNB
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
import pickle
from sklearn.metrics import classification_report

### Data Prep

In [2]:
X_train_60 = load_json('../../data/Train_60_X.json')
y_train_60 = load_json('../../data/Train_60_y.json')
X_dev_20 = load_json('../../data/Dev_20_X.json')
y_dev_20 = load_json('../../data/Dev_20_y.json')

In [3]:
verify_prepped_data(X_train_60, y_train_60)

In [4]:
verify_prepped_data(X_dev_20, y_dev_20)

In [5]:
X_train_60_flat = [word for sentence in X_train_60 for word in sentence]
y_train_60_flat = [label for sentence in y_train_60 for label in sentence]
X_dev_20_flat = [word for sentence in X_dev_20 for word in sentence]
y_dev_20_flat = [label for sentence in y_dev_20 for label in sentence]

In [6]:
len(X_train_60_flat) == len(y_train_60_flat)

True

In [7]:
len(X_dev_20_flat) == len(y_dev_20_flat)

True

In [8]:
X_train_60[0]

[{'word': '^',
  'sent_len': 6,
  'upos': 'PART',
  'first_word_in_sent': 'нека',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'Te',
  'BOS': True,
  'next_word': 'нека',
  'next_word_upos': 'PART',
  'next_word_xpos_type': 'Tv',
  'word_after_next_word': 'не',
  'word_after_next_word_upos': 'PART',
  'word_after_next_word_xpos_type': 'Tn',
  'contains_publicistic_word': False},
 {'word': 'нека',
  'sent_len': 6,
  'upos': 'PART',
  'first_word_in_sent': 'нека',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'word_xpos_type': 'Tv',
  'prev_word': '^',
  'prev_word_upos': 'PART',
  'prev_word_xpos_type': 'Te',
  'next_word': 'не',
  'next_word_upos': 'PART',
  'next_word_x

In [9]:
X_dev_20[0]

[{'word': '^',
  'sent_len': 42,
  'upos': 'CCONJ',
  'first_word_in_sent': 'но',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'contains_publicistic_word': True,
  'word_xpos_type': 'punct',
  'BOS': True,
  'next_word': 'но',
  'next_word_upos': 'CCONJ',
  'next_word_xpos_type': 'Cc',
  'word_after_next_word': 'синовете',
  'word_after_next_word_upos': 'NOUN',
  'word_after_next_word_xpos_type': 'Nc',
  'word_after_next_word_xpos_gender_number_article': 'mpd'},
 {'word': 'но',
  'sent_len': 42,
  'upos': 'CCONJ',
  'first_word_in_sent': 'но',
  'contains_interrogative_word': False,
  'contains_interrogative_particle': False,
  'contains_imperative_verb': False,
  'contains_repetitive_conj_before': False,
  'between_two_verbs': False,
  'contains_publicistic_word': True,
  'word_xpos_type': 'Cc',
  'prev_word': '^',
  'prev_word_upos': 

In [10]:
v = DictVectorizer()
X_train_60_nb = v.fit_transform(X_train_60_flat)
X_dev_20_nb = v.transform(X_dev_20_flat)

In [11]:
le = preprocessing.LabelEncoder()
y_train_60_nb = le.fit_transform(y_train_60_flat)
y_dev_20_nb = le.transform(y_dev_20_flat)

In [12]:
le.classes_

array(['', '!', '"', '",', '".', '(', ')', '),', ').', ',', '-', '.',
       '...', ':', ':"', ';', '?'], dtype='<U3')

### Bernoulli NB Model

In [13]:
%%time
clf = BernoulliNB(alpha=0.3)
clf.fit(X_train_60_nb, y_train_60_nb)

CPU times: user 1.32 s, sys: 248 ms, total: 1.57 s
Wall time: 1.56 s


BernoulliNB(alpha=0.3)

In [14]:
pkl_filename = '../../data/bernoulli_nb_model.pkl'
with open(pkl_filename, 'wb') as file:
    pickle.dump(clf, file)

In [15]:
labels = list(clf.classes_)

In [16]:
y_pred = clf.predict(X_dev_20_nb)

In [17]:
target_names = list(le.classes_)

In [18]:
target_names.remove('')

In [19]:
labels.remove(0)

In [20]:
print(classification_report(y_dev_20_nb, y_pred, labels=labels, target_names=target_names, digits=3))

  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

           !      0.000     0.000     0.000       783
           "      0.268     0.233     0.249      4459
          ",      0.858     0.149     0.254      1703
          ".      0.000     0.000     0.000       674
           (      0.760     0.788     0.774      3422
           )      0.753     0.668     0.708      2031
          ),      0.000     0.000     0.000       779
          ).      0.000     0.000     0.000       561
           ,      0.402     0.766     0.527     37256
           -      0.793     0.035     0.067      1864
           .      0.869     0.987     0.924     22834
         ...      0.000     0.000     0.000       152
           :      0.795     0.271     0.404      1921
          :"      0.000     0.000     0.000       131
           ;      0.000     0.000     0.000      1440
           ?      0.000     0.000     0.000       858

   micro avg      0.532     0.705     0.606     80868
   macro avg      0.344   

In [21]:
actual_y_pred = le.inverse_transform(y_pred)

In [23]:
punctuated_sentences = scikit_punctuate(X_dev_20_flat, actual_y_pred)

In [24]:
print(punctuated_sentences[:10000])

но синовете им не умъртви, защото постъпи според писаното в закона в книгата на мойсей, където господ заповяда, и каза бащите, да не умират заради синовете, и синовете, да не умират заради бащите, а всеки да умира за собствения си грях. но когато ти говоря, ще отворя устата ти, и ти, им кажи: така, казва господ, бог, който слуша: нека слуша, а който не слуша, нека не слуша, защото са бунтовен дом. защото, кой е по-голям, този, който седи на трапезата ли или онзи, който слугува. а след това, ще се насели, както в предишните дни, заявява господ. а той беше на задната част заспал на възглавница. ефрем е като птица славата му ще отлети. и така, той си отиде от него на известно разстояние. не бягам при халдейците. и израилевите синове, излязоха от египетската земя, строени а когато ахитофел, видя, че съветът му не се изпълни оседла магарето си, и стана, и отиде у дома си в своя град, и нареди домашните си работи, и се обеси. ако умре някое животно, от добитъка, който можете да ядете, който 

#### Results: Not many classes get predictions. Bad precision for commas. With lower alpha the recall grows but the precision drops.

### Complement NB Model

In [25]:
%%time
clf = ComplementNB(alpha=6)
clf.fit(X_train_60_nb, y_train_60_nb)

CPU times: user 1.12 s, sys: 41.8 ms, total: 1.16 s
Wall time: 1.16 s


ComplementNB(alpha=6)

In [26]:
pkl_filename = '../../data/complement_nb_model.pkl'
with open(pkl_filename, 'wb') as file:
    pickle.dump(clf, file)

In [27]:
labels = list(clf.classes_)
y_pred = clf.predict(X_dev_20_nb)
target_names = list(le.classes_)
target_names.remove('')
labels.remove(0)
print(classification_report(y_dev_20_nb, y_pred, labels=labels, target_names=target_names, digits=3))

  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

           !      0.000     0.000     0.000       783
           "      0.597     0.058     0.106      4459
          ",      0.667     0.043     0.082      1703
          ".      0.000     0.000     0.000       674
           (      0.833     0.741     0.784      3422
           )      0.639     0.428     0.512      2031
          ),      0.000     0.000     0.000       779
          ).      0.000     0.000     0.000       561
           ,      0.608     0.456     0.521     37256
           -      0.387     0.006     0.013      1864
           .      0.786     0.892     0.836     22834
         ...      0.000     0.000     0.000       152
           :      0.872     0.068     0.126      1921
          :"      0.000     0.000     0.000       131
           ;      0.250     0.001     0.001      1440
           ?      0.000     0.000     0.000       858

   micro avg      0.699     0.510     0.590     80868
   macro avg      0.352   

In [29]:
actual_y_pred = le.inverse_transform(y_pred[:10000])
punctuated_sentences = scikit_punctuate(X_dev_20_flat[:10000], actual_y_pred)
print(punctuated_sentences)

но синовете им не умъртви защото постъпи според писаното в закона в книгата на мойсей, където господ заповяда и каза бащите да не умират заради синовете и синовете да не умират заради бащите, а всеки да умира за собствения си грях. но когато ти говоря ще отворя устата ти и ти им кажи, така казва господ бог, който слуша нека слуша а който не слуша нека не слуша защото са бунтовен дом. защото кой е по-голям този, който седи на трапезата ли или онзи, който слугува а след това ще се насели, както в предишните дни, заявява господ. а той беше на задната част. заспал на възглавница. ефрем е като птица славата му ще отлети. и така той си отиде от него на известно разстояние. не бягам при халдейците. и израилевите синове, излязоха от египетската земя, строени а когато ахитофел видя, че съветът му не се изпълни оседла магарето си и стана и отиде у дома си в своя град, и нареди домашните си работи и се обеси. ако умре някое животно от добитъка, който можете да ядете, който се допре до мършата му 

#### Result: Not many classes get predictions. Bad precision/recall balance.

### Multinomial NB Model

In [30]:
%%time
clf = MultinomialNB(alpha=1.5)
clf.fit(X_train_60_nb, y_train_60_nb)

CPU times: user 1.04 s, sys: 55.5 ms, total: 1.1 s
Wall time: 1.09 s


MultinomialNB(alpha=1.5)

In [31]:
pkl_filename = '../../data/multinomial_nb_model.pkl'
with open(pkl_filename, 'wb') as file:
    pickle.dump(clf, file)

In [32]:
labels = list(clf.classes_)
y_pred = clf.predict(X_dev_20_nb)
target_names = list(le.classes_)
target_names.remove('')
labels.remove(0)
print(classification_report(y_dev_20_nb, y_pred, labels=labels, target_names=target_names, digits=3))

  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

           !      0.000     0.000     0.000       783
           "      0.044     0.001     0.001      4459
          ",      0.000     0.000     0.000      1703
          ".      0.000     0.000     0.000       674
           (      0.996     0.382     0.552      3422
           )      0.909     0.005     0.010      2031
          ),      0.000     0.000     0.000       779
          ).      0.000     0.000     0.000       561
           ,      0.515     0.613     0.560     37256
           -      0.000     0.000     0.000      1864
           .      0.877     0.937     0.906     22834
         ...      0.000     0.000     0.000       152
           :      1.000     0.003     0.006      1921
          :"      0.000     0.000     0.000       131
           ;      0.000     0.000     0.000      1440
           ?      0.000     0.000     0.000       858

   micro avg      0.650     0.563     0.603     80868
   macro avg      0.271   

In [33]:
actual_y_pred = le.inverse_transform(y_pred[:10000])
punctuated_sentences = scikit_punctuate(X_dev_20_flat[:10000], actual_y_pred)
print(punctuated_sentences)

но синовете им не умъртви, защото постъпи според писаното в закона в книгата на мойсей, където господ заповяда и каза бащите да не умират заради синовете и синовете да не умират заради бащите, а всеки да умира за собствения си грях. но когато ти говоря ще отворя устата ти, и ти им кажи, така казва господ бог, който слуша, нека слуша, а който не слуша, нека не слуша, защото са бунтовен дом. защото кой е по-голям този, който седи на трапезата ли или онзи, който слугува а след това ще се насели, както в предишните дни, заявява господ. а той беше на задната част заспал на възглавница. ефрем е като птица славата му ще отлети. и така, той си отиде от него на известно разстояние. не бягам при халдейците. и израилевите синове, излязоха от египетската земя, строени а когато ахитофел видя, че съветът му не се изпълни оседла магарето си, и стана и отиде у дома си в своя град, и нареди домашните си работи, и се обеси. ако умре някое животно от добитъка, който можете да ядете, който се допре до мър

#### Result: Not many classes get predictions. Bad precision/recall balance.