# Sentiment classification for category https://bt.rozetka.com.ua/ua/tehnika-dlya-kuhni/c435974/

In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv(r'C:\work\jul\prj-nlp\students\juliamakogon\task_05\rozetka\rozetka_kitchen.csv')
df.shape

(13067, 6)

In [2]:
df

Unnamed: 0,lang,item,rating,text,pros,cons
0,ru,\r\nЯйцеварка PROFI COOK PC-EK 1084 \r\n,1.0,Можно положить на полку для бесполезных вещей ...,аж 8 яиц можно сварить! Отличный вариант для к...,"Очень тяжело отмывается, если яйца треснет вну..."
1,ru,\r\nЕлектрична піч PANASONIC NU-SC101WZPE \r\n,4.0,Очень хорошее впечатление. Пока делали только ...,"Функции понятны, все делается легко и приятно","Маловат объем, высокая цена"
2,ru,\r\nЕлектрична піч PANASONIC NU-SC101WZPE \r\n,5.0,Первый раз пишу отзыв от покупке) С появление ...,"Быстро греется и готовит, небольшие габариты, ...",не нашел пока
3,ru,\r\nЕлектрична піч PANASONIC NU-SC101WZPE \r\n,,"Помимо всех функций и режимов, как хорошо она ...",,
4,uk,\r\nМікрохвильова піч ERGO EM-2075 \r\n,5.0,Чудова та проста мікрохвильовка з гарним дизай...,Зручність та простота.,Не вияввлено.
5,ru,\r\nМікрохвильова піч ERGO EM-2075 \r\n,4.0,микроволновка хорошая я всем довольна. для сво...,,
6,ru,\r\nМікрохвильова піч ERGO EM-2075 \r\n,5.0,Хорошая микроволновке.,"Цена, компактность",Чуть-чуть слабоватая на разогрев
7,ru,\r\nМікрохвильова піч ERGO EM-2075 \r\n,,"Дорогой магазин, пишу тут т.к. другого способа...",,
8,uk,\r\nМікрохвильова піч ERGO EM-2075 \r\n,,#моєрозпакування В цілому дуже задоволені. Про...,,
9,uk,\r\nМікрохвильова піч ERGO EM-2075 \r\n,5.0,"Все добре,їжу гріє відмінно.Сервіс на висоті! ...",,


**Preparing data**

In [3]:
def mapping_rating(x):
    if x < 1e-15:
        return 'neutral'
    elif x > 3.5:
        return 'positive'
    else: return 'negative'
    
df['rating'] = df['rating'].fillna(0)
df = df.fillna('')
df['item'] = df['item'].str.strip() # well, i've added strip to spider already, but the file still needs preprocessing
df = df.join(df['rating'].fillna(0).map(mapping_rating).rename('category'))


In [4]:
df.groupby(['lang', 'category']).count() # data distribution for ru/uk languages is similar

Unnamed: 0_level_0,Unnamed: 1_level_0,item,rating,text,pros,cons
lang,category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
en,neutral,2,2,2,2,2
en,positive,10,10,10,10,10
ru,negative,1121,1121,1121,1121,1121
ru,neutral,4871,4871,4871,4871,4871
ru,positive,4849,4849,4849,4849,4849
uk,negative,220,220,220,220,220
uk,neutral,982,982,982,982,982
uk,positive,1012,1012,1012,1012,1012


In [5]:
df_uk = df.loc[df['lang'] == 'uk']
df_uk.shape

(2214, 7)

**Splitting for train and test**

In [6]:


from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from operator import itemgetter 

X = df_uk[['text', 'pros', 'cons']].apply(lambda x: ' '.join(x), axis=1)
X1 = df_uk['text']
y = df_uk['category'].values
X_train, X_test, X1_train, X1_test, y_train, y_test = train_test_split(X, X1, y, random_state=42, #test_size=0.3, 
                                                                       stratify = y, shuffle=True)
print(len(X_train), len(X_test))


1660 554


## Sentiment classification baseline - without any language features

In [7]:
from sklearn.metrics import classification_report

def show_predicted(X, y, y_predicted, labels, show_data = 15):
    data = pd.DataFrame(columns=['X', 'y', 'y_predicted'])
    data['X'] = pd.Series(X).values
    data['y'] = pd.Series(y).values
    data['y_predicted'] = pd.Series(y_predicted).values
    if show_data > 0:
        print('\nPredicted data sample')
        print(data.head(show_data))
    print(data.groupby(['y', 'y_predicted']).count())
    pstat = np.unique(y_predicted, return_counts=True)
    ystat = np.unique(y, return_counts=True)
    print('\nClassification report')
    print(pstat[0])
    print(pstat[1])
    print(ystat[1])
    print(classification_report(y, y_predicted, labels))
    
def classifyNB(X_train, X_test, y_train, y_test, show_vocabulary = 0, show_analyzer = False, show_data = 0, analyzer = 'word', tokenizer = None, 
               min_df = 7, max_df = 0.9, ngram_range = (1, 1), stop_words = None, alpha = 1.0, preprocessor = None):
    tfidf = TfidfVectorizer(analyzer = analyzer, tokenizer = tokenizer, min_df = min_df, max_df = max_df, 
                            ngram_range = ngram_range, stop_words = stop_words, binary = True, preprocessor = preprocessor)
    train = tfidf.fit_transform(X_train)
    test = tfidf.transform(X_test)
    print("Vocabulary size:", len(tfidf.vocabulary_))
    if tfidf.stop_words:
        print("Stop words count:", len(tfidf.stop_words))
    if show_vocabulary > 0: 
        print(tfidf.get_feature_names()[:show_vocabulary])
    if show_analyzer:
        teststr = "Багато м'ясних закусок не вийшло."
        print('Checking analyzer:', teststr, tfidf.build_analyzer()(teststr))
    clf = BernoulliNB(alpha = alpha)
    clf.fit(train.toarray(), y_train)
    y_predicted = clf.predict(test.toarray())
    show_predicted(X_test, y_test, y_predicted, clf.classes_, show_data)
    

classifyNB(X_train, X_test, y_train, y_test, show_analyzer = True, show_vocabulary = 100)

Vocabulary size: 930
['10', '100', '12', '15', '180', '20', '30', '40', 'philips', 'rozetka', 'ua', 'або', 'автоматично', 'адже', 'аж', 'акції', 'але', 'апарат', 'багато', 'батарейки', 'бачу', 'без', 'би', 'бистро', 'блендер', 'блендера', 'блендером', 'близько', 'бо', 'брак', 'брала', 'брали', 'брати', 'був', 'буде', 'буду', 'будь', 'була', 'були', 'було', 'бутерброди', 'бути', 'білки', 'більш', 'більше', 'біля', 'вага', 'ваги', 'вагу', 'важко', 'вам', 'варто', 'вартість', 'варіант', 'вас', 'вафлі', 'вважаю', 'вдома', 'велика', 'великий', 'велику', 'великі', 'верхня', 'весь', 'вже', 'взагалі', 'взбиває', 'взяти', 'ви', 'вибір', 'вигляд', 'виглядає', 'видно', 'вийшло', 'вийшов', 'виключається', 'виконує', 'використання', 'використанні', 'використовувати', 'використовую', 'вимикається', 'виправдовує', 'випробувала', 'випікає', 'виробник', 'виробника', 'висновок', 'висоті', 'вистачає', 'виходить', 'виходять', 'вище', 'виявив', 'виявила', 'виявили', 'виявлено', 'вказано', 'вкл', 'включення

**Adding 'pros' as positive dataset and 'cons' as negative to classify just the 'text' field - didn't work**

In [8]:
y_pos = df_uk['rating'].map(lambda x: 'positive')
y_neg = df_uk['rating'].map(lambda x: 'negative')
X1_train_union = np.concatenate((X1_train, df_uk['pros'], df_uk['cons']))
y_union = np.concatenate((y_train, y_pos, y_neg))

classifyNB(X1_train_union, X1_test, y_union, y_test, show_vocabulary = 0, show_data = 0)

Vocabulary size: 1043
                        X
y        y_predicted     
negative negative      19
         neutral       31
         positive       5
neutral  negative      53
         neutral      112
         positive      81
positive negative      21
         neutral      100
         positive     132

Classification report
['negative' 'neutral' 'positive']
[ 93 243 218]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.20      0.35      0.26        55
    neutral       0.46      0.46      0.46       246
   positive       0.61      0.52      0.56       253

avg / total       0.50      0.47      0.48       554



# Adding language specific tokenization and negation

In [9]:
import string
from tokenize_uk import tokenize_uk
s = "Купили для приготування 20-ти дитячих овочевих, фруктових і м'ясних сумішей. Все блендерить швидко і без комочків. Особливо смачно виходить сирок з фруктами. Дитина їсть все із задоволенням. Що ще треба для щастя? Покористувавшись декілька днів, можу сказати, що духовка посередня по якості. Не раджу для прибвання. Легко обпектись."

def tokenize(text):
    pars = tokenize_uk.tokenize_text(text)
    tokens = []
    for par in pars:
        for sent in par:
            tokens = tokens + sent
    return tokens

def negate(words):
    neg = False
    tokens = []
    for i in range(len(words)):
        w = words[i].lower()
        if w in ['не', 'немає', 'ні']:
            neg = True
            w = ''
        elif w[0] in string.punctuation:
            neg = False
            if w not in '!?':
                w = ''
        elif w[0] in string.digits:
            w = ''
        elif neg:
            w = 'не '+ w
        if w:
            tokens.append(w)
    return tokens

def remove_questions(text):
    if text.strip().endswith('?'):
        return ''
    else: return text

def tokenize_negate(text):
    return negate(tokenize(text))


print(tokenize_negate(s))


['купили', 'для', 'приготування', 'дитячих', 'овочевих', 'фруктових', 'і', "м'ясних", 'сумішей', 'все', 'блендерить', 'швидко', 'і', 'без', 'комочків', 'особливо', 'смачно', 'виходить', 'сирок', 'з', 'фруктами', 'дитина', 'їсть', 'все', 'із', 'задоволенням', 'що', 'ще', 'треба', 'для', 'щастя', '?', 'покористувавшись', 'декілька', 'днів', 'можу', 'сказати', 'що', 'духовка', 'посередня', 'по', 'якості', 'не раджу', 'не для', 'не прибвання', 'легко', 'обпектись']


In [10]:
classifyNB(X_train, X_test, y_train, y_test, show_vocabulary = 0, tokenizer=tokenize_negate, show_data = 0)

Vocabulary size: 913
                        X
y        y_predicted     
negative negative      20
         neutral       27
         positive       8
neutral  negative      22
         neutral      153
         positive      71
positive negative      15
         neutral       83
         positive     155

Classification report
['negative' 'neutral' 'positive']
[ 57 263 234]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.35      0.36      0.36        55
    neutral       0.58      0.62      0.60       246
   positive       0.66      0.61      0.64       253

avg / total       0.60      0.59      0.59       554



## Adding lemmatization

In [11]:
import pymorphy2

class Morphology():
    _morph = None
    def __init__(self, lang='uk'):
        Morphology.load(lang=lang)

    @staticmethod
    def load(path = None, lang='uk'):
        if (Morphology._morph == None):
            Morphology._morph = pymorphy2.MorphAnalyzer(lang=lang)

    def getAnalyzer(self):
        return Morphology._morph
    
       
    
def lemmatize(words):
    morph = Morphology()
    for i in range(len(words)):
        ww = morph.getAnalyzer().parse(words[i])
        if ww:
            words[i] = ww[0].normal_form
    return words

def tokenize_lemmatize_negate(text):
    return negate(lemmatize(tokenize(text)))


print(tokenize_lemmatize_negate(s))

['купити', 'для', 'приготування', 'дитячий', 'овочевий', 'фруктовий', 'і', "м'ясний", 'суміш', 'весь', 'блендерити', 'швидко', 'і', 'без', 'комочок', 'особливо', 'смачно', 'виходити', 'сирок', 'з', 'фрукт', 'дитина', 'їсти', 'весь', 'із', 'задоволення', 'що', 'ще', 'треба', 'для', 'щастя', '?', 'покористувавшись', 'декілька', 'дніти', 'могти', 'сказати', 'що', 'духовка', 'посередній', 'по', 'якість', 'не радити', 'не для', 'не прибвання', 'легко', 'обпектися']


In [12]:
classifyNB(X_train, X_test, y_train, y_test, tokenizer=tokenize_lemmatize_negate)

Vocabulary size: 903
                        X
y        y_predicted     
negative negative      21
         neutral       28
         positive       6
neutral  negative      22
         neutral      162
         positive      62
positive negative      14
         neutral       87
         positive     152

Classification report
['negative' 'neutral' 'positive']
[ 57 277 220]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.37      0.38      0.37        55
    neutral       0.58      0.66      0.62       246
   positive       0.69      0.60      0.64       253

avg / total       0.61      0.60      0.61       554



**Using 1-2-grams and stop-words**

In [13]:
classifyNB(X_train, X_test, y_train, y_test, show_vocabulary = 0, tokenizer=tokenize_lemmatize_negate, ngram_range = (1,2), show_data = 30)

Vocabulary size: 1222

Predicted data sample
                                                    X         y y_predicted
0   Не було сказано, що є дефект. Ціна нормальна Р...   neutral     neutral
1   Купував на подарунок, але купив би і собі. Над...  positive     neutral
2   Купив недавно, інструкція зрозуміла, швидко ро...  positive    positive
3   я хочу ксвомашину щоб робити капучіно, лате як...   neutral     neutral
4    Хороша та якісна мікрохвильовка за такі гроші.    positive    positive
5   Я не раджу купувати цю вафельницю. Саме перше ...  negative    negative
6   Обирала блендер з декількох моделей, купувала ...  positive    positive
7   сподобався, приємний, міцний. Не смердить плас...  positive     neutral
8   Скажіть чи є змінні пластини для цієї моделі? ...   neutral     neutral
9   Чому після розігріву їжі мікрохвильовка продов...   neutral     neutral
10  Доброго дня. Хочу спитати чи підходить цей мік...   neutral     neutral
11  Купували в подарунок мамі. Їй все подоб

In [14]:
stop_words = []
with open(r'C:\work\jul\prj-nlp\students\juliamakogon\task_05\stop_words.txt', encoding='utf-8') as f:
    stop_words = f.read().split()
classifyNB(X_train, X_test, y_train, y_test, show_vocabulary = 0, tokenizer=tokenize_lemmatize_negate, 
           ngram_range = (1,2), stop_words = stop_words)

Vocabulary size: 893
Stop words count: 389
                        X
y        y_predicted     
negative negative      23
         neutral       27
         positive       5
neutral  negative      19
         neutral      159
         positive      68
positive negative       8
         neutral       76
         positive     169

Classification report
['negative' 'neutral' 'positive']
[ 50 262 242]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.46      0.42      0.44        55
    neutral       0.61      0.65      0.63       246
   positive       0.70      0.67      0.68       253

avg / total       0.63      0.63      0.63       554



In [15]:
classifyNB(X_train, X_test, y_train, y_test, tokenizer=tokenize_lemmatize_negate, stop_words = stop_words)

Vocabulary size: 773
Stop words count: 389
                        X
y        y_predicted     
negative negative      23
         neutral       26
         positive       6
neutral  negative      19
         neutral      158
         positive      69
positive negative       9
         neutral       81
         positive     163

Classification report
['negative' 'neutral' 'positive']
[ 51 265 238]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.45      0.42      0.43        55
    neutral       0.60      0.64      0.62       246
   positive       0.68      0.64      0.66       253

avg / total       0.62      0.62      0.62       554



In [16]:
#remove smoothing and min_df=7
classifyNB(X_train, X_test, y_train, y_test, tokenizer=tokenize_lemmatize_negate, stop_words = stop_words, alpha = 0.05, min_df = 7)

Vocabulary size: 773
Stop words count: 389
                        X
y        y_predicted     
negative negative      22
         neutral       22
         positive      11
neutral  negative      12
         neutral      157
         positive      77
positive negative       5
         neutral       78
         positive     170

Classification report
['negative' 'neutral' 'positive']
[ 39 257 258]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.56      0.40      0.47        55
    neutral       0.61      0.64      0.62       246
   positive       0.66      0.67      0.67       253

avg / total       0.63      0.63      0.63       554



In [17]:
# preprocessing: removing questions
classifyNB(X_train, X_test, y_train, y_test, tokenizer=tokenize_lemmatize_negate, stop_words = stop_words, 
           preprocessor=remove_questions, alpha = 0.05, min_df=7)

Vocabulary size: 731
Stop words count: 389
                        X
y        y_predicted     
negative negative      20
         neutral       25
         positive      10
neutral  negative      11
         neutral      165
         positive      70
positive negative       5
         neutral       79
         positive     169

Classification report
['negative' 'neutral' 'positive']
[ 36 269 249]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.56      0.36      0.44        55
    neutral       0.61      0.67      0.64       246
   positive       0.68      0.67      0.67       253

avg / total       0.64      0.64      0.64       554



**Conclusion:** The best result we have for now with: 
- lemmatization and negation
- without numbers
- excluding all punctuation but '!?'
- with stop words
- to make a conclusion about using a combination of uni- and bigrams we need to collect more data; for now, the best approach is to use unigrams only
- for such a small dataset smoothing makes worse

BernoulliNB was chosen because MultinomialNB failed to predict negative sentiment. The best result was obtained with preprocessing and dimensionality reduction to about 750 words.

## MultinomialNB 'by hand'

In [18]:
# Binary MultinomialNB classifier 
from sklearn.feature_extraction.text import CountVectorizer

def train_clf(train, y_train, alpha, inv_labels):
    n = len(inv_labels)
    counts = np.ndarray((n, train.shape[1]))
    for i in range(n):
        counts[i] = np.log(np.sum(train[y_train==inv_labels[i]], axis = 0) + alpha)
    voc_size = np.sum(counts)
    for i in range(n):
        cc = np.log(np.sum(
            
            train[y_train==inv_labels[i]]) + alpha*voc_size)
        counts[i] -= cc*np.ones(counts[i].shape)
    return counts

def calc_test_clf(test, prior, counts):
    score = np.reshape(np.tile(prior, test.shape[0]), (test.shape[0], len(prior))) + test*counts.T
    return score

def predict_clf(score, inv_labels):
    i_test = score.argmax(axis=1)
    y_predicted = np.ndarray(i_test.shape, dtype=object)
    for i in range(len(y_predicted)):
        y_predicted[i] = inv_labels[i_test[i]]
    return y_predicted

        

def classify_onemore(X_train, X_test, y_train, y_test, show_data = 0, min_df = 1, alpha = 0.05, 
                     tokenizer = None, stop_words = stop_words, preprocessor=None):
    #get labels and priors
    categories = np.unique(y_train, return_counts=True)
    n = len(categories[0])
    labels = dict(zip(categories[0], range(n)))
    inv_labels = categories[0]
    prior = np.log(categories[1]) - np.log(len(y_train))
    #training
    counter = CountVectorizer(analyzer = 'word', tokenizer = tokenizer, binary=True, 
                              min_df = min_df, stop_words = stop_words, preprocessor=preprocessor)
    train = counter.fit_transform(X_train)
    counts = train_clf(train, y_train, alpha, inv_labels)
    #classify
    test = counter.transform(X_test)
    score = calc_test_clf(test, prior, counts)
    y_predicted = predict_clf(score, inv_labels)
    
    show_predicted(X_test, y_test, y_predicted, inv_labels, show_data)     
        
        
classify_onemore(X_train, X_test, y_train, y_test, show_data=25)



Predicted data sample
                                                    X         y y_predicted
0   Не було сказано, що є дефект. Ціна нормальна Р...   neutral    negative
1   Купував на подарунок, але купив би і собі. Над...  positive    negative
2   Купив недавно, інструкція зрозуміла, швидко ро...  positive    negative
3   я хочу ксвомашину щоб робити капучіно, лате як...   neutral     neutral
4    Хороша та якісна мікрохвильовка за такі гроші.    positive    positive
5   Я не раджу купувати цю вафельницю. Саме перше ...  negative    negative
6   Обирала блендер з декількох моделей, купувала ...  positive    positive
7   сподобався, приємний, міцний. Не смердить плас...  positive    negative
8   Скажіть чи є змінні пластини для цієї моделі? ...   neutral     neutral
9   Чому після розігріву їжі мікрохвильовка продов...   neutral    positive
10  Доброго дня. Хочу спитати чи підходить цей мік...   neutral     neutral
11  Купували в подарунок мамі. Їй все подобається....  positive  

In [19]:
# cutting with min_df makes worse classification of the smaller category
classify_onemore(X_train, X_test, y_train, y_test, min_df = 5)

                        X
y        y_predicted     
negative negative      15
         neutral       19
         positive      21
neutral  negative      11
         neutral      125
         positive     110
positive negative       6
         neutral       54
         positive     193

Classification report
['negative' 'neutral' 'positive']
[ 32 198 324]
[ 55 246 253]
             precision    recall  f1-score   support

   negative       0.47      0.27      0.34        55
    neutral       0.63      0.51      0.56       246
   positive       0.60      0.76      0.67       253

avg / total       0.60      0.60      0.59       554



In [20]:
classify_onemore(X_train, X_test, y_train, y_test, tokenizer = tokenize_lemmatize_negate, stop_words = stop_words,
                show_data = 10)


Predicted data sample
                                                   X         y y_predicted
0  Не було сказано, що є дефект. Ціна нормальна Р...   neutral    positive
1  Купував на подарунок, але купив би і собі. Над...  positive    negative
2  Купив недавно, інструкція зрозуміла, швидко ро...  positive    positive
3  я хочу ксвомашину щоб робити капучіно, лате як...   neutral     neutral
4   Хороша та якісна мікрохвильовка за такі гроші.    positive    positive
5  Я не раджу купувати цю вафельницю. Саме перше ...  negative     neutral
6  Обирала блендер з декількох моделей, купувала ...  positive    positive
7  сподобався, приємний, міцний. Не смердить плас...  positive     neutral
8  Скажіть чи є змінні пластини для цієї моделі? ...   neutral     neutral
9  Чому після розігріву їжі мікрохвильовка продов...   neutral     neutral
                        X
y        y_predicted     
negative negative      38
         neutral        7
         positive      10
neutral  negative     

## With sentiment dictionary

In [21]:
class SentimentDict:
    def __init__(self, sd):
        self.sd = sd
        
    
    def get_vector(self, vocabulary, analyzer, condition = None):
        v = np.zeros(len(vocabulary))
        for key, value in self.sd.items():
            w = analyzer(key)[0]
            nw = analyzer('не '+ key)[0]
            if w in vocabulary:
                if condition == None or condition(value):
                    v[vocabulary[w]] += value
            if nw in vocabulary:
                if condition == None or condition(-value):
                    v[vocabulary[nw]] += -value
                    
        return v

   
sd=pd.read_csv('C:\\work\\jul\\prj-nlp\\students\\juliamakogon\\task_05\\tone-dict-uk.tsv', sep='\t',header=None)
    
sd_dict = dict(zip(sd.to_dict()[0].values(), sd.to_dict()[1].values()))   


**Only on tonal dictionary**

In [22]:
def classify_sentiment(X_train, X_test, y_train, y_test, sd = {}, show_data = 0, min_df = 1, 
                     tokenizer = None, stop_words = stop_words, preprocessor=None):
    #get labels and priors
    categories = np.unique(y_train, return_counts=True)
    n = len(categories[0])
    labels = dict(zip(categories[0], range(n)))
    inv_labels = categories[0]
    #training
    counter = CountVectorizer(analyzer = 'word', tokenizer = tokenizer, binary=True, 
                              min_df = min_df, stop_words = stop_words, preprocessor=preprocessor)
    train = counter.fit_transform(X_train)
    sdict = SentimentDict(sd)
    sentiment = sdict.get_vector(counter.vocabulary_, tokenizer)
    sent_score = (sentiment*train.T)
    sent_borders = np.ndarray(n-1)
    means = [np.mean(sent_score[y_train == inv_labels[i]]) for i in range(n)]
    sent_borders[0] = min(-0.05, 0.5*(means[labels['negative']] + means[labels['neutral']]))
    sent_borders[1] = max(0.5, 0.5*(means[labels['positive']] + means[labels['neutral']]))
    #classify
    test = counter.transform(X_test)
    sent_score = (sentiment*test.T)
    sent_predicted = y_test.copy()
    for i in range(sent_predicted.shape[0]):
        k = n-1
        while k > 0 and sent_score[i] < sent_borders[k-1]:
            k -= 1
        sent_predicted[i] = inv_labels[k] # hook, but ok
    show_predicted(X_test, y_test, sent_predicted, inv_labels, show_data)    
    
# the result is better with remove_questions preprocessor
classify_sentiment(X_train, X_test, y_train, y_test, sd_dict, tokenizer = tokenize_lemmatize_negate, stop_words = stop_words,
                   preprocessor=remove_questions,
                show_data = 10 )


Predicted data sample
                                                   X         y y_predicted
0  Не було сказано, що є дефект. Ціна нормальна Р...   neutral    negative
1  Купував на подарунок, але купив би і собі. Над...  positive    positive
2  Купив недавно, інструкція зрозуміла, швидко ро...  positive    positive
3  я хочу ксвомашину щоб робити капучіно, лате як...   neutral     neutral
4   Хороша та якісна мікрохвильовка за такі гроші.    positive    positive
5  Я не раджу купувати цю вафельницю. Саме перше ...  negative     neutral
6  Обирала блендер з декількох моделей, купувала ...  positive    negative
7  сподобався, приємний, міцний. Не смердить плас...  positive    positive
8  Скажіть чи є змінні пластини для цієї моделі? ...   neutral     neutral
9  Чому після розігріву їжі мікрохвильовка продов...   neutral     neutral
                        X
y        y_predicted     
negative negative      18
         neutral       32
         positive       5
neutral  negative     

**Combining decisions of classifiers: boosting the decision of MultinomialNB by tonal dictionary with beta**

In [23]:
def classify_weighted_sentiment(X_train, X_test, y_train, y_test, sd = {}, show_data = 0, min_df = 1, 
                     tokenizer = None, stop_words = stop_words, preprocessor=None, alpha = 0.05, beta = 0.5):
    #get labels and priors
    categories = np.unique(y_train, return_counts=True)
    n = len(categories[0])
    labels = dict(zip(categories[0], range(n)))
    inv_labels = categories[0]
    prior = np.log(categories[1]) - np.log(len(y_train))
    #training
    counter = CountVectorizer(analyzer = 'word', tokenizer = tokenizer, binary=True, 
                              min_df = min_df, stop_words = stop_words, preprocessor=preprocessor)
    train = counter.fit_transform(X_train)
    sdict = SentimentDict(sd)
    sentiment = sdict.get_vector(counter.vocabulary_, tokenizer)
    sent_score = (sentiment*train.T)
    sent_borders = np.ndarray(n-1)
    means = [np.mean(sent_score[y_train == inv_labels[i]]) for i in range(n)]
    sent_borders[0] = min(-0.05, 0.5*(means[labels['negative']] + means[labels['neutral']]))
    sent_borders[1] = max(0.5, 0.5*(means[labels['positive']] + means[labels['neutral']]))
    counts = train_clf(train, y_train, alpha, inv_labels)    
    #classify
    test = counter.transform(X_test)
    sent_score = (sentiment*test.T)
    score = calc_test_clf(test, prior, counts)
    sent_predicted = y_test.copy()
    for i in range(sent_predicted.shape[0]):
        k = n-1
        while k > 0 and sent_score[i] < sent_borders[k-1]:
            k -= 1
        sent_predicted[i] = k
    sent_p = sent_score.copy()
    score = np.exp(score)
    for i in range(n):
        min_ = min(sent_score[sent_predicted==i])
        max_ = max(sent_score[sent_predicted==i])
        sent_p[sent_predicted==i] = (sent_score[sent_predicted==i] - min_)/(max_-min_)
    max_ = np.max(score, axis=1)
    max_[max_ < 1e-30] = 1
    for i in range(n):
        score[:, i] = score[:, i]/max_
    for i in range(score.shape[1]):
        score[i, sent_predicted[i]] += beta*sent_p[i]
    y_predicted = predict_clf(score, inv_labels)
    show_predicted(X_test, y_test, y_predicted, inv_labels, show_data)
    
    
classify_weighted_sentiment(X_train, X_test, y_train, y_test, sd_dict, 
                            tokenizer = tokenize_lemmatize_negate, stop_words = stop_words, 
                            show_data = 30 )


Predicted data sample
                                                    X         y y_predicted
0   Не було сказано, що є дефект. Ціна нормальна Р...   neutral    negative
1   Купував на подарунок, але купив би і собі. Над...  positive    negative
2   Купив недавно, інструкція зрозуміла, швидко ро...  positive    positive
3   я хочу ксвомашину щоб робити капучіно, лате як...   neutral     neutral
4    Хороша та якісна мікрохвильовка за такі гроші.    positive    positive
5   Я не раджу купувати цю вафельницю. Саме перше ...  negative     neutral
6   Обирала блендер з декількох моделей, купувала ...  positive    positive
7   сподобався, приємний, міцний. Не смердить плас...  positive     neutral
8   Скажіть чи є змінні пластини для цієї моделі? ...   neutral     neutral
9   Чому після розігріву їжі мікрохвильовка продов...   neutral     neutral
10  Доброго дня. Хочу спитати чи підходить цей мік...   neutral     neutral
11  Купували в подарунок мамі. Їй все подобається....  positive  

**Conclusion:** Boosting Naive Bayes classifier with a tonal dictionary can improve the classification quality. There is some limitation to quality measurement on this dataset because many, especially positive, feedbacks are marked as neutral.