In [1]:
import numpy as np
import nltk
import pymorphy2
from nltk.corpus import stopwords
import string

In [2]:
noise = [',', '.', ':', '?', '«', '»', '-', '(', ')', '!', '\'', "—", ';', "”", "...", "\'\'", "/**//**/", "“", "„", "–"]


def get_normal_form(text):
    tokens = nltk.word_tokenize(text)
    analyzer = pymorphy2.MorphAnalyzer()
    normalized_words = []
    for token in tokens:
        if token in string.punctuation: continue
        if token in noise: continue
        normalized_words.append(analyzer.parse(token)[0].normal_form)
    return normalized_words


def remove_stopwords(word_tokens):
    stop_words = set(stopwords.words('russian'))
    filtered_sentences = [w for w in word_tokens if not w in stop_words]
    return filtered_sentences


In [3]:
spam = ['Путевки по низкой цене!', \
        'Акция! Купи шоколадку и получи телефон в подарок.']
inf = ['Завтра состоится собрание.',\
      'Купи килограмм яблок и шоколадку']

In [4]:
def make_dict(list_):
    normal__forms = []
    for text in list_:
        form = remove_stopwords(get_normal_form(text))
        normal__forms += [form]
    return normal__forms

make_dict(spam)

[['путёвка', 'низка', 'цена'],
 ['акция', 'купить', 'шоколадка', 'получить', 'телефон', 'подарок']]

In [5]:
def mark_texts(texts, mark):
    return [[item, mark] for item in make_dict(texts)]


dataset = []
dataset += mark_texts(spam, 0)
dataset += mark_texts(inf, 1)
print(dataset)

[[['путёвка', 'низка', 'цена'], 0], [['акция', 'купить', 'шоколадка', 'получить', 'телефон', 'подарок'], 0], [['завтра', 'состояться', 'собрание'], 1], [['купить', 'килограмм', 'яблоко', 'шоколадка'], 1]]


In [6]:
def train(dataset, alpha):
    classes, freq, total = {}, {}, set()
    for features, label in dataset:
        if label not in classes:
            classes[label] = 0
        classes[label] += 1
        for feature in features:
            if (label,feature) not in freq:
                freq[(label,feature)] = 0
            freq[(label,feature)] += 1
        total.add(tuple(feature))
            
    for label, feature in freq:
        freq[(label,feature)] = (alpha + freq[(label,feature)]) / \
        (alpha*len(total) + classes[label])
    for c in classes:
        classes[c] /= len(dataset)
        
    return classes, freq 


def classify(classifier, features):
    classes, freq = classifier
    return max(classes.keys(), \
              key = lambda cl: np.log10(classes[cl]) + \
              sum(np.log10(freq.get((cl,feature), 10**(-7))) for \
                 feature in features))


classifier = train(dataset, 1)
print('Classifier: ', classifier, sep='\n')

Classifier: 
({0: 0.5, 1: 0.5}, {(0, 'путёвка'): 0.3333333333333333, (0, 'низка'): 0.3333333333333333, (0, 'цена'): 0.3333333333333333, (0, 'акция'): 0.3333333333333333, (0, 'купить'): 0.3333333333333333, (0, 'шоколадка'): 0.3333333333333333, (0, 'получить'): 0.3333333333333333, (0, 'телефон'): 0.3333333333333333, (0, 'подарок'): 0.3333333333333333, (1, 'завтра'): 0.3333333333333333, (1, 'состояться'): 0.3333333333333333, (1, 'собрание'): 0.3333333333333333, (1, 'купить'): 0.3333333333333333, (1, 'килограмм'): 0.3333333333333333, (1, 'яблоко'): 0.3333333333333333, (1, 'шоколадка'): 0.3333333333333333})


In [7]:
import joblib


test = ['В магазине гора яблок. Купи семь килограмм и шоколадку.']

print('Result:', classify(classifier, make_dict(test)[0]))

joblib.dump(classifier, 'res/dicts.pkl')
classifier = joblib.load('res/dicts.pkl')
print('Classifier after loading from .pkl:', classifier, sep='\n')
print('Result after:', classify(classifier, make_dict(test)[0]))

Result: 1
Classifier after loading from .pkl:
({0: 0.5, 1: 0.5}, {(0, 'путёвка'): 0.3333333333333333, (0, 'низка'): 0.3333333333333333, (0, 'цена'): 0.3333333333333333, (0, 'акция'): 0.3333333333333333, (0, 'купить'): 0.3333333333333333, (0, 'шоколадка'): 0.3333333333333333, (0, 'получить'): 0.3333333333333333, (0, 'телефон'): 0.3333333333333333, (0, 'подарок'): 0.3333333333333333, (1, 'завтра'): 0.3333333333333333, (1, 'состояться'): 0.3333333333333333, (1, 'собрание'): 0.3333333333333333, (1, 'купить'): 0.3333333333333333, (1, 'килограмм'): 0.3333333333333333, (1, 'яблоко'): 0.3333333333333333, (1, 'шоколадка'): 0.3333333333333333})
Result after: 1
