# Реализация наивного Байесовского классификатора для проверки спам\неспам писем

Нашей задачей является вычисление наиболее вероятного класса, то есть нам необходимо вычислить такое значение случайной переменной $C$, при котором достигается апостериорный максимум

$$C = argmax P(c|d) \quad c \in C$$

По т. Байеса раскладываем P(c|d)

$$C = argmax \frac{P(d|c)*P(c)}{P(d)}$$

Учитывая, что мы ищем аргумент, максимизирующий функцию правдоподобия, и то, что знаменатель не зависит от этого аргумента и является в данном случае константой, то мы можем вычеркнуть значение полной вероятности P(d)

$$C = argmax P(d|c)*P(c)$$

Так как максимум любой функции f(x) будет идентичен максимуму ln(f(x)), то 

$$C = arg max ln(P(d|c)*P(c))$$

Учитывая наивность нашего классификатора и свойство логарифма:

$$C = arg max ln(P(f_1,f_2,...,f_n|c)*P(c)) \newline
= arg max ln(P(c)*\prod_{i=1}^{n} P(f_i,c)) \newline
= arg max ln(P(c))+\sum_{i=1}^{n} ln(P(f_i,c)) $$

Итак, используя метод максимального правдоподобия и размытие по Лапласу получаем: 
$$ P(f_i,c_j) = \frac{count(f_i,c_j) + z}{\sum_{k=1}^{q} count(f_k,c_j) + zq} \newline$$
Где z >= 0 - коэффициент размытия ,q - общее количество слов 

#### Приступим к реализации нашего классификатора

In [1]:
from math import log

Определяяем набор спам\ не спам писем и инициализируем коэффициент размытия *z*

In [2]:
s = {'spam':['путевки низкой цене','акция купи шоколадку получи телефон подарок'],'notspam':['завтра состоится собрание','купи килограмм яблок шоколадку']}
z = 1

Вычисляем колличество слов, относящихся к категориям спам\неспам

In [3]:
countSpam = 0
countNotSpam = 0
countTotal = 0
for k, v in s.items():
    if(k == 'spam'):
        countSpam += len(v)
    if(k == 'notspam'):
        countNotSpam += len(v)
countTotal = countNotSpam + countSpam

Определяем наборы 'bag of words' для спам\неспам писем

In [4]:
bagOfWords_spam = {}
bagOfWords_notspam = {}
listOfWords_spam = []
listOfWords_notspam = []
for k, v in s.items():
    if(k == 'spam'):
        for sentence in v:
            tmp = sentence.split( )
            listOfWords_spam.extend(tmp)
            
    if(k == 'notspam'):
        for sentence in v:
            tmp = sentence.split( )
            listOfWords_notspam.extend(tmp)
                 
for v in listOfWords_spam:
    bagOfWords_spam[v] = listOfWords_spam.count(v)
    
for v in listOfWords_notspam:
    bagOfWords_notspam[v] = listOfWords_notspam.count(v)



Определяем письмо, которое будет классифицироваться

In [5]:
sentence = 'магазине гора яблок купи семь килограмм шоколадку'
splitSentence = sentence.split(' ')

Функция *count* - подсчёт колличества вхождения слова(*word*) в набор 'bag of words'

In [6]:
def count(word,bag):
    if(word not in bag.keys()):
        return 0
    else:
        return bag[word]

Функция *sumWords* - подсчёт слов в наборе 'bag of words'

In [7]:
def sumWords(bag):
    return sum(bag.values())

Вычисляем колличество слов в обоих наборах

In [8]:
totalSum = (sumWords(bagOfWords_spam) + sumWords(bagOfWords_notspam))

Вычисляем итоговую вероятность для письма для спам\неспам объектов

In [9]:
probability_spam = log(countSpam/countTotal)
for word in splitSentence:
    probability_spam += log((count(word,bagOfWords_spam) + z)/(sumWords(bagOfWords_spam) + (z * totalSum)))

In [11]:
probability_notspam = log((countTotal-countSpam)/countTotal)
for word in splitSentence:
    probability_notspam += log((count(word,bagOfWords_notspam) + z)/(sumWords(bagOfWords_notspam) + (z * totalSum)))

In [12]:
if(probability_notspam>probability_spam):
    print(f'Письмо "{sentence}" не является спамом')
else:
    print(f'Письмо "{sentence}" является спамом')

Письмо "магазине гора яблок купи семь килограмм шоколадку" не является спамом
