# Naïve Bayes Classifier

## Теория

***Примечание 1.*** В основе NBC (Naïve Bayes Classifier) для классификации лежит, **теорема Байеса** :
\\[P(H|E) = \frac{P(H) P(E|H)}{P(E)}\\] 

Для принятия решения нам потребуется научиться вычислять следующие величины:
\\[P(спам|сообщение) = \frac{P(спам) P(сообщение|спам)}{P(сообщение)}\\]
где,
* \\(P(спам|сообщение)\\) - вероятность что сообщение принадлежит классу cпам, именно её нам надо рассчитать;
* \\(P(спам)\\) - безусловная вероятность встретить сообщение класса спам в корпусе сообщений;
* \\(P(сообщение|спам)\\) - вероятность встретить сообщение среди всех собщений класса спам;
* \\(P(сообщение)\\) - безусловная вероятность сообщения в корпусе соообщений.
  
***Аналогично рассматривается величина \\(P(не\spaceспам|сообщение)\\)***

***Примечание 2.*** Цель классификации состоит в том чтобы понять к какому классу принадлежит сообщение, поэтому нам нужна не сама вероятность, а наиболее вероятный класс(спам / не спам).
Байесовский классификатор использует оценку **апостериорного максимума (Maximum a posteriori estimation)** для определения наиболее вероятного класса. Грубо говоря, это класс с максимальной вероятностью.

\\[C_{\text{map}} = max(\frac{P(спам) P(сообщение|спам)}{P(сообщение)}, \frac{P(не\spaceспам) P(сообщение|не\spaceспам)}{P(сообщение)})\\]

То есть нам надо рассчитать вероятность для всех классов и выбрать тот класс, который обладает максимальной вероятностью.

***Примечание 3.*** знаменатель (вероятность сообщения) является константой и никак не может повлиять на ранжирование классов, поэтому в нашей задаче мы можем его игнорировать.
**Формула №1:**
\\[C_{\text{map}} = max(\space P(спам) P(сообщение|спам), P(не\spaceспам) P(сообщение|не\spaceспам)\space)\\]

***Примечание 4.*** Байесовский же классификатор представляет документ как набор слов вероятности которых условно не зависят друг от друга.

Исходя из этого предположения условная вероятность документа аппроксимируется произведением условных вероятностей всех слов входящих в документ.

*например для сообщения "Купите наш товар!" принадлежещего классу **Спам***:
\\[P(Купите\spaceнаш\spaceтовар|спам) ≈ P(Купите|спам) P(наш|спам) P(товар|спам)\\] 

Подставив полученное выражение в общем виде в **Формула №1** мы получим:
\\[C_{\text{map}} = max(\space P(спам) \prod_{i=1}^{n}P(слово\space из\space сообщения|спам), P(не\spaceспам) \prod_{i=1}^{n}P(слово\space из\space сообщения|не\spaceспам)\space)\\]

***Примечание 5.***  При достаточно большой длине документа придется перемножать большое количество очень маленьких чисел. Для того чтобы при этом избежать арифметического переполнения снизу зачастую пользуются свойством логарифма произведения: \\(log(ab) = \log(a) + \log(b)\\)

\\[C_{\text{map}} = max(\space \log P(спам) + \sum_{i=1}^{n}\log P(слово\space из\space сообщения|спам), \log P(не\spaceспам) + \sum_{i=1}^{n}\log P(слово\space из\space сообщения|не\spaceспам)\space)\\]

***Примечание 6.*** **Проблема неизвестных слов :**
Но так как может оказаться даже что отдельное слово больше нигде не встречалось, то следует пойти на шаг дальше и применить так называемое сглаживание Лапласа, при котором мы для каждого слова мы притворяемся, что у нас есть ещё два письма: одно содержащее это слово и одно без такого слова. Т.е. финальная формула для вычисления
такой вероятности выглядит так:

\\[P(слово|спам) = \frac{P(спам-писем\space с\space словом + 1)}{P(спам-писем + 2)}\\]

## Реализация

In [1]:
import pandas as pd
import numpy as np
from collections import defaultdict
import os
import nltk

In [2]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Ilya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

### Обучение
#### Сбор данных: Соберем набор писем, которые уже помечены как спам или не спам. Создадим DataFrame на основе каталога содержащего наборы данных Enron-Spam.

In [3]:
def read_files(directory, label):
    """
    Прочитывает все файлы из directory и подготавливает их к упаковке в DF
    :param directory: директория из которой будут читаться файлы
    :param label: метка показывающая класс файла (spam/nam)
    :return: возвращает список подготовленных для упаковки в DF сообщений
    *(сообщение готово к упаковке в DF, если:
        -все слова находятся в lowerCase
        -отсутствуют знаки пунктуации, в т.ч. \space
        -сообщение разбито на токены ([word1, word2, .... wordn])
    """
    messages = []
    for filename in os.listdir(directory):
        with open(os.path.join(directory, filename), 'r') as file:
            text = preprocessing(file.read())
            messages.append((label, text))
    return messages


def create_dataFrame(messages):
    """
    Возвращает dataFrame с подготовленными данными для обучения классификатора на основе Naïve Bayes Classifier
    :param messages: Preprocessed Data (подготовленные данные)
    :return: dataFrame
    """
    df = pd.DataFrame(messages, columns=['Class', 'Message'])
    return df


def preprocessing(text):
    """
    Функция необходима для переработки text.
    Функция выполняет:
        1) Очистка text - удаление ненужных символов, таких как пунктуация, специальные символы.
        2) Приведение к нижнему регистру
        3) Токенизация text - разделение text на отдельные слова или токены.

    :param text: текст, который будет переработан
    :return: переработанный text
    """
    # Перевод слов в нижний регистр
    text = text.lower()

    # Удаление знаков пунткуации
    punctuation = "!\"#$%&'()*+,-./:;<=>?@[\\]^_`{|}~"
    translator = str.maketrans('', '', punctuation)
    text = text.translate(translator)

    #Токенизация
    words = text.split()
    words = list(set(words))

    return words


  """


In [4]:
path_directory_spam = r"data2\data\spam"
path_directory_ham = r"data2\data\ham"

messages_spam = read_files(path_directory_spam, "spam")
messages_ham = read_files(path_directory_ham, "ham")

all_messages = messages_ham + messages_spam

df = create_dataFrame(all_messages)
df

Unnamed: 0,Class,Message
0,ham,"[for, currently, commercial, 2, business, work..."
1,ham,"[means, entirety, would, what, taking, work, s..."
2,ham,"[or, provide, anything, revised, entex, me, el..."
3,ham,"[summary, what, repeat, outlined, answering, p..."
4,ham,"[assignments, hill, would, summary, place, wha..."
...,...,...
4134,spam,"[2005, would, localized, 29, is, listed, ali, ..."
4135,spam,"[2005, would, localized, 29, is, regards, 39, ..."
4136,spam,"[made, suffering, security, 2005, hair, leads,..."
4137,spam,"[unknown, 2005, its, discounted, who, loss, a,..."


#### Найдем оценку вероятности встретить каждое слово в спамном или не спамном сообщении. 

Посчитаем сколько раз каждое слово встречается в каждом из типов сообщений:

In [5]:
def counts_word(data):
    """
    создает словарь вида {key = слово; value = [#количество вхождений в сообщения spam, #количество вхождений в сообщения ham]
    :param data: dataFrame с указанием класса сообщения (spam/ham) и токенизированным сообщением
    :return: словарь вида {key = слово; value = [#количество вхождений в сообщения spam, #количество вхождений в сообщения ham]
    """
    counts = defaultdict(lambda: [0,0])
    for idx, row in data.iterrows():
        for word in row["Message"]:
            counts[word][0 if  row["Class"] =='spam' else 1] +=1
    return counts

In [6]:
freq = counts_word(df)
freq

defaultdict(<function __main__.counts_word.<locals>.<lambda>()>,
            {'for': [1860, 915],
             'currently': [97, 106],
             'commercial': [37, 101],
             '2': [509, 263],
             'business': [685, 258],
             'work': [260, 201],
             'a': [2102, 866],
             'eott': [0, 5],
             'me': [284, 528],
             'analysis': [24, 59],
             'related': [55, 63],
             'to': [2374, 1029],
             'am': [246, 422],
             'analysts': [10, 36],
             'subject': [2939, 1200],
             'months': [117, 78],
             'i': [840, 722],
             '6': [290, 108],
             'roles': [2, 29],
             'in': [1732, 770],
             'need': [406, 328],
             'of': [2031, 831],
             'period': [39, 30],
             'means': [144, 20],
             'entirety': [3, 3],
             'would': [370, 366],
             'what': [458, 227],
             'taking': [61, 44],
         

Сохраним в переменные общее число сообщений класса spam и ham :

In [7]:
all_spam = df['Class'].loc[df['Class'] == 'spam'].count()
all_ham = df['Class'].loc[df['Class'] == 'ham'].count()

all_spam, all_ham

(np.int64(2939), np.int64(1200))

Сохраним в переменные Априорные вероятности \\(P(спам)\\) \\(P(не \space спам)\\) :

In [8]:
p_spam = all_spam / (all_spam + all_ham)
p_ham = all_ham / (all_spam + all_ham)

p_spam, p_ham

(np.float64(0.7100748973181928), np.float64(0.2899251026818072))

Для каждого слова найдем вероятность встретить его в каждом из классов сообщений spam, hum :
***(Найдем \\(P(слово|не\spaceспам)\\) и \\(P(слово|спам)\\))*** Используя сглаживание Лапласса.

In [24]:
words_prob = {}
for word, counts in freq.items():
    spam_count, ham_count = counts
    prob_word_in_spam = (spam_count + 1) / (all_spam + 2)
    prob__word_in_ham = (ham_count + 1) / (all_ham + 2)
    words_prob[word] = (prob_word_in_spam, prob__word_in_ham)


In [25]:
words_prob

{'for': (np.float64(0.6327779666780007), np.float64(0.762063227953411)),
 'currently': (np.float64(0.033321999319959196),
  np.float64(0.08901830282861897)),
 'commercial': (np.float64(0.01292077524651479),
  np.float64(0.08485856905158069)),
 '2': (np.float64(0.17341040462427745), np.float64(0.21963394342762063)),
 'business': (np.float64(0.23325399523971438),
  np.float64(0.21547420965058237)),
 'work': (np.float64(0.08874532471948317), np.float64(0.16805324459234608)),
 'a': (np.float64(0.7150629037742264), np.float64(0.721297836938436)),
 'eott': (np.float64(0.00034002040122407346),
  np.float64(0.004991680532445923)),
 'me': (np.float64(0.09690581434886093), np.float64(0.4400998336106489)),
 'analysis': (np.float64(0.008500510030601836),
  np.float64(0.04991680532445923)),
 'related': (np.float64(0.019041142468548114),
  np.float64(0.05324459234608985)),
 'to': (np.float64(0.8075484529071745), np.float64(0.8569051580698835)),
 'am': (np.float64(0.08398503910234614), np.float64(0.3

### Классификация

In [26]:
def classify_message(words_prob, message, p_spam, p_ham):
    """
    Функция классифицирует message и определяет к какому классу оно относится 
    :param words_prob: словарь вида {key = слово; value = [P(вхождения в сообщения spam), P(вхождения в сообщения ham)]
    :param message: сообщение для классификации
    :param p_spam: Априорная вероятность, сообщение - спам
    :param p_ham: Априорная вероятность, сообщение - не спам
    :return:
    """
    message_words = preprocessing(message)
    log_prob_spam = np.log(p_spam)
    log_prob_ham = np.log(p_ham)
    for word in message_words:
        if word in words_prob:
            prob_word_in_spam, prob_word_in_ham = words_prob[word]
            log_prob_spam += np.log(prob_word_in_spam)
            log_prob_ham += np.log(prob_word_in_ham)
    if log_prob_spam > log_prob_ham :
        return 'spam'
    return 'ham'

### Тестирование

In [27]:
numb_right_classified = 0; # счетчик точно классифицированных писем
count_emails = 0

In [28]:
def testing(directory,words_prob, p_spam, p_ham, class_email):
    global numb_right_classified
    global count_emails
    for filename in os.listdir(directory):
        with open(os.path.join(directory, filename), 'r') as file:
            res = classify_message(words_prob, file.read(), p_spam, p_ham)
            if res == class_email : numb_right_classified+=1
            count_emails+=1
    return 

In [29]:
dir_spam_test = r"data2\data\spam_test"
dir_ham_test = r"data2\data\ham_test"

In [30]:
testing(dir_spam_test, words_prob, p_spam, p_ham, 'spam')
testing(dir_ham_test, words_prob, p_spam, p_ham, 'ham')

accuracy = numb_right_classified/ count_emails
print(f"Итоговая точность классификации: {accuracy:.2f}")

Итоговая точность классификации: 0.96
