# Наивный Байесовский классификатор

Наивная Байесовская классификация - один из самых элегантных практически используемых алгоритмов машинного обучения. Он является мощным и эффективным инструментов по качеству результата.

* Устойчив к нерелевантным признакам, которые просто игнорирует
* Быстро обучается и быстро возвращает предсказание
* Потребляет относительно небольшое число ресурсов

В чем же наивность?

Наивность относится к предположению, необходимому для оптимальной работы классификатора. Состоит оно в том, что признаки не влияют друг на друга. В реальности такое бывает крайне редко, но на практике верность этого алгоритма достаточно выскоа, даже если предположение о независимости признаков не оправдывается.


## Теорема Байеса

По сути, наивная Байесовская классификация - не что иное, как отслеживание того, какой признак о каком классе свидетельствует. Способ проектирования признаков определяет модель, используемую для обучения.

Например, в **модели Бернулли** допускаются только буоевские признаки (встречается слово один или несколько раз не имеет значения). В мультиномиальной модели признаками являются счетчики слов.

Пока рассмотрим модель Бернулли, чтобы объяснить как наивный Байесовский классификатор используется для анализа эмоциональной окраски текста. А для обучения и настройки реальных классификаторов (позже) перейдем на **мультиномиальную модель**.

Итак, пусть:
* $C$ - Класс твита (положительный или отрицательный);
* $F_1$ - В твите хотя бы раз встречается слово awesome;
* $F_2$ - В твите хоть раз встречается слово crazy

В ходе обучения мы построили наивную Байесовскую модель, которая возвращает вероятность класса $C$, если известны признаки $F_1$ и $F_2$. Эта вероятность записывается в виде $\Pr(C\mid F_1, F_2)$.

Поскольку мы не можем оценить  $\Pr(C\mid F_1, F_2)$ непосредственно, то применим формулу, изобретенную Байесом:
 $$\Pr(B)\times\Pr(B\mid A) = \Pr(A)\times\Pr(A\mid B)$$ или $$ \Pr(B \mid A) = \frac{\Pr(A)\times\Pr(A \mid B)}{\Pr(B)}$$
 
Если считать, что $A$ - событие.ю состоящее во вхождении обоих слов awesome и crazy, а $B$ - принадлежность твита классу $C$, то получится формула, которая впоследствии может помочь нам вычислить вероятность принадлежности образца к указанному классу:

$$\Pr(F_1, F_2) \times \Pr(C\mid F_1, F_2) = \Pr(C)\times\Pr(F_1, F_2\mid C).$$

Это позволяет выразить $\Pr(C\mid F_1, F_2)$ через другие вероятности:

$$\Pr(C\mid F_1, F_2) = \frac{\Pr(C)\times \Pr(F_1, F_2\mid C)}{\Pr(F_1, F_2)}$$

Можно и записать в таком виде:

$$prior = \frac{posterior \times likelihood}{evidence}$$

$prior$ м $evidence$ найти легко:
* $P(C)$ - априорная вероятность класса без каких-либо знаний о данных. Оценить её можно напрямую подсчитав долю обучающих примеров, принадлежащих данному классу.
* $P(F_1, F_2)$ - свидетельство, или вероятность одновременного наличия признаков $F_1$ и  $F_2$.

Нетривиальная часть - вычисление правдоподобия (likelihood) $\Pr(F_1, F_2\mid C)$. Эта величина говорит о том, насколько вероятно увидеть признаки $F_1$ и  $F_2$, если мы знаем, что образец принадлежит классу $C$. 

## Предположение о наивности
Из теории вероятностей:
$$ \Pr(F_1, F_2 \mid C) = \Pr(F_1 \mid C) \times \Pr(F_2 \mid C, F_1).$$

Сама по себе формула мало что дает, поскольку мы заменяем одну трудную задачу - поиск $\Pr(F_1, F_2 \mid C)$ другой, не менее трудной - оценка $ \Pr(F_2 \mid C, F_1)$.

Однако, если наивно предположить, что $F_1$ и $F_2$ независимы, то $ \Pr(F_2 \mid C, F_1)$ сводится к $ \Pr(F_2 \mid C)$ и мы можем записать:
$$\Pr(F_1, F_2 \mid C) = \Pr(F_1 \mid C)\times\Pr(F_2 \mid C).$$

Собирая всё вместе, получаем простую формулу:
$$\Pr(C\mid F_1, F_2) = \frac{\Pr(C)\times\Pr(F_1 \mid C) \Pr(F_2 \mid C)}{\Pr(F_1, F_2)}$$.

Любопытная вещь: хотя теоретически неправильно выдвигать произвольные предположения под настроение, в данном случае такой подход на удивление хорошо работает в реальных задачах.


## Использование наивного Байесовского алгоритма для классификации

Итак, получив новый твит, мы должны вычислить вероятности:

$$\Pr(C = \text{"pos"} \mid F_1, F_2) = \frac{\Pr(C = \text{"pos"})\times\Pr(F_1 \mid \text{C = "pos"}) \times \Pr(F_2 \mid C = \text{"pos"})}{\Pr(F_1, F_2)}$$.

$$\Pr(C = \text{"neg"} \mid F_1, F_2) = \frac{\Pr(C = \text{"neg"} )\times\Pr(F_1 \mid C = \text{"neg"} ) \times\Pr(F_2 \mid C = \text{"pos"} )}{\Pr(F_1, F_2)}$$.

А затем выбрать класс $C_{best}$ с наибольшей вероятностью.


Поскольку для обоих классов знаменатель одинаковый мы его можем просто игнорировать - предсказанный класс от этого не изменится.


Однако, стоит отметить, что реальные вероятности больше не вычисляются Вместо этого оценивается, какой класс более правдоподобен, по имеющимся свидетельствам. Это еще одна причина устойчивости наивного байесовского классификатора: его интересуют не столько истинные вероятности, сколько информация о том, какой клсс правдоподобнее.

Короче говоря, можно написать:
$$C_{best} = \arg\max_{c\in C} \Pr(C=c)\times\Pr(F_1\mid C=c)\times\Pr(F_2\mid C=c)$$

Говоря, что мы вычисляем часть после $\arg\max$ для всех классов и возвращаем тот класс, для которого получилось наибольшее значение.

Проиллюстрируем, чтобы понаблюдать за работой наивного байесовского алгоритма. Сделаем предположение, что Twitter разрешает употреблять только два слова: awesome и crazy и что мы уже вручную проклассифицировали несколько твитов:

| Твит | Класс 
| :-:  | :-:
|awesome | pos
|awesome | pos
|awesome crazy | pos
|crazy | pos
|crazy | neg
|crazy | neg

Твит crazy получил как отрицательную, так и положительную оценку (моделируем реальныую речь: "балдеть от футбола" и "дурацкий идиот").
Всего шесть твитов - 4 pos и 2 neg, поэтому получаем априорные вероятности:
$$\Pr(C=pos) = \frac{4}{6} ~ 0.67$$
$$\Pr(C=neg) = \frac{2}{6} ~ 0.33$$

Это означает, что ничего не зная о самом твите, разумно предположить что он положительный.

Пока отсутсвует вычисление $\Pr(F_1\mid C=c)$ и $\Pr(F_2\mid C=c)$ - вероятностей признаков $F_1$ и $F_2$ при условии класса $C$. Они вычисляются как количество твитов, в которых встречался отдельный признак, поделенное на количество твитов помеченных классом $C$.

Вероятность встретить awesome, если известно что класс положительный:
$$\Pr(F_1 = 1 \mid C=pos) = \frac{\text{число положительных твитов, содержащих слово awesome}}{\text{число всех положительных твитов}} = \frac{3}{4}$$
Поскольку из 4 положительных твитов 3 содержали слово awesome.

Очевидно, что вероятность не встретить слово awesome в положительном твите равна:
$$\Pr(F_1 = 0 \mid C=pos) = 1 - \Pr(F_1 = 1 \mid C=pos) = 0.25$$

Точно так же производятся остальные вычисления.
$$\Pr(F_2 = 1 \mid C=pos)$$
$$\Pr(F_1 = 1 \mid C=neg)$$
$$\Pr(F_2 = 1 \mid C=neg)$$

Для полноты картины вычислим свидетельство, чтобы узнать истинные вероятности. Для двух конкретных щначений $F_1$ и $F_2$ свидел=тельство вычисляет ся так:
$$\Pr(F_1, F_2) = \Pr(F_1, F_2 \mid C=pos)\Pr(C=pos) + \Pr(F_1, F_2 \mid C=neg)\Pr(C=neg).$$

Пока всё хорошо. При классификации тривиальных твитов метки, похоже вычисляются корректно. 

Но как быть со словами не встречавшихся в тренировочном корпусе? Ведь всем новым словам будет присвоена нулевая вероятность.




## Учет ранее не встречавшихся слов

Ранее мы вычисляли не истинные вероятности а лишь грубые приближения к ним. Мы предполагали, что тренировочный корпус содержит полную информацию об истинных вероятностях.

Но это не так!

Очевидно, что 6 твитов не дадут всю информацию о каждом из когда то написанных твитов. Например, существуют твиты содержащие слово text. Просто мы их не видели. Следовательно, наше приближение очень грубое и нужно учитывать это.

На практике для этого часто применяется **сглаживание с прибавлением единицы (add-one smoothing)**.
Это очень простой приём, заключающийся в прибавлении единицы ко всем вхождениям признака. В его основе лежит предположение, что даже если мы не видели данного слова во всем корпусе, есть шанс , что это случилось только потому, что в нашей выборке таких твитов не оказалось. 

То есть вместо вычисления:

$$\Pr(F_1 = 1 \mid C=pos) = \frac{\text{число положительных твитов, содержащих слово awesome}}{\text{число всех положительных твитов}} = \frac{3}{4} = 0.75$$
Мы вычисляем:
$$\Pr(F_1 = 1 \mid C=pos) = \frac{3+1}{4+2}=0.67$$

Почему в знаменателе прибавлено 2? 
Потому что всего у нас два признака: вхождения слов awesome и crazy. Поскольку мы прибавляем 1 для каждого признака нужно позаботиться, чтобы получились всё же вероятности.


## Потеря точности?
Еще одна проблема - вещественная арифметика.
Но мы можем прологарифмировать:
$ \log(x,y) = \log(x) +\log(y)$

В применении к нашему случаю:
$$\log(\Pr(C)\times\Pr(F_1 \mid C)\times\Pr(F_2 \mid C)) = \log\Pr(C) + \log\Pr(F_1 \mid C) + \log\Pr(F_2 \mid C)$$

Вероятность лежит в интервале от 0 до 1, значит её логарифм лежит в интервале от $-\inf$ до 0. Но по прежнему, чем больше число, тем точнее определен класс, только числа теперь отрицательны.

Но проблема еще есть: в числителе дроби нет никакого логарифма, а есть лишь произведение вероятностей. К счастью, фактические значения вероятностей нам неизвестны, а нужно знать у какого класса максимальная апостериорная вероятность.

И тут нам повезло, потому что если верно, что $\Pr(C=pos\mid F_1, F_2) > \Pr(C=neg \mid F_1, F_2)$, то верно и то, что $\log\Pr(C=pos\mid F_1, F_2) > \log\Pr(C=neg \mid F_1, F_2)$.

Кривая монотонно возрастает, поэтому можно воспользоваться формулой:
$$C_{best} = \arg\max_{c\in C} \Pr(C=c)\times\Pr(F_1\mid C=c)\times\Pr(F_2\mid C=c)$$

Откуда мы получаем формулу для двух признаков, которая дает наилучший класс даже для образцов, которые мы ранее не видели:
$$C_{best} = \arg\max_{c\in C} (\log\Pr(C=c)+\log\Pr(F_1\mid C=c)+\log\Pr(F_2\mid C=c)$$

Разумеется, двух признаков маловато, поэтому обобщим на произвольное число признаков:
$$C_{best} = \arg\max_{c\in C} (\log\Pr(C=c)+\sum_{k}\log\Pr(F_k\mid C=c)).$$



### Как построить наивный Байесовский классификатор в Python?

Scikit-learn имеет 3 модели наивного Байесовского классификатор. 
* Gaussian: Используется в классификации и предполагает, что атрибуты нормально распределены.
* Multinomial: Используется для дискретных атрибутов. (Например, текстовая классификация - можно рассмотреть модель Бернулли, и говорить о том, встречаается ли слово в тексте, или нет, а можно подсчитать, как часто слово встречается в документе. Можно рассматривать как "число раз, когда атрибут $x_i$ наблюдается.
* Bernoulli: Биномиальная модель полезна в том случае, если вектор атрибутов является бинарным. (Пример: классификация текстов, с моделью bag of words, где атрибуты могут быть 0 (слово не встретилось) или 1 (слово встретилось).

Ниже рассмотрен пример использования Гауссовской модели наивного Байесовского классификатора.Gaussian model.

In [3]:
#Import Library of Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB
import numpy as np

#assigning predictor and target variables
x= np.array([[-3,7],[1,5], [1,2], [-2,0], [2,3], [-4,0], [-1,1], [1,1], [-2,2], [2,7], [-4,1], [-2,7]])
Y = np.array([3, 3, 3, 3, 4, 3, 3, 4, 3, 4, 4, 4])
#Create a Gaussian Classifier
model = GaussianNB()

# Train the model using the training sets 
model.fit(x, Y)

#Predict Output 
predicted= model.predict([[1,2],[3,4]])
print(predicted)

[3 4]


### Полезные ссылки
* https://www.analyticsvidhya.com/blog/2015/09/naive-bayes-explained/
* Building Machine Learning Systems with Python (Authors: Willi Richert, Luis Pedro Coelho)
* An Introduction to Statistical Learning with Applications in R (Authors: Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani), http://www-bcf.usc.edu/~gareth/ISL/
* Machine Learning in Action (Author: Peter Harrington)

### Разбор задачи

Пусть дана обучающая выборка с информацией о погоде и соответствующая целевая переменная 'Play'. Сейчас, мы хотим классифицировать, будут ли игроки играть или нет в зависимости от погодных условий.

| Weather | Play
| :-:  | :-:
| Sunny | No
| Overcast | Yes
| Rainy | Yes
| Sunny | Yes
| Sunny | Yes
| Overcast | Yes
| Rainy | No
| Rainy | No
| Sunny | Yes
| Rainy | Yes
| Sunny | No
| Overcast | Yes
| Overcast | Yes
| Rainy | No


**Шаг 1**: Преобразуем исходные данные в частотную таблицу;

Frequency Table:

| Weather | No | Yes
| :-:  | :-: | :-: 
| Overcase |  | 4
| Rainy | 3 | 2
| Sunny | 2 | 3
| Grand Total | 5 | 9


**Шаг 2**: Создать таблицу правдоподобия (likelihood table);

| Weather | No | Yes 
| :-:  | :-: | :-: 
| Overcase |  | 4 | = 4/14 | 0.29
| Rainy | 3 | 2 | = 5/14 | 0.36
| Sunny | 2 | 3 | = 5/14 | 0.36
| All | 5 | 9
| | =5/14 | =9/14
| | 0.36 | 0.64




** Шаг 3 **: Используем предположение о наивности для вычисления апостериорной вероятности для каждого класса. Класс с максимальной апостериорной вероятностью и является результатом предсказания


** Проблема: Является ли истинным утверждение, что игроки будут играть, если погода солнечная (Sunny)**

Мы можем решить, исходя из предложенного на лекции метода вычисления апостериорной вероятности.

$$ \Pr(Yes \mid Sunny) = \frac{\Pr(Sunny \mid Yes) \times \Pr(Yes)}{\Pr(Sunny)} \sim \Pr(Sunny \mid Yes) \times \Pr(Yes)$$

Поскольку, $$\Pr(Sunny \mid Yes) = \frac{3}{9} = 0.33,$$ $$\Pr(Sunny) = \frac{5}{14}=0.36,$$ $$\Pr(Yes) = \frac{9}{14}=0.64$$.
Итак, $$\Pr(Yes \mid Sunny)=\frac{0.33\times 0.64}{0.36} = 0.60.$$

Правдоподобие: $$\Pr(Yes \mid Sunny)=\frac{0.33\times 0.64} = 0.2112$$

$$ \Pr(No \mid Sunny) = \frac{\Pr(Sunny \mid No) \times \Pr(No)}{\Pr(Sunny)} \sim \Pr(Sunny \mid No) \times \Pr(No)$$
Поскольку, $$\Pr(Sunny \mid No) = \frac{2}{5} = 0.4,$$ $$\Pr(Sunny) = \frac{5}{14}=0.36,$$ $$\Pr(No) = \frac{5}{14}=0.36.$$
Итак, $$\Pr(No \mid Sunny)=\frac{0.4 \times 0.36}{0.36} = 0.60$$

Правдоподобие: $$\Pr(No \mid Sunny)=\frac{0.33\times 0.64} = 0.144$$

Правдоподобие (равно как и вероятность $\Pr(Yes \mid Sunny)$) больше по сравнению с правдоподобием (или вероятностью  $\Pr(No \mid Sunny)$).

**Ответ: ** игра состоится.

Наивный Байесовский алгоритм имеет похожий метод для предсказания вероятности разных классов, который базируется на различных атрибутах. Алгоритм широко используется в классификации текстов и с проблемами, имеющими несколько классов.