# Наивный байесовский классификатор

Наивный байесовский классификатор - семейство алгоритмов классификации, которые принимают допущение о том, что каждый параметр классифицируемых данных не зависит от других параметров объектов, т.е. ни один из параметров не оказывает влияние на другой.
Согласитесь, что достаточно наивно было бы предполагать, что, допустим, рост и вес человека - совершенно независимые параметры.

Вероятность того, что объект принадлежит какому-либо классу при данных параметрах обозначается как: 

$$
P(Class|Long, Sweet, Yellow)
$$

Чтобы вычислить вероятность в случае дискретных (конечных) данных, мы делим количество соответствующих признаку объектов на общее число объектов.

Данный метод основан на теореме английского математика-статистика Томаса Байеса. По сути, она позволяет предсказать класс на основании набора параметров, используя вероятность. Общая формула Байеса для класса с одним признаком выглядит так:

$$
P(Class A|Feature 1) = \frac{P(Feature 1|Class A)\cdot P(Class A)}{P(Feature 1)}
$$

$P(Class A|Feature 1)$ - вероятность того, что объект является классом $A$ при том, что его признак соответствует $Feature 1$.

Упрощенное уравнение для классификации при двух признаках выглядит так:

$$
P(Class A|Feature 1, Feature 2) = \frac{P(Feature 1|Class A)\cdot P(Feature 2|Class A)\cdot P(Class A)}{P(Feature 1)\cdot P(Feature 2)}
$$

И далее для большего количества признаков формула меняется соответствующим образом.

Напомним, что вероятность - число, которое принимает значения от 0 до 1, при этом 0 - полное несоответствие класса признакам, а 1 - однозначно определенный класс. Соответственно, чем ближе значение вероятности определенного класса к 1, тем больше шанс того, что объект принадлежит именно этому классу.

Знаменатель можно проигнорировать, так как он будет одинаков для всех вычислений и никакой важной информации не даст.
Тогда получится следующее уравнение:

$$
P(Class A|Feature 1, Feature 2) = P(Feature 1|Class A)\cdot P(Feature 2|Class A)\cdot P(Class A)
$$

То есть для каждого возможного класса вычисляем только произведение вероятностей того, что каждый признак соответствует классу, и вероятности того, что объект принадлежит этому классу. Соответственно, наибольшее значение этого произведения, рассчитанного с признаками конкретного объекта, для какого-то из классов будет указывать на принадлежность объекта к этому классу.

Но что делать, если у нас не частотная таблица, как в примере выше, а непрерывные данные? Например, мы не можем вычислять, сколько человек с конкретным ростом 1,81м, 1,67м и т.д. присутствует в выборке - нам это попросту ничего не даст, а лишь добавит громоздких вычислений. Поэтому обычно при непрерывных значениях параметров используется гауссовский наивный Байес, в котором сделано предположение о том, что значения параметров взяты из нормального распределения.

![](https://248006.selcdn.ru/public/DS_Block2_M5_final/GNB.gif)

На графике - плотность вероятности нормального распределения. По сути, где больше площадь под графиком, там и наиболее вероятные значения. Поскольку способ представления значений в наборе данных изменяется, то и формула условной вероятности изменяется на 

$$
p(x_i|y) = \frac{1}{\sqrt{2\pi \sigma^2_y}}exp(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y})
$$

Здесь $\sigma^2$ - дисперсия (разброс) данных, а $\mu$ - математическое ожидание (среднее значение). При этом $y$ - предполагаемый класс, а $x_i$ - значение признака у того объекта, который нужно классифицировать.

По большому счету в нашей начальной формуле для вычисления вероятности того, что объект с данными признаками относится к конкретному классу, мы просто заменяем формулу вычисления вероятности как отношения количества соответствующих признаку объектов к общему числу объектов на данную, а дальше проводим идентичные вычисления.

Помимо гауссовского существуют еще два типа моделей на основе наивного байесовского классификатора: полиномиальная и с распределением Бернулли. *Полиномиальная* в основном используется для задачи классификации документов, т.е. определяет, к каким категориям относится текст: спорт, политика, техника и т.д. Используемые признаки являются частотой слов, присутствующих в документе. *Классификатор на основе распределения Бернулли* похож на полиномиальный метод, но признаками являются булевы переменные, т.е. они принимают только значения "yes" и "no" - например, встречается слово в тексте или нет. Используется в основном для классификации небольших текстов.

# Подготовка

## Импорт библиотек

In [4]:
import pandas as pd
import numpy as np
import math

from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

## Загрузка данных

In [5]:
iris_dataset = load_iris() # возвращает объект с несколькими полями
x_train, x_test, y_train, y_test = train_test_split(iris_dataset.data[:, 2:4], 
                                                    iris_dataset['target'],
                                                    random_state=0) # random_state - для воспроизводимости

# Создание модели

In [6]:
nb = GaussianNB()
nb_model = nb.fit(x_train, y_train)
nb_predictions = nb.predict(x_test)
nb_predictions

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2])

In [7]:
accuracy = nb.score(x_test, y_test)
print(f'Accuracy: {accuracy}')

Accuracy: 0.9736842105263158
