# Наивные байесовские классификаторы
Это семейство классификаторов, которые схожи с линейными. Однако они имеют тенденцию обучаться быстрее.
Подбор параметров осуществляется с учетом статистик по каждому признаку.  
В scikit-learn есть 3 байесовские модели:  
- **GaussianNB** - предназначен к любым непрерывным данным (то есть к обычным данным, к которым мы привыкли)
- **BernoulliNB** - предназначен для бинарных данных  
- **MultinomialNB** - предназначен для дискретных данных (целочисленные признаки)  
Последние два часто используются в классификации текста

In [4]:
import numpy as np
from sklearn.naive_bayes import BernoulliNB

# 4 точки данных с 4 бинарными признаками
X_train = np.array([[0, 1, 0, 1],
              [1, 0, 1, 1],
              [0, 0, 0, 1],
              [1, 0, 1, 0]])
# метки для каждой точки
y_train = np.array([1, 0, 1, 0])

X_test = np.array([[1, 1, 0, 0], [0, 0, 1, 1]])
y_test = np.array([0, 1])

binary_model = BernoulliNB().fit(X_train, y_train)
y_pred = binary_model.predict(X_test)

print(f'Предсказанные метки: {y_pred}')
print(f'Истинные метки: {y_test}')

Предсказанные метки: [1 1]
Истинные метки: [0 1]


Для получения прогноза точка данных сравнивается со статистиками для каждого класса (например, сколько раз то или иное значение встретилось в i-том признаке j-того класса) и далее прогнозируется наиболее подходящий класс.

# Резюме
Быстро обучаются и прогнозируются, хорошо работают с разреженными дискретными данными (MultinomialNB и BernoulliNB для текста) и могут использоваться для данных с высокой размерностью (GaussianNB). Сложность модели контролируется параметром *alpha* (для MultinomialNB и BernoulliNB). Большее значение alpha приводит к бОльшему "сглаживанию" статистик - модель добавляет определенное количество искусственных наблюдений с положительными значениями для всех признаков.