In [None]:
import mglearn
import sklearn
import matplotlib.pyplot as plt
import numpy as np
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import GaussianNB


Наивные байесовские классификаторы представляют собой семейство классификаторов, которые очень схожи с линейными моделями, рассмотренными в предыдущем разделе. Однако они имеют тенденцию обучаться быстрее. Цена, которую приходится платить за такую эффективность –немного более низкая обобщающая способность моделей Байеса по сравнению с линейными классификаторами типа LogisticRegression и LinearSVC

Причина, по которой наивные байесовские модели столь эффективны, заключается в том, что они оценивают параметры, рассматривая каждый признак отдельно и по каждому признаку собирают простые статистики классов. В scikit-learn реализованы три вида наивных байесовских классификаторов: GaussianNB, BernoulliNBи MultinomialNB

GaussianNBможно применить к любым непрерывным данным, в то время как BernoulliNBпринимает бинарные данные, MultinomialNBпринимает счетные или дискретные данные (то есть каждый признак представляет собой подсчет целочисленных значений какой-то характеристики, например, речь может идти о частоте встречаемости слова в предложении). BernoulliNBи MultinomialNBв основном используются для классификации текстовых данных

In [3]:

X = np.array([[0, 1, 0, 1], [1, 0, 1, 1], [0, 0, 0, 1], [1, 0, 1, 0]])
Y = np.array([0, 1, 0, 1])
counts = {}
for label in np.unique(Y):
   counts[label] = X[Y == label].sum(axis=0)
print("Частоты признаков:\n{}".format(counts))
clf = BernoulliNB()
clf.fit(X, Y)
print("clf.predict:\n{}".format(clf.predict(X[2:3])))

Частоты признаков:
{0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}
clf.predict:
[0]


GaussianNB

можно применить к любым непрерывным данным

записывает среднее значение, а также стандартное отклонение каждого признака для каждого класса

BernoulliNB

принимает бинарные данные

для классификации текстовых данных

одсчитывает ненулевые частоты признаков по каждому классу.

MultinomialNB

принимает счетные или дискретные данные

для классификации текстовых данных

принимает в расчет среднее значение каждого признака для каждого класс

Классификатор BernoulliNBподсчитывает ненулевые частоты признаков по каждому классу. 

Здесь у нас есть четыре точки данных с четырьмя бинарными признаками

In [4]:


rng = np.random.RandomState(1)
X = rng.randint(5, size=(6, 100))
Y = np.array([1, 2, 3, 4, 5, 6])
clf = MultinomialNB()
clf.fit(X, Y)
print(clf.predict(X[2:3]))


[3]


In [5]:

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
Y = np.array([1, 1, 1, 2, 2, 2])
clf = GaussianNB()
clf.fit(X, Y)
print(clf.predict([[-0.8, -1]]))
clf_pf = GaussianNB()
clf_pf.partial_fit(X, Y, np.unique(Y))
print(clf_pf.predict([[-0.8, -1]]))


[1]
[1]


Две другие наивные байесовские модели MultinomialNBи GaussianNB, немного отличаются с  точки  зрения  вычисляемых  статистик. MultinomialNBпринимает  в  расчет  среднее  значение каждого признака для каждого класса, в то время как GaussianNBзаписывает среднее значение, а также стандартное отклонение каждого признака для каждого класса

Для получения прогноза точка данных сравнивается со статистиками для каждого класса и прогнозируется  наиболее  подходящий  класс.  Интересно  отметить,  что  для MultinomialNBи BernoulliNBэто приводитпрогнозной формуле, которая имеет точно такойже вид, что и формула для линейных моделей (см. «Линейные модели классификации»). К сожалению, coef_для наивных байесовских моделей имеет несколько иной смысл, чем coef_для линейных моделей, здесь coef_не тождественен w

MultinomialNBи BernoulliNBимеют один параметр alpha, который контролирует сложность модели. Параметр alphaработает следующим образом: алгоритм добавляет к данным зависящее от alphaопределенное количество искусственных наблюдений с положительными значениями для всех признаков. Это приводит к «сглаживанию» статистик. Большее значение alphaозначает более высокую  степень  сглаживания,  что  приводит  к  построению  менее  сложных  моделей.  Алгоритм относительно устойчив к разным значениям alpha. Это означает, что значение alphaне оказывает значительного влияния на хорошую работу модели. Вместе с тем тонкая настройка этого параметра обычно немного увеличивает правильност

GaussianNBв основном используется для данных с очень высокой размерностью, тогда как остальные  наивные  байесовские  моделишироко  используются  для  разреженных  дискретных данных, например, для текста. MultinomialNBобычно работает лучше, чем BernoulliNB, особенно на наборах данных с относительно большим количеством признаков, имеющих ненулевые частоты (т.е. на больших документах)

Они  очень  быстро  обучаются  и  прогнозируют,  а  процесс  обучения  легко интерпретировать. Модели очень хорошо работают с высокоразмерными разреженными данными и относительно  устойчивы  к  изменениям  параметров.  Наивные  байесовские  модели  являются замечательными базовыми моделями и часто используются на очень больших наборахданных, где обучение даже линейной модели может занять слишком много времени