# Глава 18 Наивный Байес(МО Крис Элбон)

Теорема Байеса является главным методом для понимания вероятности  некоторого события P(A|B) при наличии некой новой информации, P(B|A) и априорной субъективной оценки вероятности события P(A):

\begin{equation*} P(A|B) =  \frac{P(B|A)P(A)} {P(B)}  \end{equation*}

В машинном самообучении одно из применений теоремы Байеса к классификации проявляется в виде наивного байесового классификатора. 

Наивные байесовые классификаторы объединяют в общий классификатор ряд желательных в практическом машинном самообучении качеств:

-интуитивно понятный подход

-возможность работы с малыми данными

-низкие затраты на тренировку и предсказание

-часто надежные результаты в разнообразных условиях

В частности, наивный байесов классификатор основан на следующей формуле:

\begin{equation*} P(y|x_1,...x_j) =  \frac{P(x_1,...x_j|y)P(y)} {P(x_1,...x_j)}  \end{equation*}

где:

P(y|x_1,...x_j) - апостериорное значение, является вероятностью  того, что наблюдение принадлежит классу y при условии, что это наблюдение имеет значения j признаков x_1,...x_j

P(x_1,...x_j|y) - называется правдоподобием и является правдоподобной оценкой вероятности, что наблюдение имеет значения признаков x_1,...x_j, при условии, что дан их класс y

P(y) - называется априорной вероятностью и является нашей субъективной оценкой вероятности класса перед рассмотрением данных

P(x_1,...x_j) - называется предельной вероятностью

В наивном Байерсе мы сравниваем апостериорные значения наблюдения для каждого возможного класса. В частности, поскольку во всех сравнениях предельная вероятность постоянна, мы сравниваем числители апостериорного значения для каждого класса. 

Для каждого наблюдения класс с наибольшим апостериорным числителем становится предсказанным классом y\hat.

В отношении наивных байесовых классификаторов следует отметить 2 важных момента.

1)Для каждого признака в данных мы должны принять статистическое распределение правдоподобно оцененных вероятностей  P(x_j|y).

Общепринятыми распределениями являются нормалное(гауссово), полиноминальное и бернулево распределения.

Выбор распределения нередко определяется природой признаков(непрерывных, бинарных).

2)Название наивный Байес обусловлено тем, что мы допускаем независимость каждого признака и результирующей правдоподобной оценки его вероятности.

Это "наивное" допущение часто неверно , но на практике мало чем мешает созданию высококачественных классификаторов.

В этой главе рассмотрим использование библиотеки scikit-learn для тренировки 3-х типов наивных байесовых классификаторов с использованием 3-х различных распределений правдоподобно оцениваемых вероятностей.

# Тренировка классификатора для непрерывных признаков

Даны только непрерывные признаки, и требуется натренировать наивный байесов классификатор.

Использовать гауссов наивный байесов классификатор в библиотеке scikit-learn:

In [1]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [3]:
#создать объект гауссова наивного Байеса
classifier = GaussianNB()

In [4]:
#натренировать модель
model = classifier.fit(features, target)

Наиболее распространенным типом наивного байесова классификатора является гауссов наивный Байес. В гауссовом наивном Байесе мы принимаем допущение, что правдоподобие признаковых значений x при условии, что наблюдение принадлежит классу y, подчиняется нормальному распределению.

\begin{equation*} P(x_i|y) =  \frac{1}{\sqrt {2 \pi \sigma_y^2}} exp({\frac{(x_i - \mu_y)}{2\sigma_y^2}) }\end{equation*}

sigma_y^2 - дисперсия

mu_y - среднее значение признака x_j для класса y

Из-за принятого допущения о нормальном распределении гауссов наивный Байес лучше всего использовать  в случаях, когда все наши признаки непрерывны.

В библиотеке scikit-learn мы тренируем гауссов наивный Байес, как другую любую модель, используя метод fit, и, в свою очередь, можем делать предсказания о классе наблюдения:

In [5]:
#создать новое наблюдение
new_observation = [[4, 4, 4, 0.4]]

In [6]:
#предсказать класс
model.predict(new_observation)

array([1])

Один из  интересных аспектов наивных байесовых классификаторов заключается в том, что они позволяют назначать априорную субъективную оценку в отношении вероятностей целевых классов.

Это можно сделать с помощью параметра priors класса GaussianNB, этот параметр принимает список вероятностей, присваиваемых каждому классу вектора целей.

In [22]:
#создать объект гаусова наивного Байеса
#с априорными вероятностями для каждого класса
clf = GaussianNB(priors=[0.01, 0.01, 0.98])

In [23]:
#натренировать модель
model = clf.fit(features, target)

In [24]:
#создать новое наблюдение
new_observation = [[4, 4, 4, 0.4]]

In [25]:
#предсказать класс
model.predict(new_observation)

array([1])

Если мы не добавляем никаких аргументов в параметр priors, то априорные оценки настраиваются на основе данных.

Наконец, обратите внимание, что сырые предсказанные вероятности из гауссова наивного Байерса (выведенные с помощью метода predict_proba) не калиброванны, т е им не стоит верить. Если требуется создать полезные предсказанные вероятности, нам нужно их откалибровать с помощью изотонической регрессии или родственного метода.

In [26]:
model.predict_proba(new_observation)

array([[1.34061855e-38, 9.95097176e-01, 4.90282363e-03]])

# Тренировка классификатора для дискретных и счетных признаков

Даны дискретные или счетные данные, требуется натренировать наивный байесов классификатор.

Использовать полиноминальный наивный байесов класссификатор.

In [10]:
#зашрузить библиотеки
import numpy as np
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

In [11]:
#создать текст
text_data = np.array(['Бразилия - моя любовь. Бразилия!', 'Бразилия - лучше', 'Германия бьет обоих'])

In [12]:
#создать мешок слов
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

In [13]:
#создать матрицу признаков
features = bag_of_words.toarray()

In [14]:
#создать вектор целей
target = np.array([0, 0, 1])

In [15]:
#создать объект полиноминального наивного байесова классификатора
#с априорными вероятностями каждого класса
classifer = MultinomialNB(class_prior=[0.25, 0.5])

In [16]:
#натренировать модель
model = classifer.fit(features, target)

Полиноминальный наивный байес работае аналогично гауссовому наивному Байесу, только здесь признаки подчиняются полиноминальному распределению. На практике это означает, что данный классификатор обычно используется , когда имеются дискретные данные ( например, рейтинги фильмов в диапазоне от 1 до 5).

Одним из наиболее распространенных применений полиноминальных наивных байесовых классификаторов является классификация текста с использованием подходов на основе мешков слов  или статистических мер tf-idf.

В нашем решении мы создали игрушечный набор текстовых данных из трех наблюдений и преобразовали текстовые строки в матрицу признаков и сопутствующий вектор целей по методу мешка слов. Затем мы использовали класс MultinominalNB, для того, чтобы натренировать модель, при этом определив априорные вероятности для двух классов (пробразильский и прогерманский).

Класс MultinominalNB работает аналогично классу GaussianNB. Модели тренируются с использованием метода fit, а наблюдения можно предсказать с помощью метода predict.

In [17]:
#создать новое наблюдение 
#как будто мы векторизовали новый текст (см ниже)
new_observation = [[0, 0, 0, 1, 0, 1, 0]]
count.get_feature_names()

['бразилия', 'бьет', 'германия', 'лучше', 'любовь', 'моя', 'обоих']

In [18]:
#предсказать класс нового наблюдения
model.predict(new_observation)

array([0])

Если параметр class_prior не задан, то априорные вероятности заучиваются на основе данных. Однако если мы хотим, чтобы в качестве априорного распределения использовалось равномерное, то можно задать fit_prior=False.

Наконец,  классMultinominalNB содержит гиперпараметр аддитивного сглаживания alpha, который должен быть настроен. Принятое значение по умолчанию равняется 1.0, при этом значение 0.0 означает отсутствие сглаживания.

In [19]:
predict_data = np.array(['моя лучше'])
count.transform(predict_data)
count.transform(predict_data).toarray()

array([[0, 0, 0, 1, 0, 1, 0]], dtype=int64)

# Тренировка наивного байесова классификатора для бинарных признаков

Имеются двоичные признаковые данные, и требуется натренировать наивный байесов классификатор.

Использовать бернуллев наивный байесов классификатор:

In [1]:
#загрузить библиотеки
import numpy as np

from sklearn.naive_bayes import BernoulliNB

In [6]:
#создать три бинарных признака
features = np.random.randint(2, size=(100, 3))


In [9]:
#создать вектор бинарных целей
target = np.random.randint(2, size=(100, 1)).ravel()
target

array([0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0,
       0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1,
       1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0])

In [10]:
#создать объект бернуллиева наивного Байеса 
#с априорными вероятностями каждого класса
classifer = BernoulliNB(class_prior=[0.25, 0.5])

In [11]:
#натренировать модель
model = classifer.fit(features, target)

Бернуллиев наивный байесов классификатор принимает допущение, что все наши признаки являются бинарными, т е принимают только два значения (например, номинальный категориальный признак, который был представлен в кодировке с одним активным состоянием).

Как и его полиноминальный двоюродный брат, бернуллиев наивный Байес часто используется  в классификации текста, когда наша матрица признаков - это просто 
присутствие или отсутствии слова в документе.

Кроме того, как и класс MultinominalNB, класс BernoulliNB имеет гиперпараметр аддитивного сглаживания alpha, который требуется настроить с помощью методов отбора модели. 

Наконец, если необходимо использовать  априорные вероятности, то можно применить параметр class_prior со списком, содержащем априорные вероятности для каждого класса. 

Если требуется указать равномерную априорную вероятность, то можно указать fit_prior=False:

In [14]:
model_uniform_prior = BernoulliNB(class_prior=None, fit_prior=True)

In [15]:
#натренировать модель
model_uniform_prior = model_uniform_prior.fit(features, target)

In [16]:
model_uniform_prior.predict([[0, 1, 0]])

array([1])

# Калибровка предсказанных вероятностей

Требуется откалибровать предсказанные вероятности из наивных байесовых классификаторов, чтобы они были интерпретируемы:

Использовать класс CalibratedClassifierCV

In [17]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV

  return f(*args, **kwds)


In [None]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

In [18]:
#создать объект гауссова наивного Байеса
classifer = GaussianNB()

In [19]:
#создать откалиброванную перекрестную проверку 
#с сигмоидальной калибровкой
classifer_sigmoid = CalibratedClassifierCV(classifer, cv=2, method='sigmoid')

In [23]:
#откалибровать вероятности
classifer_sigmoid.fit(features, target)

CalibratedClassifierCV(base_estimator=GaussianNB(priors=None,
                                                 var_smoothing=1e-09),
                       cv=2, method='sigmoid')

In [28]:
#создать новое наблюдение
new_observation = [[2.6, 2.6, 2.6, 0.4]]

In [34]:
#взглянуть на откалиброванные вероятности


In [33]:
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV
iris = datasets.load_iris()
features = iris.data
target = iris.target
classifier = GaussianNB()
classifier_sigmoid = CalibratedClassifierCV(classifier, cv=2, method="sigmoid")
classifier_sigmoid.fit(features, target)
new_observation = [[2.6, 2.6, 2.6, 0.4]]
classifier_sigmoid.predict_proba(new_observation)

array([[0.31859969, 0.63663466, 0.04476565]])

Вероятности классов являются общепринятой и полезной частью машинно-обучающихся моделей. 

В библиотеке scikit-learn большинство обучающихся алгоритмов позволяют нам видеть предсказанные вероятности принадлежности классу с помощью метода predict_proba.

Это может быть очень полезно, когда, например, требуется предсказать только конкретный класс, если модель предсказывает вероятность того, что класс превышает 90%.

Однако, некоторые модели, включая наивные баесовые классификаторы, выводят вероятности, не основанные на реальном мире.

Т е метод predict_proba может предсказать, что наблюдение имеет шанс быть конкретным классом, составляющий 0.7, когда в реальности он равняется 0.10 или 0.99.

В частности, в то время как в наивном Баесе ранжирование предсказанных вероятностей для разных целевых классов соответствует действительности, сырые предсказанные вероятности имеют тенденцию принимать предельные значения, близкие к 0 или 1.

Для того, чтобы получить содержательные предсказанные вероятности, нам нужно провести так называемую калибровку. 

Для создания хорошо откалиброванных предсказанных вероятностей в библиотеке scikit-learn можно применять класс CalibratedClassifierCV с использованием к-блочной перекрестной проверки.

В классе CalibratedClassifierCV тренировочные наборы применяются для тренировки модели, а тестовый набор используется для калибровки предсказанных вероятностей.

Возвращаемые предсказанные вероятности представляют собой среднее из к блоков.

С помощью нашего решения мы можем увидеть разницу между сырыми и хорошо откалиброванными предсказанными вероятностями.

В нашем решении мы создали гауссов наивный баесов классификатор.

Если натренировать этот классификатор, а затем предсказать вероятности классов для нового наблюдения, то мы увиди абсолютно предельные оценки вероятностей:

In [35]:
#натренировать гауссов наивный байес и затем предсказать вероятности классов:
classifer.fit(features, target).predict_proba(new_observation)

array([[2.31548432e-04, 9.99768128e-01, 3.23532277e-07]])

Однако после калибровки предсказанных вероятностей(что мы и сделали в нашем решении) мы получим совсем другие результаты.

In [36]:
#взглянуть на откалиброванные вероятности
classifier_sigmoid.predict_proba(new_observation)

array([[0.31859969, 0.63663466, 0.04476565]])

Класс CalibratedClassifierCV предлагает 2 метода калибровки: сигмоидную модель Платта и изотоническую регрессию, определяемую параметром method.

Поскольку изотоническая регрессия является непараметрической, она имеет тенденцию к переподгонке, когда размеры выборки очень малы (напр. 100 наблюдений).

В нашем решении мы использовали набор данных цветков ириса со 150 наблюдениями и поэтому выбрали сигмоидальную модель Платта.