# Наивный гауссовский классификатор

Наивные байесовские классификаторы основаны на байесовских методах классификации, в основе которых лежит теорема Байеса — уравнение, описывающее 
связь условных вероятностей статистических величин. В байесовской классификации нас интересует поиск вероятности метки (категории) при определенных заданных признаках, являющихся результатами наблюдений/экспериментов величин.
 
В  наивном гауссовском классификаторе мы принимаем допущение, что правдоподобие признаковых значений х при условии, что наблюдение принадлежит классу у, подчиняется нормальному распределению.

In [28]:
# Загрузить библиотеки 
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
# Загрузить данные
wine = datasets.load_wine()
features = wine.data 
target = wine.target
# Создать объект наивного гауссовского классификатора 
clf = GaussianNB()
# Натренировать модель
model = clf.fit(features, target)
print(clf.predict(features[2:3]))


[0]


В библиотеке scikit-learn мы тренируем Наивный гауссовский классификатор, используя метод fit, и, в свою очередь, можем делать предсказания 
о классе наблюдения

In [3]:
# Создать новое наблюдение 
new_observation = [[ 4, 4, 4, 0.4,4,4,4,4,0.4,0.4,4,4,4]]

Делаем предсказание о классе наблюдений

In [4]:
# Предсказать класс
model.predict(new_observation)

array([1])

In [29]:
print("Правильность на тестовом наборе: {:.2f}".format(clf.score(features, target)))

Правильность на тестовом наборе: 0.99


In [5]:
# Создать объект наивного  гауссового классификатора с априорными вероятностями для каждого класса 
сlf = GaussianNB(priors=[0.25, 0.25, 0.5])
# Натренировать модель
model = clf.fit(features, target)
print(clf.predict(features[2:3]))

[0]


для дискретных и счетных признаков будем использовать полиномиальный наивный байесов классификатор 

In [24]:
# Загрузить библиотеки 
import numpy as np
from sklearn.naive_bayes import MultinomialNB
# Загрузить данные
wine = datasets.load_wine()
features = wine.data 
target = wine.target
# Создать объект полиномиального наивного байесова классификатора  с априорными вероятностями каждого класса 
clf = MultinomialNB()
# Натренировать модель
model = clf.fit(features, target)

В классе MuitinoniaiNB модели тренируются с использованием метода fit, а наблюдения можно предсказать с помощью метода predict

In [25]:
# Создать новое наблюдение 
new_observation = [[4, 4, 4, 0.4, 4, 4, 4, 4, 0.4, 0.4, 4, 4, 4]]

In [26]:
# Предсказать класс нового наблюдения 
model.predict(new_observation)

array([1])

In [27]:
print("Правильность на тестовом наборе: {:.2f}".format(clf.score(features, target)))

Правильность на тестовом наборе: 0.87


Если параметр ciass_prior не задан, то априорные вероятности заучиваются на основе данных.
Если мы хотим, чтобы в качестве априорного распределения использовалась равномерное, то можно задать fit_prior=False.
Класс MuitinomiaiNB содержит гиперпараметр аддитивного сглаживания alpha, который должен быть настроен. 
Значение по умолчанию равняется 1.0, при этом значение о.о означает отсутствие сглаживания.

Бернуллиев наивный байесов классификатор или наивный байесова классификатор для бинарных признаков 


Принимаем допущение, что все наши признаки являются бинарными, т. е. принимают только два значения. 
Кроме того, класс BernoulliNB имеет гиперпараметр аддитивного сглаживания alpha, который требуется настроить с помощью методов отбора модели. Наконец, если необходимо использовать априорные вероятности, то можно применить параметр class prior со списком, содержащим априорные
вероятности для каждого класса. Если требуется указать равномерную априорную
вероятности, то его можно указать  fit_prior=False

In [9]:
# Загрузить библиотеки 
import numpy as np
from sklearn.naive_bayes import BernoulliNB
# Создать три бинарных признака
features = np.random.randint(2, size=(100, 3))
# Создать вектор бинарных целей
target = np.random.randint(2, size=(100, 1)).ravel()
# Создать объект бернуллиева наивного Байеса с априорными вероятностями каждого класса 
clf = BernoulliNB(class_prior=[0.25, 0.5])
# Натренировать модель
model = clf.fit(features, target)

In [12]:
# Создать новое наблюдение 
new_observation = [[0, 0, 1]]

In [13]:
# Предсказать класс нового наблюдения 
model.predict(new_observation)

array([1])

In [22]:
print("Правильность на тестовом наборе: {:.2f}".format(clf.score(features, target)))

Правильность на тестовом наборе: 0.87


k ближайших соседей

В простейшем варианте алгоритм k ближайших соседей рассматривает лишь одного ближайшего соседа – точку обучающего набора, ближе всего расположенную к точке, для которой мы хотим получить прогноз. 
Прогнозом является ответ, уже известный для данной точки обучающего набора.

In [13]:
#Загружаем данные
from sklearn.datasets import load_iris
iris_dataset = load_iris()

В библиотеке scikit-learn есть функция train_test_split, которая перемешивает набор данных и разбивает его на две части. Эта функция отбирает в обучающий набор 75% строк данных с соответствующими метками. Оставшиеся 25% данных с метками объявляются тестовым набором. 

Для наших данных зададим обучающие данные, обучающие метки, тестовые данные, тестовые метки

In [14]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( iris_dataset['data'], iris_dataset['target'], random_state=0)

Алгоритм классификации на основе метода k ближайших соседей реализован в классификаторе KNeighborsClassifier модуля neighbors. Прежде чем использовать эту модель, нам нужно создать объект-экземпляр класса.
Это произойдет, когда мы зададим параметры модели. Самым важным параметром KNeighborsClassifier является количество соседей, которые мы установим равным 1

In [17]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=10)

Для построения модели на обучающем наборе, мы вызываем метод fit объекта knn, который принимает в качестве аргументов массив 
NumPy X_train, содержащий обучающие данные, и массив NumPy y_train, соответствующий обучающим меткам:

In [18]:
knn.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=10)

Представим, что мы нашли в дикой природе ирис с длиной чашелистика 5 см, шириной чашелистика 2.9 см, длиной лепестка 1 см и шириной лепестка 0.2 см. К какому сорту ириса нужно отнести этот цветок
Мы можем поместить эти данные в массив NumPy, снова вычисляя форму массива, т.е. количество примеров (1), умноженное на количество признаков (4):

In [20]:
#Занесем параметры найденного цветка в массив 
X_new = np.array([[5, 2.9, 1, 0.2]])
print("форма массива X_new: {}".format(X_new.shape))
#Делаем прогноз
prediction = knn.predict(X_new)
print("Прогноз: {}".format(prediction))
print("Спрогнозированная метка: {}".format( iris_dataset['target_names'][prediction]))

форма массива X_new: (1, 4)
Прогноз: [0]
Спрогнозированная метка: ['setosa']


In [21]:
print("Правильность на тестовом наборе: {:.2f}".format(knn.score(X_test, y_test)))

Правильность на тестовом наборе: 0.97
