# Классификация в Scikit-Learn

Scikit-Learn даёт доступ ко множеству различных алгоритмов классификации.

**Метод k-ближайших соседей (K-Nearest Neighbors)**

метод работает с помощью поиска кратчайшей дистанции между тестируемым объектом и ближайшими к нему классифицированным объектами из обучающего набора. Классифицируемый объект будет относится к тому классу, к которому принадлежит ближайший объект набора.



**Классификатор дерева решений (Decision Tree Classifier)**

классификатор разбивает данные на всё меньшие и меньшие подмножества на основе разных критериев, т. е. у каждого подмножества своя сортирующая категория. С каждым разделением количество объектов определённого критерия уменьшается.

Классификация подойдёт к концу, когда сеть дойдёт до подмножества только с одним объектом. Если объединить несколько подобных деревьев решений, то получится так называемый Случайный Лес (англ. Random Forest).

**Наивный байесовский классификатор (Naive Bayes)**

классификатор вычисляет вероятность принадлежности объекта к какому-то классу. Эта вероятность вычисляется из шанса, что какое-то событие произойдёт, с опорой на уже на произошедшие события.

Каждый параметр классифицируемого объекта считается независимым от других параметров.

**Линейный дискриминантный анализ (Linear Discriminant Analysis)**

метод работает путём уменьшения размерности набора данных, проецируя все точки данных на линию. Потом он комбинирует эти точки в классы, базируясь на их расстоянии от центральной точки.

Метод хорошо подходит для данных с линейной зависимостью.

**Метод опорных векторов (Support Vector Machines)**

Работа метода опорных векторов заключается в рисовании линии между разными кластерами точек, которые нужно сгруппировать в классы. С одной стороны линии будут точки, принадлежащие одному классу, с другой стороны — к другому классу.

Классификатор будет пытаться увеличить расстояние между рисуемыми линиями и точками на разных сторонах, чтобы увеличить свою «уверенность» определения класса. Когда все точки построены, сторона, на которую они падают — это класс, которому эти точки принадлежат.

**Логистическая регрессия (Logistic Regression)**

Логистическая регрессия выводит прогнозы о точках в бинарном масштабе — нулевом или единичном. Если значение чего-либо равно либо больше 0.5, то объект классифицируется в большую сторону (к единице). Если значение меньше 0.5 — в меньшую (к нулю).

У каждого признака есть своя метка, равная только 0 или только 1. Логистическая регрессия является линейным классификатором и поэтому используется, когда в данных прослеживается какая-то линейная зависимость.

---



# Методология (на примере классификации ирисов)

**Шаг 1.**
Импорт необходимых библиотек для использования различных классификаторов


In [12]:
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

**Шаг 2.** Импорт дополнительных библиотек (работа с массивами, разделением выборки, расчета метрик)

In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score


**Шаг 3**. Загружаем нужный CSV-файл в сессионное хранилище и определяем его в качестве датафрейма

In [None]:
data = pd.read_csv('Iris.csv')
print(data.head(5))

Убираем ненужный столбец - в данном случае первый столбец с ID:

In [None]:
data.drop('Id', axis=1, inplace=True)

С библиотекой Pandas «нарезаем» таблицу и выбираем определённые строки/столбцы с помощью функции iloc():

In [20]:
X = data.iloc[:,:-1].values
y = data['Species']

**Шаг 4**. Разделяем выборку на тренировочные и тестовые наборы, используя функцию train_test_split()

In [31]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=100)

Вывод для подтверждения правильности данные:

In [None]:
print(X_train)
print(y_train)

**Шаг 5**.
Создавать экземпляры классификаторов методом методом опорных векторов, k-ближайших соседей, наивным байесовским классификатором и деревом решений

In [33]:
SVC_model = SVC()
KNN_model = KNeighborsClassifier(n_neighbors=5)
NB_model = GaussianNB()
Tree_model = DecisionTreeClassifier()

**Шаг 6**. обучим эти классификаторы:

In [None]:
SVC_model.fit(X_train, y_train)
KNN_model.fit(X_train, y_train)
NB_model.fit(X_train, y_train)
Tree_model.fit(X_train, y_train)

**Шаг 7**. Делаем прогнозы и сохраняем результат в переменные:

In [35]:
SVC_predict = SVC_model.predict(X_test)
KNN_predict = KNN_model.predict(X_test)
NB_predict = NB_model.predict(X_test)
Tree_predict = Tree_model.predict(X_test)

**Шаг 8**. Находим accuracy для обученных классификаторов для тестовой выборки:

In [None]:
print(accuracy_score(SVC_predict, y_test))
print(accuracy_score(KNN_predict, y_test))
print(accuracy_score(NB_predict, y_test))
print(accuracy_score(Tree_predict, y_test))


**Шаг 9**. Отражаем матрицу неточности для классификаторов

In [None]:
print(confusion_matrix(SVC_predict, y_test))
print(confusion_matrix(KNN_predict, y_test))
print(confusion_matrix(NB_predict, y_test))
print(confusion_matrix(Tree_predict, y_test))

**Шаг 10**. Отражаем отчёт о классификации для классификаторов

In [None]:
print(classification_report(SVC_predict, y_test))
print(classification_report(KNN_predict, y_test))
print(classification_report(NB_predict, y_test))
print(classification_report(Tree_predict, y_test))

In [None]:
import matplotlib.pyplot as plt
# Данные из отдельных столбцов
sepal_length = data['SepalLengthCm'].tolist()
sepal_width = data['SepalWidthCm'].tolist()
petal_length = data['PetalLengthCm'].tolist()
petal_width = data['PetalWidthCm'].tolist()
#	Строим графики no проекциям данных
# Учитываем, что каждые 50 типов ирисов идут последовательно
# 1 проекция - ширина и длина чашелистника
setosa, = plt.plot(sepal_length[:50], sepal_width[:50], "ro", label="Setosa")
versicolor, = plt.plot(sepal_length[50:100], sepal_width[50:100], "v", label ='Versicolor')
virginica, = plt.plot(sepal_length[100:150], sepal_width[100:150], 'bs', label='Verginica')
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0)
plt.xlabel("Sepal Length")
plt.ylabel('Sepal Width')
plt.show()

In [None]:
# 1 проекция - ширина и длина лепестка
setosa, = plt.plot(petal_length[:50], petal_width[:50], "ro", label="Setosa")
versicolor, = plt.plot(petal_length[50:100], petal_width[50:100], "v", label ='Versicolor')
virginica, = plt.plot(petal_length[100:150], petal_width[100:150], 'bs', label='Verginica')
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0)
plt.xlabel("Sepal Length")
plt.ylabel('Sepal Width')
plt.show()