## Classification

![title](MachineLearningDiagram.png)

## Classification
Имеется множество объектов, разделенных некоторым образом на классы.

Для каких-то объектов известно к какому классу они относятся (выборка), для остальных -- нет.

Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества

## Classification

* Каждый объект описывается набором признаков $x_1, x_2 ... x_m$, а также известно значение переменной, которую мы пытаемся предсказать $y$
* $y$ - дискретная переменная, которая описывает класс объекта:
$ y \in Y : Y = {c_1, c_2, ..., c_k} $
* Всё объекты можно представить в виде матрицы $X$ размера $ n \times m $, где $n$ - количество объектов и $m$ - количество признаков


* Задача классификации заключается в нахождении зависимости дискретной переменной $y$ от вектора признаков $(x_1, x_2, ..., x_m)$: $$ f(x_1, x_2, ... x_m) = f(x) ~ y $$

# Classification examples
* Диагностика заболеваний: два класса - болен / не болен
* Письма в почтовом ящике: два класса - спам / не спам
* Iris dataset: три класса описывающие различные виды растений
* Классификация патогенных / непатогенных бактерий
* Классификация изображений

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sb
import warnings

from sklearn import datasets

warnings.simplefilter(action='ignore', category=FutureWarning)


# import some data to play with
iris = sb.load_dataset("iris")
iris.head()

In [None]:
sb.pairplot(iris, hue="species")

## K-nn
K-nn = K nearest neighbors = K ближайших соседей

Очень простой метод классификации:

* Пускай про какие-то объекты известны их классы
* Чтобы классифицировать объект неизвестного класса достаточно посмотреть на $k$ ближайших соседей этого объекта с известным классом
* Выбрать тот класс, который наиболее представлен среди соседей

* Profit!

## K-nn, n = 3
<img src="KNN_class_img/classification-02.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-03.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-04.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-05.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-06.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-07.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-08.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-09.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-10.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-11.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-12.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-13.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-14.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-15.png" width="500px"/>

## K-nn, n = 3
<img src="KNN_class_img/classification-16.png" width="500px"/>

## Loading iris dataset

In [None]:
from sklearn.model_selection import train_test_split

np.random.seed(1)

iris = datasets.load_iris()
data = iris.data

train, test = train_test_split(range(len(data)), test_size=0.2)

train_data = data[train, :]
test_data = data[test, :]

train_y = iris.target[train]
test_y = iris.target[test]

## Teaching the classifier

In [None]:
from sklearn.neighbors import KNeighborsClassifier

neighbors = np.arange(1,15)

errors_df = pd.DataFrame(
    data = np.zeros([len(neighbors), 2]),
    index = neighbors,
    columns = ["train_accuracy", "test_accuracy"]
)

for i,k in enumerate(neighbors):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(train_data, train_y)
    
    errors_df.iloc[i, 0] = knn.score(train_data, train_y)
    errors_df.iloc[i, 1] = knn.score(test_data, test_y) 

## Visualizing an error

In [None]:
errors_df.plot()

## Quick conclusions

В нашем случае точность пости случайно зависит от количества соседей: даже в худшем случае, мы разделяем множества очень хорошо.

Точность отдельного классификатора удобно рассматривать, с помощью confusion matrix для тренировочного датасета.

Confusion matrix показывает, как часто мы угадываем\ошибаемся в классификации объектов.

## Confusion matrix

In [None]:
from sklearn.metrics import confusion_matrix

knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(train_data, train_y)
pred_y = knn.predict(test_data)
confusion_matrix(test_y, pred_y, labels=[0, 1, 2])

## K-nn
Плюсы:

* Просто, быстро и понятно
* Несложно сделать из этого регрессию (брать взвешенное среднее соседей)

Минусы:

* Нужно чтобы данные можно было представить как точки в многомерном Евклидовом пространстве
* Нужно чтобы расстояние между этими точками действительно отражало "похожесть" и "непохожесть" объектов

## Binary classification
Важнейшая подзадача задачи классификации.

Наше множество классов $Y$ представлено лишь двумя классами: $$ Y = c_1, c_2 $$

это может быть положительная/отрицательная диагностика заболевания, определение спам/не спам и другие типы.

In [None]:
from scipy.io.arff import loadarff

data, names = loadarff("diabetes.arff.txt")
data = pd.DataFrame(data=data)
data.head()


## Binary classification metrics

$$ Precision = \frac{TP}{TP + FP} $$

$$ Recall (TPR) = \frac{TP}{TP + FN} $$

$$ Accuracy =  \frac{TP + TN}{ TP + FP + TN + FN} $$

$$ FPR = \frac{FP}{FP + TN} $$

## Logistic regression

* Метод "регрессии", когда зависимая переменная $y$ описывается дискретным множеством классов.
* Логистическая регрессия очень часто применяется в контексте бинарной классификации.
* Почему регрессия?

## Logistic regression

<img src="Exam_pass_logistic_curve.jpeg" width="800px"/>

## Splitting data to train/test datasets

In [None]:
np.random.seed(1)

train, test = train_test_split(range(len(data)), test_size=0.2)

train_data = data.iloc[train, 0:8].as_matrix()
test_data = data.iloc[test, 0:8].as_matrix()

train_y = data.iloc[train, 8].values
test_y = data.iloc[test, 8].values

mapping = {
    b'tested_positive': 1,
    b'tested_negative': 0
}

train_y = list(map(lambda x: mapping[x], train_y))
test_y = list(map(lambda x: mapping[x], test_y))

## Train logistic regression

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc

logisticRegressor = LogisticRegression()
logisticRegressor.fit(train_data, train_y)

pred_y = logisticRegressor.predict(test_data)
confusion_matrix(test_y, pred_y, labels=[0, 1])

## Using probabilites

<img src="error_types.PNG" width="400px"/>

* В задаче классификации ошибки бывают разного вида, и в диагностике допустить ошибку может быть ползволительно, в то время, как допустить ошибку другого вида может быть очень плохо.

* Мы можем использовать вероятности логистической регрессии, чтобы настроить наш классификатор в ту или иную сторону

* В нашем случае у нас слишком много ошибок

## Choosing threshold

* Часто в диагностике False Negative не так страшно как False Positive, особенно в методах диагностики и предиагностики
* В методах предиагностики мы должны отправить человека с потенциальным заболеванием на дообследование
* Мы можем построить ROC-кривую: зависимость True Positive Rate от False Positive Rate в зависимости от threshold
* Какой такой threshold?

## Calulating probabilites

In [None]:
prob_y = logisticRegressor.predict_proba(test_data)
prob_y[0:5]

## Calculating TPR, FPR and area under curve

In [None]:
fpr, tpr, _ = roc_curve(test_y, prob_y[:, 1])
auc = auc(fpr, tpr)

## Plotting ROC curve

In [None]:
plt.figure()
plt.plot(fpr, tpr, color="darkorange", label="ROC curve (area = %0.2f)" % auc)
plt.plot([0, 1], [0, 1], color="navy", linestyle="--")
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curve')
plt.legend(loc="lower right")
plt.show()