# Лабораторная работа №6
# Бинарная классификация

Бинарная (двоичная) классификация (binary classification) — это задача классификации элементов заданного набора данных в два класса. 

Для бинарной классификации могут применяться методы многоклассовой классификации, а также более специализированные методы, такие, как метод опорных векторов, логистическая регрессия, линейный дискриминантный анализ и др.

## Логистическая регрессия

Логистическая регрессия — это статистическая модель для бинарной классификации, использующая логистическую функцию (кривую). 

### Логистическая функция (сигмоида)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
def sigmoid(t):
    return 1. / (1. + np.exp(-t))

In [None]:
x = np.linspace(-5, 5, 500)

plt.plot(x, sigmoid(x));

### Бинарная классификация при помощи логистической регрессии

Будем использовать набор данных Ирисы:

In [None]:
from sklearn import datasets

iris = datasets.load_iris()

In [None]:
X = iris.data
y = iris.target

Оставим в наборе данных первые два признака из четырех и первые два класса из трех:

In [None]:
X = X[y<2,:2]
y = y[y<2]

In [None]:
X.shape, y.shape

Визуализируем классы на плоскости:

In [None]:
plt.scatter(X[y==0,0], X[y==0,1], color="red")
plt.scatter(X[y==1,0], X[y==1,1], color="blue");

Разобьем набор данных на обучающую и тестовую выборки:

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

Создадим и обучим классификатор логистической регрессии:

In [None]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train, y_train);

Классификатор не допускает ошибок на тестовой выборке:

In [None]:
log_reg.score(X_test, y_test)

In [None]:
log_reg.predict(X_test)

In [None]:
y_test

### Граница решения 

В задаче бинарной классификации граница решения (поверхность решения) - это гиперповерхность, которая разделяет пространство признаков на два набора, по одному для каждого класса. Классификатор классифицирует все точки по одной стороне границы принятия решения как принадлежащие одному классу, а все точки на другой стороне как принадлежащие другому классу. На самой границе решения прогнозируемая классификатором метка класса неоднозначна. 

Если граница решения является гиперплоскостью, то задача классификации линейна и классы линейно разделимы. 

Логистическая регрессия - это линейный классификатор и граница решения характеризуется следующими коэффициентами:

In [None]:
log_reg.coef_

In [None]:
log_reg.intercept_

Таким образом, прямая, разделяющая точки набора данных задается следующим образом: 

In [None]:
def x2(x1):
    return (-log_reg.coef_[0][0] * x1 - log_reg.intercept_[0]) / log_reg.coef_[0][1]

Визуализируем эту прямую и точки исходного набора данных и тестовой выборки:

In [None]:
x1_plot = np.linspace(4, 7, 1000)
x2_plot = x2(x1_plot)

In [None]:
plt.scatter(X[y==0,0], X[y==0,1], color="red")
plt.scatter(X[y==1,0], X[y==1,1], color="blue")
plt.plot(x1_plot, x2_plot);

In [None]:
plt.scatter(X_test[y_test==0,0], X_test[y_test==0,1], color="red")
plt.scatter(X_test[y_test==1,0], X_test[y_test==1,1], color="blue")
plt.plot(x1_plot, x2_plot);

Будем использовать следующую функцию для визуализации границы решения:

In [None]:
def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, cmap=custom_cmap)
    

Граница решения для классификатора логистической регрессии:

In [None]:
plot_decision_boundary(log_reg, axis=[4, 7.5, 1.5, 4.5])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

### Граница решения для нелинейного классификатора

Рассмотрим классификатор на основе метода К ближайших соседей:

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_train);

In [None]:
knn_clf.score(X, y)

Граница решения теперь является нелинейной:

In [None]:
plot_decision_boundary(knn_clf, axis=[4, 7.5, 1.5, 4.5])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

Обучим теперь классификатор на полном наборе данных:

In [None]:
knn_clf_all = KNeighborsClassifier()
knn_clf_all.fit(iris.data[:,:2], iris.target);

Граница решения стала более извилистой:

In [None]:
plot_decision_boundary(knn_clf_all, axis=[4, 8, 1.5, 4.5])
plt.scatter(iris.data[iris.target==0,0], iris.data[iris.target==0,1])
plt.scatter(iris.data[iris.target==1,0], iris.data[iris.target==1,1])
plt.scatter(iris.data[iris.target==2,0], iris.data[iris.target==2,1]);

Если метка класса определяется по 50 ближайшим соседям, то получим такую визуализацию границы:

In [None]:
knn_clf_all = KNeighborsClassifier(n_neighbors=50)
knn_clf_all.fit(iris.data[:,:2], iris.target)

plot_decision_boundary(knn_clf_all, axis=[4, 8, 1.5, 4.5])
plt.scatter(iris.data[iris.target==0,0], iris.data[iris.target==0,1])
plt.scatter(iris.data[iris.target==1,0], iris.data[iris.target==1,1])
plt.scatter(iris.data[iris.target==2,0], iris.data[iris.target==2,1]);

### Метод рекурсивного исключения признаков (RFE)

Метод рекурсивного исключения признаков (recursive feature elimination, RFE) реализует следующий алгоритм: модель обучается на исходном наборе признаков и оценивает их значимость, затем исключается один или несколько наименее значимых признаков, модель обучается на оставшихся признаках, и так далее, пока не останется заданное количество лучших признаков. 

Метод RFE может применяться в сочетании с логистической регрессией для отбора лучших признаков: 

In [None]:
# Feature Extraction with RFE
from sklearn.feature_selection import RFE
X = iris.data
y = iris.target
# feature extraction
model = LogisticRegression(max_iter=1000)
rfe = RFE(model)
fit = rfe.fit(X, y);

In [None]:
print("Число признаков: %d" % fit.n_features_)
print("Выбранные признаки: %s" % fit.support_)
print("Ранг признаков: %s" % fit.ranking_)

Выбранным (оцененым как лучшие) признакам присвоен ранг 1.

## Линейный дискриминантный анализ (LDA)

Метод анализа основных компонентов PCA определяет комбинации признаков (основные компоненты), для которых набор данных имеет наибольшую дисперсию.

Метод линейного дискриминантного анализа (LDA) определяет комбинации признаков, для которых классы разделяются наилучшим образом. LDA, в отличие от PCA, является методом машинного обучения с учителем, использующим заданные  метки классов.

In [None]:
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

X = iris.data
y = iris.target
target_names = iris.target_names

In [None]:
pca = PCA(n_components=2)
X_pca = pca.fit(X).transform(X)

lda = LinearDiscriminantAnalysis(n_components=2)
X_lda = lda.fit(X, y).transform(X)

Визуализации для методов PCA и LDA отличаются:

In [None]:
plt.figure(figsize=(10,8))
colors = ['b', 'r', 'g']

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_pca[y == i, 0], X_pca[y == i, 1], color=color, alpha=.8, lw=2,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('Метод PCA для набора Ирисы');

In [None]:
plt.figure(figsize=(10,8))
for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_lda[y == i, 0], X_lda[y == i, 1], alpha=.8, color=color,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('Метод LDA для набора данных Ирисы');

В методе PCA определяются главные компоненты (комбинации признаков):

In [None]:
pca.components_

В методе LDA определяется направление (вектор), наилучшим образом разделяющий точки классов:

In [None]:
lda.coef_

In [None]:
lda.intercept_

Применим метод LDA для классификации точек набора Ирисы (с двумя признаками и двумя классами):

In [None]:
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train);

In [None]:
lda.score(X_test, y_test)

In [None]:
lda.predict(X_test)

In [None]:
y_test

Граница решения является линейной:

In [None]:
plot_decision_boundary(lda, axis=[4, 7.5, 1.5, 4.5])
plt.scatter(X_test[y_test==0,0], X_test[y_test==0,1])
plt.scatter(X_test[y_test==1,0], X_test[y_test==1,1]);

## Метод опорных векторов (SVM)

Метод опорных векторов (метод построения оптимальной разделяющей гиперплоскости) был разработан В. Вапником и А. Червоненкисом. 

In [None]:
X = iris.data
y = iris.target

X = X[y<2,:2]
y = y[y<2]

In [None]:
plt.scatter(X[y==0,0], X[y==0,1], color='red')
plt.scatter(X[y==1,0], X[y==1,1], color='blue');

Стандартизуем набор данных:

In [None]:
from sklearn.preprocessing import StandardScaler

standardScaler = StandardScaler()
standardScaler.fit(X)
X_standard = standardScaler.transform(X)

Создадим и обучим классификатор на основе SVM с параметром регуляризации C=1e9:

In [None]:
from sklearn.svm import LinearSVC

svc = LinearSVC(C=1e9)
svc.fit(X_standard, y);

In [None]:
plot_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(X_standard[y==0,0], X_standard[y==0,1])
plt.scatter(X_standard[y==1,0], X_standard[y==1,1]);

Создадим и обучим на тех же данных классификатор на основе SVM с другим параметром регуляризации:

In [None]:
svc2 = LinearSVC(C=10.)
svc2.fit(X_standard, y);

In [None]:
plot_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(X_standard[y==0,0], X_standard[y==0,1])
plt.scatter(X_standard[y==1,0], X_standard[y==1,1]);

Граница решения определяется такими параметрами:

In [None]:
svc2.coef_

In [None]:
svc2.intercept_

Для визуализации зазора метода SVM будем использовать следующую функцию:

In [None]:
def plot_svc_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, cmap=custom_cmap)
    
    w = model.coef_[0]
    b = model.intercept_[0]
    
    # w0*x0 + w1*x1 + b = 0
    # => x1 = -w0/w1 * x0 - b/w1
    plot_x = np.linspace(axis[0], axis[1], 200)
    up_y = -w[0]/w[1] * plot_x - b/w[1] + 1/w[1]
    down_y = -w[0]/w[1] * plot_x - b/w[1] - 1/w[1]
    
    up_index = (up_y >= axis[2]) & (up_y <= axis[3])
    down_index = (down_y >= axis[2]) & (down_y <= axis[3])
    plt.plot(plot_x[up_index], up_y[up_index], color='black')
    plt.plot(plot_x[down_index], down_y[down_index], color='black')

Визуализации для первого и второго классификаторов имеют следующий вид:

In [None]:
plot_svc_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(X_standard[y==0,0], X_standard[y==0,1])
plt.scatter(X_standard[y==1,0], X_standard[y==1,1]);

In [None]:
plot_svc_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(X_standard[y==0,0], X_standard[y==0,1])
plt.scatter(X_standard[y==1,0], X_standard[y==1,1]);

## Классификация нелинейного набора данных при помощи логистической регрессии

Рассмотрим следующий синтетический набор данных:

In [None]:
np.random.seed(666)
X = np.random.normal(0, 1, size=(200, 2))
y = np.array((X[:,0]**2+X[:,1]**2)<1.5, dtype='int')

In [None]:
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

Классификация набора при помощи логистической регрессии дает низкое качество классификации:

In [None]:
log_reg = LogisticRegression()
log_reg.fit(X, y);

In [None]:
log_reg.score(X, y)

In [None]:
plot_decision_boundary(log_reg, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

### Полиномиальные зависимости

Класс `PolynomialFeatures` позволяет строить наборы данных, содержащий полиномиальные зависимости от исходных данных (столбцы $x_1, x_2$ в наборе $D$):

In [None]:
D = np.arange(1, 11).reshape(-1, 2)
D

In [None]:
from sklearn.preprocessing import PolynomialFeatures

polyD = PolynomialFeatures(degree=2) # степень полинома
polyD.fit(D)
D_2 = polyD.transform(D)
D_2

Получаем новый набор, в котором первый столбец соответствует свободному члену (не зависит от $x_1$, $x_2$), второй и третий столбцы равны $x_1$ и $x_2$, четвертый столбец равен $x_1^2$, пятый столбец равен $x_1 x_2$, шестой столбец равен $x_2^2$. 

Таким образом, от признаков $(x_1, x_2)$ переходим к расширенному набору признаков $(1, x_1, x_2, x_1^2, x_1 x_2, x_2^2)$.

### Построение конвейера (Pipeline)

Цель конвейера (pipeline) состоит в том, чтобы собрать несколько преобразований и заключительный классификатор, которые могут быть исполнены вместе с установкой различных параметров.

In [None]:
from sklearn.pipeline import Pipeline

def PolynomialLogisticRegression(degree):
    return Pipeline([
        ('poly', PolynomialFeatures(degree=degree)),
        ('std_scaler', StandardScaler()),
        ('log_reg', LogisticRegression())
    ])

Применим конвейер с параметром `degree=2` для классификации нелинейного набора, приведенного выше:

In [None]:
poly_log_reg = PolynomialLogisticRegression(degree=2)
poly_log_reg.fit(X, y);

In [None]:
poly_log_reg.score(X, y)

In [None]:
plot_decision_boundary(poly_log_reg, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

Можно увеличить параметр `degree` до 20:

In [None]:
poly_log_reg2 = PolynomialLogisticRegression(degree=20)
poly_log_reg2.fit(X, y);

In [None]:
poly_log_reg2.score(X, y)

In [None]:
plot_decision_boundary(poly_log_reg2, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

### Параметры логистической регрессии

Реализация логистической регрессии в __sklearn__ допускает некоторое количество параметров, в частности:

* `penalty` - штраф, принимающий значения ‘l1’, ‘l2’, ‘elasticnet’ или ‘none’
* `C` - константа регуляризации (обратно пропорциональна силе регуляризации)
* `solver` - алгоритм, используемый для оптимизации, принимающий значения ‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’

Рассмотрим другой синтетический набор данных:

In [None]:
X = np.random.normal(0, 1, size=(200, 2))
y = np.array((X[:,0]**2+X[:,1])<1.5, dtype='int')
for _ in range(20):
    y[np.random.randint(200)] = 1

In [None]:
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

In [None]:
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train);

In [None]:
log_reg.score(X_train, y_train), log_reg.score(X_test, y_test)

In [None]:
plot_decision_boundary(log_reg, axis=[-4, 4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

In [None]:
def PolynomialLogisticRegression(degree=2, C=1.):
    return Pipeline([
        ('poly', PolynomialFeatures(degree=degree)),
        ('std_scaler', StandardScaler()),
        ('log_reg', LogisticRegression(C=C))
    ])

In [None]:
poly_log_reg3 = PolynomialLogisticRegression(degree=2, C=0.1)
poly_log_reg3.fit(X_train, y_train);

In [None]:
poly_log_reg3.score(X_train, y_train), poly_log_reg3.score(X_test, y_test)

### Классификация нелинейного набора данных при помощи SVM

Создадим нелинейный набор данных в форму пулумесяцев:

In [None]:
from sklearn import datasets

X, y = datasets.make_moons()
X.shape, y.shape

In [None]:
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

Добавим шум:

In [None]:
X, y = datasets.make_moons(noise=0.15, random_state=666)

plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

Создадим конвейер на основе SVM:

In [None]:
def PolynomialSVC(degree, C=1.0):
    return Pipeline([
        ("poly", PolynomialFeatures(degree=degree)),
        ("std_scaler", StandardScaler()),
        ("linearSVC", LinearSVC(C=C))
    ])

In [None]:
poly_svc = PolynomialSVC(degree=3)
poly_svc.fit(X, y)
poly_svc.score(X, y)

In [None]:
plot_decision_boundary(poly_svc, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1]);

## Матрица ошибок, точность и полнота

Продемонстрируем меры бинарной классификации на примере набора данных с изображениеми цифр:

In [None]:
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

y[digits.target==9] = 1
y[digits.target!=9] = 0

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

Обучим классификатор логистической регрессии:

In [None]:
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)
log_reg.score(X_test, y_test)

In [None]:
y_log_predict = log_reg.predict(X_test)

Показатели TN, FP, FN и TP могут быть реализованы так:

In [None]:
def TN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 0))

In [None]:
TN(y_test, y_log_predict)

In [None]:
def FP(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 1))

In [None]:
FP(y_test, y_log_predict)

In [None]:
def FN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 1) & (y_predict == 0))

In [None]:
FN(y_test, y_log_predict)

In [None]:
def TP(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 1) & (y_predict == 1))

In [None]:
TP(y_test, y_log_predict)

Матрица ошибок для бинарной классификации определяется так:

In [None]:
def confusion_matrix(y_true, y_predict):
    return np.array([
        [TN(y_true, y_predict), FP(y_true, y_predict)],
        [FN(y_true, y_predict), TP(y_true, y_predict)]
    ])

In [None]:
confusion_matrix(y_test, y_log_predict)

Показатель точности для положительного класса может быть вычислен так:

In [None]:
def precision_score(y_true, y_predict):
    tp = TP(y_true, y_predict)
    fp = FP(y_true, y_predict)
    try:
        return tp / (tp + fp)
    except:
        return 0.0
    

In [None]:
precision_score(y_test, y_log_predict)

Показатель TPR (доля корректно спрогнозированных положительных точек) вычисляется так:

In [None]:
def recall_score(y_true, y_predict):
    tp = TP(y_true, y_predict)
    fn = FN(y_true, y_predict)
    try:
        return tp / (tp + fn)
    except:
        return 0.0
    

In [None]:
recall_score(y_test, y_log_predict)

При использовании функций из scikit-learn получим аналогичные результаты:

In [None]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_log_predict)

In [None]:
from sklearn.metrics import precision_score

precision_score(y_test, y_log_predict)

In [None]:
from sklearn.metrics import recall_score

recall_score(y_test, y_log_predict)

### Кривая полнота-точность (precision-recall)

Кривая полнота-точность строится в координатах полнота (recall) и точность (precision). Площадь под кривой часто используют в качестве метрики качества алгоритма. Площадь под кривой полнота-точность  рекомендуют использовать в задачах с дисбалансом классов.

In [None]:
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

y[digits.target==9] = 1
y[digits.target!=9] = 0

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

In [None]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)
decision_scores = log_reg.decision_function(X_test)

In [None]:
decision_scores

In [None]:
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

precisions = []
recalls = []
thresholds = np.arange(np.min(decision_scores), np.max(decision_scores), 0.1)
thresholds

In [None]:
for threshold in thresholds:
    y_predict = np.array(decision_scores >= threshold, dtype='int')
    precisions.append(precision_score(y_test, y_predict))
    recalls.append(recall_score(y_test, y_predict))

In [None]:
plt.plot(thresholds, precisions, c='r')
plt.plot(thresholds, recalls, c='b')
plt.show()

In [None]:
plt.plot(precisions, recalls)
plt.show()

In [None]:
from sklearn.metrics import precision_recall_curve

precisions, recalls, thresholds = precision_recall_curve(y_test, decision_scores)

In [None]:
precisions.shape

In [None]:
recalls.shape

In [None]:
thresholds.shape

In [None]:
plt.plot(thresholds, precisions[:-1])
plt.plot(thresholds, recalls[:-1])
plt.show()

In [None]:
plt.plot(precisions, recalls)
plt.show()

## Анализ ROC кривых

Площадь под ROC-кривой – одна из самых популярных мер качества в задачах бинарной классификации. 

In [None]:
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

y[digits.target==9] = 1
y[digits.target!=9] = 0

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

Для ROC-анализа нужны значения т.н. скоринговой функции для каждой точки в тестовом наборе.

In [None]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)
decision_scores = log_reg.decision_function(X_test)

Вдоль осей откладываются показатели FPR (ось абсцисс) и TPR (ось ординат):

In [None]:
fprs = []
tprs = []
n = len(X_test)
thresholds = np.arange(np.min(decision_scores), np.max(decision_scores), 0.1)
for threshold in thresholds:
    y_predict = np.array(decision_scores >= threshold, dtype='int')
    fprs.append(FP(y_test, y_predict)/n)
    tprs.append(TP(y_test, y_predict)/n)

In [None]:
plt.plot(fprs, tprs)
plt.show()

Использование библиотечной функции дает тот же результат:

In [None]:
from sklearn.metrics import roc_curve

fprs, tprs, thresholds = roc_curve(y_test, decision_scores)

In [None]:
plt.plot(fprs, tprs)
plt.show()

Для вычисления площади под кривой можно использовать метод трапеций или библиотечную функцию:

In [None]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_test, decision_scores)

### Задание на лабораторную работу №6

#### Задание (10 баллов)

Для закрепленного за Вами варианта лабораторной работы:

1.	Считайте заданный набор данных из репозитария UCI. 

2.	Если среди меток класса имеются пропущенные значения, то удалите записи с пропущенными метками класса. Если какие-либо числовые признаки в наборе были распознаны неверно, то преобразуйте их в числовые. Оставьте в наборе данных только числовые признаки. Если в признаках имеются пропущенные значения, то замените их на медианные значения признака. 

3.	Вычислите и визуализируйте матрицу корреляций признаков. Удалите из набора признаки, имеющие высокую корреляцию (близкую к +1 или -1) с другими признаками. 

4.	Если столбец с метками классов содержит более двух классов, то объедините некоторые классы, чтобы получить набор для бинарной классификации. Объединяйте классы таким образом, чтобы положительный и отрицательный классы были сопоставимы по количеству точек. 

5.	Используя метод рекурсивного исключения признаков (RFE) и логистическую регрессию, определите и оставьте в наборе наиболее значимые признаки (не менее двух). Если в наборе данных осталось более двух признаков, то определите два признака с наибольшей дисперсией для визуализации.

6.	Масштабируйте признаки набора данных на интервал от 0 до 1.

7.	Используя разделение набора данных на обучающую и тестовую выборки в соотношении 70% на 30%, создайте и обучите классификаторы на основе: 

* наивного байесовского классификатора 
* логистической регрессии 
* логистической регрессии с полиномиальными зависимостями (`degree` равно 2 и 3)
* линейного дискриминантного анализа  
* метода опорных векторов
* метода опорных векторов с полиномиальными зависимостями (`degree` равно 2 и 3)

8. 	Визуализируйте для каждого из классификаторов границу решения, подписывая оси и рисунок и создавая легенду для меток классов набора данных. 

9. 	Визуализируйте на одном рисунке ROC кривые для каждого из классификаторов, подписывая оси и рисунок и создавая легенду для методов бинарной классификации. 

10.	Определите лучший метод бинарной классификации набора данных по показателю ROC_AUC (площади под ROC кривой). 
