Разберём, как пользоваться логистической регрессией *«из коробки»*, то есть из библиотеки sklearn.

В качестве примера используем встроенный в sklearn датасет для решения задачи бинарной классификации — load_breast_cancer.

В датасете содержатся числовые признаки женщин (результаты исследований, биологические характеристики), а целевая переменная (1 или 0) показывает, больна ли пациентка раком груди или нет.

### Цели ноутбука

*  Обучить логистическую регрессию на представленном датасете.
*  Подобрать константу регуляризации C для логистической регрессии.
*  Оценить качество полученной модели и сравнить с методом ближайших соседей.

In [2]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

In [4]:
data = load_breast_cancer()

X = data['data']
y = data['target']

X.shape, y.shape

((569, 30), (569,))

In [5]:
X

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

Проверим, сбалансирована ли выборка.

> Блок с отступами



In [6]:
len(y[y == 0]), len(y[y == 1])

(212, 357)

Баланса классов нет, но и перекос не такой сильный.

---



Для решения этой задачи будем использовать **линейную модель — логистическую регрессию**.

Для начала разобъём данные на train и test (test — 20% от всех данных).

In [5]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Обучим логистическую регрессию на train и выведем качество (accuracy) на train и test.

In [8]:
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

predictions = logreg.predict(X_test)
accuracy_score(y_test, predictions)

0.956140350877193

Посмотрим на предсказания модели.

In [9]:
predictions[:5]

array([1, 0, 0, 1, 1])

Как мы и ожидали, это классы.

Также можно рассмотреть предсказанные логистической регрессией вероятности.

In [10]:
probs = logreg.predict_proba(X_test)
probs[:5].round(3)

array([[0.203, 0.797],
       [1.   , 0.   ],
       [0.998, 0.002],
       [0.006, 0.994],
       [0.002, 0.998]])

Модель выдаёт две вероятности для каждого объекта: первое число — вероятность класса 0, вторая — вероятность класса 1. Можно проверить, что сумма вероятностей равна 1.

Мы получили высокую точность модели.

Посмотрим, можно ли улучшить её качество **подбором гиперпараметров**. Гиперпараметр логистической регресси — C. Подберём его. 

*  Гиперпараметр С — это величина, обратная константе регуляризации. Чем меньше значение С, тем сильнее регуляризация. 
* Регуляризация — это подход для снижения переобучения модели при помощи уменьшения нормы вектора весов.

Функция потерь с регуляризацией для логистической регрессии выглядит так:
$Q(w)=-(\sum\limits_{i=1}^N y_i\cdot log(\hat{y_i}) + (1-y_i)\cdot log(1-\hat{y_i}))+\frac1C ||w||$

$||w||$ — норма вектора $w$. По умолчанию Евклидова норма, но её можно изменять — за это отвечает гиперпараметр *penalty* у модели.

In [11]:
from sklearn.model_selection import StratifiedKFold, cross_val_score

In [12]:
cv = StratifiedKFold(n_splits=5)
best_score = -1

for C in np.arange(0.1, 10.1, 0.1):
    model = LogisticRegression(
        C=C,  # Параметр регуляризации
        random_state=42,  # Фиксируем случайность
    )
    score = cross_val_score(model, X_train, y_train, scoring='accuracy', cv=cv).mean()
    if score > best_score:
        best_score = score
        best_C = C

print('best score:', best_score)
print('best params:', best_C)

best score: 0.9582417582417582
best params: 7.4


Посмотрим, помог ли подбор гиперпараметра C улучшить качество предсказания на тестовых данных.

In [14]:
logreg_final = LogisticRegression(C=best_C)
logreg_final.fit(X_train, y_train)

predictions = logreg_final.predict(X_test)

accuracy_score(y_test, predictions)

0.9649122807017544

С помощью подбора гиперпараметра С удалось улучшить качество предсказания.

Модель логистической регрессии из sklearn имеет и другие настраиваемые гиперпараметры (чуть менее важные, чем С). Их тоже можно подбирать для улучшения качества предсказания.

In [1]:
?LogisticRegression

Object `LogisticRegression` not found.


Попробуем применить метод ближайших соседей для решения поставленной задачи.

In [16]:
from sklearn.neighbors import KNeighborsClassifier

In [17]:
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

predictions = knn.predict(X_test)

accuracy_score(y_test, predictions)

0.956140350877193

С помощью GridSearchCV подберём оптимальное число соседей, а затем оценим результат при обучении на всей тренировочной выборке.


In [18]:
cv = StratifiedKFold(n_splits=5)
best_score = -1

for k in np.arange(1, 22):
    model = KNeighborsClassifier(
        n_neighbors = k  # Число соседей
    )
    score = cross_val_score(model, X_train, y_train, scoring='accuracy', cv=cv).mean()
    if score > best_score:
        best_score = score
        best_k = k

print('best score:', best_score)
print('best params:', best_k)

best score: 0.9274725274725274
best params: 9


In [19]:
knn_final = KNeighborsClassifier(n_neighbors=best_k)
knn_final.fit(X_train, y_train)

predictions = knn_final.predict(X_test)
accuracy_score(y_test, predictions)

0.956140350877193

В этой задаче логистическая регрессия работает лучше метода ближайших соседей даже с параметрами по умолчанию. Подбор числа соседей не улучшает работу метрического алгоритма.

В других задачах метод ближайших соседей может действовать успешно, поэтому не стоит полностью отказываться от него.