# Логистическая регрессия

• работать с логистической регрессией
• реализовывать градиентный спуск для ее настройки
• использовать регуляризацию

- Загрузите данные из файла data-logistic.csv. Это двумерная выборка, целевая переменная на которой принимает значения -1 или 1.
- Убедитесь, что выше выписаны правильные формулы для градиентного спуска. Обратите внимание, что мы используем полноценный градиентный спуск, а не его стохастический вариант!
- Реализуйте градиентный спуск для обычной и L2-регуляризованной (с коэффициентом регуляризации 10) логистической регрессии. Используйте длину шага k=0.1. В качестве начального приближения используйте вектор (0, 0).
- Запустите градиентный спуск и доведите до сходимости (евклидово расстояние между векторами весов на соседних итерациях должно быть не больше 1e-5). Рекомендуется ограничить сверху число итераций десятью тысячами.
- Какое значение принимает AUC-ROC на обучении без регуляризации и при ее использовании? Эти величины будут ответом на задание. В качестве ответа приведите два числа через пробел. Обратите внимание, что на вход функции roc_auc_score нужно подавать оценки вероятностей, подсчитанные обученным алгоритмом. Для этого воспользуйтесь сигмоидной функцией: a(x) = 1 / (1 + exp(-w1 x1 - w2 x2)). 
- Попробуйте поменять длину шага. Будет ли сходиться алгоритм, если делать более длинные шаги? Как меняется число итераций при уменьшении длины шага?
- Попробуйте менять начальное приближение. Влияет ли оно на что-нибудь?


Для настройки логистической регрессии нужно решить следующую задачу:
![log_regression](./img/log_regression.png)

*xi1 и xi2 — значение первого и второго признаков на объекте xi*


Градиентный шаг для весов будет заключаться в одновременном обновлении весов w1 и w2 по следующим формулам :
![log_regression](./img/log_regr_weights.png)

In [5]:
import pandas as pd
import numpy as np

# ROC AUC используется для алгоритмов бинарной классификации, выдающих оценку принадлежности объекта к одному из классов
from sklearn.metrics import roc_auc_score


In [21]:
data = pd.read_csv('data/data-logistic.csv', header=None)
X = data.values[:, 1:]
y = data[0]

In [40]:
def distance(a1, b1, a2, b2):
    return np.sqrt(np.square(a1 - a2) + np.square(b1 - b2))


def a(w1, w2, x1, x2):
    return 1. / (1 + np.exp(-w1*x1 - w2*x2))


def logistic_regression(X, y, k, w, C, epsilon, max_iter):
    """
    Logistic Regression classifier.

    Parameters:
    __________
    k:
        step length
    w:
        начальное приближение вектор (0,0)
    C:
        Inverse of regularization strength; must be a positive float.
        Like in support vector machines, smaller values specify stronger regularization.
    max_iter:
        Maximum number of iterations taken for the solvers to converge.
    """
    w1,w2 = w
    for i in range(max_iter):
        w1new = w1 + k * np.mean(y * X[:,0] * (1 - 1./(1 + np.exp(-y * (w1*X[:,0] + w2*X[:,1]))))) - k * C *w1
        w2new = w2 + k * np.mean(y * X[:,1] * (1 - 1./(1 + np.exp(-y * (w1*X[:,0] + w2*X[:,1]))))) - k * C *w2
        if distance(w1new, w2new, w1, w2) < epsilon:
            break
        w1, w2 = w1new, w2new

    prediction = []
    for i in range(len(X)):
        prediction.append(a(w1, w2, X[i,0], X[i,1]))

    return prediction


In [46]:
# обычная логистическая регрессия
p1 = logistic_regression(X, y, 0.1, [0.0, 0.0], 0, 0.000001, 100000)

# L2-регуляризованная (с коэффициентом регуляризации C=10) логистическая регрессия
p2 = logistic_regression(X, y, 0.1, [0.0, 0.0], 10, 0.000001, 100000)

score1 = roc_auc_score(y, p1)
score2 = roc_auc_score(y, p2)

print(score1)
print(score2)

0.9267619047619047
0.9362857142857142
