In [2]:
#Практика 3
import pandas as pd
import numpy as np
from sklearn.metrics import roc_auc_score

def sigmoid(z):
    return 1.0 / (1.0 + np.exp(-z))
def logistic_gradient_descent(X, y, reg=0, k=0.1, eps=1e-5, max_iter=10000):
    m, n = X.shape
    X_with_bias = np.c_[np.ones(m), X]  # (m, n+1)
    w = np.zeros(n + 1)
    for i in range(max_iter):
        z = X_with_bias.dot(w)  # (m,)
        yz = y * z
        p = sigmoid(-yz)
        grad = -1.0 / m * (X_with_bias.T.dot(y * p))  # (n+1,)
        if reg > 0:
            grad[1:] += reg * w[1:]
        new_w = w - k * grad
        if np.linalg.norm(new_w - w) < eps:
            w = new_w
            break
        w = new_w
    return w
def predict_proba(X, w):
    X_with_bias = np.c_[np.ones(X.shape[0]), X]
    z = X_with_bias.dot(w)
    return sigmoid(z)

data = pd.read_csv('data-logistic.csv', header=None)
y = data.iloc[:, 0].values
X = data.iloc[:, [1, 2]].values
w1 = logistic_gradient_descent(X, y, reg=0)
w2 = logistic_gradient_descent(X, y, reg=10)
proba1 = predict_proba(X, w1)
proba2 = predict_proba(X, w2)
auc1 = roc_auc_score(y, proba1)
auc2 = roc_auc_score(y, proba2)
print(f"{auc1:.3f} {auc2:.3f}")
#Более длинные шаги: могут привести к расходимости.
#Меньшие шаги: увеличивают число итераций до сходимости.
#Изменение начального приближения: для выпуклой задачи (как логистическая регрессия) результат не должен зависеть от начального приближения, если сходится.

0.932 0.936
