# Задание (на дом, если не успеете)



Сейчас мы сделаем ровно тоже самое, но для логистической регресии.

Рассмотрим принадлежность к классу $y=\pm1$ некого объекта $x$: $p(y=\pm1 | x,\beta)$ и выразим её через **сигмойду** от **отступа**:
$$p(y=\pm1|x,\beta) = \sigma(y \langle \beta, x \rangle), $$
где 
$$\sigma(z) = \frac{1}{1 + exp{(-z)}},$$

А ошибка, которую мы будем минимизировать - логарифмическая:

$$L(\beta) = -\frac{1}{N}\sum_i \log(\sigma(y^{(i)} \langle \beta, x^{(i)} \rangle)) \rightarrow \min_\beta$$

Соответственно, вам нужно:
* Вычислить градиент $L(\beta)$ по $\beta$
* Модифицировать функцию градиентного спуска, чтобы он работал с логарифмической функцией потерь

Примените функцию к данным [по успешности забивания голов в NFL](http://www.stat.ufl.edu/~winner/data/fieldgoal.dat). Описание вы найдете [здесь](http://www.stat.ufl.edu/~winner/data/fieldgoal.txt).
В уравнение регрессии включайте только расстояние до ворот (первый столбец) и свободный член.

In [1]:
import numpy as np
import pandas as pd
from scipy.special import expit

In [2]:
data = np.loadtxt('fieldgoal.dat')
data

array([[ 30.,   1.,   1.],
       [ 41.,   1.,   1.],
       [ 50.,   1.,   1.],
       ..., 
       [ 47.,   1.,  17.],
       [ 52.,   0.,  17.],
       [ 51.,   0.,  17.]])

In [3]:
df = data[:, 0]
df = (df - df.mean())/df.std()
X = np.c_[df, np.ones((data.shape[0], 1))]
y = data[:, 1]

In [4]:
print(X[:10])
print(y[:10])

[[-0.66667888  1.        ]
 [ 0.46081501  1.        ]
 [ 1.38331001  1.        ]
 [-1.48667443  1.        ]
 [-0.35918054  1.        ]
 [ 0.76831335  1.        ]
 [ 0.35831557  1.        ]
 [ 1.89580723  1.        ]
 [ 1.28081057  1.        ]
 [ 1.48580946  1.        ]]
[ 1.  1.  1.  1.  1.  1.  1.  0.  1.  1.]


In [5]:
def gradient_descent_lg(X, y, iters, alpha):
    n = y.shape[0]
    Beta = np.random.rand(2)
    
    for i in range(iters):
        y_hat = expit(y * (X.dot(Beta)))
        
        # считаем ошибку и значение функции потерь
        error = np.log(y_hat)
        cost = -np.sum(error)/float(n)
        
        # считаем градиент
        grad = -X.T.dot(y * (1 - y_hat)) / n

        # обновляем коэффициенты
        Beta = Beta - alpha * grad
        
    return Beta

In [6]:
print(gradient_descent_lg(X, y, 1000, 0.05))
print(gradient_descent_lg(X, y, 10000, 0.05))
print(gradient_descent_lg(X, y, 100000, 0.05))

[-0.19168991  3.61805207]
[-0.19279073  5.96529725]
[-0.19940994  8.27121533]
