# Введение

Логистическая регрессия — один из видов линейных классификаторов. Одной из ее особенностей является возможность оценивания вероятностей классов, тогда как большинство линейных классификаторов могут выдавать только номера классов.

Логистическая регрессия использует достаточно сложный функционал качества, который не допускает записи решения в явном виде (в отличие от, например, линейной регрессии). Тем не менее, логистическую регрессию можно настраивать с помощью градиентного спуска.

Мы будем работать с выборкой, содержащей два признака. Будем считать, что ответы лежат в множестве {-1, 1}. Для настройки логистической регрессии мы будем решать следующую задачу:

$\frac{1}{l}\sum^{l}_{i=1}log(1+exp(-y_i(w_1x_{i1}+w_2x_{i2})))+\frac{1}{2}C||w||^2 \rightarrow min_{w_1,w_2}$

Здесь xi1 и xi2 — значение первого и второго признаков соответственно на объекте xi. В этом задании мы будем рассматривать алгоритмы без свободного члена, чтобы упростить работу.

Градиентный шаг для весов будет заключаться в одновременном обновлении весов w1 и w2 по следующим формулам (проверьте сами, что здесь действительно выписана производная нашего функционала):

$w_1:=w_1+k\frac{1}{l}\sum^{l}_{i=1}y_ix_{i1}\left( 1-\frac{1}{1+exp(-y_1(w_1x_i1+w_2x_{i2}))}\right)-kCw_1$

$w_2:=w_2+k\frac{1}{l}\sum^{l}_{i=1}y_ix_{i1}\left( 1-\frac{1}{1+exp(-y_1(w_1x_i1+w_2x_{i2}))}\right)-kCw_2$


Здесь k — размер шага.

Линейные методы могут переобучаться и давать плохое качество из-за различных проблем в данных: мультиколлинеарности, зашумленности и т.д. Чтобы избежать этого, следует использовать регуляризацию — она позволяет понизить сложность модели и не допустить переобучения. Сила регуляризации определяется коэффициентом C в формулах, указанных выше.

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.read_csv('data-logistic.csv', header=None)

In [3]:
y = data[0]
X = data[[1,2]]

In [31]:
w = np.array([0,0])
k=0.1
l = len(X)


In [40]:
w = np.array([0,1])

Unnamed: 0,1,2
0,-0.0,-0.138526
1,0.0,2.468025
2,-0.0,0.749425
3,0.0,1.899836
4,0.0,2.407750
...,...,...
200,0.0,3.053931
201,0.0,1.357804
202,-0.0,1.533398
203,-0.0,-13.934211


In [86]:
def sigmoid(z):
    return 1.0/(1.0+np.exp(-z))

def gradient_descent(X,y,w,k,l,C):
    #gradient descent
    w = w + k*1/l*np.sum(np.dot(np.dot(X.T,y),(1-sigmoid(np.dot(X,w))).T),axis=1)-k*C*w.T
    return w

In [79]:
k=0.1
l = len(X)
C = 10

In [73]:
w = np.array([0,0]).reshape(2,1)
y = np.array(y).reshape(205,1)
X = np.array(X)
#sanity check
print(f'X shape is {X.shape}')
print(f'y shape is {y.shape}')
print(f'w shape is {w.shape}')

X shape is (205, 2)
y shape is (205, 1)
w shape is (2, 1)


In [85]:
#gradient descent
w = w + k*1/l*np.sum(np.dot(np.dot(X.T,y),(1-sigmoid(np.dot(X,w))).T),axis=1)-k*C*w.T

In [None]:
1/l*np.sum()