# Описание и пример реализации алгоритма логистической регрессии

Логистическая регрессия (или логит-модель) - это статистический метод для анализа набора данных, используемый для прогнозирования вероятности некоторого события путем его сравнения с логистической кривой (сигмоидой).

Для того, чтобы получать вероятность класса из значиний от минус бесконечности до плюс бесконечности, используется следующие преобразования. Пусть вероятность положительного события будет Р+.  Тогда вероятность второго класса будет (1-Р+). Составляется величина OR - соотношение классов. OR = P+ / (1 - P+). Она показывает отношение вероятностей того, произойдет ли исследуемое событие или не произойдет. При этом величины Р+ и соотношение классов содержат одинаковую по сути информацию. Но Р+ принадлежит интервалу от 0 до 1, а OR - от ноля до плюс бесконечности. Если рассмотреть величину логарифма отношения шансов log(OR), то увидим, что она измеряется от минус бесконечности, до плюс бесконечности. А такую величину можно прогнозировать регрессионной моделью.

Пусть теперь мы прогнозируем  logOR  с помощью линейной регрессии:  $logOR=w^{T}x$ . Как из этой величины получить P+?

$P+ = \dfrac{OR}{1+OR}=\dfrac{e^{logOR}}{1+e^{logOR}} = \dfrac{e^{w^{T}x}}{1+e^{w^{T}x}} = \dfrac{1}{1+e^{−w^{T}x}}.$

Получили функцию $\dfrac{1}{1+e^{−w^{T}x}}$, называемую сигмоидой или логистической функцией. Так мы будем прогнозировать вероятность принадлежности объекта к классу 1.

Как выбрать функцию потерь (считать ошибку модели) в случае бинарной классификации?

В модели логистическая регрессия используется метод максимального правдоподобия. Он основан на том, что вся информация о статистической выборке содержится в функции правдоподобия. Цель метода - поиск таких значений параметров модели, при которых максимизируется фукнция правдоподобия. Или минимизируется фукнция с противоположным знаком.
Из функции правдоподобия выборки выводится логистическая функция потерь: $L_{log}(z) = log(1+e^{−z})$. Минимизируя эту функцию мы уменьшаем количество ошибок классификации:
$$ L(y, y_{pred})=   \left\{
\begin{array}{ll}
      0, & if  y = y_{pred}, \\
      1, & if  y != y_{pred}. \\
\end{array} 
\right.  $$


Рассмотрим функцию бинарной кросс энтропии BCELoss(_BinaryCrossEntropy_ Loss)  
$L = \dfrac{1}{N} \sum_{i=1}^{N}\left[y_{act} \cdot ln(y_{pred}) + (1-y_{act}) \cdot ln(1-y_{pred})\right] = $

$ = \dfrac{1}{N} \sum_{i=1}^{N}\left[y_{act} \cdot ln(\sigma(\omega_0 + x_{i1} \cdot \omega_1 + x_{i2} \cdot \omega_2 + ... + x_{in} \cdot \omega_n)) + (1-y_{act}) \cdot ln(1-(\sigma(\omega_0 + x_{i1} \cdot \omega_1 + x_{i2} \cdot \omega_2 + ... + x_{in} \cdot \omega_n))\right]$  

*  Возьмем функцию потерь на одном объекте

$L = y_{act} \cdot ln(y_{pred}) + (1-y_{act}) \cdot ln(1-y_{pred})$

$y_{act} - $ реальное значение, которое принимает наша величина

$y_{pred} - $ значение(_в виде вероятности!_), которое будет предсказывать наша модель

Наше желание, чтобы модель, давала вероятность близкую к 1 в случае, если реальное значение 1 и вероятность близкую к нулю, в случае, если реальное значение равно нулю

* Как это сделать?

мы знаем, что в случае Логистической регрессии, наше предсказание:  

$y_{pred} = \sigma(w_0 + x_1 * w_1 + x_2 * w_2 + x_3 * w_3 ... + x_n * w_n)$


$w_1, w_2, ..., w_n$ - настраиваемые параметры.

А значит задача сводится к тому, чтобы минимизировать функцию $L$ правильно подобрав $w_1, w_2, ..., w_n$. Для этого нам нужен градиент!

$L(\vec{w})$ - сложная функция, которая состоит из:  
* логарифмирования
* взятия сигмоиды 
* домножения наших $\omega$ на константу

(_Смотреть выше расписанную формулу бинарной кросс энтропии_)

Посчитаем для $L = y_{act} \cdot ln(y_{pred}) + (1-y_{act}) \cdot ln(1-y_{pred})$ сложную частную производную по $w_1$.

$L'(w_{1}) = -y_{act} * (ln(y_{pred}))' * (y_{pred})' * (w_{1}x_{1})' + (1 - y_{act}) * (ln(1 - y_{pred}))' * (y_pred)' * (w_{1}x_{1})' = (y_{pred}-y_{act}) * x_{1}$


Посчитаем частную производную для свободного члена $w_0$.

$L(w_{0}) = (y_{pred}-y_{act})$

Математически градиент готов, останется обернуть его в алгоритм градиентного спуска и на реальных данных, где у нас не один объект, а много сразу.
Единственной разницей того, что объектов много сразу, мы будем минимизировать функцию потерь в среднем на всех элементах.

то есть обновление происходит следующим образом:
    
$\vec{w_{new}} = \vec{w_{current}} - lr * grad L(\vec{w_{current}})$

1. Высчитывается градиент на каждом из объектов (везде получаются разные $\omega_{current}$).
2. Берется средний $\vec{\omega_{current}}$ - по нему вычисляется новый $\vec{w_{new}}$

Итого:

$\vec{w_{new}} = \vec{w_{current}} - lr * mean(grad L(\vec{w_{current}}))$

In [28]:
import numpy as np
import pandas as pd

Создаем класс LogReg. При инициализации даем возможность указать learning_rate. Записываем эту информацию в атрибут класса. Опишишем метод fit, который будет принимать на вход X, y (X - данные x1, x2, ..., xn, y - это $y_{act})$ и высчитывать с помощью градиентного спуска самые оптимальные параметры w0, w1, w2, w3, которые будут хранится в атрибутах w_i

In [29]:
class LogReg:                               # в целях простоты алгоритма класс реализован для трех фичей.
    def __init__(self, learning_rate):
        self.learning_rate = learning_rate
        self.w_0 = 0                        # инициализируется вес свободного члена
        self.w_1 = 1                        # инициализируется коэффициент перед первым аргументом (переменной, x1, базисной фукнцией)
        self.w_2 = 1
        self.w_3 = 1
        
    def fit(self, X, y):                    # функция для поиска оптимальных значений коэффициентов self.w_i
        for i in range(10000):               # всё ниже описанное будет проделано 10000 раз.
            yhat = X.iloc[:, 0] * self.w_1 + X.iloc[:, 1] * self.w_2 + X.iloc[:, 2] * self.w_3 + self.w_0   # считаем логгиты (сырые выходы модели) с текущими "весами"
            error = y.to_numpy() - yhat     # получаем колонку разниц реальных y и логгитов модели
            gradient1 = (X.iloc[:, 0] * error).mean()   # по каждому столбцу считаем градиент как производную функции L по w (среднее значение произведений х1 и (y_pred - y_act).
            gradient2 = (X.iloc[:, 1] * error).mean()
            gradient3 = (X.iloc[:, 2] * error).mean()
            gradient0 = error.mean()                    # для свободного члена просто считаем среднее значение разниц между реальным y и предсказанным.
            self.w_1 = self.w_1 - self.learning_rate * gradient1   # меняем коэффициент перед х1 в сторону градиента с коэффициентом learning_rate.
            self.w_2 = self.w_2 - self.learning_rate * gradient2
            self.w_3 = self.w_3 - self.learning_rate * gradient3
            self.w_0 = self.w_0 - self.learning_rate * gradient0   # меняем свободный член на величину градиента, умноженного на learning_rate.
        

In [30]:
train_0 = pd.read_csv('aux/LogRegtrain.csv').drop('Unnamed: 0', axis=1)
test_0 = pd.read_csv('aux/LogRegtest.csv').drop('Unnamed: 0', axis=1)
test_0.head()

Unnamed: 0,x1,x2,x3,y
0,0.714606,-0.544703,0.843658,1
1,3.709027,3.091167,0.527249,1
2,0.371633,-5.706764,11.966594,0
3,4.877435,10.271443,2.186386,1
4,4.556441,-0.681188,1.830415,0


In [31]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
train = pd.DataFrame()
test = pd.DataFrame()
train[['x1', 'x2', 'x3']] = ss.fit_transform(train_0[['x1', 'x2', 'x3']] )
train[['y']] = train_0[['y']]

test[['x1', 'x2', 'x3']] = ss.transform(test_0[['x1', 'x2', 'x3']] )
test[['y']] = test_0[['y']]
test.iloc[:, :3]

Unnamed: 0,x1,x2,x3
0,-1.214002,-0.270562,-0.759311
1,0.852510,0.101933,-0.873365
2,-1.450695,-0.799415,3.250090
3,1.658852,0.837552,-0.275308
4,1.437328,-0.284545,-0.403622
...,...,...,...
195,-0.991415,0.493089,-0.485842
196,-1.629071,1.565755,-0.597442
197,1.006083,0.865697,-0.016956
198,-1.307402,0.023617,5.507393


Опишем метод predict, который будет предсказывать для новых точек в дальнейшем их y_pred

In [37]:
class LogReg:                               
    def __init__(self, learning_rate):
        self.learning_rate = learning_rate
        self.w_0 = 0                        
        self.w_1 = 1                        
        self.w_2 = 1
        self.w_3 = 1
        
    def fit(self, X, y):                    
        for i in range(10000):               
            yhat = X.iloc[:, 0] * self.w_1 + X.iloc[:, 1] * self.w_2 + X.iloc[:, 2] * self.w_3 + self.w_0  
            error = yhat - y.to_numpy()    
            gradient1 = (X.iloc[:, 0] * error).mean()  
            gradient2 = (X.iloc[:, 1] * error).mean()
            gradient3 = (X.iloc[:, 2] * error).mean()
            gradient0 = error.mean()                    
            self.w_1 = self.w_1 - self.learning_rate * gradient1   
            self.w_2 = self.w_2 - self.learning_rate * gradient2
            self.w_3 = self.w_3 - self.learning_rate * gradient3
            self.w_0 = self.w_0 - self.learning_rate * gradient0   

    def predict(self, X):                           # функция для предсказания класса из таблицы с тремя фичами.
        yhat = X.iloc[:, 0] * self.w_1 + X.iloc[:, 1] * self.w_2 + X.iloc[:, 2] * self.w_3 + self.w_0  # считаем предсказание как сумму произведений текущей фичи и веса, добавляем свободный член.
        cl = pd.DataFrame()
        cl = [0 if x < 0.5  else 1 for x in yhat]   # для предсказанных y меньше 0.5 применяем класс 0. Для остальных предсказанных у применяем класс 1.
        return cl                                   # возвращаем датафрейм с предсказанными классами.

In [38]:
lr = LogReg(0.01)
lr.fit(train[['x1', 'x2', 'x3']], train['y'])
y_pred = lr.predict(test.iloc[:, :3])

# Посчитаем количество совпавших классов.
from sklearn.metrics import accuracy_score
score = accuracy_score(test[['y']], y_pred)

score

0.8

Сравним результаты созданной модели с реализованной в sklearn.

In [39]:
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression()
log_reg.fit(train[['x1', 'x2', 'x3']], train['y'])
y_pred_test = log_reg.predict(test.iloc[:, :3])

score_test = accuracy_score(test[['y']], y_pred_test)

score_test

0.805

Результаты выше реализованного класса и модели близки к тем, что реализованы в библиотеке sklearn