Рассмотрим задачу бинарной классификации, пусть целевая переменная $y_i \in \{+1, -1\}$  
  
Хотим предсказывать не класс нашего объекта, а вероятность, что он принадлежит к классу +1, то есть $f(x_i) = \mathbb{P}(y_i = +1 | x_i)$  
  
Зададим функцию правдоподобия:

$\mathcal{L} = \prod\limits_{i=1}^{n}f(x_i)^{[y_i=+1]}(1-f(x_i))^{[y_i = -1]}$

$-log\mathcal{L} = -\sum\limits_{i=1}^{n}\big(  [y_i=+1]logf(x) + [y_i=-1]log(1 - f(x)) \big)$  
  
В качестве f возьмем сигмоиду:  

$\sigma(x) = \dfrac{1}{1 + e^{-x}}$  
  
$f(x^i) = \sigma(<x^i, \omega>)$  
  
Получим: $log-loss = \dfrac{1}{n}\sum\limits_{i=1}^{n}log(1 + e^{y^i<x^i, \omega>})$  
  
$\frac{\partial (logloss)}{\partial \omega^j} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\dfrac{y^i x^i_je^{y^i<x^i, \omega>}}{1 + e^{y^i<x^i, \omega>}} = \dfrac{1}{n}\sum\limits_{i=1}^{n}y^i x^i_j\sigma(-y^i<x^i, \omega>)$

In [5]:
import numpy as np

In [1]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [4]:
class LogReg():
    
    def __init__(self, batch_size=35, num_steps=350, lr=1e-2):
        self.batch_size = batch_size
        self.num_steps = num_steps
        self.lr = lr

    def fit(self, X, y):
        w = np.random.randn(X.shape[1])[:, None]
        n_objects = len(X)

        for i in range(self.num_steps):
            sample_indices = np.random.randint(0, n_objects, size=self.batch_size)
            w -= self.lr * X[sample_indices].T @ (y[sample_indices] * sigmoid(X[sample_indices]@w * y[sample_indices]))

        self.w = w
        return self

    def predict(self, X):
        y_pred = sigmoid(X@self.w)
        return (-1) * (y_pred < 0.5) + (y_pred >= 0.5)