In [29]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

#### В качестве dataset’а берем Iris, оставив 2 класса: Iris Versicolor, Iris Virginica

In [11]:
data = load_iris()
X = data.data[data.target > 0]
y = data.target[data.target > 0]

#### Т.к. остались классы 1 и 2, преобразую их в значений 0 и 1.

In [13]:
y = y - 1

In [24]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [26]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)

#### Производная от Loss-функции.
Функция имеет следующий вид:
$$J = -\sum_{i=1}^{N} y_i\log (h_\theta(x_i)) + (1 - y_i)\log(1 - h_\theta(x_i))$$

Возьмем от нее производную:
$$(y_i\log (h_\theta(x_i)) + (1 - y_i)\log(1 - h_\theta(x_i)))'$$
Производная от суммы равна сумме производных:
$$((y_i\log (h_\theta(x_i)))' + ((1 - y_i)\log(1 - h_\theta(x_i)))'$$
Раскрываем первую скобку, считая производную от произведения по формуле (x*y)' = x*y' + x'*y:
$$y_i(log (h_\theta(x_i))' + (y_i)'\log (h_\theta(x_i) + ((1 - y_i)\log(1 - h_\theta(x_i)))'$$
Производная от y равна 1, производная от ln(x) равна $\frac{1}{x}$:
$$\frac{y_i}{h_\theta(x_i)} + log (h_\theta(x_i)) + ((1 - y_i)\log(1 - h_\theta(x_i)))'$$
Раскрываем вторую скобку ровно по тем же правилам:
$$\frac{y_i}{h_\theta(x_i)} + log (h_\theta(x_i)) + (1 - y_i)\log(1 - h_\theta(x_i))' + (1 - y_i)'\log(1 - h_\theta(x_i))$$
$$\frac{y_i}{h_\theta(x_i)} + log (h_\theta(x_i)) + \frac{1 - y_i}{1 - h_\theta(x_i)} + (1' - y_i')\log(1 - h_\theta(x_i))$$
Производная от 1 равна нулю:
$$\frac{y_i}{h_\theta(x_i)} + log (h_\theta(x_i)) + \frac{1 - y_i}{1 - h_\theta(x_i)} - \log(1 - h_\theta(x_i))$$
Переупорядочиваем:
$$\frac{y_i}{h_\theta(x_i)} + \frac{1 - y_i}{1 - h_\theta(x_i)} + log (h_\theta(x_i)) - \log(1 - h_\theta(x_i))$$
Все это суммируем и берем со знаком минус.

In [78]:
class GradientClassifier:
    
    params = []
    
    def __init__(self):
        self.learning_rate = 0.1
        self.epochs = 2
        self.params = []
    
    def sigmoid(self, y_hat):
        return 1 / (1 + np.exp(-y_hat))
    
    def loss_prime(self, y_true, y_pred):
        return (y_true / y_pred) + ((1 - y_true) / (1 - y_pred)) + np.log(y_pred) - np.log(1 - y_pred)
    
    def fit(self, X, y):
        
        self.params = np.random.normal(size=(5,))
        for _ in range(self.epochs):
            print('--------------------------------------------')
            print(self.params)
            y_hat = self.params[0] + self.params[1] * X[:, 0] + self.params[2] * X[:, 1] + self.params[3] * X[:, 2] + self.params[4] * X[:, 3]
            print(y_hat)
            y_pred = self.sigmoid(y_hat)
            print(y_pred)
            
            dl = self.loss_prime(y, y_pred)
            print(dl)

            self.params[0] -= self.learning_rate * -np.sum(dl)
            self.params[1] -= self.learning_rate * -np.sum(dl * X[:, 0])
            self.params[2] -= self.learning_rate * -np.sum(dl * X[:, 1])
            self.params[3] -= self.learning_rate * -np.sum(dl * X[:, 2])
            self.params[4] -= self.learning_rate * -np.sum(dl * X[:, 3])


In [79]:
cls = GradientClassifier()
cls.fit(X_train, y_train)
cls.params

--------------------------------------------
[ 0.47597001  0.26733817  1.63044275  0.64271295 -1.07249112]
[ 0.24438282  1.64477609  0.73685979  0.87686313 -1.22871486  1.41204963
  1.30530551  1.20674363  1.09463744  1.54415537 -0.33860978  1.84248828
 -0.29584221 -3.58552929 -0.43735484 -2.23045829 -2.05166135  1.31487643
  2.53332903 -1.65220042 -0.71707688  2.13554142  1.7576002  -1.22555198
  0.75010031 -0.60745453 -0.72489276  1.28630853  0.43566781 -0.09255222
 -2.5649095   1.48694236 -0.33544691 -1.81132136  2.20838561 -2.08610632
  2.15653468 -1.61501699  1.71354542  1.21902876 -1.39514495 -0.09371882
 -0.65551525 -0.69332602 -2.22876582  0.9914423   1.36368511  1.73246067
  6.02801774  1.01341896  0.80629987 -1.60869125  1.60035493  1.28512278
  3.16619545  0.89100476  0.99301415  1.15903898  1.14046643  0.47562801
  1.70434144  1.06347596 -0.77811263  0.52234982  1.45945048  0.51749447
  3.25671937  1.7782705  -0.18017875  0.69768009]
[0.56079344 0.83818377 0.6763088  0.7061

  
  
  


array([nan, nan, nan, nan, nan])

#### На втором шаге постоянно получаю значение сигмоида равное 1, что приводит к делению на 0. Видимо я не правильно вычислил производную для функции потерь или неправильно ее применяю :(