In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets

In [2]:
iris = datasets.load_iris()
X = iris.data[50:]
X_b = np.c_[np.ones((100, 1)), X]
y = iris.target[50:]
y[:50] = 0
y[50:] = 1

## Logistic Regression
Логистическая регрессия - вероятностная бинарная модель, которая является аналогом линейного классификатора. Считаем взвешенную сумму весов и входящих данных. Передаём её логистической функции, которая выдаёт вероятностную оценку принадлежности к классу.  
Оцениваем работу модели с помощью логистической функции потерь.  
Улучшаем качество модели с помощью итеративного алгоритма градиентного спуска.

In [3]:
def logistic_regression(x_w):
    return 1 / (1 + np.exp(-x_w))

In [4]:
d = X_b.shape[1]

## Градиентный спуск  

In [5]:
def log_loss(y_pred, y_true):
    return -(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))

In [None]:
weights = np.random.randn(d, 1) # рандомная инициализация весов
epochs = 10000
TMP = 10 # константное значение 
for epoch in range(1, epochs+1):
    grad = np.zeros((d, 1))
    glob_error = 0
    eta = TMP / epoch # шаг обучения
    for point, target in zip(X_b, y): # можно реализовать обучение векторно
        prob = logistic_regression(point.dot(weights))
        glob_error += log_loss(prob, target)
        grad += (prob - target) * point.reshape((-1, 1)) / X.shape[0]
    print("ERROR: {}".format(glob_error / X.shape[0]))
    weights -= eta * grad

## Adagrad
Отличие от классического градиентного спуска в том, что веса меняются относительно каждой фичи. Использование данного оптимизатора полезно, когда фичи имеют разные масштабы.  
Например спам фильтр. Частоты появления различных слов могут варьироваться.

In [None]:
ada_weights = np.random.randn(d, 1)
epochs = 100
eta = 0.1
for epoch in range(1, epochs+1):
    grad = np.zeros((d, 1))
    z = np.zeros((d, 1))
    glob_error = 0
    for point, target in zip(X_b, y):
        prob = logistic_regression(point.dot(weights))
        glob_error += log_loss(prob, target)
        grad += (prob - target) * point.reshape((-1, 1)) / X.shape[0]
        z += grad ** 2
    print("ERROR: {}".format(glob_error / X.shape[0]))
    ada_weights -= eta * grad / np.sqrt(z + 1e-7)