# Домашнее задание
* Прочитать про методы оптимизации для нейронных сетей https://habr.com/post/318970/
* Реализовать самостоятельно логистическую регрессию
    * Обучить ее методом градиентного спуска
    * Методом nesterov momentum
    * Методом rmsprop
* В качестве dataset'а взять Iris, оставив 2 класса:
    * Iris Versicolor
    * Iris Virginica

##### Решение 

[**С П И С А Н О**](https://github.com/ddbourgin/numpy-ml)

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris # Датасет с ирисами
from sklearn.model_selection import train_test_split # Метотод разделения выборки на тренировочную и тестовую 
from sklearn.metrics import roc_curve # построение ROC-кривой (Receiver Operating Characteristic)
import matplotlib.pyplot as plt

In [2]:
#Формируем целевой датасет на основе iris
iris = load_iris()
df_iris = pd.DataFrame( iris['data'], 
                        columns = [ item.replace(' (cm)', '').replace(' ', '_') for item in iris['feature_names']] )
df_iris['variety']      = iris['target']

#оставляем только 2 класса 1:versicolor, 2:virginica
df_iris_target = df_iris[ (df_iris['variety'].isin([1,2]) ) ]

#определяем выборку
X = df_iris_target.iloc[:, :-1]
y = df_iris_target.iloc[:, -1] - 1 #переводим классы цветов в 0 и 1

<img src = "img\formula1.jpg">
<img src = "img\formula2.jpg">
<img src = "img\formula3.jpg">

In [3]:
# Опредление сигмоидной функции
def sigmoid(x):
    """ Логистическая сигмоидная функция """
    return 1 / (1 + np.exp(-x))

class LogisticRegression:
    def __init__(self, penalty="l2", gamma=0, fit_intercept=True):
        r"""
        Пример логистичечкой регрессии с применением в качестве метода обучения градиентного спуска,
        функция максимального правдоподобия см. Формулу 1, Формула 2
        Функция R - это штраф за регуляризацию.
        
        N - объем выборки (количество примеров)
        betta - вектор коэффициентов модели. 
        
        Параметры
        ----------
        penalty : {'l1', 'l2'} 
            Тип регуляризационного штрафа, применяемого к коэффициентам betta. 
            По умолчанию используется 'l2'
        
        gamma : float
            Вес регуляризации. Большие значения соответствуют большим
            штрафы за регуляризацию, а значение 0 указывает на отсутствие штрафа.
            По умолчанию 0.
        
        fit_intercept : bool
        Необходимо ли в выбрку добалять первую единицу? #ничего не понятно#
        Стоит ли вписываться в дополнение перехват срок коэффициентов в betta. 
        Если значение равно true, betta будет  'М + 1' габариты, где первое измерение соответствует перехватить. 
        Значение по умолчанию True.
        """
        err_msg = f"penalty must be 'l1' or 'l2', but got: {penalty}"
        assert penalty in ["l2", "l1"], err_msg # тестовые сообщения
        self.beta = None # инициализация вектра коэффициентов
        self.gamma = gamma
        self.penalty = penalty
        self.fit_intercept = fit_intercept

    def fit(self, X, y, lr=0.01, tol=1e-7, max_iter=1e7):
        """
        Определение коэффициентов регресии методом градиентного спуска.

        Параметры
        ----------
        X : Набор данных (независимые переменные) <numpy.ndarray> 
        y : Целевые значения (зависимые переменные от X) бинарные данные 
        lr : float
           Скорость обучения градиентному спуску. 
           По умолчанию 1e-7.
           
        max_iter : float
            Максимальное количество итераций для запуска градиентного спуска. 
            По умолчанию 1e7.
        """
        # convert X to a design matrix if we're fitting an intercept
        if self.fit_intercept:
            X = np.c_[np.ones(X.shape[0]), X]

        l_prev = np.inf # присвоение +бесконечного значения
        self.beta = np.random.rand(X.shape[1]) #инициирование вектора коэф.
        for _ in range(int(max_iter)):
            y_pred = sigmoid(np.dot(X, self.beta))
            loss = self._NLL(X, y, y_pred)
            if l_prev - loss < tol:
                return
            l_prev = loss
            self.beta -= lr * self._NLL_grad(X, y, y_pred)

    def _NLL(self, X, y, y_pred):
        r"""
        Фозвращает значение функции мксимального правдоподобия (см. формула 3)
        """
        N, M = X.shape
        beta, gamma = self.beta, self.gamma 
        order = 2 if self.penalty == "l2" else 1
        norm_beta = np.linalg.norm(beta, ord=order) # получение нормы матрицы
        
        nll = -np.log(y_pred[y == 1]).sum() - np.log(1 - y_pred[y == 0] ).sum()
        penalty = (gamma / 2) * norm_beta ** 2 if order == 2 else gamma * norm_beta
        return (penalty + nll) / N

    def _NLL_grad(self, X, y, y_pred):
        """ Градиентный спуск """
        N, M = X.shape
        l1norm = lambda x: np.linalg.norm(x, 1)  # np.max(np.sum(np.abs(x), axis=0)), получение нормы матрицы
        p, beta, gamma = self.penalty, self.beta, self.gamma
        d_penalty = gamma * beta if p == "l2" else gamma * np.sign(beta)
        return -( np.dot(y - y_pred, X) + d_penalty ) / N

    def predict(self, X):
        """
        Получение данных по обученной модели

        Параметры:
        X : Независимые переменные

        Возвращает:
        y_pred : Предсказаные вероятности значений
        """
        # convert X to a design matrix if we're fitting an intercept
        if self.fit_intercept:
            X = np.c_[np.ones(X.shape[0]), X]
        return sigmoid( np.dot(X, self.beta) )

In [4]:
lr = LogisticRegression()
# Разделяем данные на тренировучную и тестовую
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
#Обучаем модель
lr.fit(X_train, y_train)

In [7]:
y_predict = lr.predict(X_test)

In [8]:
def get_proba(val, p):
    ret = p
    if val == 0:
        ret = 1 - p
    return round(ret, 4)
    
for val, p in zip(y_test, y_predict):
    print(f'Вероятность верного предсказания {val} составляет {get_proba(val, p)} ')

Вероятность верного предсказания 1 составляет 1.0 
Вероятность верного предсказания 1 составляет 0.7733 
Вероятность верного предсказания 0 составляет 0.9906 
Вероятность верного предсказания 0 составляет 0.9988 
Вероятность верного предсказания 0 составляет 0.9237 
Вероятность верного предсказания 0 составляет 0.9991 
Вероятность верного предсказания 0 составляет 0.9997 
Вероятность верного предсказания 0 составляет 0.9984 
Вероятность верного предсказания 1 составляет 0.9983 
Вероятность верного предсказания 1 составляет 0.6554 
Вероятность верного предсказания 1 составляет 0.9999 
Вероятность верного предсказания 0 составляет 0.9997 
Вероятность верного предсказания 0 составляет 0.9999 
Вероятность верного предсказания 0 составляет 0.9999 
Вероятность верного предсказания 1 составляет 0.9998 
Вероятность верного предсказания 1 составляет 0.999 
Вероятность верного предсказания 1 составляет 0.9997 
Вероятность верного предсказания 1 составляет 1.0 
Вероятность верного предсказания 1 