**Описание задания:**

В домашнем задании необходимо применить полученные знания в теории оптимизации и машинном обучении для реализации логистической регрессии.

**Этапы работы:**

* Загрузите данные. Используйте датасет с ирисами. Его можно загрузить непосредственно из библиотеки Sklearn. В данных оставьте только 2 класса: Iris Versicolor, Iris Virginica.
* Самостоятельно реализуйте логистическую регрессию, без использования метода LogisticRegression из библиотеки. Можете использовать библиотеки pandas, numpy, math для реализации. Оформите в виде функции. *Оформите в виде класса с методами.
* Реализуйте метод градиентного спуска. Обучите логистическую регрессию этим методом. Выберете и посчитайте метрику качества. Метрика должна быть одинакова для всех пунктов домашнего задания. Для упрощения сравнения выберете только одну метрику.
* Повторите п. 3 для метода скользящего среднего (Root Mean Square Propagation, RMSProp).
* Повторите п. 3 для ускоренного по Нестерову метода адаптивной оценки моментов (Nesterov–accelerated Adaptive Moment Estimation, Nadam).
* Сравните значение метрик для реализованных методов оптимизации. Можно оформить в виде таблицы вида |метод|метрика|время работы| (время работы опционально). Напишите вывод.
* Для лучшего понимания темы и упрощения реализации можете обратиться к [статье](https://habr.com/ru/post/318970/).

Для получение зачета по этому домашнему заданию, минимально, должно быть реализовано обучение логистической регрессии и градиентный спуск.

## Load data

In [None]:
from sklearn import datasets
import pandas as pd

iris = datasets.load_iris(as_frame=True)
iris.target_names


array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [None]:
df = iris.frame
df = df[df['target']!=0]
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
50,7.0,3.2,4.7,1.4,1
51,6.4,3.2,4.5,1.5,1
52,6.9,3.1,4.9,1.5,1
53,5.5,2.3,4.0,1.3,1
54,6.5,2.8,4.6,1.5,1


In [None]:
X = df.drop('target', axis=1)

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit(df['target'])
y = pd.Series(le.transform(df['target']))

In [None]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

## My Logistic Regression

In [None]:
# Based on https://www.machinelearningmastery.ru/building-a-logistic-regression-in-python-301d27367c24/
# Code https://github.com/animesh-agarwal/Machine-Learning/blob/master/LogisticRegression/Model.py
import numpy as np
import math

class MyLogisticRegression():
    def __init__(self, theta=None, n_epochs=10000, lr=1e-3):
        self.theta = theta
        self.n_epochs = n_epochs
        self.lr = lr

    def sigmoid(self, X):
        if self.theta is None:
            self.theta = np.ones(X.shape[1])

        return 1/(1+math.e**(-np.dot(X, self.theta)))

    def cost_function(self, X, y):
        m = X.shape[0]
        total_cost = -(1 / m) * np.sum(
            y * np.log(self.sigmoid(X)) + (1 - y) * np.log(
                1 - self.sigmoid(X)))
        return total_cost
    
    def calc_gradient(self, X, y):
        m = X.shape[0]
        return (1 / m) * np.dot(X.T, self.sigmoid(X) - y)
    
    def fit(self, X, y):

        if self.theta is None:
          self.theta = np.ones(X.shape[1])
        
        for _ in range(self.n_epochs):
            self.theta -= self.lr * self.calc_gradient(X, y)
        return self

    def predict(self, X):
        return np.where(self.sigmoid(X) <= 0.5, 0, 1)

    def proba(self, X):
        return self.sigmoid(X)

# ML

##GD

In [None]:
%%time
model_gd = MyLogisticRegression()
model_gd.fit(X, y)

CPU times: user 6.45 s, sys: 448 ms, total: 6.9 s
Wall time: 6.16 s


In [None]:
model_gd.predict(X)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [None]:
np.array(y)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

## RMSProp

In [None]:
class RMSProp(MyLogisticRegression):
    def __init__(self, theta=None, n_epochs=10000, gamma=0.9, lr=1e-1, epsilon=1e-8):
        self.gamma = gamma
        self.n_epochs = n_epochs
        self.theta = theta
        self.lr = lr
        self.Eg2 = 0
        self.epsilon = epsilon

    def fit(self, X, y):
        if self.theta is None:
          self.theta = np.ones(X.shape[1])

        for _ in range(self.n_epochs):
            self.Eg2 = self.gamma*self.Eg2 + (1-self.gamma)*self.calc_gradient(X, y)**2
            self.theta -= self.lr*self.calc_gradient(X, y)/np.square(self.Eg2+self.epsilon)

        return self

In [None]:
%%time
model_rmsprop = RMSProp()
model_rmsprop.fit(X, y)

CPU times: user 13.5 s, sys: 1.09 s, total: 14.6 s
Wall time: 12.8 s


In [None]:
model_rmsprop.predict(X)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [None]:
np.array(y)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

##Nadam

In [None]:
class MyNadam(MyLogisticRegression):
    def __init__(self, theta=None, n_epochs=10000, gamma=0.9, lr=1e-3):
        self.gamma = gamma
        self.speed = 0
        self.n_epochs = n_epochs
        self.theta = theta
        self.lr = lr

    def fit(self, X, y):
        if self.theta is None:
          self.theta = np.ones(X.shape[1])
        
        for _ in range(self.n_epochs):
            self.speed = self.gamma*self.speed + self.lr*(self.calc_gradient(X, y) - self.gamma*self.speed)
            self.theta -= self.speed
        return self

In [None]:
%%time
model_nadam = MyNadam()
model_nadam.fit(X, y)

CPU times: user 6.65 s, sys: 479 ms, total: 7.13 s
Wall time: 6.33 s


In [None]:
model_nadam.predict(X)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [None]:
np.array(y)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

# Score
Используем метрику качества - F-мера

## GD

In [None]:
from sklearn.metrics import f1_score

f1_score(y, model_gd.predict(X), average='macro')

0.949954959463517

##RMSProp

In [None]:
from sklearn.metrics import f1_score

f1_score(y, model_rmsprop.predict(X), average='macro')


0.949874686716792

##Nadam

In [None]:
from sklearn.metrics import f1_score

f1_score(y, model_nadam.predict(X), average='macro')


0.9599358974358974

#Conclusions

Начальные значения весов для данных во всех алгоритмах начинаются с 1.

Ощутимой разницы в измеряемой метрике качества (F-мера) не наблюдается.
Метрика качества имеет высокое значение, хотя не удивительно, она измеряется на обучающей выборке.

Время обучения алгоритмов GD и Nadam схожее и состовляет несколько больше 6 секунд.  Алгоритм RMSprop работает в двое медленне 12 секунд. (Выборка 100 объектов)


In [None]:
# Что доработать:
# 1. Не учтен свободный член в линейной регрессии?
# 2. Визуализация изменения функции потерь
# 3. Нет деления на обучающие и проверочные данные
# 4. 
