**Цель**: изучить применение методов оптимизации для решения задачи классификации
**Описание задания**:
В домашнем задании необходимо применить полученные знания в теории оптимизации и машинном обучении для реализации логистической регрессии.
Этапы работы:**

Загрузите данные. Используйте датасет с ирисами. Его можно загрузить непосредственно из библиотеки Sklearn. В данных оставьте только 2 класса: Iris Versicolor, Iris Virginica.

Самостоятельно реализуйте логистическую регрессию, без использования метода LogisticRegression из библиотеки. Можете использовать библиотеки pandas, numpy, math для реализации. Оформите в виде функции. *Оформите в виде класса с методами.

Реализуйте метод градиентного спуска. Обучите логистическую регрессию этим методом. Выберете и посчитайте метрику качества. Метрика должна быть одинакова для всех пунктов домашнего задания. Для упрощения сравнения выберете только одну метрику.

Повторите п. 3 для метода скользящего среднего (Root Mean Square Propagation, RMSProp).

Повторите п. 3 для ускоренного по Нестерову метода адаптивной оценки моментов (Nesterov–accelerated Adaptive Moment Estimation, Nadam).

Сравните значение метрик для реализованных методов оптимизации. Можно оформить в виде таблицы вида |метод|метрика|время работы| (время работы опционально). Напишите вывод.

Для лучшего понимания темы и упрощения реализации можете обратиться к статье.

Для получение зачета по этому домашнему заданию, минимально, должно быть реализовано обучение логистической регрессии и градиентный спуск.

**Результат**: получены навыки реализации методов оптимизации в задаче бинарной классификации. Пройденные методы оптимизации используются и в нейросетях.

Загрузите данные. Используйте датасет с ирисами. Его можно загрузить непосредственно из библиотеки Sklearn. В данных оставьте только 2 класса: Iris Versicolor, Iris Virginica. https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html 

In [118]:
from sklearn import datasets
import numpy as np
import pandas as pd
from datetime import datetime

In [53]:
from sklearn.datasets import load_iris
data = load_iris()

In [58]:
data

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [54]:
keys = data.keys()
keys

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [59]:
data.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [60]:
data.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [61]:
data.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [74]:
data.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [79]:
X = []
Y = []
X_origin = data.data
for index, item in enumerate(data.target):
    if item == 1 or item == 2:
        X.append(X_origin[index])
        Y.append(item - 1) # нормализуем

X = np.asarray(X)
Y = np.asarray(Y)

In [80]:
Y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

Самостоятельно реализуйте логистическую регрессию, без использования метода LogisticRegression из библиотеки. Можете использовать библиотеки pandas, numpy, math для реализации. Оформите в виде функции. *Оформите в виде класса с методами.

Реализуйте метод градиентного спуска. Обучите логистическую регрессию этим методом. Выберите и посчитайте метрику качества. Метрика должна быть одинакова для всех пунктов домашнего задания. Для упрощения сравнения выберите только одну метрику.

Повторите п. 3 для метода скользящего среднего (Root Mean Square Propagation, RMSProp).

Повторите п. 3 для ускоренного по Нестерову метода адаптивной оценки моментов (Nesterov–accelerated Adaptive Moment Estimation, Nadam).

In [85]:
class MyLogisticRegression():

    def theta(self, theta, X):
        return theta[0] + theta[1] * X[:, 0] + theta[2] * X[:, 1] + theta[3] * X[:, 2] + theta[4] * X[:, 3]

    def sigmoid(self, theta):
        return 1./(1 + np.exp(-theta))

    def predict(self, theta, X):
        return self.sigmoid(self.theta(theta, X))

    def loss_function(self, Y, sigmoid):
        return np.sum(np.square(sigmoid - Y)) / (2 * len(sigmoid))
        # return - np.mean(np.log(sigmoid) * Y + np.log(1 - sigmoid) * (1 - Y))

    def predict_grad(self, X, Y, epochs, rate, theta):
        losses = []
        for _ in range(epochs):
            sigmoid = self.predict(theta, X)
            loss = self.loss_function(Y, sigmoid)
            losses.append(loss)
            theta[0] = theta[0] - rate * np.sum(sigmoid - Y) / len(sigmoid)
            theta[1] = theta[1] - rate * np.sum((sigmoid - Y) * X[:, 0])/len(sigmoid)
            theta[2] = theta[2] - rate * np.sum((sigmoid - Y) * X[:, 1])/len(sigmoid)
            theta[3] = theta[3] - rate * np.sum((sigmoid - Y) * X[:, 2])/len(sigmoid)
            theta[4] = theta[4] - rate * np.sum((sigmoid - Y) * X[:, 3])/len(sigmoid)
            
        return [theta, losses[0], losses[- 1], self.count_errors(X, Y, theta)]

    
    def predict_rmsprop(self, X, Y, epochs, rate, epsilon, gamma, theta):
        
        grad = np.zeros(5)
        sq_grad = np.zeros(5)
        losses = []
        for _ in range(epochs):
            sigmoid = self.predict(theta, X)
            loss = self.loss_function(Y, sigmoid)
            losses.append(loss)
            grad[0] = np.sum(sigmoid - Y)/len(sigmoid)
            grad[1] = np.sum((sigmoid - Y) * X[:, 0])/len(sigmoid)
            grad[2] = np.sum((sigmoid - Y) * X[:, 1])/len(sigmoid)
            grad[3] = np.sum((sigmoid - Y) * X[:, 2])/len(sigmoid)
            grad[4] = np.sum((sigmoid - Y) * X[:, 3])/len(sigmoid)
            sq_grad = gamma * sq_grad + (1 - gamma)  * grad ** 2
            theta -= rate * grad / np.sqrt(sq_grad + epsilon)
        return [theta, losses[0], losses[len(losses) - 1], self.count_errors(X, Y, theta)]

    
    def predict_nadam(self, X, Y, epochs, rate, gamma, theta):
        
        vt = np.zeros(5)
        vt_prev = np.zeros(5)
        losses = []
        for _ in range(epochs):
            sigmoid = self.predict(theta, X)
            loss = self.loss_function(Y, sigmoid)
            losses.append(loss)
            sigmoid = self.predict(theta - gamma * vt_prev, X)
            vt[0] = (gamma * vt_prev[0] + rate * np.sum(sigmoid - Y))/len(sigmoid)
            vt[1] = (gamma * vt_prev[1] + rate * np.sum((sigmoid - Y) * X[:, 0]))/len(sigmoid)
            vt[2] = (gamma * vt_prev[2] + rate * np.sum((sigmoid - Y) * X[:, 1]))/len(sigmoid)
            vt[3] = (gamma * vt_prev[3] + rate * np.sum((sigmoid - Y) * X[:, 2]))/len(sigmoid)
            vt[4] = (gamma * vt_prev[4] + rate * np.sum((sigmoid - Y) * X[:, 3]))/len(sigmoid)
            theta -= vt
            vt_prev = vt
        return [theta, losses[0], losses[len(losses) - 1], self.count_errors(X, Y, theta)]

    def count_errors(self, X, Y, theta):
        count = 0
        for index, item in enumerate(np.around(self.predict(theta, X))):
            # print(int(item), Y[index].item())
            if int(item) != Y[index].item():
                count += 1
        return count

In [90]:
theta_rand = np.random.normal(size=(5,))
theta_rand

array([-0.05919075,  0.69043913, -0.54910428,  0.19074525, -0.71171019])

In [96]:
theta = theta_rand
rg = MyLogisticRegression()
start_time = datetime.now()
pr_logReg = rg.predict_grad(X, Y, 50000, 0.001, theta)
t_logReg = (datetime.now() - start_time)
pr_logReg, t_logReg

([array([-5.93494482, -4.06084272, -4.46914662,  6.23987896,  8.06868624]),
  0.012457188124359779,
  0.012388783586511956,
  3],
 datetime.timedelta(seconds=4, microseconds=441535))

In [97]:
theta = theta_rand
start_time = datetime.now()
pr_rmsprop = (rg.predict_rmsprop(X, Y, 50000, 0.01, 0.9999, 0.99999, theta))
t_rmsprop = (datetime.now() - start_time)
pr_rmsprop,t_rmsprop

([array([-7.24799744, -4.1550427 , -4.73981899,  6.52461534,  8.8145822 ]),
  0.012388782258266088,
  0.011868156433606489,
  3],
 datetime.timedelta(seconds=5, microseconds=412491))

In [98]:
theta = theta_rand
start_time = datetime.now()
pr_nadam = (rg.predict_nadam(X, Y, 50000, 0.01, 0.9, theta))
t_nadam  = (datetime.now() - start_time)
pr_nadam,t_nadam 

([array([-8.39811693, -4.17390154, -4.90442802,  6.69398541,  9.34219553]),
  0.011868148183494978,
  0.011520122623951688,
  3],
 datetime.timedelta(seconds=5, microseconds=966816))

Сравните значение метрик для реализованных методов оптимизации. Можно оформить в виде таблицы вида |метод|метрика|время работы| (время работы опционально). Напишите вывод.

In [124]:
pd.DataFrame({
    'метод':['LogisticRegression','Rmsprop','Nadam'],
    'кол-во ошибок':[ pr_logReg[3], pr_rmsprop[3], pr_nadam[3]],
    'время работы':[t_logReg.total_seconds(), t_rmsprop.total_seconds(), t_nadam.total_seconds()]
})

Unnamed: 0,метод,кол-во ошибок,время работы
0,LogisticRegression,3,4.441535
1,Rmsprop,3,5.412491
2,Nadam,3,5.966816


Вывод: методы не отличаются по количеству ошибок, незначительными различиями во времени выполнения в нашем случае можно пренебречь и признать методы равнопродуктивными