# Задание
## Вопросы по заданию
### Преподаватель: Даниил Корбут, Наталья Баданина, Александр Миленькин

# Задание

# Цель: 
изучить применение методов оптимизации для решения задачи классификации

# Описание задания:
В домашнем задании необходимо применить полученные знания в теории оптимизации и машинном обучении для реализации логистической регрессии.

## Этапы работы:**

### Загрузите данные. 
- Используйте датасет с ирисами (https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html). Его можно загрузить непосредственно из библиотеки Sklearn. В данных оставьте только 2 класса: Iris Versicolor, Iris Virginica.
- Самостоятельно реализуйте логистическую регрессию, без использования метода LogisticRegression из библиотеки. Можете использовать библиотеки pandas, numpy, math для реализации. Оформите в виде функции. *Оформите в виде класса с методами.
- Реализуйте метод градиентного спуска. Обучите логистическую регрессию этим методом. Выберете и посчитайте метрику качества. Метрика должна быть одинакова для всех пунктов домашнего задания. Для упрощения сравнения выберете только одну метрику.
- Повторите п. 3 для метода скользящего среднего (Root Mean Square Propagation, RMSProp).
- Повторите п. 3 для ускоренного по Нестерову метода адаптивной оценки моментов (Nesterov–accelerated Adaptive Moment Estimation, Nadam).
- Сравните значение метрик для реализованных методов оптимизации. Можно оформить в виде таблицы вида |метод|метрика|время работы| (время работы опционально). Напишите вывод.


Для лучшего понимания темы и упрощения реализации можете обратиться к статье:
https://habr.com/en/post/318970/

Для получение зачета по этому домашнему заданию, минимально, должно быть реализовано обучение логистической регрессии и градиентный спуск.

### Результат: 
получены навыки реализации методов оптимизации в задаче бинарной классификации. Пройденные методы оптимизации используются и в нейросетях.

### Форма выполнения: 
ссылка на Jupyter Notebook, загруженный на GitHub; ссылка на Google Colab; файл с расширением .ipynb.

### Инструменты: 
Jupyter Notebook/Google Colab; GitHub.

*Рекомендации к выполнению:
- Текст оформляйте в отдельной ячейке Jupyter Notebook/Google Colab в формате markdown.
- У графиков должен быть заголовок, подписи осей, легенда (опционально). Делайте графики бОльшего размера, чем стандартный вывод, чтобы увеличить читаемость.
- Убедитесь, что по ссылкам есть доступ на чтение/просмотр.
- Убедитесь, что все ячейки в работе выполнены и можно увидеть их вывод без повторного запуска.

In [None]:
##############################
# Используйте датасет с ирисами (https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html). 
# Его можно загрузить непосредственно из библиотеки Sklearn. В данных оставьте только 2 класса: Iris Versicolor, Iris Virginica.
##############################

In [2]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import colors

In [3]:
# Загружаем датасет и сразу же смотрим, что загружено
iris_dataset = load_iris()
print(iris_dataset.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [21]:
##############################
# В данных оставьте только 2 класса: Iris Versicolor, Iris Virginica.
##############################

# загружаем данные в датафрейм
iris_data = pd.DataFrame(iris_dataset.data, columns=iris_dataset.feature_names)
#print(iris_data.describe())
# загружаем также целевые значения
variety = iris_dataset.target
# print(variety)
# добавляем колонку с целевыми значениями в общий датафрейм
iris_data['variety'] = pd.Series(variety)
#print(iris_data)

# создаем копию датафрейма, в котором оставлены только два класса. 
# Исходим из того, что Iris Versicolor = 1, Iris Virginica = 2
iris_filtered = iris_data.loc[(iris_data['variety'] > 0)].copy()
iris_filtered.head()

# поскольку в колонке с целевым значением у нас остались только 1 и 2, будет правильно провести замену 2 на 0
# В этом случае в нашем наборе данных будем считать, что Iris Virginica будет с 0, а Iris Versicolor сохранит 1
iris_filtered.loc[(iris_filtered.variety == 2), 'variety'] = 0
iris_filtered.head()

X = 

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),variety
50,7.0,3.2,4.7,1.4,1
51,6.4,3.2,4.5,1.5,1
52,6.9,3.1,4.9,1.5,1
53,5.5,2.3,4.0,1.3,1
54,6.5,2.8,4.6,1.5,1


In [None]:
# Самостоятельно реализуйте логистическую регрессию, без использования метода LogisticRegression из библиотеки. 
# Можете использовать библиотеки pandas, numpy, math для реализации. Оформите в виде функции.*Оформите в виде класса с методами.

# Формулировка этой части задания кажется мне некорректной. Нам здесь надо реализовать не логистическую регрессию, 
# а именно функцию, которая возвращает некоторые значения для конкретного шага оптимизации. Или нет?
# И уже набор этих функций будет вызываться конкретной реализацией?


In [41]:
# В основу реализации положим материалы этой https://habr.com/ru/company/ods/blog/323890/#2-logisticheskaya-regressiya
# и других публикаций про логистическую регрессию

# Вначале определяем функцию сигмоиды, которая должна вернуть вероятность принадлежности текущего объекта к 1 или 2 классу
# при текущих значениях коэффициентов логистической функции.
# xi – вектор признаков примера (вместе с единицей);
# wi – веса в линейной модели (вместе с нулевым смещением w_0)
def f_sigmoid(xi, wi):
    yi = np.dot(xi, wi)
    return 1/(1 + np.exp(-yi))  

# блок тестирования - для себя
x_ = [[1, -3, 4, 2, 5],[1, -3, -4, 2, 5],[1, 3, 4, 2, 5]] 
w_ = [[0, 4, -4, 2, 1]]
f_sigmoid(x_, np.transpose(w_))

array([[5.60279641e-09],
       [9.99997740e-01],
       [9.93307149e-01]])

In [None]:
# Определим функцию потерь. 
def f_loss(h, y):
    return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()


In [70]:
X = iris_filtered.iloc[:,[0,1,2,3]]
Y = iris_filtered.variety.tolist()
#print(Y)
#intercept = np.ones((x.shape[0], 1))
#print(np.zeros(x.shape[1]))

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [137]:
# Объединяем в один класс ранее определенные функции, а также добавляем дополнительные методы
# Постараемся в этом классе определить все заданные по условию задачи способы поиска решения 
# (Метод градиентного спуска, RMSProp, Nadam)

class NetologiaLogisticRegression:
    # Метод __init__ - стандартный конструктор класса.
    def __init__(self, x, y, method):      
        # Создаем колонку из единиц с количеством строк, совпадающим с количеством строк в выборке x
        self.intercept = np.ones((x.shape[0], 1))  
        # Добавляем эту колонку в выборку x
        self.x = np.concatenate((self.intercept, x), axis=1)
        # Создаем нулевой вектор с начальными коэффициентами
        self.coefs = np.zeros(self.x.shape[1])
        # Сохраняем значения целевых значений
        self.y = y
        # Сохраняем имя метода для выполнения поиска решения
        # Допустимые значения: GradDesc, RMSProp, Nadam
        self.method = method
        # Начальная инициализация показателя функции потерь
        self.loss = 9999
        
    # Метод f_sigmoid для вычисления сигмоиды
    def f_sigmoid(self, x, coefs):
        y_ = np.dot(x, coefs)
        return 1/(1 + np.exp(-y_))
    
    # Метод f_loss для вычисления потерь
    def f_loss(self, h, y):
        return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()
    
    # Метод градиентного спуска
    def grad_desc(self, XX, h, y):
        return np.dot(XX.T, (h - y)) / XX.shape[0]

    # Метод RMSProp (заготовка)
    def rmsprop(self, XX, h, y):
        return 0

    # Метод Nadam (заготовка)
    def nadam(self, XX, h, y):
        return 0

    # Метод для обучения модели. 
    # 
    def fit(self, lr, cycles):
        for i in range(cycles):
            # print(self.coefs)            
            calc_sigmoid = self.f_sigmoid(self.x, self.coefs)            
            
            # Проверка для себя результатов выполнения функции вычисления потерь
            self.loss = self.f_loss(calc_sigmoid, pd.Series(self.y))
            #print(loss)   
            if self.method == 'GradDesc':
                dW = self.grad_desc(self.x, calc_sigmoid, self.y)
            
                # Корректируем весовые коэффициенты
                self.coefs -= lr * dW
                #print(self.coefs)
            else:
                continue
            
        return print('Модель обучена')
    
    # Метод для предсказания класса. Его можно использовать после того, как модель уже обучена и коэффициенты подобраны
    # Параметр treshold определяет границу отнесения записей к тому или иному классу. 0.5 - пополам
    def predict(self, x_new , treshold):
        intercept_new = np.ones((x_new.shape[0], 1))
        x_new = np.concatenate((intercept_new, x_new), axis=1)
        result = self.f_sigmoid(x_new, self.coefs)
        result = result >= treshold
        y_pred = np.zeros(result.shape[0])
        for i in range(len(y_pred)):
            if result[i] == True: 
                y_pred[i] = 1
            else:
                continue
                

                return y_pred

In [143]:
%%time
# Реализуйте метод градиентного спуска. Обучите логистическую регрессию этим методом. Выберете и посчитайте метрику качества. 
# Метрика должна быть одинакова для всех пунктов домашнего задания. Для упрощения сравнения выберете только одну метрику.

GradRegr = NetologiaLogisticRegression(X, Y, 'GradDesc')

# 0.1 - шаговый коэффициент, 5000 - количество итераций
GradRegr.fit(0.1, 5000)

y_predict = GradRegr.predict(X, 0.45)

print(f'Точность модели:  {sum(y_predict == Y) / len(Y)}')
print(f'Значение функции потерь:  {GradRegr.loss}')


Модель обучена
Точность модели:  0.97
Значение функции потерь:  0.10543814064361162
Wall time: 10.6 s


In [146]:
%%time
# Попробуем проверить эффективность предсказания, разделив выборку на тестовые данные
from sklearn.model_selection import train_test_split
# Исходный датасет относительно невелик (100 строк), поэтому для тестовых данных оставляем 20% строк (20)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20)

GradRegr80 = NetologiaLogisticRegression(X_train, y_train, 'GradDesc')

GradRegr80.fit(0.1, 5000)

y_predict20 = GradRegr.predict(X_test, 0.5)

print(f'Точность предсказания:  {sum(y_predict20 == y_test) / len(y_test)}')
print(f'Значение функции потерь:  {GradRegr80.loss}')

# При повторных запусках этого блока точность предсказания "плавает" от 0.9 до 1.0

Модель обучена
Точность предсказания:  1.0
Значение функции потерь:  0.12211368661362562
Wall time: 10.8 s



Повторите п. 3 для метода скользящего среднего (Root Mean Square Propagation, RMSProp).

Повторите п. 3 для ускоренного по Нестерову метода адаптивной оценки моментов (Nesterov–accelerated Adaptive Moment Estimation, Nadam).
Сравните значение метрик для реализованных методов оптимизации. Можно оформить в виде таблицы вида |метод|метрика|время работы| (время работы опционально). Напишите вывод.

In [None]:
# С методами RMSP и Nadam не справился... Задание показалось очень сложным, сидел с тем, что успел сделать, два дня.