Домашнее задание

Прочитать про методы оптимизации для нейронных сетей https://habr.com/post/318970/

В качестве dataset'а взять Iris, оставив 2 класса:

Iris Versicolor

Iris Virginica

Реализовать самостоятельно логистическую регрессию

Обучить ее методом градиентного спуска

Методом nesterov momentum

Методом rmsprop

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, roc_auc_score, precision_score, recall_score, confusion_matrix

In [2]:
iris = load_iris()

In [3]:
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [4]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [5]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [6]:
df['variety'] = iris.target
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),variety
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [7]:
# Оставляем только 2 класса: Iris Versicolor, Iris Virginica, уберем те строчки, где target == 0 (это класс setosa)

df = df[df.variety != 0]

In [8]:
# Выделим target

X = df.drop(columns=['variety'])
y = df['variety']

# Заменим target вместо 1 & 2 на 0 & 1

y = np.asarray([0 if x==2 else 1 for x in y])

# Разделим данные на train и test

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

#### Метод градиентного спуска. 

Алгоритм:

1. Задаем $\gamma$ - "learning rate"

2. Выбираем начальное приближение $x_0$

3. for k = 0, 1, 2 ... do

    - $s_k$ = -$\nabla f(x_k)$

    - $x_{k+1} = x_k + \gamma s_k$

#### Метод nesterov momentum 

Алгоритм:

1. считаем старый градиент
2. считаем промежуточный градиент в точке старых весов - 0.9 старого градиента
3. новые веса будут равны старым весам - взвешанная сумма старого градиента и промежуточного

#### Метод rmsprop

Алгоритм:

1. считаем взвешанную сумму квадратов градиентов
2. к старым параметрам градиент с шагом step / корень из взвешанной суммы квадратов

In [9]:
class LogRegression():
    
    def __init__(self, num_iterations=1000, learning_rate=0.01, method='gb', gamma=None, eps=None):
        """
        num_iterations - количество итераций цикла оптимизации
        learning_rate - скорость обучения
        method - метод оптимизации
        """
        self.num_iterations = num_iterations
        self.learning_rate = learning_rate
        self.method = method
        self.gamma = gamma
        self.eps = eps
        
    def sigmoid(self, x):
        s = 1.0 / (1.0 + np.exp(-x))
        return s

    def propagate(self, w, b, X, y):
        """
        Реализует функцию стоимости и ее градиент.
        Принимает на вход:
        w - веса
        б - смещение, скаляр
        X - наши данные 
        y - целевая функция

        Возвращает:
        cost - отрицательная логарифмическая вероятность для логистической регрессии
        dw - градиент w
        db - градиент b
        """
        number_of_features = X.shape[1]
        z = np.dot(w.T,X)+b
        A = self.sigmoid(z)
        dw = 1.0/number_of_features*np.dot(X, (A-y).T)
        db = 1.0/number_of_features*np.sum(A-y)
        grads = {"dw": dw, 
                 "db":db}
        return grads

    def optimize(self, X, y, method):
        """
        Этот метод оптимизирует w и b, различными алгоритмами. (Гр. спуск, nesterov momentum, rmsprop)

        Принимает на вход:
        w - веса
        б - смещение, скаляр
        X - наши данные
        y - целевая функция
        num_iterations - количество итераций цикла оптимизации
        learning_rate - скорость обучения правила обновления градиентного спуска
        
        Возвращает:
        params - словарь, содержащий веса w и смещение b
        grads - словарь, содержащий градиенты весов и смещений
        """
        w = np.zeros((X.shape[0],1))
        b = 0
        costs = []
        if self.method == 'gb':
            for i in range(self.num_iterations):
                grads = self.propagate(w, b, X, y)
                dw = grads["dw"]
                db = grads["db"]
                w = w - self.learning_rate*dw
                b = b - self.learning_rate*db
        elif self.method == 'nm':
            v_w = 0
            v_b = 0
            for i in range(self.num_iterations):
                grads = self.propagate(w, b, X, y)
                dw = grads["dw"]
                db = grads["db"]
                v_w = self.gamma*v_w + self.learning_rate*(1-self.gamma)*dw
                v_b = self.gamma*v_b + self.learning_rate*(1-self.gamma)*db
                w = w - v_w
                b = b - v_b
        elif self.method == 'rmsp':
            EG_w = 0
            EG_b = 0
            for i in range(self.num_iterations):
                grads = self.propagate(w, b, X, y)
                dw = grads["dw"]
                db = grads["db"]
                EG_w = self.gamma*EG_w + (1-self.gamma)*(dw/self.learning_rate)**2                
                EG_b = self.gamma*EG_b + (1-self.gamma)*(db/self.learning_rate)**2
                w = w - dw/(EG_w + self.eps)**0.5
                b = b - db/(EG_b + self.eps)**0.5
        grads = {"dw": dw, "db": db}
        params = {"w": w, "b": b}
        return params
    
    def predict(self, w, b, X):
        """
        Предсказывает будет значение 0 или 1 (граница 0.5).
        """
        y_prediction = np.zeros((1,X.shape[1]))
        w = w.reshape(X.shape[0],1)
        A = self.sigmoid(np.dot(w.T, X) + b)
        for i in range(A.shape[1]):
            if (A[:,i] > 0.5): 
                y_prediction[:, i] = 1
            elif (A[:,i] <= 0.5):
                y_prediction[:, i] = 0
        return y_prediction[0]
    
    def fit_predict(self, X_train, y_train, X_test):
        """
        Данный метод совершает оптимизацию и предсказывает значение y_test_predict.
        """
        parameters = self.optimize(X_train, y_train, self.method)
        w = parameters["w"]
        b = parameters["b"]
        y_predict = self.predict(w, b, X_test)
        return y_predict

In [10]:
# Преобразуем данные для возможности вычислений

X_train_tr = X_train.transpose()
y_train_tr = np.array(y_train).reshape(1, y_train.shape[0])
X_test_tr = X_test.transpose()
y_test_tr = np.array(y_test).reshape(1, y_test.shape[0])

In [11]:
# Обучим модели и сделаем предсказания

model_gb = LogRegression(num_iterations=1000, learning_rate=0.01, method='gb')
model_nm = LogRegression(num_iterations=1000, learning_rate=0.01, method='nm', gamma=0.9)
model_rmsp = LogRegression(num_iterations=1000, learning_rate=0.01, method='rmsp', gamma=0.9, eps=1e-6)

y_predict_gb = model_gb.fit_predict(X_train_tr, y_train_tr, X_test_tr)
y_predict_nm = model_nm.fit_predict(X_train_tr, y_train_tr, X_test_tr)
y_predict_rmsp = model_rmsp.fit_predict(X_train_tr, y_train_tr, X_test_tr)

In [12]:
# Воспользуемся стандартной функцией из sklearn

model_sk = LogisticRegression()
model_sk.fit(X_train, y_train)
y_predict_sk = model_sk.predict(X_test)

In [13]:
# Соберем все метрики всех моделей в таблицу

models = [model_sk,  model_gb, model_nm, model_rmsp]
y_preds = [y_predict_sk, y_predict_gb, y_predict_nm, y_predict_rmsp]
index = ['LG_sklearn', 'LG_gb', 'LG_nm', 'LG_rmsp']
metrics_columns = ['ROC_AUC', 'RECALL', 'ACCURACY', 'PRECISION']
metrics_scores = np.zeros(16).reshape(4,4)

In [14]:
def metrics(y_test, y_pred, metric_type):
    
    if metric_type == 'ROC_AUC':
        return roc_auc_score(y_test, y_pred)
    
    elif metric_type == 'RECALL':
        return recall_score(y_test, y_pred)
    
    elif metric_type == 'ACCURACY':
        return accuracy_score(y_test, y_pred)
    
    elif metric_type == 'PRECISION':
        return precision_score(y_test, y_pred)

In [15]:
for i in range(0, len(models)):  
    for k in range(0, len(metrics_columns)):
        metrics_scores[i][k] = metrics(y_test, y_preds[i], metric_type=metrics_columns[k])

In [16]:
metrics_df = pd.DataFrame(metrics_scores, index=index, columns=metrics_columns)
metrics_df

Unnamed: 0,ROC_AUC,RECALL,ACCURACY,PRECISION
LG_sklearn,0.958333,0.916667,0.95,1.0
LG_gb,0.916667,0.833333,0.9,1.0
LG_nm,0.916667,0.833333,0.9,1.0
LG_rmsp,0.958333,0.916667,0.95,1.0


In [17]:
confusion_matrix(y_test, y_predict_sk)

array([[ 8,  0],
       [ 1, 11]], dtype=int64)

In [18]:
confusion_matrix(y_test, y_predict_gb)

array([[ 8,  0],
       [ 2, 10]], dtype=int64)

In [19]:
confusion_matrix(y_test, y_predict_nm)

array([[ 8,  0],
       [ 2, 10]], dtype=int64)

In [20]:
confusion_matrix(y_test, y_predict_rmsp)

array([[ 8,  0],
       [ 1, 11]], dtype=int64)

In [21]:
# Разные модели показали близкие итоги