# Лабораторная работа № 2
### Минимальная оценка - 3 балла
### Максимальная оценка - 5 балла
Целью данной работы является изучение метода градиентного спуска для минимизации эмпирического риска функции потерь логистической регресии и метода опорных векторов..
Для успешной сдачи лабораторной работы Вам необходимо предоставить заполненый исходный ноутбук.

In [1]:
import pickle
import numpy as np

## Описание датасета

Датасет для классификации IP-адресов («1», если с данного IP нужно запретить регистрации аккаунтов без привязки телефона, «0» - в противном случае)

Признаки в файле feature_set.pickle:
1. количество аккаунтов, зарегистрированных людьми за последний час
2. количество аккаунтов, зарегистрированных скриптами за последний час
3. количество зарегистрированных аккаунтов последний час, привязавших телефон

Метки классов в файле label_set.pickle

In [2]:
with open('feature_set.pickle', 'rb') as f:
    X = pickle.load(f, encoding='latin-1') \
        .astype(np.longdouble)
    
X = np.hstack([np.ones((X.shape[0], 1)), X])
n_feat = X.shape[1]

X

array([[ 1.,  6.,  2.,  2.],
       [ 1.,  0.,  2.,  0.],
       [ 1., 22.,  0.,  0.],
       ...,
       [ 1.,  2.,  2.,  0.],
       [ 1.,  0.,  2.,  0.],
       [ 1.,  0.,  4.,  0.]], dtype=float64)

In [3]:
with open('label_set.pickle', 'rb') as f:
    y = pickle.load(f, encoding='latin-1') \
        .astype(np.longdouble) \
        .reshape((-1, 1))
    
y

array([[0.],
       [0.],
       [1.],
       ...,
       [1.],
       [0.],
       [0.]], dtype=float64)

In [4]:
assert X.shape[0] == y.shape[0]

## Задание 1 (3 балла)
### Вариант 1
#### Реализовать модель логистической регрессии и минимизировать её функцию потерь
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная $y$, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных $x_{1},x_{2},...,x_{n}$, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Модель логистической регрессии задаётся формулой сигмоиды: $$\vec{p}=\frac{1}{1+e^{-\vec{x}\vec{w}}}$$
где $\vec{p}$ - вероятность наступления события $y=1$, $X$ - матрица признаков, $\vec{w}$ - вектор весов.
(Более подробно про логистическую регрессию можно почитать [тут](http://www.machinelearning.ru/wiki/index.php?title=Логистическая_регрессия))
### Вариант 2
#### Реализовать модель SVM и минимизировать её функцию потерь
Основная идея SVM — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.

Для предсказания SVM используется функция $sign$:
$$sign(s)=\left\{\begin{matrix}
1, если &s>=0
\\ 
-1, если &s<0
\end{matrix}\right.$$

$$s=X\vec{w}$$

Отличие SVM от логистической регрессии в том, что метки класса должны принимать значения $\{-1,1\}$ (Более подробно про SVM можно почитать [тут](http://www.ccas.ru/voron/download/SVM.pdf))

In [5]:
N = 10
V = (N % 2) + 1
print(f'Вариант {V}')

Вариант 1


## Задание 1.1
### Вариант 1
Реализуйте функцию сигмоиды и функцию потерь для логистической регрессии, которая представлена формулой:
$$LogLoss=-\sum_{i=1}^{N}y_{i}log(p_{i})+(1-y_{i})log(1-p_{i})$$
### Вариант 2
Реализуте функцию потерь для SVM, которая представлена формулой:
$$hinge\_loss=\frac{1}{n}\sum_{i=1}^{n} max(0,1-predicted\_value * true\_value) $$
$max(a,b)$ - возвращает наибольшее из двух чисел

In [6]:
def my_sigmoid(features, weights):
    return 1 / (1 + np.exp(-features.dot(weights)))

def my_loss_function(predicted_values, true_values):
    return -np.sum(true_values * np.log(predicted_values) + (1 - true_values) * np.log(1 - predicted_values))

## Задание 1.2
Реализуйте (на свой выбор) функцию инициализации весов (см. лекции) и выведите результат для $length=N$

In [7]:
def initial_weights(length):
    #
    # Просто нули работают хорошо
    #
    
    return np.zeros((length, 1)).astype(np.longdouble)

## Задание 1.3
### Вариант 1
Реализуйте свою модель логистической регрессии, на вход которой подаётся матрица объект-признак и вектор весов.
<br>На выходе возвращается предсказанная целевая переменная.
<br>P.S.: Подумайте, как получить метки 0/1 из вероятностей сигмоиды, используя свой номер в группе.
### Вариант 2
Реализуйте свой SVM, на вход которой подаётся матрица объект-признак и вектор весов.
<br>На выходе возвращается предсказанная целевая переменная.

In [8]:
def my_model(features, weights):
    return np.array([1 if p >= 0.5 else 0 for p in my_sigmoid(features, weights)]) \
        .reshape((-1, 1))

## Задание 1.4
Реализуйте метод стохастического градиентного спуска (см. лекции и ЛР-1)

In [9]:
def grad_of_my_loss_func(X, y, weights):
    return X.T.dot(my_sigmoid(X, weights) - y)

In [10]:
def update_weigths(grad, weights, learning_rate):
    return weights - learning_rate * grad

In [11]:
def my_stochastic_grad_descent(X, y, initial_weights, iter_num, learning_rate=0.1):
    weights = initial_weights
    
    for _ in range(iter_num):
        weights = update_weigths(grad_of_my_loss_func(X, y, weights), 
                                 weights, 
                                 learning_rate)
    
    return weights

## Задание 1.5
1. Разделите свою выборку на обучающую и тестовую
2. Сгенерируйте веса
3. Используя свой метод стохастического градиентного спуска и свою модель, подберите оптимальные веса для обучающей выборки
4. Используя полученные на шаге 3 веса сделайте предсказание для тестовой выборки
5. Выведите значение функции потерь при изначально сгенерированных весах и при весах, полученных в результате градиентного спуска
6. Выведите метрики качества для тестовой выборки

In [12]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import (accuracy_score, 
                             precision_score)

In [13]:
n_iter = 70
learning_rate = 1e-5

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3)

In [15]:
weights = initial_weights(n_feat)

In [16]:
my_loss_function(my_sigmoid(X_train, weights), y_train)

6287.538074859263

In [17]:
weights = my_stochastic_grad_descent(X_train, y_train, weights, 
                                     iter_num=n_iter, 
                                     learning_rate=learning_rate)

In [18]:
my_sigmoid(X_train, weights)

array([[0.53827022],
       [0.53827022],
       [0.80385464],
       ...,
       [0.49987302],
       [0.44421484],
       [0.44421484]])

In [19]:
my_loss_function(my_sigmoid(X_train, weights), y_train)

5121.793142445854

In [20]:
y_pred = my_model(X_test, weights)

In [21]:
accuracy_score(y_test, y_pred), precision_score(y_test, y_pred)

(0.6965020576131687, 0.6811663479923518)

## Задание 2 (2 балла)
### Вариант 1
Реализуйте алгоритм логистической регрессии с возможностью выбора регуляризации ($L_{1}$ / $L_{2}$), обучите его и сравните результат с тем, что получилось в задании 1.5 (используя метрики качества).
### Вариант 2
Реализуйте алгоритм SVM с возможностью выбора регуляризации ($L_{1}$ / $L_{2}$), обучите его и сравните результат с тем, что получилось в задании 1.5 (используя метрики качества).
<br>Про регуляризацию можно почитать [тут](https://learnmachinelearning.wikia.org/ru/wiki/Регуляризация).

In [22]:
def grad_of_my_loss_func_advanced(X, y, weights, regularization='l2', l=0.5):
    
    def l1_grad_penalty(weights, l):
        return l * np.sign(weights)

    def l2_grad_penalty(weights, l):
        return l * weights

    def no_penaly(weights, l):
        return np.zeros(weights.shape)
    
    reg_functions = {
        'l1': l1_grad_penalty,
        'l2': l2_grad_penalty
    }
    
    penalty = reg_functions.get(regularization, no_penaly)
    
    if (0 > l or l > 1):
        raise ValueError('l must be in range [0, 1], but equals {l}')
    
    return X.T.dot(my_sigmoid(X, weights) - y) + X.shape[0] * penalty(weights, l)

In [23]:
def my_stochastic_grad_descent_advanced(X, y, initial_weights, iter_num, 
                                        learning_rate=0.1, 
                                        regularization='l2', l=0.5):
    weights = initial_weights
    
    for _ in range(iter_num):
        weights = update_weigths(grad_of_my_loss_func_advanced(X, y, weights, regularization, l), 
                                 weights, 
                                 learning_rate)
    
    return weights

---

In [24]:
l = 0.05

### L2-регуляризация

In [25]:
weights = initial_weights(n_feat)

In [26]:
weights = my_stochastic_grad_descent_advanced(X_train, y_train, weights, 
                                              iter_num=n_iter, 
                                              learning_rate=learning_rate, 
                                              regularization='l2', l=l)

In [27]:
my_loss_function(my_sigmoid(X_train, weights), y_train)

5184.206477108912

In [28]:
y_pred = my_model(X_test, weights)

In [29]:
accuracy_score(y_test, y_pred), precision_score(y_test, y_pred)

(0.7044753086419753, 0.6754112939084037)

### L1-регуляризация

In [30]:
weights = initial_weights(n_feat)

In [31]:
weights = my_stochastic_grad_descent_advanced(X_train, y_train, weights, 
                                              iter_num=n_iter, 
                                              learning_rate=learning_rate, 
                                              regularization='l1', l=l)

In [32]:
my_loss_function(my_sigmoid(X_train, weights), y_train)

5376.3791735663635

In [33]:
y_pred = my_model(X_test, weights)

In [34]:
accuracy_score(y_test, y_pred), precision_score(y_test, y_pred)

(0.6862139917695473, 0.6544750430292599)