# Курс «Алгоритмы анализа данных»

## Урок 3. Логистическая регрессия. Log Loss

### Домашняя работа к уроку 3

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import math

In [2]:
def calc_std_feat(x):
    res = (x - x.mean()) / x.std()
    return res

In [3]:
def sigmoid(z):
    res = 1 / (1 + np.exp(-z))
    return res

In [4]:
def calc_logloss(y, y_pred):
    err = - np.mean(y * np.log(y_pred) + (1.0 - y) * np.log(1.0 - y_pred))
    return err

In [5]:
def eval_model(X, y, iterations, alpha=1e-4):
    np.random.seed(42)
    W = np.random.randn(X.shape[0])
    n = X.shape[1]
    for i in range(1, iterations+1):
        z = np.dot(W, X)
        y_pred = sigmoid(z)
        err = calc_logloss(y, y_pred)
        W -= alpha * (1/n * np.dot((y_pred - y), X.T))
        if i % (iterations / 10) == 0:
            print(i, W, err)
    return W

In [6]:
X = np.array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
              [1, 1, 2, 1, 3, 0, 5, 10, 1, 2],
              [500, 700, 750, 600, 1450, 800, 1500, 2000, 450, 1000],
              [1, 1, 2, 1, 2, 1, 3, 3, 1, 2]], dtype = np.float64)
y = np.array([0, 0, 1, 0, 1, 0, 1, 0, 1, 1], dtype = np.float64)

#### Задание 1

Измените функцию calc_logloss так, чтобы нули по возможности не попадали в np.log.

In [7]:
def calc_logloss_mod(y, y_pred):
    # Если y_pred равно 0 или 1 переопределим ее в минимальное значение
    if y_pred == 0:
        y_pred = 1e-16
    if y_pred == 1:
        y_pred = 1 - 1e-16
        
    err = - np.mean(y * np.log(y_pred) + (1.0 - y) * np.log(1.0 - y_pred))
    return err

In [8]:
calc_logloss_mod(1, 0)

36.841361487904734

In [9]:
calc_logloss_mod(0, 1)

36.7368005696771

#### Задание 2

Подберите аргументы функции eval_model для логистической регрессии таким образом, чтобы log loss был минимальным.

In [13]:
def eval_model_mod(X, y, iterations, alpha=1e-4):
    # Добавил вывод ошибки и убрал вывод в консоль.
    np.random.seed(42)
    W = np.random.randn(X.shape[0])
    n = X.shape[1]
    err = 0
    for i in range(1, iterations+1):
        z = np.dot(W, X)
        y_pred = sigmoid(z)
        err = calc_logloss(y, y_pred)
        W -= alpha * (1/n * np.dot((y_pred - y), X.T))
    return (W, err)

In [11]:
X_st = X.copy()
X_st[2, :] = calc_std_feat(X[2, :])

In [12]:
alpha = 2
epsilon = 1e-6
err_min = 1e+6
alpha_min = 1e+6
count = 1
errr = 1e+6
while alpha > epsilon:
    for i in range(10, 10000, 1000):
        W, errr = eval_model_mod(X_st, y, i, alpha)
        if errr < err_min:
            print(errr, count, alpha_min)
            err_min = errr
            count = i
            alpha_min = alpha
    alpha = alpha / 2
print(count, alpha_min)        

W = eval_model_mod(X_st, y, count, alpha_min)

1.671232757162328 1 1000000.0
0.19686203581746725 10 2
0.1584574077438847 1010 2
0.1375989498790226 2010 2
0.12434359780304369 3010 2
0.1150388466877186 4010 2
0.1080478621069709 5010 2
0.1025318971841452 6010 2
0.09801727522066878 7010 2
0.09421609724503377 8010 2
9010 2


Получается, что чем больше итераций и чем больше скорость обучения тем меньше ошибка log loss.

#### Задание 3

Создайте функцию calc_pred_proba, возвращающую предсказанную вероятность класса 1 (на вход подаются W, который уже посчитан функцией eval_model и X, на выходе - массив y_pred_proba).

В работе

#### Задание 4

Создайте функцию calc_pred, возвращающую предсказанный класс (на вход подаются W, который уже посчитан функцией eval_model и X, на выходе - массив y_pred).

В работе

#### Задание 5

Посчитайте Accuracy, матрицу ошибок, точность и полноту, а также F1 score.

В работе

#### Задание 6

Могла ли модель переобучиться? Почему?

В работе

#### Задание 7

Создайте функции eval_model_l1 и eval_model_l2 с применением L1 и L2 регуляризаций соответственно.

В работе