In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
X = np.array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
              [1, 1, 2, 1, 3, 0, 5, 10, 1, 2],
              [500, 700, 750, 600, 1450,
               800, 1500, 2000, 450, 1000],
              [1, 1, 2, 1, 2, 
               1, 3, 3, 1, 2]], dtype = np.float64)
y = np.array([0, 0, 1, 0, 1, 0, 1, 0, 1, 1], dtype = np.float64)

In [3]:
X

array([[1.00e+00, 1.00e+00, 1.00e+00, 1.00e+00, 1.00e+00, 1.00e+00,
        1.00e+00, 1.00e+00, 1.00e+00, 1.00e+00],
       [1.00e+00, 1.00e+00, 2.00e+00, 1.00e+00, 3.00e+00, 0.00e+00,
        5.00e+00, 1.00e+01, 1.00e+00, 2.00e+00],
       [5.00e+02, 7.00e+02, 7.50e+02, 6.00e+02, 1.45e+03, 8.00e+02,
        1.50e+03, 2.00e+03, 4.50e+02, 1.00e+03],
       [1.00e+00, 1.00e+00, 2.00e+00, 1.00e+00, 2.00e+00, 1.00e+00,
        3.00e+00, 3.00e+00, 1.00e+00, 2.00e+00]])

In [4]:
y

array([0., 0., 1., 0., 1., 0., 1., 0., 1., 1.])

In [5]:
def calc_std_feat(x):
  res = (x - x.mean()) / x.std()
  return res

In [6]:
X_st = X.copy()
X_st[2, :] = calc_std_feat(X[2, :])
#X_st[1, :] = calc_std_feat(X[2, :])
#X_st[3, :] = calc_std_feat(X[2, :])

In [7]:
X_st

array([[ 1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ],
       [ 1.        ,  1.        ,  2.        ,  1.        ,  3.        ,
         0.        ,  5.        , 10.        ,  1.        ,  2.        ],
       [-0.97958969, -0.56713087, -0.46401617, -0.77336028,  0.97958969,
        -0.36090146,  1.08270439,  2.11385144, -1.08270439,  0.05155735],
       [ 1.        ,  1.        ,  2.        ,  1.        ,  2.        ,
         1.        ,  3.        ,  3.        ,  1.        ,  2.        ]])

In [8]:
def calc_logloss(y, y_pred):
  err = - np.mean(y * np.log(y_pred) + (1.0 - y) * np.log(1.0 - y_pred))
  return err

In [9]:
def sigmoid(z):
  res = 1 / (1 + np.exp(-z))
  return res

In [10]:
### Logistic Regression

In [11]:
def eval_model(X, y, iterations, alpha=1e-4):
    np.random.seed(42)
    W = np.random.randn(X.shape[0])
    n = X.shape[1]
    for i in range(1, iterations+1):
        z = np.dot(W, X)
        y_pred = sigmoid(z)
        err = calc_logloss(y, y_pred)
        W -= alpha * (1/n * np.dot((y_pred - y), X.T))
        if i % (iterations / 10) == 0:
            print(i, W, err)
    print('final:', i, W, err)
    return W

In [12]:
W = eval_model(X_st, y, iterations=1000, alpha=1e-4)

100 [ 0.49282748 -0.15007528  0.64748973  1.51727915] 1.2014814214705334
200 [ 0.48896219 -0.16184918  0.64728128  1.51155738] 1.1828456288538924
300 [ 0.48511874 -0.17358386  0.64706349  1.50586552] 1.1643525542846556
400 [ 0.4812976  -0.18527698  0.64683669  1.50020462] 1.1460086359433084
500 [ 0.47749927 -0.19692597  0.64660127  1.4945758 ] 1.127820879406358
600 [ 0.47372426 -0.20852799  0.6463577   1.48898028] 1.109796908143704
700 [ 0.46997312 -0.22007992  0.6461065   1.48341934] 1.0919450148769096
800 [ 0.46624642 -0.23157833  0.64584825  1.47789438] 1.074274212586137
900 [ 0.46254476 -0.24301946  0.64558365  1.4724069 ] 1.0567942835649755
1000 [ 0.45886878 -0.25439917  0.64531344  1.46695851] 1.0395158244739489
final: 1000 [ 0.45886878 -0.25439917  0.64531344  1.46695851] 1.0395158244739489


* 1*. Измените функцию calc_logloss так, чтобы нули по возможности не попадали в np.log.  
* 2. Подберите аргументы функции eval_model для логистической регрессии таким образом, чтобы log loss был минимальным.
* 3. Создайте функцию calc_pred_proba, возвращающую предсказанную вероятность класса 1 (на вход подаются W, который уже посчитан функцией eval_model и X, на выходе - массив y_pred_proba).
* 4. Создайте функцию calc_pred, возвращающую предсказанный класс (на вход подаются W, который уже посчитан функцией eval_model и X, на выходе - массив y_pred).
* 5. Посчитайте Accuracy, матрицу ошибок, точность и полноту, а также F1 score.
* 6. Могла ли модель переобучиться? Почему?
* 7*. Создайте функции eval_model_l1 и eval_model_l2 с применением L1 и L2 регуляризаций соответственно.

# 1*. Измените функцию calc_logloss так, чтобы нули по возможности не попадали в np.log.

In [13]:
# наблюдения, у которых y_pred равным нулю или единице, удаляются и для y, и для y_pred
def calc_logloss_2(y, y_pred):
    mask = (y_pred != 0) & (y_pred != 1)
    y, y_pred = y[mask], y_pred[mask]
    err = - np.mean(y * np.log(y_pred) + (1.0 - y) * np.log(1.0 - y_pred))
    return err

In [14]:
# вводится очень маленькое смещение eps, которое исправляет нули и единицы
def calc_logloss(y, y_pred, eps=1e-6):    
    y_pred[y_pred == 0] += eps
    y_pred[y_pred == 1] -= eps
    err = - np.mean(y * np.log(y_pred) + (1.0 - y) * np.log(1.0 - y_pred))
    return err

# 2. Подберите аргументы функции eval_model для логистической регрессии таким образом, чтобы log loss был минимальным.

In [15]:
W = eval_model(X_st, y, iterations=10000, alpha=30)

1000 [-218.44881792  -27.84590461  -60.81462963  189.88316294] 0.2390512648230097
2000 [-234.54499885  -25.10350543  -66.53780997  191.06846094] 0.00645743193984973
3000 [-237.46011286  -23.25046349  -68.07982048  190.5404232 ] 0.0059711794012337945
4000 [-240.16643948  -21.53022615  -69.51130773  190.05037845] 0.005552161444326035
5000 [-242.69156979  -19.9252465   -70.84688238  189.59330321] 0.005187434996927515
6000 [-245.05764095  -18.42214777  -72.0986911   189.16542187] 0.0048672974595573215
7000 [-247.09692926  -17.39828143  -73.24254075  189.002233  ] 0.004640831092655286
8000 [-248.4974914   -17.32525064  -73.79532264  189.76128212] 0.004544023347209528
9000 [-249.76487218  -17.39591521  -74.18654692  190.69600471] 0.004456261953990788
10000 [-251.00269181  -17.4726893   -74.56218327  191.62325442] 0.004371807600068995
final: 10000 [-251.00269181  -17.4726893   -74.56218327  191.62325442] 0.004371807600068995


# 3. Создайте функцию calc_pred_proba, возвращающую предсказанную вероятность класса 1 (на вход подаются W, который уже посчитан функцией eval_model и X, на выходе - массив y_pred_proba).

In [16]:
def calc_pred_proba(w, X):  
    return sigmoid(np.dot(w, X))

In [17]:
y_pred_proba = calc_pred_proba(W,X_st)
y_pred_proba

array([2.16305490e-02, 9.73522623e-16, 1.00000000e+00, 4.63933092e-09,
       9.98871124e-01, 7.91642841e-15, 1.00000000e+00, 2.08951457e-04,
       9.79701019e-01, 1.00000000e+00])

# 4. Создайте функцию calc_pred, возвращающую предсказанный класс (на вход подаются W, который уже посчитан функцией eval_model и X, на выходе - массив y_pred).

In [18]:
def calc_pred(w, X, threshold=0.5):
    y_predicted = np.zeros((1, X.shape[1]))
    w = w.reshape(X.shape[0], 1)    
    A = sigmoid(np.dot(w.T, X))
    for i in range(A.shape[1]):
        if (A[:,i] > threshold): 
            y_predicted[:, i] = 1
        elif (A[:,i] <= threshold):
            y_predicted[:, i] = 0    
    return y_predicted

In [19]:
y_pred = calc_pred(W,X_st)
y_pred

array([[0., 0., 1., 0., 1., 0., 1., 0., 1., 1.]])

# 5. Посчитайте Accuracy, матрицу ошибок, точность и полноту, а также F1 score.

In [20]:
def confusion_matrix(y, y_pred, printed=False):
    cm = np.zeros(4).reshape((2,2))
    for i in (0,1):
        for j in (0,1):
            a = (y_pred==i)&(y==j)
            cm[i,j] = a[a==True].shape[0]
    
    if printed:
        print('        \t y=0\t y=1')
        print('y_pred=0\t',cm[0,0],'\t',cm[0,1])
        print('y_pred=1\t',cm[1,0],'\t',cm[1,1])

    return cm

In [21]:
cm = confusion_matrix(y, y_pred, printed=True)
cm

        	 y=0	 y=1
y_pred=0	 5.0 	 0.0
y_pred=1	 0.0 	 5.0


array([[5., 0.],
       [0., 5.]])

In [22]:
TN, FP, FN, TP = cm.flatten()

In [23]:
accuracy = (TN+TP)/cm.sum()
accuracy

1.0

In [24]:
precision = TP/(TP+FP)
precision

1.0

In [25]:
recall = TP/(TP+FN)
recall

1.0

In [26]:
f1_score = 2*precision*recall/(precision+recall)
f1_score

1.0

# * 6. Могла ли модель переобучиться? Почему?

_"При большой размерности пространства или малой длине выборки возможно переобучение. При этом резко возрастает норма вектора весов (появляются большие по абсолютной величине положительные и отрицательные веса), классификация становится неустойчивой (малые изменения обучающей выборки, начального приближения, порядка предъявления объектов или параметров алгоритма η, λ могут сильно изменить результирующий вектор весов), увеличивается вероятность ошибочной классификации новых объектов."_

_"Ранний останов. Слишком глубокая оптимизация может приводить к переобучению. Узкий глобальный минимум функционала Q(w) менее предпочтителен, чем более пологий и устойчивый локальный минимум. Для предотвращения попадания в такие «расщелины» применяется техника раннего останова (early stopping). По ходу итераций вычисляется какой-нибудь внешний критерий , и если он начинает возрастать, процесс настройки прекращается."_

___(с) Лекции по линейным алгоритмам классификации, К. В. Воронцов___


Видно, что наши веса имеют большие значения.

* w0 248.93903554
* w1 -17.34418622
* w2 -73.93669082
* w3 190.07604743

Очевидно, модель переобучена.

Потому что: 1) В нашем случае выборка имеет малую длину. 2) Проводилась глубокая оптимизация


# 7*. Создайте функции eval_model_l1 и eval_model_l2 с применением L1 и L2 регуляризаций соответственно.

In [27]:
# чуть позже доделаю