## Урок 7. Многомерный статистический анализ. Линейная регрессия

#### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [1]:
import numpy as np

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
X = zp
y = ks

с intercept

In [4]:
B1 = (np.mean(X*y) - np.mean(X) * np.mean(y)) / (np.mean(X ** 2) - np.mean(X) ** 2)
B1

2.620538882402765

In [5]:
B0 = np.mean(y) - B1 * np.mean(X)
B0

444.1773573243596

In [6]:
y_hat = B0 + B1 * X
y_hat

array([535.89621821, 562.10160703, 942.07974498, 968.2851338 ,
       548.99891262, 627.61507909, 585.68645697, 837.25818968,
       758.64202321, 732.43663439])

In [7]:
def mse(y, y_hat):
    return np.sum((y - y_hat) ** 2) / len(y)
mse(y, y_hat)

6470.414201176658

без intercept

In [8]:
B1_ = np.mean(y) / np.mean(X)
B1_

7.000986193293885

In [9]:
y_hat_ = B1_ * X
y_hat_

array([ 245.03451677,  315.0443787 , 1330.18737673, 1400.19723866,
        280.03944773,  490.06903353,  378.05325444, 1050.14792899,
        840.1183432 ,  770.10848126])

In [10]:
mse(y, y_hat_)

73526.6800654739

#### 2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [11]:
def lin_reg(y, X, iters=100, B1=0.1, alpha=1e-6):
    for i in range(iters+1):
        B1 -= alpha * (2 / len(y)) * np.sum((B1 * X - y) * X)
        if i % (iters/10) == 0:
            print(f'Iteration: {i}, B1={B1}, mse={np.sum((B1 * X - y) ** 2) / len(y)}')

In [12]:
# lin_reg(y, X, iters=100, B1=0.1, alpha=1e-6)
lin_reg(y, X, 100, 1, 1e-5)

Iteration: 0, B1=2.347302, mse=229405.42884192182
Iteration: 10, B1=5.748727835228332, mse=56791.110810876475
Iteration: 20, B1=5.884200938409783, mse=56517.293461113455
Iteration: 30, B1=5.889596605572516, mse=56516.859105830044
Iteration: 40, B1=5.889811505973018, mse=56516.858416814124
Iteration: 50, B1=5.8898200650966155, mse=56516.85841572114
Iteration: 60, B1=5.889820405992196, mse=56516.85841571941
Iteration: 70, B1=5.889820419569496, mse=56516.85841571941
Iteration: 80, B1=5.889820420110257, mse=56516.8584157194
Iteration: 90, B1=5.889820420131795, mse=56516.85841571941
Iteration: 100, B1=5.8898204201326525, mse=56516.8584157194


#### 3. В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?

Таблица значений функции Лапласа используется когда применяется z-критерий при известной СКО генеральной совокупности.

Таблица критических точек распределения Стьюдента используется когда применяется t-критерий при неизвестной СКО генеральной совокупности.

#### 4*. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [13]:
def lin_reg_intercept(y, X, iters=100, B0=0.1, B1=0.1, zero=1e-6, alpha=1e-6):
    for i in range(iters+1):
        B1 -= alpha * (2 / len(y)) * np.sum((B0 + B1 * X - y) * X)
        B0 -= zero * (2 / len(y)) * np.sum((B0 + B1 * X - y))
        # B0 = np.mean(y) - B1 * np.mean(X)
        if i % (iters/10) == 0:
            print(f'Iteration: {i}, B0={B0}, B1={B1}, mse={np.sum((B0 + B1 * X - y) ** 2) / len(y)}')

In [14]:
# lin_reg_intercept(y, X, iters=100, B0=0.1, B1=0.1, alpha=1e-6)
lin_reg_intercept(y, X, 10000, 1, 1, 1e-2, 1e-6)

Iteration: 0, B0=12.877178432800001, B1=1.1345274, mse=352890.1329546085
Iteration: 1000, B0=436.4829044664989, B1=2.6845606006788416, mse=6486.184331677243
Iteration: 2000, B0=443.8588914192689, B1=2.623188678929288, mse=6470.441216221216
Iteration: 3000, B0=444.1641763309119, B1=2.6206485548986147, mse=6470.414247454819
Iteration: 4000, B0=444.17681177588645, B1=2.620543421640486, mse=6470.414201255934
Iteration: 5000, B0=444.17733474463995, B1=2.6205390702773896, mse=6470.4142011767935
Iteration: 6000, B0=444.177356389807, B1=2.6205388901787128, mse=6470.414201176658
Iteration: 7000, B0=444.17735728567936, B1=2.6205388827246043, mse=6470.414201176661
Iteration: 8000, B0=444.17735732275855, B1=2.6205388824160862, mse=6470.414201176658
Iteration: 9000, B0=444.17735732429185, B1=2.6205388824033315, mse=6470.414201176656
Iteration: 10000, B0=444.17735732435096, B1=2.620538882402837, mse=6470.41420117666


In [15]:
X1 = X.reshape(len(X), 1)
X1

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [16]:
y1 = y.reshape(len(y), 1)
y1

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

In [17]:
X1 = np.hstack([np.ones((len(X), 1)), X1])
X1

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [18]:
B = np.dot(np.linalg.inv(np.dot(X1.T, X1)), X1.T@y1)
B

array([[444.17735732],
       [  2.62053888]])