## Тема: Многомерный статистический анализ. Линейная регрессия

In [1]:
import numpy as np

### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

**Решение с intercept**
$$b = \frac{\overline{yx} - \overline{y} \cdot {\overline{x}}}{\overline{x^2} - (\overline{x})^2}$$

$$a = \overline{y} - b \cdot {\overline{x}}$$

In [9]:
x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
b = (np.mean(x * y) - np.mean(x) * np.mean(y)) / (np.mean(x**2) - np.mean(x) ** 2)
b

2.620538882402765

In [4]:
a = np.mean(y) - b * np.mean(x)
a

444.1773573243596

**Решение без intercept**

$$y = \beta_1 * x$$

$$\hat{B} = (x^T * x)^{-1} * x^T * y$$

In [5]:
x = x.reshape(10,1)
x

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [6]:
y = y.reshape(10,1)
y

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

In [7]:
B = np.dot(np.linalg.inv(np.dot(x.T, x)), x.T @ y)
B

array([[5.88982042]])

### 2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

$$y = \beta_1 * x$$

In [34]:
x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [15]:
def mse_(B1, y=y, x=x, n=10):
    return np.sum((B1*x-y)**2)/n

In [26]:
alpha = 1e-6
B1 = 0.5
n = len(x)
n

10

In [27]:
for i in range(500):
    B1 -= alpha*(2/n)*np.sum((B1*x-y)*x)
    if i % 25 == 0:
        print('Iteration: {i}, B1={B1}, mse={mse}'.format(i=i, B1=B1, mse=mse_(B1)))

Iteration: 0, B1=0.6485068, mse=434978.9132049683
Iteration: 25, B1=3.2831481282998825, mse=150125.27952021617
Iteration: 50, B1=4.5934392207880705, mse=79669.87043050732
Iteration: 75, B1=5.245088737028589, mse=62243.50094458435
Iteration: 100, B1=5.56917480801768, mse=57933.280375525705
Iteration: 125, B1=5.730353138993955, mse=56867.194787879744
Iteration: 150, B1=5.810512259369029, mse=56603.510258984556
Iteration: 175, B1=5.850377944417293, mse=56538.290794821085
Iteration: 200, B1=5.870204420018959, mse=56522.15947864721
Iteration: 225, B1=5.880064758159585, mse=56518.169575251966
Iteration: 250, B1=5.884968618543086, mse=56517.182716589494
Iteration: 275, B1=5.887407464586485, mse=56516.93862796796
Iteration: 300, B1=5.88862038044425, mse=56516.87825533567
Iteration: 325, B1=5.88922360215314, mse=56516.86332282998
Iteration: 350, B1=5.889523603532249, mse=56516.85962943917
Iteration: 375, B1=5.889672803778431, mse=56516.858715919625
Iteration: 400, B1=5.889747005815525, mse=5651

### 3. В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента? 

Таблица критических точек распределения Стьюдента используется, если $\sigma$ - среднее квадратичное отклонение неизвестно. Если $\sigma$ известно, используется z-таблица.   

### *4. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

$$y = \beta_0 + \beta_1 * x$$

In [41]:
B1 = 0.1
B0 = 0.1
alpha = 5e-5

In [29]:
def mse_(B0, B1, y=y, x=x, n=10):
    return np.sum((B0 + B1*x-y)**2)/n

In [43]:
for i in range(750000):
    y_pred = B0 + B1 * x
    B0 -= alpha*(2/n)*np.sum((y_pred - y))
    B1 -= alpha*(2/n)*np.sum((y_pred - y)*x)
    if i % 30000 == 0:
        print('Iteration: {i}, B0={B0}, B1={B1}, mse={mse}'.format(i=i, B0=B0, B1=B1, mse=mse_(B0, B1)))

Iteration: 0, B0=444.1771238463115, B1=2.6205406009044263, mse=6470.414201190486
Iteration: 30000, B0=444.177248239628, B1=2.6205396853146192, mse=6470.414201179677
Iteration: 60000, B0=444.17730635820675, B1=2.6205392575361834, mse=6470.41420117732
Iteration: 90000, B0=444.17733351214605, B1=2.620539057671185, mse=6470.4142011768035
Iteration: 120000, B0=444.1773461989089, B1=2.620538964291002, mse=6470.414201176691
Iteration: 150000, B0=444.17735212636813, B1=2.620538920662281, mse=6470.414201176669
Iteration: 180000, B0=444.17735489577376, B1=2.620538900278231, mse=6470.414201176662
Iteration: 210000, B0=444.17735618968504, B1=2.6205388907544718, mse=6470.414201176662
Iteration: 240000, B0=444.17735679422117, B1=2.6205388863048187, mse=6470.414201176658
Iteration: 270000, B0=444.17735707667094, B1=2.6205388842258635, mse=6470.414201176663
Iteration: 300000, B0=444.17735720863436, B1=2.620538883254554, mse=6470.414201176662
Iteration: 330000, B0=444.1773572702843, B1=2.62053888280078