## Тема: Многомерный статистический анализ. Линейная регрессия

In [1]:
import numpy as np
import pandas as pd

### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.


$$b = \frac{\overline{yx} - \overline{y} \cdot {\overline{x}}}{\overline{x^2} - (\overline{x})^2}$$

$$a = \overline{y} - b \cdot {\overline{x}}$$

In [23]:
x = zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [25]:
x = x.reshape(10,1)
x

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [26]:
y = y.reshape(10,1)
y

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

In [27]:
b = (np.mean(x * y) - np.mean(x) * np.mean(y)) / (np.mean(x**2) - np.mean(x) ** 2)
b

2.620538882402765

In [28]:
a = np.mean(y) - b * np.mean(x)
a

444.1773573243596

In [29]:
x_intercept = np.hstack([np.ones((10, 1)), x])
x_intercept

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [30]:
B = np.dot(np.linalg.inv(np.dot(x_intercept.T, x_intercept)), x_intercept.T@y)
B

array([[444.17735732],
       [  2.62053888]])

### 2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [35]:
def mse_(B1, y=y, x=x, n=8):
    return np.sum((B1*x-y)**2)/n

In [84]:
alpha = 1e-6
B1 = 0.5
n = len(x)
n

10

In [85]:
for i in range(500):
    B1 -= alpha*(2/n)*np.sum((B1*x-y)*x)
    if i % 25 == 0:
        print('Iteration: {i}, B1={B1}, mse={mse}'.format(i=i, B1=B1, mse=mse_(B1)))

Iteration: 0, B1=0.6485068, mse=543723.6415062104
Iteration: 25, B1=3.2831481282998825, mse=187656.5994002702
Iteration: 50, B1=4.5934392207880705, mse=99587.33803813414
Iteration: 75, B1=5.245088737028589, mse=77804.37618073044
Iteration: 100, B1=5.56917480801768, mse=72416.60046940713
Iteration: 125, B1=5.730353138993955, mse=71083.99348484968
Iteration: 150, B1=5.810512259369029, mse=70754.38782373069
Iteration: 175, B1=5.850377944417293, mse=70672.86349352635
Iteration: 200, B1=5.870204420018959, mse=70652.69934830902
Iteration: 225, B1=5.880064758159585, mse=70647.71196906496
Iteration: 250, B1=5.884968618543086, mse=70646.47839573686
Iteration: 275, B1=5.887407464586485, mse=70646.17328495995
Iteration: 300, B1=5.88862038044425, mse=70646.09781916959
Iteration: 325, B1=5.88922360215314, mse=70646.07915353747
Iteration: 350, B1=5.889523603532249, mse=70646.07453679896
Iteration: 375, B1=5.889672803778431, mse=70646.07339489953
Iteration: 400, B1=5.889747005815525, mse=70646.073112

### 3. В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента? 

Таблица критических точек распределения Стьюдента используется, если $\sigma$ - среднее квадратичное отклонение неизвестно. Если $\sigma$ известно, используется z-таблица.   