# Курс «Теория вероятностей и математическая статистика»

## Урок 7. Многомерный статистический анализ. Линейная регрессия

### Задание 1

Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): 

zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], 

ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. 

Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). 

Произвести расчет как с использованием intercept, так и без.

In [20]:
import numpy as np
import math
from scipy import stats
import seaborn as sns

In [21]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
X = zp.reshape(10,1)
X

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [22]:
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
Y = ks.reshape(10,1)
Y

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

#### Модель без интерсепта

In [23]:
# Найдем коэффиицент beta
B = np.dot(np.linalg.inv(np.dot(X.T,X)),X.T@Y)
B

array([[5.88982042]])

Ответ: B1=5.88982

#### Модель с интерсептом

In [24]:
# Добавим единичный столбец к X
X = np.hstack([np.ones((10,1)),X])
X

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [25]:
# Найдем коэффииценты beta
B = np.dot(np.linalg.inv(np.dot(X.T,X)),X.T@Y)
B

array([[444.17735732],
       [  2.62053888]])

Ответ: B0=444.17736; B1=2.62054

### Задание 2

Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [26]:
X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
X

array([ 35,  45, 190, 200,  40,  70,  54, 150, 120, 110])

In [27]:
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
y

array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [28]:
# функция для вычисления дисперсии
def mse_(B1,y=y,X=X,n=10):
    return np.sum((B1*X-y)**2)/n

In [29]:
# Зададим параметр alpha
alpha = 1e-6
alpha

1e-06

In [30]:
# Определяем стартовую точку отсчета, выбирая число из интервала от -3 до 3 (стандартного нормального распределения)
B1=3

In [31]:
# Указываем число измеренимй
n=10

In [32]:
# Вычислим коэффициент B1
for i in range(700):
    B1 -=alpha*(2/n)*np.sum((B1*X-y)*X)
    if i%10==0:
        print('Iteration: {i}, B1={B1}, mse={mse}'.format(i=i, B1=B1, mse=mse_(B1)))

Iteration: 0, B1=3.0796238, mse=165313.49342220597
Iteration: 10, B1=3.7646428550705346, mse=118737.21475713658
Iteration: 20, B1=4.282680318017608, mse=92100.42901992159
Iteration: 30, B1=4.6744399501478515, mse=76866.95879117158
Iteration: 40, B1=4.970703483857776, mse=68154.99866581765
Iteration: 50, B1=5.1947492359150225, mse=63172.66384085349
Iteration: 60, B1=5.36418115480939, mse=60323.28666845249
Iteration: 70, B1=5.492312015924274, mse=58693.73936666948
Iteration: 80, B1=5.589209446332751, mse=57761.80784336377
Iteration: 90, B1=5.662486968532084, mse=57228.839967450825
Iteration: 100, B1=5.71790221780173, mse=56924.037790840746
Iteration: 110, B1=5.759809336921608, mse=56749.7226565428
Iteration: 120, B1=5.791501094264104, mse=56650.03253495885
Iteration: 130, B1=5.815467606507113, mse=56593.020156880244
Iteration: 140, B1=5.833591994589687, mse=56560.4150080196
Iteration: 150, B1=5.84729834618716, mse=56541.76825501522
Iteration: 160, B1=5.857663610562303, mse=56531.10425225

Ответ: B1 = 5.88982

### Задание 3

В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?

Ответ: Таблица значений функции Лапласа используется в случаях, когда дисперсия известна. Таблица критическимх распределений Стьюдента используется, когда дисперсия неизвестна.

### *Задание 4

Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [33]:
X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
X

array([ 35,  45, 190, 200,  40,  70,  54, 150, 120, 110])

In [34]:
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
y

array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [35]:
# Зададим параметр скорости обучения alpha
alpha = 1e-6
alpha

1e-06

In [36]:
# Определяем стартовую точку отсчета, выбирая число из интервала от -3 до 3 (стандартного нормального распределения)
B0=400
B1=2

In [37]:
# Указываем число измеренимй
n=10

In [38]:
# Вычислим коэффициенты B0 и B1
for i in range(1000):
    
    # рассчитываем результирующий массив с текущими коэффициентами B0 и B1
    # на основе обучающей выборки
    yhat = B0 + B1 * X
    
    # считаем отклонение нового результата от истинного:
    error = y - yhat
    
    # считаем градиенты (по формуле производной) 
    # для коэффициента B0
    B0_grad = -2 * error.mean()
    # для коэффициента B1
    B1_grad = -2 * (X * error).mean()
    
    # обновляем параметры, используя параметр скорости обучения
    B0 = B0 - alpha * B0_grad
    B1 = B1 - alpha * B1_grad
    
    if i%100==0:
        print('Iteration: {i}, B0={B0}, B1={B1}, mse={mse}'.format(i=i, B0=B0, B1=B1, mse=mse_(B1)))

Iteration: 0, B0=400.0002142, B1=2.026057, mse=262183.14277120255
Iteration: 100, B0=400.008809527687, B1=2.889386815391907, mse=180542.10260033142
Iteration: 200, B0=400.0114388248051, B1=2.9421787864388618, mse=176216.1039510793
Iteration: 300, B0=400.01370308992017, B1=2.9453924404332663, mse=175955.24302372086
Iteration: 400, B0=400.01594492034997, B1=2.94557352914863, mse=175940.5520354071
Iteration: 500, B0=400.01818527181325, B1=2.94556912516954, mse=175940.9093015348
Iteration: 600, B0=400.0204254261181, B1=2.9455533759099084, mse=175942.18694072092
Iteration: 700, B0=400.0226654616744, B1=2.945536933476686, mse=175943.52082004835
Iteration: 800, B0=400.02490538328396, B1=2.945520449429224, mse=175944.85808277532
Iteration: 900, B0=400.0271451912452, B1=2.945503963621536, mse=175946.19549578807
