In [55]:
import pandas as pd
import numpy as np
from scipy import stats
import math

1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [56]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [57]:
X = zp.reshape((len(zp), 1))
X

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [58]:
Y = ks.reshape((len(ks), 1))
Y

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

#### C intercept

In [59]:
Xi = np.hstack([np.ones((len(zp), 1)), X])
Xi

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [60]:
b = np.dot(np.linalg.inv(np.dot(Xi.T, Xi)), Xi.T @ Y)
print('intercept: {}, b: {}'.format(b[0][0], b[1][0]))

intercept: 444.17735732435904, b: 2.620538882402766


#### Без intercept

In [61]:
b = np.dot(np.linalg.inv(np.dot(X.T, X)), X.T @ Y)
print('b: {}'.format(b[0][0]))

b: 5.889820420132688


2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [62]:
def mse(B1, Y=Y, X=X, n=10):
    return np.sum((B1*X-Y)**2/n)

In [63]:
B1 = 0.1
alpha = 1e-7
n=10

In [64]:
for i in range(10000):
    B1 -=alpha*(2/n)*np.sum((B1*X-Y)*X)
    if i%500==0:
        print("Iteration{}, B1={}, mse={}".format(i, B1, mse(B1)))

Iteration0, B1=0.115952808, mse=515794.9112047831
Iteration500, B1=4.436601977832683, mse=85610.88627620286
Iteration1000, B1=5.524061455274668, mse=58359.886733764004
Iteration1500, B1=5.7977629451654105, mse=56633.60929660133
Iteration2000, B1=5.866650574656343, mse=56524.25426962639
Iteration2500, B1=5.883988826993857, mse=56517.326923148226
Iteration3000, B1=5.888352672815523, mse=56516.888094403395
Iteration3500, B1=5.88945100441116, mse=56516.860295784114
Iteration4000, B1=5.889727442292625, mse=56516.85853481644
Iteration4500, B1=5.889797018641524, mse=56516.85842326389
Iteration5000, B1=5.889814530236905, mse=56516.85841619733
Iteration5500, B1=5.889818937711242, mse=56516.85841574967
Iteration6000, B1=5.8898200470236475, mse=56516.858415721326
Iteration6500, B1=5.889820326225288, mse=56516.85841571954
Iteration7000, B1=5.889820396497239, mse=56516.85841571941
Iteration7500, B1=5.8898204141839114, mse=56516.85841571941
Iteration8000, B1=5.889820418635448, mse=56516.85841571941


3. В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?

#### Таблица критических точек Стьюдента - неизвестно СКО/Дисп. генеральной совокупности (t-критерий)
#### Таблица значений функции Лапласа - известно СКО/Дисп. генеральной совокупности (z-критерий)

4. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [73]:
def mse_(B0, B1, Y=Y, X=X, n=10):
    return np.sum((B0+B1*X-Y)**2)/n

In [78]:
B1 = 0.1
B0 = 0.1
alpha = 1e-5
n=10

In [80]:
for i in range(2000000):
    B0 -=alpha*(2/n)*np.sum((B0+B1*X-Y))
    B1 -=alpha*(2/n)*np.sum((B0+B1*X-Y)*Xi)
    if i%100000==0:
        print("Iteration{}, B0={}, B1={}, mse={}".format(i, B0, B1, mse_(B0, B1)))

Iteration0, B0=441.291414019284, B1=2.641833338964823, mse=6472.526930929462
Iteration100000, B0=442.4332425024631, B1=2.6334081502254545, mse=6471.185847877958
Iteration200000, B0=443.1233045622654, B1=2.6283164020501735, mse=6470.696034965782
Iteration300000, B0=443.540342369067, B1=2.625239212887776, mse=6470.51713725422
Iteration400000, B0=443.792378442986, B1=2.623379518964233, mse=6470.4517972225285
Iteration500000, B0=443.9446960063309, B1=2.6222556161728705, mse=6470.4279326369815
Iteration600000, B0=444.03674886107245, B1=2.621576387473797, mse=6470.419216411594
Iteration700000, B0=444.092380843884, B1=2.6211658967897433, mse=6470.416032925127
Iteration800000, B0=444.1260019360363, B1=2.620917817458057, mse=6470.4148701986505
Iteration900000, B0=444.1463207846572, B1=2.6207678911450256, mse=6470.414445528123
Iteration1000000, B0=444.15860044551454, B1=2.6206772834382615, mse=6470.414290422811
Iteration1100000, B0=444.1660216372266, B1=2.620622524828044, mse=6470.414233772639
I