In [28]:
import numpy as np

### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [29]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
n = len(zp)

b = (n*(np.sum(zp*ks)) - (np.sum(zp)*np.sum(ks))) / (n*(np.sum(zp**2))-(np.sum(zp)**2))

print(f'Коэффициент b: {b}')

a = np.mean(ks) - b*np.mean(zp)

print(f'Коэффициент a: {a}')

Коэффициент b: 2.6205388824027653
Коэффициент a: 444.17735732435955


In [30]:
X = zp.reshape((10,1))
y = ks.reshape((10,1))

X = np.hstack([np.ones((10,1)),X])

B = (np.linalg.inv(X.T@X))@X.T@y
print(f'Коэффициент b: {B[1,0]}')
print(f'Коэффициент a: {B[0,0]}')

Коэффициент b: 2.6205388824027684
Коэффициент a: 444.17735732435915


### 2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [31]:
def mse_(B1,y=ks,X=zp,n=10):
    return np.sum((B1*X-y)**2)/n

In [32]:
alpha = 1e-6
B1 = 0.1
n = 10

for i in range(500):
    B1 -= alpha * (2/n) * np.sum((B1*X-y)*X)
    if i%50==0:
        print(f'Iteration: {i}, B1={B1}, mse={mse_(B1)}')

Iteration: 0, B1=0.26094768, mse=493017.52282052615
Iteration: 50, B1=4.536184804099786, mse=81760.12736590448
Iteration: 100, B1=5.593508888000083, mse=57726.451115687916
Iteration: 150, B1=5.854999464065145, mse=56533.56252918736
Iteration: 200, B1=5.919669627558069, mse=56529.13302443824
Iteration: 250, B1=5.935663435477025, mse=56545.811071070166
Iteration: 300, B1=5.939618920942537, mse=56551.02287770157
Iteration: 350, B1=5.94059716610761, mse=56552.37831947468
Iteration: 400, B1=5.940839099395277, mse=56552.71760547262
Iteration: 450, B1=5.940898932776286, mse=56552.801764244774


### 3. В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?

Таблица значений функции Лапласа используется при Z тесте, когда известна дисперсия генеральной совокупности, а таблица критических точек распределения Стъюдента используется при t тесте, когда дисперсия генеральной совокупности не известна, а имеется только стандартная ошибка выборки.

### *4. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [33]:
def mse_(B0,B1,y=ks,X=zp,n=10):
    return np.sum((B0+B1*X-y)**2)/n

In [51]:
alpha = 1e-6
B1 = 0.1
B0 = 0.3
n = 10

for i in range(10000):
    B0 -= alpha * (2/n) * np.sum(B0+B1*X-y)
    B1 -= alpha * (2/n) * np.sum((B0+B1*X-y)*X)
    if i%500==0:
        print(f'Iteration: {i}, B0={B0}, B1={B1}, mse={mse_(B0,B1)}')

Iteration: 0, B0=0.30281791999999996, B1=0.26088566288998405, mse=492613.3135104861
Iteration: 500, B0=1.1554996389101286, B1=5.93275059399065, mse=56293.258528327024
Iteration: 1000, B0=1.9649740039658494, B1=5.926738624770315, mse=56111.41226721734
Iteration: 1500, B0=2.7734461269150614, B1=5.92072924831964, mse=55930.11618746766
Iteration: 2000, B0=3.5809172846833417, B1=5.914727312042916, mse=55749.37565343231
Iteration: 2500, B0=4.387388716560576, B1=5.9087328067326546, mse=55569.18915797966
Iteration: 3000, B0=5.192861660302251, B1=5.902745723188613, mse=55389.55519786572
Iteration: 3500, B0=5.997337352131389, B1=5.896766052221942, mse=55210.472273730105
Iteration: 4000, B0=6.800817026740469, B1=5.890793784655166, mse=55031.938890086356
Iteration: 4500, B0=7.6033019172932725, B1=5.884828911322175, mse=54853.9535553121
Iteration: 5000, B0=8.404793255426856, B1=5.8788714230682055, mse=54676.5147816392
Iteration: 5500, B0=9.205292271253336, B1=5.87292131074983, mse=54499.62108514413