In [1]:
import numpy as np
from sklearn.preprocessing import StandardScaler

1). Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
* zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
* ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].

Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110], dtype=float)
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832], dtype=float)

In [3]:
n = len(zp)

Найдем коэффициенты **a**, **b** из уравнения **ks** = **a** + **b** x **zp** по формулам частного случая МНК:

In [4]:
b = (np.mean(zp * ks) - np.mean(zp) * np.mean(ks)) / (np.mean(zp ** 2) - np.mean(zp) ** 2)
a = np.mean(ks) - b * np.mean(zp)

print([a, b])

[444.1773573243596, 2.620538882402765]


Для проверки найдем псвевдообратную матрицу для системы **Ax** = **y** - аналитически она содержит коэффициенты **a** и **b**:

In [5]:
x = np.hstack((np.ones((n, 1)), # единичный столбец для a
               zp.reshape(n, 1)))
y = ks

print(np.linalg.inv(x.T.dot(x)).dot(x.T).dot(y))

[444.17735732   2.62053888]


Найдем коэффициент **с** из уравнения **ks** = **c** x **zp** по формуле частного случая МНК:

In [6]:
c = np.sum(zp * ks) / np.sum(zp ** 2)

c

5.889820420132689

Для проверки найдем псевдообратную матрицу, состоящую только из коэффициента **c**:

In [7]:
x = zp.reshape(n, 1)

print(np.linalg.inv(x.T.dot(x)).dot(x.T).dot(y)[0])

5.88982042013269


2). Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [8]:
alpha = 1e-6

In [9]:
c = 0.
while True:
    c_new = c - alpha * (2./n) * np.sum((c * zp - ks) * zp)
    if abs(c_new - c) < 1e-6:
        break
    c = c_new
    
c

5.889784740677326

3). В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?

**Ответ**: если задана дисперсия генеральной совокупности, используется таблица значений функции Лапласа; а в случае, когда дисперсия изначально не известна и оценивается только по выборке - таблица Стьюдента.

4). Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [10]:
a, b = 444., 0
while True:
    a_new = a - alpha * (2./n) * np.sum((a + b * zp - ks))
    b_new = b - alpha * (2./n) * np.sum((a + b * zp - ks) * zp)
    if abs(a_new - a) < 1e-6 or abs(b_new - b) < 1e-6:
        break
    a, b = a_new, b_new

print([a, b])

[444.01928215097917, 2.6172162844663585]
