In [1]:
import numpy as np

## №1
Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): 

zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], 

ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. 

Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
X = np.reshape(zp,(10,1))
Y = np.reshape(ks,(10,1))

**a) Без интерсепта**

In [4]:
B1 = np.dot(np.linalg.inv(np.dot(X.T,X)),np.dot(X.T,Y))
B1

array([[5.88982042]])

In [5]:
ks_try = B1*zp
ks_try

array([[ 206.1437147 ,  265.04191891, 1119.06587983, 1177.96408403,
         235.59281681,  412.28742941,  318.05030269,  883.47306302,
         706.77845042,  647.88024621]])

**б) С интерсептом**

In [6]:
X = np.hstack([np.ones((10,1)),X])
X

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [7]:
B = np.dot(np.linalg.inv(np.dot(X.T,X)),np.dot(X.T,Y))
B

array([[444.17735732],
       [  2.62053888]])

In [8]:
ks_try_2 = B[0][0] + B[1][0]*zp
ks_try_2

array([535.89621821, 562.10160703, 942.07974498, 968.2851338 ,
       548.99891262, 627.61507909, 585.68645697, 837.25818968,
       758.64202321, 732.43663439])

#### Наглядно видно как интерсепт улучшает результат

## №2
Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept)

Уравнение вида *y = Bx*

In [9]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
X = zp
Y = ks
n = len(X)

In [10]:
def mse_1(B,Y=Y,X=X,n=n):
    return np.sum((B*X - Y)**2)/n

In [11]:
# Я так понимаю, что а необходимы мгновенные значения функции в конкретной точке.
# Именно поэтому мы и берем производную по B в MSE
# MSE = (1/n)*np.sum((B*X - Y)**2)
# MSE' = (2/n)*np.sum((B*X - Y)*X)

In [12]:
# Зададим скорость обучения,начальную точку для итерации и кол-во шагов итерации
alpha = 1e-6
B = 0.1
irange = 1000

In [13]:
for i in range(irange + 1):
    B -=alpha*(2/n)*np.sum((B*X - Y)*X)
    if i%100 == 0:
        print(f'На итерации {i} B = {B} со средней квадратической ошибкой {mse_1(B)}')

На итерации 0 B = 0.25952808 со средней квадратической ошибкой 493237.7212546963
На итерации 100 B = 5.54537842245223 со средней квадратической ошибкой 58151.31823171113
На итерации 200 B = 5.868748638669329 со средней квадратической ошибкой 56522.97550129376
На итерации 300 B = 5.888531320728348 со средней квадратической ошибкой 56516.88130936019
На итерации 400 B = 5.8897415574471985 со средней квадратической ошибкой 56516.85850140053
На итерации 500 B = 5.889815595583751 со средней квадратической ошибкой 56516.858416040064
На итерации 600 B = 5.889820124983314 со средней квадратической ошибкой 56516.85841572062
На итерации 700 B = 5.889820402076462 со средней квадратической ошибкой 56516.85841571941
На итерации 800 B = 5.88982041902807 со средней квадратической ошибкой 56516.8584157194
На итерации 900 B = 5.889820420065112 со средней квадратической ошибкой 56516.85841571941
На итерации 1000 B = 5.8898204201285544 со средней квадратической ошибкой 56516.85841571941


In [14]:
B

5.8898204201285544

## №3
В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента? 

* **Лаплас** - когда известны М(Х) или D(X) или СКО
* **Стьюдент** - когда нет этих данных

## №4
Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [15]:
X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
Y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
n = len(X)

In [16]:
def mse_2(B0,B1,Y=Y,X=X,n=n):
    return np.sum((B0 + B1*X - Y)**2)/n

In [17]:
alpha = 5e-5
B0, B1 = 0.1, 0.1
irange = 2000000

Нужно взять прозводную MSE по B0 и подставить, проблема только в подборе коэфи всеже довольно большой средней квадратической

Просьба объяснить на вебинаре)

In [18]:
for i in range(irange + 1):
    B0 -=alpha*(2/n)*np.sum(B0 + B1*X - Y)
    B1 -=alpha*(2/n)*np.sum((B0 + B1*X - Y)*X)
    if i%500000 == 0:
        print(f'На итерации {i} B0 = {B0}, B1 = {B1} с MSE = {mse_2(B0,B1)}')

На итерации 0 B0 = 0.169966, B1 = 8.074680544760001 с MSE = 122318.06397097581
На итерации 500000 B0 = 444.17598024224475, B1 = 2.6205490180788695 с MSE = 6470.414201657696
На итерации 1000000 B0 = 444.17735732000267, B1 = 2.620538882434834 с MSE = 6470.414201176662
На итерации 1500000 B0 = 444.17735732323916, B1 = 2.620538882411012 с MSE = 6470.414201176657
На итерации 2000000 B0 = 444.17735732323916, B1 = 2.620538882411012 с MSE = 6470.414201176657


In [19]:
B0, B1

(444.17735732323916, 2.620538882411012)