### 1) Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [119]:
import numpy as np
import pandas as pd

### Матричный метод поиска коэффициентов

In [129]:
import seaborn as sbn

In [130]:
ZP = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

KS = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

#### Расчитаем коэффициенты линейной регрессии с intercept

In [131]:
ZP = ZP.reshape((len(ZP),1))

In [132]:
ZP

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [133]:
KS = KS.reshape((len(KS),1))

In [134]:
KS

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

In [135]:
ZP = np.hstack([np.ones((10,1)),ZP])
ZP

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [136]:
B = np.dot(np.linalg.inv(np.dot(ZP.T,ZP)),ZP.T@KS)
B

array([[444.17735732],
       [  2.62053888]])

#### Расчитаем коэффициенты линейной регрессии без intercept

In [137]:
ZP = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

KS = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [138]:
ZP = ZP.reshape((len(ZP),1))

In [139]:
ZP

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [140]:
KS = KS.reshape((len(KS),1))

In [141]:
KS

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

In [142]:
B = np.dot(np.linalg.inv(np.dot(ZP.T,ZP)),ZP.T@KS)
B

array([[5.88982042]])

In [2]:
ZP = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

In [3]:
KS = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

## ---------------------------------------------------------------------------------------------------------------------------

### 2) Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept)

In [178]:
ZP = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

In [179]:
KS = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [180]:
def mse_(B1, KS = KS, ZP = ZP, n=10):
    return np.sum((B1*ZP-KS)**2)/n

#### Обозначим скорость обучения

In [181]:
alpha = 1e-6
alpha

1e-06

In [182]:
B1 = 0.1

In [183]:
n = 10

In [184]:
for i in range(3000):
    B1 -= alpha * (2/n) * np.sum((B1 * ZP - KS) * ZP)
    if i%100 == 0:
        print('Iteration: {i}, B1 = {B1}, mse = {mse}'.format(i=i, B1=B1, mse=mse_(B1)))

Iteration: 0, B1 = 0.25952808, mse = 493237.7212546963
Iteration: 100, B1 = 5.54537842245223, mse = 58151.31823171113
Iteration: 200, B1 = 5.868748638669329, mse = 56522.97550129376
Iteration: 300, B1 = 5.888531320728348, mse = 56516.88130936019
Iteration: 400, B1 = 5.8897415574471985, mse = 56516.85850140053
Iteration: 500, B1 = 5.889815595583751, mse = 56516.858416040064
Iteration: 600, B1 = 5.889820124983314, mse = 56516.85841572062
Iteration: 700, B1 = 5.889820402076462, mse = 56516.85841571941
Iteration: 800, B1 = 5.88982041902807, mse = 56516.8584157194
Iteration: 900, B1 = 5.889820420065112, mse = 56516.85841571941
Iteration: 1000, B1 = 5.8898204201285544, mse = 56516.85841571941
Iteration: 1100, B1 = 5.889820420132437, mse = 56516.85841571943
Iteration: 1200, B1 = 5.889820420132673, mse = 56516.85841571943
Iteration: 1300, B1 = 5.889820420132673, mse = 56516.85841571943
Iteration: 1400, B1 = 5.889820420132673, mse = 56516.85841571943
Iteration: 1500, B1 = 5.889820420132673, mse

In [186]:
mse_(5.8898204)

56516.85841571941

## ---------------------------------------------------------------------------------------------------------------------------

### 3. В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?

В случаях, когда отсутствует информация о дисперсии, используется таблица значений функции Стьюдента, в остальных случаях - таблица значений функции Лапласа.

## ---------------------------------------------------------------------------------------------------------------------------

### 4*. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

отсутствует понимание как решить задачу.