### Урок 9. Линейная регрессия Логистическая регрессия

#### Задача 1.

Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): 

zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110] 

ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. 

Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [3]:
import scipy.stats as stats
import numpy as np

In [4]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
n = len(zp)


Находим Коэффициент $b_1$ по формуле:
$$b_1 = \frac{n(\Sigma_{i=1}^nx_i)(\Sigma_{i=1}^ny_i)}{n\Sigma_{i=1}^nx_i^2 - (\Sigma_{i=1}^nx_i)^2}$$.

Затем найдем интерсепт по формуле:
$$b_0 = \overline{y} - b\overline{x}$$

In [5]:
b1 = (n*np.sum(zp*ks) - np.sum(zp)*np.sum(ks))/(n*np.sum(zp**2) - (np.sum(zp))**2)
b1

2.6205388824027653

In [6]:
b0 = np.mean(ks) - b1*np.mean(zp)
b0

444.17735732435955

#### Задача 2.


Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [7]:
def mse_(B1: float, y: list, x: list, n: int):
    return np.sum((B1*x-y)**2/n)

In [8]:
alpha = 1e-6
B1 = 0.1
n = len(zp)

In [9]:
for i in range(1200):
    B1 -= alpha*(2/n) * np.sum((B1*zp-ks)*zp)
    if i % 100 == 0:
        print('Iteration = {i}, B1 = {B1}, mse = {mse}'.format(i= i, B1= B1, mse= mse_(B1,ks,zp,n)))

Iteration = 0, B1 = 0.25952808, mse = 493237.7212546963
Iteration = 100, B1 = 5.54537842245223, mse = 58151.31823171113
Iteration = 200, B1 = 5.868748638669329, mse = 56522.97550129376
Iteration = 300, B1 = 5.888531320728348, mse = 56516.88130936021
Iteration = 400, B1 = 5.8897415574471985, mse = 56516.85850140054
Iteration = 500, B1 = 5.889815595583751, mse = 56516.858416040086
Iteration = 600, B1 = 5.889820124983314, mse = 56516.85841572061
Iteration = 700, B1 = 5.889820402076462, mse = 56516.85841571942
Iteration = 800, B1 = 5.88982041902807, mse = 56516.858415719405
Iteration = 900, B1 = 5.889820420065112, mse = 56516.858415719405
Iteration = 1000, B1 = 5.8898204201285544, mse = 56516.858415719405
Iteration = 1100, B1 = 5.889820420132437, mse = 56516.8584157194


In [10]:
mse_(5.8898,ks,zp,n)

56516.858421464

$$y = 5.89*x$$

#### Задача 3*

Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).


In [11]:
def mse_intercept(B0: float, B1: float, y: list, x: list, n: int):
    return np.sum((B0+B1*x-y)**2/n)


In [18]:
alpha = 1e-5
B0 = 0.1
B1 = 0.1
n = len(zp)

In [22]:
for i in range(2000000):
    k = B1
    b = B0
    B1 -= alpha*(2/n) * np.sum((B1*zp+b-ks)*zp)
    B0 -= alpha*(2/n) * np.sum(k*zp+B0-ks)
    
    if i % 100000 == 0:
        print('Iteration = {i}, B0 = {B0}, B1 = {B1}, mse = {mse}'.format(i= i,B0= B0, 
                                                                          B1= B1, mse= mse_intercept(B0,B1,ks,zp,n)))

Iteration = 0, B0 = 300.19601772724553, B1 = 3.680305199644469, mse = 11729.046624903258
Iteration = 100000, B0 = 357.4837557642, B1 = 3.2586421193285555, mse = 8376.904000734778
Iteration = 200000, B0 = 391.9776724728217, B1 = 3.004751641716477, mse = 7161.602149476583
Iteration = 300000, B0 = 412.7470435576754, B1 = 2.8518798878655165, mse = 6721.000792295972
Iteration = 400000, B0 = 425.25263342454974, B1 = 2.759833217406435, mse = 6561.263064793674
Iteration = 500000, B0 = 432.78246074958884, B1 = 2.704410359166251, mse = 6503.350983562475
Iteration = 600000, B0 = 437.3162972297929, B1 = 2.6710393181476952, mse = 6482.355260103964
Iteration = 700000, B0 = 440.0461969129939, B1 = 2.6509460495213544, mse = 6474.743369904665
Iteration = 800000, B0 = 441.6899157177899, B1 = 2.6388475523882264, mse = 6471.983718753749
Iteration = 900000, B0 = 442.67962663128355, B1 = 2.631562842488582, mse = 6470.983221600573
Iteration = 1000000, B0 = 443.2755483238766, B1 = 2.627176595358983, mse = 647

__Ответ:__ 
$$y = 444.17 + 2.62*x$$