# Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [1]:
import numpy as np
import pandas as pd

In [2]:
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [3]:
df = pd.DataFrame(zip(zp, ks), columns=["zp", "ks"])
df

Unnamed: 0,zp,ks
0,35,401
1,45,574
2,190,874
3,200,919
4,40,459
5,70,739
6,54,653
7,150,902
8,120,746
9,110,832


In [4]:
b = ((df.zp * df.ks).mean() - df.zp.mean() * df.ks.mean()) / ((df.zp.pow(2)).mean() - df.zp.mean() ** 2)
b

2.620538882402765

In [5]:
a = df.ks.mean() - b * df.zp.mean()
a

444.1773573243596

## Без интерсепта

In [6]:
X = np.array(zp).reshape(10, 1)
X

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [7]:
y = np.array(ks).reshape(10, 1)
y

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

In [8]:
B = np.dot(np.linalg.inv(np.dot(X.T, X)), np.matmul(X.T, y))
B

array([[5.88982042]])

## С интерсептом

In [9]:
X = np.hstack([np.ones((10, 1)), X])
X

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [10]:
B = np.dot(np.linalg.inv(np.dot(X.T, X)), np.matmul(X.T, y))
B

array([[444.17735732],
       [  2.62053888]])

# Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [11]:
def rmse(beta, dataframe, n=len(df)):
    return (((beta * dataframe.zp - dataframe.ks) ** 2).sum() / n) ** 0.5

In [12]:
from tqdm import trange

b1 = 1
alpha = 1e-6

for i in trange(1, 100_001):
    b1 -= alpha * (2 / i) * ((b1 * df.zp - df.ks) * df.zp).sum()
print(f"Финальное значение: B1 = {b1}, rmse = {rmse(b1, df)}")

100%|██████████| 100000/100000 [00:26<00:00, 3705.37it/s]

Финальное значение: B1 = 5.7272873066634045, rmse = 238.49694974287883



