In [1]:
import numpy as np

# Урок 7

Линейная регрессия. Однофакторный дисперсионный анализ


## Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Возьмём в качестве признака значение salary, а в качестве целевой переменной - scoring.

    Найдите коэффициенты линейной регрессии с помощью формул для парной регрессии, а затем с помощью метода наименьших квадратов.
    Постройте scatter plot по данным и отметьте на нём прямую линейной регрессии, полученную в п. 1.
    Посчитайте коэффициент детерминации, среднюю ошибку аппроксимации.
    Оцените построенное уравнение регрессии с помощью F-критерия Фишера.
    Постройте для коэффициентов регрессии доверительные интервалы с помощью t-статистики Стьюдента.


Берем за х salary, за y scoring

In [2]:
x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Формула линейной регрессии 
$$y = b_0 + b_1X$$

Коэффицент $b_1$ линейной регресси находяться по формуле

$$b_1=\frac{\bar{yx}-\bar{y}\cdot\bar{x}}{\bar{x^2}-(\bar{x})^2}$$ или 
$$b_1 = \frac{\sum(y_i - \bar{y})(x_i - \bar{x})}{\sum(x_i - \bar{x})^2}$$

In [3]:
x_mean = x.mean()
y_mean = y.mean()

In [4]:
def b1(x: np.array, y: np.array, x_mean: float, y_mean:float)-> float:
    top = sum([(yi - y_mean)*(xi - x_mean) for xi, yi in np.array(list(zip(x,y)))])
    bottom = sum([pow(xi - x_mean,2 ) for xi in x])
    return top/bottom

In [5]:
b_1 = b1(x, y, x_mean, y_mean)
b_1

2.620538882402765

Полчаем $$b_1 = 2.620538882402765$$

Формула для $b_0$
$$b_o = \bar{y} - b_1\bar{x}$$

Функция

In [6]:
def b0(x_mean: float, y_mean: float, b1: float) -> float :
    return y_mean - b1*x_mean

In [7]:
b_0 = b0(x_mean, y_mean, b_1)
b_0

444.1773573243596

Получаем $$b_0 = 444.1773573243596 $$

Проверка с помощью numpy

In [8]:
b = (np.mean(x * y) - np.mean(x) * np.mean(y)) / (np.mean(x**2) - np.mean(x) ** 2)
a = np.mean(y) - b * np.mean(x)
a, b

(444.1773573243596, 2.620538882402765)

Наша регрессия имеет вид
$$ y = 444.18 + 2.62x_1$$

Расчитаем коэффицент корреляции по формуле

$$r_{xy} = \frac{\sum\limits_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})} {\sqrt{\sum\limits_{i=1}^{n} (x_i - \overline{x})^2 \cdot {\sum\limits_{i=1}^{n} (y_i - \overline{y})^2}}} = b \cdot {\frac{\sigma_x}{\sigma_y}}$$

Найдем коэффициент корреляции $r$ с помощью коэффициента $b$ и средних квадратического отклонения, посчитанного для массивов $x$ и $y$:

In [9]:
r = b_1 * np.std(x) / np.std(y)
r

0.8874900920739162

Найдем коэффициент детерминации $R^2$:

In [10]:
R2 = r**2
R2

0.7876386635293682

#### Это означет, что 79% вариации $y$ обьясняется вариаций фактора $x$

### Найдем коэффиценты линейной регрессии методом наименьших квадратов по формуле

Формула
$$\begin{cases}
nb_0 + a_1\sum\limits_{i=1}^{n} x_i = \sum\limits_{i=1}^n y_i\\
b_0\sum\limits_{i=1}^n x_i + b_1 \sum\limits_{i=1}^n x^2_i = \sum\limits_{i=1}^n x_i y_i
\end{cases}$$

Подготовим данные для расчетов, создав датасет в pandas

In [11]:
import pandas as pd

In [12]:
d = {'num': np.arange(1, len(x) + 1), 
     'x': x, 
     'y': y, 
     'x_sq' :np.square(x) ,
     'y_sq' :np.square(y) ,
     'xy' : x*y
    }

In [13]:
df = pd.DataFrame(d)

In [14]:
df

Unnamed: 0,num,x,y,x_sq,y_sq,xy
0,1,35,401,1225,160801,14035
1,2,45,574,2025,329476,25830
2,3,190,874,36100,763876,166060
3,4,200,919,40000,844561,183800
4,5,40,459,1600,210681,18360
5,6,70,739,4900,546121,51730
6,7,54,653,2916,426409,35262
7,8,150,902,22500,813604,135300
8,9,120,746,14400,556516,89520
9,10,110,832,12100,692224,91520


In [15]:
d_sum = {'num': np.sum(df.num ),
        'x' : np.sum(df.x),
        'y' : np.sum(df.y),
        'x_sq': np.sum(df.x_sq) ,
        'y_sq' :np.sum(df.y_sq) ,
        'xy': np.sum(df.xy)
        }

In [16]:
df_sum = pd.DataFrame(d_sum, index=np.arange(5))

In [17]:
d_sum

{'num': 55,
 'x': 1014,
 'y': 7099,
 'x_sq': 137766,
 'y_sq': 5344269,
 'xy': 811417}

Подставим полученные данные в формулу наименьших квадратов

$$\begin{cases}
55b_0 + 1014b_1 = 7099\\
1014b_0 + 137766b_1 = 811417
\end{cases}$$

Получаем 
$$\begin{cases}
b_0 = \frac{25870666}{1091489}\\
b_1 = \frac{37429549}{6658934}
\end{cases}$$

In [18]:
b_0_ms = 25870666/1091489
b_1_ms = 37429549/6658934
b_0_ms, b_1_ms

(23.702177484152383, 5.620952092331896)

##### Где то есть ошибка, но я не вижу где 

### Найдем коэффиценты линейной регрессии методом наименьших квадратов с помощью numpy

Перепишем линейное уравнение $y = b_0 + b_1x$ как $y = Ap$ <br>
где $A = [[x 1]]$ и $p = [[b_1], [b_0]]$ 

In [19]:
A = np.vstack([x, np.ones(len(x))]).T
A

array([[ 35.,   1.],
       [ 45.,   1.],
       [190.,   1.],
       [200.,   1.],
       [ 40.,   1.],
       [ 70.,   1.],
       [ 54.,   1.],
       [150.,   1.],
       [120.,   1.],
       [110.,   1.]])

Используем lstsq для решения относительно вектора $p$

In [None]:
m,c = np.linalg.lstsq(A, y)[0]
m,c 