Линейная регрессия по методу наименьших квадратов

In [1]:
import numpy as np
import pandas as pd
from sklearn import datasets
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'PRICE']
boston_data = pd.read_csv('data/housing.csv', header=None, delimiter=r'\s+', names=column_names)
boston_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


 Составим матрицу А из столюцов 'CRIM' и 'RM', а также укажем целевую переменную 'y'

In [3]:
CRIM = boston_data['CRIM']
RM = boston_data['RM']
A = np.column_stack((np.ones(506), CRIM, RM))
y = boston_data[['PRICE']]
print(A)

[[1.0000e+00 6.3200e-03 6.5750e+00]
 [1.0000e+00 2.7310e-02 6.4210e+00]
 [1.0000e+00 2.7290e-02 7.1850e+00]
 ...
 [1.0000e+00 6.0760e-02 6.9760e+00]
 [1.0000e+00 1.0959e-01 6.7940e+00]
 [1.0000e+00 4.7410e-02 6.0300e+00]]


In [4]:
print(A.shape)

(506, 3)


Вычислим OLS-оценку для коэффициентов 'w'

In [5]:
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat)
# в принципе это и есть обученная модель с коэффициентами

       PRICE
0 -29.244719
1  -0.264913
2   8.391068


Составим прогноз модели на новых данных

In [6]:
# новые данные
CRIM_new = 0.1
RM_new = 8
# считаем типичный прогноз стоимости дома
PRICE_new = w_hat.iloc[0] + w_hat.iloc[1]*CRIM_new + w_hat.iloc[2]*RM_new
print(PRICE_new)

PRICE    37.857335
dtype: float64


Запишем более коротко преобразовав новое наблюдение в матрицу (3, 1)

In [7]:
new=np.array([[1, CRIM_new, RM_new]])
print('prediction:', (new@w_hat).values)

prediction: [[37.85733519]]


Посроим модель через класс LinearRegression и сделаем прогноз на новых данных

In [8]:
from sklearn.linear_model import LinearRegression

# создаем модель линейной регрессии
model = LinearRegression(fit_intercept=False) # убирает интерцептор т.к. единичный вектор мы уже сделали в матрице ранее

# вычислим коэффициенты
model.fit(A, y)
print('w_hat:', model.coef_)

# делаем новое предсказание
new_prediction = model.predict(new)
print('prediction:', new_prediction)

w_hat: [[-29.24471945  -0.26491325   8.39106825]]
prediction: [[37.85733519]]


### Практика

In [9]:
x_1 = np.array([5, 1, 2])
x_2 = np.array([4, 2, 8])
np.corrcoef(x_1, x_2)

array([[1.        , 0.05241424],
       [0.05241424, 1.        ]])

In [None]:
x_1 = np.array([5.1, 1.8, 2.1, 10.3, 12.1, 12.6])
x_2 = np.array([10.2, 3.7, 4.1, 20.5, 24.2, 24.1])
x_3 = np.array([2.5, 0.9, 1.1, 5.1, 6.1, 6.3])
np.corrcoef(x_1, x_2, x_3)

In [17]:
A = np.array([[5.1, 1.8, 2.1, 10.3, 12.1, 12.6],
                     [10.2, 3.7, 4.1, 20.5, 24.2, 24.1],
                     [2.5, 0.9, 1.1, 5.1, 6.1, 6.3]])
A

array([[ 5.1,  1.8,  2.1, 10.3, 12.1, 12.6],
       [10.2,  3.7,  4.1, 20.5, 24.2, 24.1],
       [ 2.5,  0.9,  1.1,  5.1,  6.1,  6.3]])

In [18]:
np.linalg.matrix_rank(A)

3

In [21]:
B = np.corrcoef(A)
B

array([[1.        , 0.99925473, 0.99983661],
       [0.99925473, 1.        , 0.99906626],
       [0.99983661, 0.99906626, 1.        ]])

In [23]:
np.linalg.det(np.corrcoef(A))

4.862298229241645e-07