# Линейная регрессия

## Реализация в Python

Попробуем  в качестве знакомства с линейной регрессией обучим совсем простую модель, которая будет предсказывать тормозной путь автомобиля в зависимости от скорости.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
myData = pd.read_csv('../data/mycar.csv')

In [3]:
myData.head()

Unnamed: 0,Speed,Stopping_dist
0,4,2
1,4,10
2,7,4
3,7,22
4,8,16


У нас здесь всего два признака: один из них будет зависимой переменной, а другой — независимой.

In [11]:
X = myData.iloc[:,:-1].values
Y = myData.iloc[:,1].values

In [22]:
X = myData.loc[:, ['Speed']].values
Y = myData.loc[:, 'Stopping_dist'].values

Для начала нам необходимо разделить выборку (то есть все наши объекты) на обучающую и тестовую. Давайте разберемся, зачем это нужно.

Дело в том, что нам не столько важно, насколько успешно будет алгоритм давать предсказания на наших данных, сколько важно, чтобы он показывал хорошие результаты на реальных данных, «в бою». Можно привести следующую аналогию: обучающая выборка — это тренировочные примеры для нашего алгоритма, а тестовая — экзаменационные.

Обычно выборка делится на обучающую и тестовую не в равных долях: на обучающую  мы берем 70-80 % наблюдений, а на тестовую — 20-30 % наблюдений.

Подгрузим нужную функцию для разбиения:

In [23]:
from sklearn.model_selection import train_test_split

Теперь с помощью этой функции мы получаем независимые и зависимые переменные из обучающей и тестовой выборки. Размер тестовой выборки задаем 0,3.

In [24]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.3)

Теперь обучим модель:

In [25]:
from sklearn.linear_model import LinearRegression
myModel = LinearRegression() #Обозначаем, что наша модель - линейная регрессия
myModel.fit(X_train,Y_train) #обучаем модель на обучающих данных

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Итак, модель обучена. Что теперь?

Теперь можем попробовать предсказать значения зависимой переменной для тестовой выборки:

In [26]:
y_pred = myModel.predict(X_test)
display(y_pred)

array([77.42294847, 61.02822837, 15.94274809, 56.92954835, 77.42294847,
       40.53482824, 36.43614822, 61.02822837, 61.02822837, 73.32426845,
       36.43614822, 52.83086832,  7.74538804, 48.7321883 , -4.55065204])

Получаем предсказанные результаты для тестовой выборки.

# Ошибки в линейной регрессии

In [28]:
import pandas as pd               # библиотека для работы с таблицами
import numpy as np                # библиотека для работы с матрицами

Рассмотрим очень простой пример. Предположим, что у нас есть показатели уровня счастья для пяти человек:

In [32]:
y_happy = [4,20,110,15,23]

Допустим, у нас есть показатели счастья для этих же пяти человек, но предсказанные некоторым алгоритмом:

In [29]:
y_happy_pred = [5,15,100,9,21]

Давайте вычислим метрики для этих данных!

In [30]:
from sklearn import metrics  # подгружаем метрики

In [33]:
#Вычисляем MAE:

MAE = metrics.mean_absolute_error(y_happy, y_happy_pred)

print(MAE)

4.8


In [34]:
#Вычисляем MSE:

MSE = metrics.mean_squared_error(y_happy, y_happy_pred)
print(MSE)

33.2


In [35]:
#Вычисляем коэффициент детерминации:

R_2 = metrics.r2_score(y_happy, y_happy_pred)
print(R_2)

0.9774247946472284


## Задания:

Чему равна MSE на этих данных F?

In [38]:
f = [1, 3, 2, 5]
f_pred = [2, 3, -1, 4]

In [39]:
MSE = metrics.mean_squared_error(f, f_pred)
print(MSE)

2.75
