# Линейная регрессия

Построение регрессионной модели — это поиск такой функции, которая отражает зависимость одного признака от других.

Например, ваше настроение зависит от самочувствия, количества работы и погоды за окном. Значит, мы можем построить регрессионную модель, с помощью которой с той или иной точностью можно предсказать ваше настроение — конечно, если у нас будет информация о вашем самочувствии, количестве работы и погоде в вашем населенном пункте.

Или, к примеру, вы хотите научиться предсказывать, как зависит уровень преступности в том или ином регионе от безработицы, уровня потребления алкоголя и образования жителей. Тогда вы можете построить регрессионную модель, предсказывающую количество преступлений в зависимости от значений других признаков.

	
### Регрессия помогает:
- Объяснить разброс одной переменной через другие.
- Предсказывать значения зависимой переменной, зная значения независимых.
- Оценить вклад каждой независимой переменной.


Регрессия может быть простой или множественной. В случае простой регрессии мы предсказываем значение зависимой переменной только через одну независимую переменную. В случае множественной — через несколько.

В общем виде уравнение регрессии выглядит следующим образом:

$$y = a_{1}x_{1} + a_{2}x_{2} + ... + a_{m}x_{m}$$

Y - зависимая переменная. Та переменная, которую мы хотим объяснить через другие.

$X_{1}, X_{2}, ..., X_{m}$ — переменные, через которые мы хотим объяснить зависимую переменную. Их называют независимыми переменными/факторами/регрессорами/предикторами.

Простая регрессия в реальной жизни фактически не используется, ведь предсказать значение признака с помощью чего-то одного никогда не получается. Обычно на любое явление влияют многие факторы.

Попробуем  в качестве знакомства с линейной регрессией обучим совсем простую модель, которая будет предсказывать тормозной путь автомобиля в зависимости от скорости.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
myData = pd.read_csv('mycar.csv')

У нас здесь всего два признака: один из них будет зависимой переменной, а другой — независимой.

Обозначим их:

In [3]:
X = myData.iloc[:, :-1].values
Y = myData.iloc[:, 1].values

Для начала нам необходимо разделить выборку (то есть все наши объекты) на обучающую и тестовую. Давайте разберемся, зачем это нужно.

Дело в том, что нам не столько важно, насколько успешно будет алгоритм давать предсказания на наших данных, сколько важно, чтобы он показывал хорошие результаты на реальных данных, «в бою». Можно привести следующую аналогию: обучающая выборка — это тренировочные примеры для нашего алгоритма, а тестовая — экзаменационные.

Обычно выборка делится на обучающую и тестовую не в равных долях: на обучающую  мы берем 70-80 % наблюдений, а на тестовую — 20-30 % наблюдений.

Подгрузим нужную функцию для разбиения:

In [4]:
from sklearn.model_selection import train_test_split

Теперь с помощью этой функции мы получаем независимые и зависимые переменные из обучающей и тестовой выборки. Размер тестовой выборки задаем 0,3.

In [5]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3)

Теперь обучим модель:

In [6]:
from sklearn.linear_model import LinearRegression
myModel = LinearRegression()  # Обозначаем, что наша модель - линейная регрессия
myModel.fit(X_train, Y_train)  # обучаем модель на обучающих данных

LinearRegression()

Итак, модель обучена. Что теперь?

Теперь можем попробовать предсказать значения зависимой переменной для тестовой выборки:

In [7]:
y_pred = myModel.predict(X_test)
y_pred

array([47.13161723, 39.82738042, 32.52314361, 50.78373564, 32.52314361,
       25.2189068 , 50.78373564, 54.43585404, 32.52314361, 36.17526202,
       28.87102521, 43.47949883, -0.34592203, 72.69644607, 58.08797245])

![task1](./img/task1.png)
![task2](./img/task2.png)
![task3](./img/task3.png)