Построение регрессионной модели — это поиск такой функции, которая отражает зависимость одного признака от других.

Например, ваше настроение зависит от самочувствия, количества работы и погоды за окном. Значит, мы можем построить регрессионную модель, с помощью которой с той или иной точностью можно предсказать ваше настроение — конечно, если у нас будет информация о вашем самочувствии, количестве работы и погоде в вашем населенном пункте.

Или, к примеру, вы хотите научиться предсказывать, как зависит уровень преступности в том или ином регионе от безработицы, уровня потребления алкоголя и образования жителей. Тогда вы можете построить регрессионную модель, предсказывающую количество преступлений в зависимости от значений других признаков.

In [10]:

# Попробуем  в качестве знакомства с линейной регрессией обучим совсем простую модель, которая будет предсказывать тормозной путь автомобиля в зависимости от скорости.

# Для начала подключим необходимые библиотеки:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#Теперь откроем наш датасет:
myData = pd.read_csv('data/mycar.csv')

# У нас здесь всего два признака: один из них будет зависимой переменной, а другой — независимой.
#Обозначим их:
X = myData.iloc[:,:-1].values
Y = myData.iloc[:,1].values


myData.head()


Unnamed: 0,Speed,Stopping_dist
0,4,2
1,4,10
2,7,4
3,7,22
4,8,16


Для начала нам необходимо разделить выборку (то есть все наши объекты) на обучающую и тестовую. Давайте разберемся, зачем это нужно.

Дело в том, что нам не столько важно, насколько успешно будет алгоритм давать предсказания на наших данных, сколько важно, чтобы он показывал хорошие результаты на реальных данных, «в бою». Можно привести следующую аналогию: обучающая выборка — это тренировочные примеры для нашего алгоритма, а тестовая — экзаменационные.

Обычно выборка делится на обучающую и тестовую не в равных долях: на обучающую  мы берем 70-80 % наблюдений, а на тестовую — 20-30 % наблюдений.

In [31]:
# Подгрузим нужную функцию для разбиения:
from sklearn.model_selection import train_test_split

# Теперь с помощью этой функции мы получаем независимые и зависимые переменные из обучающей и тестовой выборки. Размер тестовой выборки задаем 0,3.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.3)

# Теперь обучим модель:
from sklearn.linear_model import LinearRegression
myModel = LinearRegression() #Обозначаем, что наша модель - линейная регрессия
myModel.fit(X_train,Y_train) #обучаем модель на обучающих данных

# Итак, модель обучена. Что теперь?

# Теперь можем попробовать предсказать значения зависимой переменной для тестовой выборки:
y_pred = myModel.predict(X_test)

print('предикт: ', y_pred)
print('реальные данные:', Y_test)
# Получаем предсказанные результаты для тестовой выборки.



предикт:  [61.18303668 42.14705882 72.6046234  30.72547211 53.56864554 49.76144997
 53.56864554 38.33986325 34.53266768 30.72547211 23.11108096 57.37584111
 34.53266768 30.72547211 61.18303668]
реальные данные: [48 54 54 20 42 50 56 26 46 24 26 46 34 14 56]
