In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
myData = pd.read_csv('mycar.csv')

У нас здесь всего два признака: один из них будет зависимой переменной, а другой — независимой.

Обозначим их:

In [2]:
X = myData.iloc[:,:-1].values
Y = myData.iloc[:,1].values

Для начала нам необходимо разделить выборку (то есть все наши объекты) на обучающую и тестовую. Давайте разберемся, зачем это нужно.

Дело в том, что нам не столько важно, насколько успешно будет алгоритм давать предсказания на наших данных, сколько важно, чтобы он показывал хорошие результаты на реальных данных, «в бою». Можно привести следующую аналогию: обучающая выборка — это тренировочные примеры для нашего алгоритма, а тестовая — экзаменационные.

Обычно выборка делится на обучающую и тестовую не в равных долях: на обучающую  мы берем 70-80 % наблюдений, а на тестовую — 20-30 % наблюдений.

Подгрузим нужную функцию для разбиения:

In [3]:
from sklearn.model_selection import train_test_split

Теперь с помощью этой функции мы получаем независимые и зависимые переменные из обучающей и тестовой выборки. Размер тестовой выборки задаем 0,3.

In [4]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.3)

Теперь обучим модель:

In [5]:
from sklearn.linear_model import LinearRegression
myModel = LinearRegression() #Обозначаем, что наша модель - линейная регрессия
myModel.fit(X_train,Y_train) #обучаем модель на обучающих данных

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Итак, модель обучена. Что теперь?

Теперь можем попробовать предсказать значения зависимой переменной для тестовой выборки:

In [6]:
y_pred = myModel.predict(X_test)
y_pred

array([31.4418256 , 66.30218612, 31.4418256 , 34.92786165, 59.33011401,
       14.01164534, 27.95578955, 59.33011401, 48.87200586, 24.4697535 ,
       41.89993375, 24.4697535 , 76.76029427, 73.27425822, 27.95578955])

Но как узнать, насколько модель хороша? Для этого мы в будущих уроках научимся сравнивать, насколько предсказанные значения близки к реальным.



In [8]:
import pandas as pd               # библиотека для работы с таблицами
import numpy as np                # библиотека для работы с матрицами

Рассмотрим очень простой пример. Предположим, что у нас есть показатели уровня счастья для пяти человек:

In [9]:
y_happy = [4,20,110,15,23]

Допустим, у нас есть показатели счастья для этих же пяти человек, но предсказанные некоторым алгоритмом:

In [10]:
y_happy_pred = [5,15,100,9,21]

Давайте вычислим метрики для этих данных!

In [11]:
from sklearn import metrics  # подгружаем метрики

In [12]:
#Вычисляем MAE:

MAE = metrics.mean_absolute_error(y_happy, y_happy_pred)

print(MAE)

4.8


In [13]:
#Вычисляем MSE:

MSE = metrics.mean_squared_error(y_happy, y_happy_pred)
print(MSE)

33.2


In [14]:
#Вычисляем коэффициент детерминации:

R_2 = metrics.r2_score(y_happy, y_happy_pred)
print(R_2)

0.9774247946472284


In [16]:
y1_happy = [1,3,2,5]
y1_happy_pred = [2,3,-1,4]

In [17]:
MSE = metrics.mean_squared_error(y1_happy, y1_happy_pred)
print(MSE)

2.75


In [19]:
R_21 = metrics.r2_score(y1_happy, y1_happy_pred)
print(R_21)

-0.2571428571428571
