## Линейная регрессия

### Импорт нужных библиотек

In [None]:
import operator

import numpy as np
import pandas as pd # Для работы с данными
import matplotlib.pyplot as plt  # Библиотека для визуализации результатов

### Импрорт класса линейной регрессии

In [None]:
from sklearn.linear_model import LinearRegression # линейная регрессия

### Читаем csv и показываем первые пять записей

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/ahartz1/car-linear-regression/master/car_data.csv', delimiter=',')
data.head()

### Кол-во данных

In [None]:
data.shape

### Задаем X и Y

In [None]:
X = data[['Mileage']]
Y = data['Price']

### Проверяем записи

In [None]:
X.shape, Y.shape

### Обучаем модель

In [None]:
model = LinearRegression()
model.fit(X, Y) #Обучение модели

### Проверяем коэфициент $$y = Xw + b$$

In [None]:
model.coef_ #w

In [None]:
model.intercept_ #b

### Проверяем как предсказывает модель

In [None]:
y_predict = model.predict(X) #Получаем предсказонное значение
y_predict.shape

### Рисуем график

In [None]:
plt.figure(figsize=(12,9))
plt.plot(X, Y, 'o', alpha=0.3)
plt.plot(X, y_predict, 'k-',)
plt.show

### Средняя ошибка

In [None]:
np.mean(np.abs(y_predict - Y))

In [None]:
Y.mean()

<p>Несмотря на то, что зависимость от пробега наблюдаема, но она не столь существенна, чтобы эффективно описать данные, как видим на графике. Нужно что-то поумнее.</p>

### Берем несколько параметров


In [None]:
X = data.loc[:, ['Mileage', 'Liter']]
X.head()

In [None]:
Y = data.Price
Y.head() #Предсказываемая цена

### Обучаем регрессию

In [None]:
model.fit(X, Y)
y_predict = model.predict(X)

### Проверка ошибки и коэфициентов

In [None]:
np.mean(np.abs(y_predict - Y))

In [None]:
model.coef_

In [None]:
model.intercept_

### Нарисуем график

In [None]:
plt.figure(figsize=(12,9))
plt.plot(Y.index, Y, 'o')
plt.plot(Y.index, y_predict, 'y^')
plt.show()

### Добавляем зависимость от марки автомобиля

In [None]:
data.Make.unique()#Ищем уникальные значения

In [None]:
X = pd.get_dummies(data[['Mileage', 'Make', 'Liter']])
Y = data.Price

In [None]:
X

### Обучение модели

In [None]:
model = LinearRegression()
model.fit(X, Y)
y_predict = model.predict(X)

In [None]:
np.abs(y_predict - Y).mean()

### Строим график

In [None]:
plt.figure(figsize=(12,9))
plt.plot(Y.index, Y, 'o')
plt.plot(Y.index, y_predict, 'y^')
plt.show()

## Полиномиальная регрессия
<p id="4">Не всегда данные могут быть описаны (достаточно эффективно) линейной моделью. В некоторых задачах часто строятся полиномиальные модели. Здесь появляется дополнительный гиперпараметр - максимальная степень, в  которой могут находится параметры для описанния данных

#### Практика на собственном датасете.

 <p id="5">Сгенерируем свой собственный датасет для задачи полиномиальной регрессии.</p>

In [None]:
from sklearn.preprocessing import PolynomialFeatures

In [None]:
num_points = 40

np.random.seed(0)

x = 2 - 3 * np.random.normal(0, 1, num_points)
y = x - 2 * (x ** 2) + 0.5 * (x ** 3) + np.random.normal(-3, 3, num_points) # заданы параметры при степенях

# преобразуем данный чтобы добавить новые оси
x = x[:, np.newaxis]
# y = y[:, np.newaxis]
x.shape, y.shape

### Выводим данные на график

In [None]:
plt.scatter(x, y)
plt.show()

### Обучаем линейную регрессию

In [None]:
model = LinearRegression()
model.fit(x, y)
y_pred = model.predict(x)

plt.figure(figsize=(12,9))
plt.scatter(x, y, s=10)
plt.plot(x, y_pred, color='m')
plt.show()

In [None]:
np.mean(np.abs(y - y_pred))

### Обучаем полиномиальную регрессию

In [None]:
# sklearn генерирует допольнительное кол-во признаков для полиномиальной регресии
polynomial_features = PolynomialFeatures(degree=2) # указываем вторую степень полинома
x_poly = polynomial_features.fit_transform(x) # получаем новые признаки
x_poly.shape

In [None]:
x_poly[:3]

In [None]:
# теперь подаем эти признаки в линейную регресиию
# и проделаем все те же самые операции
model = LinearRegression()
model.fit(x_poly, y)
y_poly_pred = model.predict(x_poly)

plt.figure(figsize=(12,9))
plt.scatter(x, y, s=10)

sort_axis = operator.itemgetter(0)
sorted_zip = sorted(zip(x, y_poly_pred), key=sort_axis)
x_, y_poly_pred = zip(*sorted_zip)

plt.plot(x_, y_poly_pred, color='m')
plt.show()

### Попробуем степень 3

In [None]:
polynomial_features = PolynomialFeatures(degree=3)
x_poly = polynomial_features.fit_transform(x)

model = LinearRegression()
model.fit(x_poly, y)
y_poly_pred = model.predict(x_poly)

plt.figure(figsize=(12,9))
plt.scatter(x, y, s=10)

sort_axis = operator.itemgetter(0)
sorted_zip = sorted(zip(x, y_poly_pred), key=sort_axis)
x_, y_poly_pred = zip(*sorted_zip)

plt.plot(x_, y_poly_pred, color='m')
plt.show()

In [None]:
y_poly_pred = model.predict(x_poly)
np.mean(np.abs(y - y_poly_pred))

In [None]:
model.coef_

In [None]:
model.intercept_