# Линейная регрессия

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Данные

Наша первая модель будет состоять из характеристик домов для продажи, на основе которых мы будет 
предсказывать цену продажи дома.

In [None]:
df = pd.read_csv('USA_Housing.csv')
df.head()

In [None]:
df.info()

Описание данных (**Area** означает, что это характеристика нас. пункта, где расположен дом):
* **Avg. Area Income**: средний доход населения;
* **Avg. Area House Age**: средний возраст домов;
* **Avg. Area Number of Rooms**: среднее количество комнат в доме;
* **Avg. Area Number of Bedrooms**: среднее количество спален в доме;
* **Area Population**: население;
* **Price**: цена дома;
* **Address**: адрес дома.

Посчитаем общие статистики датасета

In [None]:
df.describe()

Список наименований колонок

In [None]:
df.columns

### Графики по данным

In [None]:
График взаимосвязи всех предикторов

In [None]:
sns.pairplot(df)

График распределения зависимой переменной

In [None]:
sns.distplot(df['Price'])

Похоже, независимая переменная распределена нормально, что хорошо для построения линейной регрессии.

Построим матрицу корреляции независимых переменных

In [None]:
sns.heatmap(df.corr(), annot=True)

На графике видно, что корреляция между большинством независимых переменных отсутствует.

## Построение линейной ререссионной модели

Первое, что необходимо сделать - это разделить наши данные на матрицу X - данные характеристик для получения результата, и массив y - результат. Также мы удалим колонку Адрес, так как она содержит лишь тестовую информацию, которая никак не интерпретируется.

In [None]:
df.columns

In [None]:
X = df[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
       'Avg. Area Number of Bedrooms', 'Area Population']]

In [None]:
y = df['Price']

### Разделение модели на тренировочную и тестовую часть

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=101)

### Создание и обучение линейной модели

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lm = LinearRegression()

In [None]:
lm.fit(X_train, y_train)

Мы получили построенную линейную модель с указанными параметрами. 

### Оценка модели

Получим свободный член - интерсепт

In [None]:
print(lm.intercept_)

Получим коэффициенты модели

In [None]:
coeff_df = pd.DataFrame(lm.coef_, X.columns, columns=['Coefficient'])
coeff_df

### Предсказания модели

Получим предсказания модели

In [None]:
predictions = lm.predict(X_test)

In [None]:
predictions

Построим график зависимости зависимой переменной от предсказаний модели

In [None]:
plt.scatter(y_test, predictions)

На графике видно, что получилась достаточно точная модель. Прямая зависимость очевидна.

Теперь построим гистограмму распределения остатков модели.

In [None]:
sns.distplot((y_test - predictions), bins=50)

График показывает нормальное распределение остатков.

### Метрики регрессионной модели

Обычно используются три основные метрики:

**Средняя абсолютная ошибка (MAE)**:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

**Средняя квадратичная ошибка (MSE)**:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

**Корень среднеквадратичной ошибки (RMSE)**:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Чем меньше каждая из этих метрик - тем лучше наша модель

In [None]:
from sklearn import metrics

In [None]:
print('MAE: ', metrics.mean_absolute_error(y_test, predictions))
print('MSE: ', metrics.mean_squared_error(y_test, predictions))
print('RMSE: ', np.sqrt(metrics.mean_squared_error(y_test, predictions)))