## Linear Regression

Для удобства просмотра воспользуйтесь nbviewer:

https://nbviewer.org/github/Advantl/Case-Studies-Python/blob/main/Python%20for%20DA/ml_linear_regression_project.ipynb

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error,mean_squared_error

### About data

The Ames Housing Dataset содержит подробную информацию о более чем 2900 объектах жилой недвижимости, проданных в Эймсе (штат Айова) в период с 2006 по 2010 год, с 79 характеристиками, включая характеристики дома, информацию об участке, состояние, качество и местоположение.

In [2]:
df = pd.read_csv("D:/Machine Learning/Новая папка/_DATA/AMES_Final_DF.csv")

### Split the data into training and testing sets

In [3]:
X = df.drop('SalePrice',axis=1)
y = df['SalePrice']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.10, random_state=101)

### Create a Linear Regression model

In [4]:
# Масштабирование данных
scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

In [5]:
base_elastic_model = ElasticNet(max_iter=1000000)

In [6]:
# Поиск оптимальных гиперпараметров с помощью кросс-валидации
param_grid = {'alpha':[0.1,1,5,10,50,100],
              'l1_ratio':[.1, .5, .7, .9, .95, .99, 1]}

grid_model = GridSearchCV(estimator=base_elastic_model,
                          param_grid=param_grid,
                          scoring='neg_mean_squared_error',
                          cv=5,
                          verbose=1)

### Train the model on the training data

In [7]:
grid_model.fit(scaled_X_train,y_train)

Fitting 5 folds for each of 42 candidates, totalling 210 fits


In [8]:
# Наилучшие значения гиперпараметров
grid_model.best_params_

{'alpha': 100, 'l1_ratio': 1}

### Model Evaluation

In [9]:
y_pred = grid_model.predict(scaled_X_test)

In [10]:
mean_absolute_error(y_test,y_pred)

14195.35490056217

In [11]:
np.sqrt(mean_squared_error(y_test,y_pred))

20558.50856689317

In [12]:
np.mean(df['SalePrice'])

180815.53743589742

Для оценки точности разработанной модели, сопоставим полученные значения метрик со средним значением целевой переменной. 

In [13]:
np.sqrt(mean_squared_error(y_test,y_pred)) / np.mean(df['SalePrice']) * 100

11.369879413256484

In [14]:
mean_absolute_error(y_test,y_pred) / np.mean(df['SalePrice']) * 100

7.850738438666919

Среднее отклонение предсказаний от истинных значений составляет примерно 10% от средней цены продажи дома.
Это означает, что модель обеспечивает предсказания, которые в среднем отклоняются от реальных значений на 10%.