In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### Данные

In [2]:
df = pd.read_csv("AMES_Final_DF.csv")

In [3]:
df.head()

Unnamed: 0.1,Unnamed: 0,Lot Frontage,Lot Area,Overall Qual,Overall Cond,Year Built,Year Remod/Add,Mas Vnr Area,BsmtFin SF 1,BsmtFin SF 2,...,Sale Type_ConLw,Sale Type_New,Sale Type_Oth,Sale Type_VWD,Sale Type_WD,Sale Condition_AdjLand,Sale Condition_Alloca,Sale Condition_Family,Sale Condition_Normal,Sale Condition_Partial
0,0,141.0,31770,6,5,1960,1960,112.0,639.0,0.0,...,0,0,0,0,1,0,0,0,1,0
1,1,80.0,11622,5,6,1961,1961,0.0,468.0,144.0,...,0,0,0,0,1,0,0,0,1,0
2,2,81.0,14267,6,6,1958,1958,108.0,923.0,0.0,...,0,0,0,0,1,0,0,0,1,0
3,3,93.0,11160,7,5,1968,1968,0.0,1065.0,0.0,...,0,0,0,0,1,0,0,0,1,0
4,4,74.0,13830,5,5,1997,1998,0.0,791.0,0.0,...,0,0,0,0,1,0,0,0,1,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2925 entries, 0 to 2924
Columns: 275 entries, Unnamed: 0 to Sale Condition_Partial
dtypes: float64(11), int64(264)
memory usage: 6.1 MB


**Мы будем пытаться спрогнозировать значение колонки SalePrice. Разделиv данные на две части - признаки X и целевая переменная y.**

In [5]:
X = df.drop('SalePrice',axis=1)
y = df['SalePrice']

**С помощью scikit-learn разделим и X, и y на обучающий и тестовый наборы данных. Поскольку далее мы будем использовать поиск по сетке, то выделим под тестовые данные 10% от всех данных. Чтобы получить такое же разбиение данных, как и в нашем блокноте, используем random_state = 101.**

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=101)

**Признаки в этом наборе данных имеют различный масштаб и различные единицы измерения. Для оптимальной работы регрессии, выполниv масштабирование признаков X. Очень важно понять на то, какие данные подавать на вход для .fit(), а какие данные на вход для .transform().**

In [7]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

**Мы будем использовать модель "Elastic Net". Создим экземпляр модели ElasticNet в scikit-learn, используя параметры по умолчанию.**

In [8]:
#Линейная регресия
from sklearn.linear_model import ElasticNet
base_elastic_model = ElasticNet()

**Модель Elastic Net работает с двумя основными параметрами - alpha и L1_ratio. Создим словарь с набором различных значений этих параметров, для поиска по сетке. Мы можем выбрать различные значения параметров.**

In [9]:
param_grid = {'alpha':[0.1,1,5,10,50,100],
              'l1_ratio':[.1, .5, .7, .9, .95, .99, 1]}

**С помощью scikit-learn создаём объект GridSearchCV и запускаем поиск по сетке для нахождения наилучших параметров модели, используя обучающие данные (предварительно смасштабированные). [Для некоторых комбинаций параметров мы можем получить предупреждения (warnings).](https://stackoverflow.com/questions/20681864/lasso-on-sklearn-does-not-converge)**

In [10]:


from sklearn.model_selection import GridSearchCV



grid_model = GridSearchCV(estimator=base_elastic_model,
                          param_grid=param_grid,
                          scoring='neg_mean_squared_error',
                          cv=5,
                          verbose=2)
import warnings
warnings.filterwarnings('ignore')


In [11]:
grid_model.fit(X_train,y_train)

Fitting 5 folds for each of 42 candidates, totalling 210 fits
[CV] alpha=0.1, l1_ratio=0.1 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.1, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.1 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.1, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.1 .........................................


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s


[CV] .......................... alpha=0.1, l1_ratio=0.1, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.1 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.1, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.1 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.1, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.5 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.5, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.5 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.5, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.5 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.5, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.5 .........................................
[CV] .......................... alpha=0.1, l1_ratio=0.5, total=   0.1s
[CV] alpha=0.1, l1_ratio=0.5 .........................................
[CV] .

[CV] ........................... alpha=1, l1_ratio=0.99, total=   0.2s
[CV] alpha=1, l1_ratio=0.99 ..........................................
[CV] ........................... alpha=1, l1_ratio=0.99, total=   0.2s
[CV] alpha=1, l1_ratio=0.99 ..........................................
[CV] ........................... alpha=1, l1_ratio=0.99, total=   0.2s
[CV] alpha=1, l1_ratio=0.99 ..........................................
[CV] ........................... alpha=1, l1_ratio=0.99, total=   0.2s
[CV] alpha=1, l1_ratio=0.99 ..........................................
[CV] ........................... alpha=1, l1_ratio=0.99, total=   0.2s
[CV] alpha=1, l1_ratio=1 .............................................
[CV] .............................. alpha=1, l1_ratio=1, total=   0.2s
[CV] alpha=1, l1_ratio=1 .............................................
[CV] .............................. alpha=1, l1_ratio=1, total=   0.2s
[CV] alpha=1, l1_ratio=1 .............................................
[CV] .

[CV] ........................... alpha=10, l1_ratio=0.9, total=   0.0s
[CV] alpha=10, l1_ratio=0.9 ..........................................
[CV] ........................... alpha=10, l1_ratio=0.9, total=   0.0s
[CV] alpha=10, l1_ratio=0.9 ..........................................
[CV] ........................... alpha=10, l1_ratio=0.9, total=   0.0s
[CV] alpha=10, l1_ratio=0.9 ..........................................
[CV] ........................... alpha=10, l1_ratio=0.9, total=   0.0s
[CV] alpha=10, l1_ratio=0.95 .........................................
[CV] .......................... alpha=10, l1_ratio=0.95, total=   0.0s
[CV] alpha=10, l1_ratio=0.95 .........................................
[CV] .......................... alpha=10, l1_ratio=0.95, total=   0.0s
[CV] alpha=10, l1_ratio=0.95 .........................................
[CV] .......................... alpha=10, l1_ratio=0.95, total=   0.0s
[CV] alpha=10, l1_ratio=0.95 .........................................
[CV] .

[CV] .......................... alpha=100, l1_ratio=0.9, total=   0.0s
[CV] alpha=100, l1_ratio=0.95 ........................................
[CV] ......................... alpha=100, l1_ratio=0.95, total=   0.0s
[CV] alpha=100, l1_ratio=0.95 ........................................
[CV] ......................... alpha=100, l1_ratio=0.95, total=   0.0s
[CV] alpha=100, l1_ratio=0.95 ........................................
[CV] ......................... alpha=100, l1_ratio=0.95, total=   0.0s
[CV] alpha=100, l1_ratio=0.95 ........................................
[CV] ......................... alpha=100, l1_ratio=0.95, total=   0.0s
[CV] alpha=100, l1_ratio=0.95 ........................................
[CV] ......................... alpha=100, l1_ratio=0.95, total=   0.0s
[CV] alpha=100, l1_ratio=0.99 ........................................
[CV] ......................... alpha=100, l1_ratio=0.99, total=   0.0s
[CV] alpha=100, l1_ratio=0.99 ........................................
[CV] .

[Parallel(n_jobs=1)]: Done 210 out of 210 | elapsed:   15.0s finished


GridSearchCV(cv=5, estimator=ElasticNet(),
             param_grid={'alpha': [0.1, 1, 5, 10, 50, 100],
                         'l1_ratio': [0.1, 0.5, 0.7, 0.9, 0.95, 0.99, 1]},
             scoring='neg_mean_squared_error', verbose=2)

**Отобразим наилучшую комбинацию параметров для Нашей модели.**

In [12]:
grid_model.best_params_

{'alpha': 100, 'l1_ratio': 1}

**Оценим работу модели на тестовом наборе данных (предварительно смасштабированном) в 10%, которые модель ещё не видела. В блокноте с решениями мы получили MAE = $\$$14149 и RMSE = $\$$20532**

In [13]:
y_pred = grid_model.predict(X_test)

In [14]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [15]:
MAE = mean_absolute_error(y_test,y_pred)
MAE

14195.354916674849

In [16]:
MSE = mean_squared_error(y_test,y_pred)
RMSE = np.sqrt(MSE)
RMSE

20558.508635060214

In [43]:
#Полиноминальная регрессия

In [38]:
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
 
    # Создаём полиномиальные данные для степени "2"
polynomial_converter = PolynomialFeatures(degree=2,include_bias=True)
poly_features = polynomial_converter.fit_transform(X)
    
    # Разбиваем эти новые полиномиальные данные на обучающий и тестовый наборы данных
X_train, X_test, y_train, y_test = train_test_split(poly_features, y, test_size=0.1, random_state=101)

    
    # Обучаем модель на этом новом наборе полиномиальных данных
model = LinearRegression(fit_intercept=True)
model.fit(X_train,y_train)
    
    # Выполняем предсказание и на обучающем наборе данных
y_pred = model.predict(X_test)


In [39]:
MAE = mean_absolute_error(y_test,y_pred)
MAE

355900.5082550316

In [37]:
MSE = mean_squared_error(y_test,y_pred)
RMSE = np.sqrt(MSE)
RMSE

1125200.3821639782