In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import statsmodels.api as sm
from scipy.stats import boxcox
from scipy.special import inv_boxcox

from sklearn.linear_model import RidgeCV, Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('data/clean_data.csv')
df.head()

Unnamed: 0,SalePrice,Overall Qual,Gr Liv Area,Garage Area,Total Bsmt SF,Year Built,Full Bath,Fireplaces,Mas Vnr Area,Lot Frontage,...,Garage Type_NA,Paved Drive_N,Paved Drive_P,Paved Drive_Y,Sale Condition_Abnorml,Sale Condition_AdjLand,Sale Condition_Alloca,Sale Condition_Family,Sale Condition_Normal,Sale Condition_Partial
0,215000,6,1656,528.0,1080.0,1960,1,2,112.0,141.0,...,0,0,1,0,0,0,0,0,1,0
1,105000,5,896,730.0,882.0,1961,1,0,0.0,80.0,...,0,0,0,1,0,0,0,0,1,0
2,172000,6,1329,312.0,1329.0,1958,1,0,108.0,81.0,...,0,0,0,1,0,0,0,0,1,0
3,244000,7,2110,522.0,2110.0,1968,2,2,0.0,93.0,...,0,0,0,1,0,0,0,0,1,0
4,189900,5,1629,482.0,928.0,1997,2,1,0.0,74.0,...,0,0,0,1,0,0,0,0,1,0


In [3]:
y = df['SalePrice']
X = df.drop(columns=['SalePrice'])

Выделим числовые признаки.

In [4]:
num_features = []

for feature in list(X):
    if X[feature].nunique() > 10:
        num_features.append(feature)
        
print(*num_features, sep=', ')

Gr Liv Area, Garage Area, Total Bsmt SF, Year Built, Mas Vnr Area, Lot Frontage, Open Porch SF


## Построение baseline модели

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17)

ss = StandardScaler()
X_train[num_features] = ss.fit_transform(X_train[num_features])
X_test[num_features] = ss.fit_transform(X_test[num_features])

In [6]:
X_train = sm.add_constant(X_train)
model = sm.OLS(y_train, X_train)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:              SalePrice   R-squared:                       0.912
Model:                            OLS   Adj. R-squared:                  0.905
Method:                 Least Squares   F-statistic:                     136.0
Date:                Sun, 21 Mar 2021   Prob (F-statistic):               0.00
Time:                        21:46:47   Log-Likelihood:                -23031.
No. Observations:                2020   AIC:                         4.635e+04
Df Residuals:                    1876   BIC:                         4.716e+04
Df Model:                         143                                         
Covariance Type:            nonrobust                                         
                             coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------
const                   5125

In [7]:
X_test = sm.add_constant(X_test)
preds = results.predict(X_test)

print('Test MSE = {}'.format(round(sum((preds - y_test)**2) / len(preds)), 3))

Test MSE = 506944223


Результаты показывают, что $R^2$ достигает значения *0.912*.

Можно увидеть, что веса перед признаками и их стандартные отклонения чересчур большие. Кроме того, модель явно говорит нам о том, что имеет место сильная мультиколлинеарность.

Также мало интерпретируемым является значение *MSE*, посчитанное на ценах.

В связи с этим возникают следующие идеи:
* привести распределение целевой переменной к нормальному с помощью преобразования Бокса-Кокса (это так же повысит интепретируемость *MSE* из-за уменьшения разброса значений *SalePrice*);
* проблему мультиколлинеарности может помочь решить *l2*-регуляризация;
* для поиска оптимального значения коэффициента регуляризации можно воспользоваться кросс-валидацией.

## Улучшение бейзлайна

Применим преобразование Бокса-Кокса.

In [8]:
y, lmbda = boxcox(y, lmbda=None)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17)

ss = StandardScaler()
X_train[num_features] = ss.fit_transform(X_train[num_features])
X_test[num_features] = ss.fit_transform(X_test[num_features])

In [9]:
alphas = np.logspace(-2, 2, num=10)
model = RidgeCV(alphas=alphas, cv=10).fit(X_train, y_train)

In [10]:
preds = model.predict(X_test)

print('Оптимальное alpha = {}'.format(round(model.alpha_, 1)))
print('R**2 на тесте = {}'.format(round(model.score(X_test, y_test), 3)))
print('Test MSE = {}.'.format(round(sum(preds - y_test)**2 / len(preds), 3)))
print('Максимальный и минимальный веса модели: {} и {}'.format(round(max(model.coef_), 2), 
                                                               round(min(model.coef_), 2)))

Оптимальное alpha = 35.9
R**2 на тесте = 0.918
Test MSE = 0.215.
Максимальный и минимальный веса модели: 0.35 и -0.21


Можно немного уточнить параметр $\alpha$.

In [11]:
alphas = np.linspace(10, 50, num=20)
model = RidgeCV(alphas=alphas, cv=10).fit(X_train, y_train)

In [12]:
preds = model.predict(X_test)

print('Оптимальное alpha = {}'.format(round(model.alpha_, 1)))
print('R**2 на тесте = {}'.format(round(model.score(X_test, y_test), 3)))
print('Test MSE = {}.'.format(round(sum(preds - y_test)**2 / len(preds), 3)))
print('Максимальный и минимальный веса модели: {} и {}'.format(round(max(model.coef_), 2), 
                                                               round(min(model.coef_), 2)))

Оптимальное alpha = 31.1
R**2 на тесте = 0.918
Test MSE = 0.217.
Максимальный и минимальный веса модели: 0.35 и -0.22


Видно, что описанные выше идеи сработали, и теперь можно обучать финальную модель.

In [13]:
model = Ridge(alpha=31.1).fit(X_train, y_train)

In [14]:
preds = model.predict(X_test)

print('R**2 на тесте = {}'.format(round(model.score(X_test, y_test), 3)))
print('Test MSE = {}.'.format(round(sum(preds - y_test)**2 / len(preds), 3)))
print('Максимальный и минимальный веса модели: {} и {}'.format(round(max(model.coef_), 2), 
                                                               round(min(model.coef_), 2)))

R**2 на тесте = 0.918
Test MSE = 0.217.
Максимальный и минимальный веса модели: 0.35 и -0.22


In [15]:
model.coef_

array([ 1.94376094e-01,  3.47891568e-01,  7.22180571e-02,  8.54231470e-02,
        8.64789997e-02,  1.45746054e-02,  9.70613601e-02,  1.53781637e-02,
        3.58578582e-02,  1.74038024e-02,  4.15415334e-02,  1.22980052e-01,
        3.06501792e-02,  8.29552683e-03,  5.95734944e-02,  4.43214278e-02,
        5.78336474e-03,  6.44243109e-02,  1.14745489e-01,  2.81337382e-02,
        2.10835989e-02,  0.00000000e+00, -1.17147760e-01, -3.13129520e-02,
        4.72644818e-02,  7.63542456e-02, -8.78271893e-02,  8.61906329e-03,
       -2.34274661e-02,  1.29169677e-02,  1.91530358e-02,  6.58139745e-02,
        2.03967010e-02, -7.20897136e-03,  2.40463990e-02, -2.87241288e-02,
       -7.98191202e-02, -4.62520672e-02,  6.34401624e-02, -1.85673692e-02,
        2.90121882e-02,  8.86021811e-02, -3.64159752e-02, -1.64424222e-02,
        6.53434269e-02, -1.07400297e-02, -3.81609750e-02, -4.10879471e-02,
        5.18559937e-02, -1.06746103e-02, -9.34362226e-05, -5.72989625e-03,
        6.47437500e-02, -