In [2]:
# Recarregue todos os módulos toda vez antes de executar o código Python digitado
%load_ext autoreload
%autoreload 2

In [3]:
# importando funções e bibliotecas 
from ml_utils import *

In [4]:
# lendo base de dados
df = pd.read_csv('../datasets/house_prices.csv')
# Definindo features que serão utilizadas
X = df.drop(columns=['Id', 'SalePrice'])
# Definindo target
y = df['SalePrice']
# Dividindo em treino e teste para treinamento e avaliação do modelo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2 ,random_state=42)
# Escolhendo apenas as colunas numéricas para treino 
X_train_model = X_train.select_dtypes(include=np.number).dropna(axis='columns')
X_test_model = X_test.loc[:, X_train_model.columns]

In [5]:
# linhas e colunas da base de treino
X_train_model.shape

(1168, 33)

In [6]:
# Regressão linear Polinomial de grau 1
_ = reg_lin_poly_features(X_train_model, y_train, X_test_model, y_test, 
                          deg=1, plot=False, scale_mms=False,
                          train_metrics=True, dist_resids=False,
                          plot_model=True)


Métricas de avaliação (dados de treino):

R^2: 0.80
MAE: 21054.72
RMSE: 34241.17
MAPE: 12.42%

##################################################

Métricas de avaliação (dados de teste):

R^2: 0.82
MAE: 22938.25
RMSE: 37312.27
MAPE: 13.45%


In [7]:
# # Regressão linear Polinomial de grau 2
_ = reg_lin_poly_features(X_train_model, y_train, X_test_model, y_test, 
                          deg=2, plot=False, scale_mms=False,
                          train_metrics=True, dist_resids=False,
                          plot_model=True)

Modelo com espaço de features transformado!

Número de features original: 33
Número de features após o transformer: 594


Métricas de avaliação (dados de treino):

R^2: 0.96
MAE: 10528.17
RMSE: 14982.18
MAPE: 6.41%

##################################################

Métricas de avaliação (dados de teste):

R^2: 0.62
MAE: 27632.35
RMSE: 53860.65
MAPE: 18.02%


In [8]:
# Regressão linear Polinomial de grau 3
_ = reg_lin_poly_features(X_train_model, y_train, X_test_model, y_test, 
                          deg=3, plot=False, scale_mms=False,
                          train_metrics=True, dist_resids=False,
                          plot_model=True)

Modelo com espaço de features transformado!

Número de features original: 33
Número de features após o transformer: 7139


Métricas de avaliação (dados de treino):

R^2: 1.00
MAE: 7.11
RMSE: 171.73
MAPE: 0.00%

##################################################

Métricas de avaliação (dados de teste):

R^2: -491.61
MAE: 498602.45
RMSE: 1943827.81
MAPE: 274.35%


In [9]:
# # Regressão linear Polinomial de grau 2 sem regularização
_ = reg_lin_poly_features_regularized(X_train_model, y_train,
                                      X_test_model, y_test,
                                      deg=2,
                                      type_regularization=None,
                                      plot=False,
                                      scale_mms=False,
                                      train_metrics=True,
                                      dist_resids=False,
                                      plot_model=False)

Modelo com espaço de features transformado!

Número de features original: 33
Número de features após o transformer: 594


Métricas de avaliação (dados de treino):

R^2: 0.96
MAE: 10528.17
RMSE: 14982.18
MAPE: 6.41%

##################################################

Métricas de avaliação (dados de teste):

R^2: 0.62
MAE: 27632.35
RMSE: 53860.65
MAPE: 18.02%


In [10]:
# # Regressão linear Polinomial de grau 3 com regularização l1 lasso
_ = reg_lin_poly_features_regularized(X_train_model, y_train,
                                      X_test_model, y_test,
                                      deg=3,
                                      type_regularization='l1',alpha=50,
                                      iter_max=2000,
                                      plot=False,
                                      scale_mms=False,
                                      train_metrics=True,
                                      dist_resids=False,
                                      plot_model=False)

Modelo com espaço de features transformado!

Número de features original: 33
Número de features após o transformer: 7139


Métricas de avaliação (dados de treino):

R^2: 0.93
MAE: 14550.68
RMSE: 20633.57
MAPE: 8.53%

##################################################

Métricas de avaliação (dados de teste):

R^2: 0.89
MAE: 18155.80
RMSE: 28770.64
MAPE: 10.80%


In [11]:
# # Regressão linear Polinomial de grau 3 com regularização l2 ridge
_ = reg_lin_poly_features_regularized(X_train_model, y_train,
                                      X_test_model, y_test,
                                      deg=3,
                                      type_regularization='l2',alpha=1,
                                      iter_max=2000,
                                      plot=False,
                                      scale_mms=False,
                                      train_metrics=True,
                                      dist_resids=False,
                                      plot_model=False)

Modelo com espaço de features transformado!

Número de features original: 33
Número de features após o transformer: 7139


Métricas de avaliação (dados de treino):

R^2: 0.96
MAE: 10184.80
RMSE: 14890.22
MAPE: 6.09%

##################################################

Métricas de avaliação (dados de teste):

R^2: 0.87
MAE: 19176.06
RMSE: 31220.60
MAPE: 11.33%


In [12]:
# # Regressão linear Polinomial de grau 2 com regularização elasticnet
reglin_2, metrics_train, metrics_test = reg_lin_poly_features_regularized(X_train_model, y_train,
                                      X_test_model, y_test,
                                      deg=2,
                                      type_regularization='en', alpha=0.1, l1_ratio=0.8,
                                      iter_max=2000,
                                      plot=False,
                                      scale_mms=False,
                                      train_metrics=True,
                                      dist_resids=False,
                                      plot_model=False)

Modelo com espaço de features transformado!

Número de features original: 33
Número de features após o transformer: 594


Métricas de avaliação (dados de treino):

R^2: 0.85
MAE: 18711.61
RMSE: 30008.38
MAPE: 10.65%

##################################################

Métricas de avaliação (dados de teste):

R^2: 0.84
MAE: 20734.75
RMSE: 34656.09
MAPE: 11.78%


In [13]:
reglin_2

ElasticNet(alpha=0.1, l1_ratio=0.8, max_iter=2000)

In [14]:
metrics_test

{'r2': 0.8434167883707057,
 'mae': 20734.751263251448,
 'rmse': 34656.08621534902,
 'mape': 0.1177880423484759}

In [17]:
metrics_train

{'r2': 0.8490242242235437,
 'mae': 18711.607973717193,
 'rmse': 30008.37584314766,
 'mape': 0.10649997669482242}