# Métodos Lineares: Regressão - Aula 2 - Desafio

In [1]:
import seaborn as sns
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.tools.eval_measures as smem
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

  import pandas.util.testing as tm


In [2]:
# Configura o estilo e tamanho dos gráficos.

sns.set_style("whitegrid")
sns.set_palette("Purples_r")
plt.rcParams.update({
    'font.size': 14,
    'figure.figsize': (12, 8)
})

## Carrega dados de treino e exibe informações básicas

Aqui carregaremos o dataset de imoveis, mas somente o subconjunto de **treino**, na variável `treino_df`. A divisão entre **treino** e **teste** já foi feita, e o dataset de teste só será utilizado no final, na hora de avaliar a performance de predição do modelo.

In [3]:
treino_df = pd.read_csv("https://raw.githubusercontent.com/nubank/diversidados-curso-ds/master/iniciante/LinReg/dataset_imoveis_treino.csv")
print(treino_df.shape)
print(treino_df.columns)
treino_df.head()

(16209, 17)
Index(['id', 'data', 'quartos', 'banheiros', 'area_util_m2', 'area_total_m2',
       'andares', 'orla_mar', 'nota_vista', 'nota_condicao', 'nota',
       'area_porao_m2', 'ano_construcao', 'ano_reforma', 'tem_porao',
       'teve_reforma', 'preco_dolares'],
      dtype='object')


Unnamed: 0,id,data,quartos,banheiros,area_util_m2,area_total_m2,andares,orla_mar,nota_vista,nota_condicao,nota,area_porao_m2,ano_construcao,ano_reforma,tem_porao,teve_reforma,preco_dolares
0,9117000170,2015-05-05,4,3,168.154502,858.42409,2.0,0,0,3,7,0.0,1961,0,0,0,268643
1,6700390210,2014-07-08,3,3,148.644864,259.013676,2.0,0,0,4,7,0.0,1992,0,0,0,245000
2,7212660540,2015-01-15,4,3,159.793229,802.49646,2.0,0,0,3,8,0.0,1994,0,0,0,200000
3,8562780200,2015-04-27,2,3,115.19977,65.496643,2.0,0,0,3,7,8.361274,2009,0,1,0,352499
4,7760400350,2014-12-05,3,2,118.915891,1240.813002,1.0,0,0,3,7,0.0,1994,0,0,0,232000


## Modelo benchmark
Aqui treinamos o modelo a ser batido!

In [4]:
formula_benchmark = ("preco_dolares ~ area_util_m2 + quartos + banheiros +"
                    "orla_mar + nota_vista + nota_condicao + nota +"
                    "tem_porao + teve_reforma")
modelo_benchmark = smf.ols(formula_benchmark, data=treino_df).fit()

print(modelo_benchmark.summary())

                            OLS Regression Results                            
Dep. Variable:          preco_dolares   R-squared:                       0.609
Model:                            OLS   Adj. R-squared:                  0.608
Method:                 Least Squares   F-statistic:                     2800.
Date:                Thu, 29 Oct 2020   Prob (F-statistic):               0.00
Time:                        21:26:43   Log-Likelihood:            -2.2278e+05
No. Observations:               16209   AIC:                         4.456e+05
Df Residuals:                   16199   BIC:                         4.457e+05
Df Model:                           9                                         
Covariance Type:            nonrobust                                         
                    coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept     -7.216e+05   1.95e+04    -37.093

## Avaliação do modelo

In [5]:
def avaliar_modelo(modelo):
    teste_df = pd.read_csv("https://raw.githubusercontent.com/nubank/diversidados-curso-ds/master/iniciante/LinReg/dataset_imoveis_teste.csv")

    y_treino = treino_df['preco_dolares']
    y_teste = teste_df['preco_dolares']

    y_hat_treino = modelo.predict(treino_df)
    y_hat_teste = modelo.predict(teste_df)

    print("AVALIAÇÃO DO MODELO")
    print("\n=== MÉTRICAS DO CONJUNTO DE TREINO ===")
    print("MSE:", smem.mse(y_treino, y_hat_treino))
    print("RMSE:", smem.rmse(y_treino, y_hat_treino))
    print("MAE:", smem.meanabs(y_treino, y_hat_treino))
    print("R2:", modelo.rsquared)
    print("Adj R2:", modelo.rsquared_adj)

    print("\n=== MÉTRICAS DO CONJUNTO DE TESTE ===")
    print("MSE:", smem.mse(y_teste, y_hat_teste))
    print("RMSE:", smem.rmse(y_teste, y_hat_teste))
    print("MAE:", smem.meanabs(y_teste, y_hat_teste))


In [6]:
avaliar_modelo(modelo_benchmark)

AVALIAÇÃO DO MODELO

=== MÉTRICAS DO CONJUNTO DE TREINO ===
MSE: 50793091098.592384
RMSE: 225373.2262239514
MAE: 148360.81037799662
R2: 0.6087140165753311
Adj R2: 0.6084966220540136

=== MÉTRICAS DO CONJUNTO DE TESTE ===
MSE: 56480591027.41894
RMSE: 237656.45589257393
MAE: 152438.54922311215


## Desafio!

Seu desafio será construir um modelo que tenha uma performance **melhor** que a do `modelo_benchmark` no conjunto de teste, cujas métricas foram exibidas na célula acima.

Durante a construção do modelo, cientistas costumam evitar ao máximo olhar o dataset de teste, pois seu único intuito é servir como validação final do modelo treinado, e se o modelo foi direta ou indiretamente condicionado ao conjunto de testes, ele perde seu propósito. Dito isso, uma boa maneira de saber se você está indo no caminho certo é olhando para o `R2` da tabela `summary()`.

Algo que pode acontecer com modelos muito complexos é uma diferença muito grande entre as métricas do conjunto de treino e de teste. É normal existir uma diferença, porém quando essa diferença é grande demais, é um sinal de que o modelo está "overfitando".

----

Quando estiver tudo pronto para testar o seu modelo, é só chamar a função `avaliar_modelo(nome_do_seu_modelo)` e interpretar a saída dela.

Boa sorte!