## FT084 - Introdução a Mineração de Dados
---
### Tarefa 04: Regressão Múltipla  

Este código tem por objetivo a resolução de uma das etapas da tarefa em questão, que consiste na implementação de um algoritmo de regressão múltipla, analisando algumas medidas e selecionando os melhores atributos.  
Instruções para o experimento:
1. Encontrar o melhor conjunto de atributos. Qual é o melhor modelo de acordo com as medidas Cp, BIC, and R2 ajustado? Mostre gráficos para dar suporte a sua resposta e mostre os coeficientes do melhor modelo.
2. Repita o procedimento em (1), usando seleção progressiva e seleção regressiva. Como sua resposta agora se compara aos resultados do item (a)?
3. Realize a seleção de variáveis e de modelos usando validação cruzada no conjunto de treino.
4. Compare os modelos obtidos nos items (1), (2) e (3) no conjunto de teste. Qual deles é o melhor?

---

#### 1) Importação das bibliotecas  
Serão utilizados alguns pacotes para a implementação do código. São eles:
- pandas: leitura dos arquivos
- numpy, scipy: cálculo de algumas estatísticas
- sklearn: modelo de regressão, separação dos dados entre treino e teste, transformação dos atributos categóricos para numéricos (caso necessário), matriz de confusão, avaliação do erro, validação cruzada
- matplotly.pyplot e plotly: visualizações extras

In [31]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
import itertools
import time
import statsmodels.api as sm

In [80]:
X, y = load_boston(return_X_y=True)
columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.DataFrame(X, columns = columns[0:13]).astype('float64')
target = pd.DataFrame(y, columns = ['MEDV']).astype('float64')
target = target['MEDV']
dataset = pd.merge(data, target, left_index = True, right_index = True)

In [50]:
def processSubset(feature_set):
    # Fit model on feature_set and calculate RSS
    model = sm.OLS(target,data[list(feature_set)])
    regr = model.fit()
    RSS = ((regr.predict(data[list(feature_set)]) - target) ** 2).sum()
    return {"model":regr, "RSS":RSS}

In [82]:
def getBest(k):
    
    tic = time.time()
    
    results = []
    
    for combo in itertools.combinations(data.columns, k):
        results.append(processSubset(combo))
    
    # Wrap everything up in a nice dataframe
    models = pd.DataFrame(results)
    
    # Choose the model with the highest RSS
    best_model = models.loc[models['RSS'].argmin()]
    
    toc = time.time()
    print("Processed", models.shape[0], "models on", k, "predictors in", (toc-tic), "seconds.")
    
    # Return the best model, along with some other useful information about the model
    return best_model

In [83]:
# Could take quite awhile to complete...

models_best = pd.DataFrame(columns=["RSS", "model"])

tic = time.time()
for i in range(1,13):
    models_best.loc[i] = getBest(i)

toc = time.time()
print("Total elapsed time:", (toc-tic), "seconds.")

Processed 13 models on 1 predictors in 0.02393484115600586 seconds.
Processed 78 models on 2 predictors in 0.1216745376586914 seconds.
Processed 286 models on 3 predictors in 0.4558987617492676 seconds.
Processed 715 models on 4 predictors in 1.3281879425048828 seconds.
Processed 1287 models on 5 predictors in 2.3591525554656982 seconds.
Processed 1716 models on 6 predictors in 3.283313035964966 seconds.
Processed 1716 models on 7 predictors in 3.2618613243103027 seconds.
Processed 1287 models on 8 predictors in 2.5447583198547363 seconds.
Processed 715 models on 9 predictors in 1.3763620853424072 seconds.
Processed 286 models on 10 predictors in 0.5530359745025635 seconds.
Processed 78 models on 11 predictors in 0.1520977020263672 seconds.
Processed 13 models on 12 predictors in 0.06392788887023926 seconds.
Total elapsed time: 15.605986833572388 seconds.


In [84]:
models_best

Unnamed: 0,RSS,model
1,29555.781529,<statsmodels.regression.linear_model.Regressio...
2,15444.934439,<statsmodels.regression.linear_model.Regressio...
3,14343.62602,<statsmodels.regression.linear_model.Regressio...
4,13555.583004,<statsmodels.regression.linear_model.Regressio...
5,13161.006084,<statsmodels.regression.linear_model.Regressio...
6,12895.173642,<statsmodels.regression.linear_model.Regressio...
7,12701.148163,<statsmodels.regression.linear_model.Regressio...
8,12538.094816,<statsmodels.regression.linear_model.Regressio...
9,12439.049646,<statsmodels.regression.linear_model.Regressio...
10,12264.742998,<statsmodels.regression.linear_model.Regressio...


In [86]:
print(models_best.loc[12, "model"].summary())

                                 OLS Regression Results                                
Dep. Variable:                   MEDV   R-squared (uncentered):                   0.959
Model:                            OLS   Adj. R-squared (uncentered):              0.958
Method:                 Least Squares   F-statistic:                              967.5
Date:                Mon, 10 May 2021   Prob (F-statistic):                        0.00
Time:                        22:10:06   Log-Likelihood:                         -1523.8
No. Observations:                 506   AIC:                                      3072.
Df Residuals:                     494   BIC:                                      3122.
Df Model:                          12                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

In [87]:
print(getBest(12)["model"].summary())

Processed 13 models on 12 predictors in 0.029919147491455078 seconds.
                                 OLS Regression Results                                
Dep. Variable:                   MEDV   R-squared (uncentered):                   0.959
Model:                            OLS   Adj. R-squared (uncentered):              0.958
Method:                 Least Squares   F-statistic:                              967.5
Date:                Mon, 10 May 2021   Prob (F-statistic):                        0.00
Time:                        22:14:22   Log-Likelihood:                         -1523.8
No. Observations:                 506   AIC:                                      3072.
Df Residuals:                     494   BIC:                                      3122.
Df Model:                          12                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P