# Capítulo 5

Em primeiro lugar, vamos importar os pacotes básicos para o código que temos a seguir.

In [51]:
import numpy as np
import matplotlib.pyplot as plt
import scipy
import pandas as pd 
import math
import random
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.graphics.regressionplots import *
from sklearn import datasets, linear_model
from sklearn.model_selection import KFold, LeaveOneOut, cross_val_score
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from collections import OrderedDict

## 5.3.1 Conjunto de validação

Usaremos os dados `Auto`, descartando as observação com entradas NAs.
.

In [5]:
Auto = pd.read_csv('../data/Auto.csv', header=0, na_values='?')
Auto = Auto.dropna().reset_index(drop=True)

In [7]:
print(Auto.shape)

(392, 9)


In [8]:
print(Auto.head())

    mpg  cylinders  displacement  horsepower  weight  acceleration  year  \
0  18.0          8         307.0       130.0    3504          12.0    70   
1  15.0          8         350.0       165.0    3693          11.5    70   
2  18.0          8         318.0       150.0    3436          11.0    70   
3  16.0          8         304.0       150.0    3433          12.0    70   
4  17.0          8         302.0       140.0    3449          10.5    70   

   origin                       name  
0       1  chevrolet chevelle malibu  
1       1          buick skylark 320  
2       1         plymouth satellite  
3       1              amc rebel sst  
4       1                ford torino  


Como lidaremos com splits aleatórios, precisamos fixar um seed.

In [9]:
np.random.seed(1)

Agora, podemos gerar o conjunto de treino e teste escolhendo metade da amostra.

In [10]:
train_idx = np.random.choice(Auto.shape[0], 196, replace=False)
in_train = np.in1d(range(Auto.shape[0]), train_idx)

Vamos selecionar os dados de treino `Auto[in_train]` para treinar uma regressão linear de `mpg` em `horsepower`.

In [11]:
lm = smf.ols('mpg~horsepower', data = Auto[in_train]).fit()
print(lm.summary())

                            OLS Regression Results                            
Dep. Variable:                    mpg   R-squared:                       0.620
Model:                            OLS   Adj. R-squared:                  0.618
Method:                 Least Squares   F-statistic:                     316.4
Date:                Tue, 08 Nov 2022   Prob (F-statistic):           1.28e-42
Time:                        10:21:08   Log-Likelihood:                -592.07
No. Observations:                 196   AIC:                             1188.
Df Residuals:                     194   BIC:                             1195.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     40.3338      1.023     39.416      0.0

Vamos ver como o modelo se comporta no treino e no teste em termos de erro médio quadrático (MSE).

In [21]:
preds_train = lm.predict(Auto[in_train])
MSE = np.mean((Auto['mpg'][in_train] - preds_train)**2)
print(f"Train error for 1st order model: {MSE}")

Train error for 1st order model: 24.62301015144335


In [25]:
in_test = ~in_train
preds_test = lm.predict(Auto[in_test])
MSE = np.mean((Auto['mpg'][in_test] - preds_test)**2)
print(f"Test error for 1st order model: {MSE}")

Test error for 1st order model: 23.361902892587224


Curiosamente, parece que nosso erro de teste é melhor do que de treino. Isso em geral é sinal de que poderíamos usar um modelo mais flexível para os dados. Uma possibilidade é incluir mais previsores. Vamos olhar para o erro de teste incluindo um modelo quadrático e um cúbico.

In [26]:
lm2 = smf.ols('mpg~horsepower + I(horsepower ** 2.0)', data = Auto[in_train]).fit()
preds_test = lm2.predict(Auto[in_test])
MSE = np.mean((Auto['mpg'][in_test] - preds_test)**2)
print(f"Test error for 2nd order model: {MSE}")

Test error for 2nd order model: 20.252690858350043


In [29]:
lm3 = smf.ols('mpg~horsepower + I(horsepower ** 2.0) + I(horsepower ** 3.0)', data = Auto[in_train]).fit()
preds_test = lm3.predict(Auto[in_test])
MSE = np.mean((Auto['mpg'][in_test] - preds_test)**2)
print(f"Test error for 3rd order model: {MSE}")

Test error for 3rd order model: 20.325609365773598


Como assinalado no livro, um modelo quadrático parece razoável, e um modelo cúbico parece mais flexível do que o necessário. Uma outra evidência para isso é o p-valor do termo cúbico, que não é estatisticamente signficativo.

In [30]:
print(lm3.summary())

                            OLS Regression Results                            
Dep. Variable:                    mpg   R-squared:                       0.722
Model:                            OLS   Adj. R-squared:                  0.717
Method:                 Least Squares   F-statistic:                     165.9
Date:                Tue, 08 Nov 2022   Prob (F-statistic):           4.60e-53
Time:                        10:37:41   Log-Likelihood:                -561.56
No. Observations:                 196   AIC:                             1131.
Df Residuals:                     192   BIC:                             1144.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                           coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------
Intercept               66.5200 

## 5.3.2 Leave-One-Out Cross-Validation

A estimativa de erro via LOOCV é feita usando cada ponto dos dados como o conjunto de validação (com o resto dos dados para treino) e depois tirando a média. Para rodar LOOCV, é conveniente usar scikit-learn. Vamos primeiro nos certificar de que os resultados usando o `statsmodels` e `sklearn` são iguais.

In [47]:
ols_fit = smf.ols('mpg~horsepower', data = Auto).fit()
print(ols_fit.params)

Intercept     39.935861
horsepower    -0.157845
dtype: float64


In [57]:
# let us re-train the model in sklearn
X = pd.DataFrame(Auto.horsepower)
y = Auto.mpg
model = LinearRegression()
model.fit(X, y)

print(model.intercept_)
print(model.coef_)

39.93586102117047
[-0.15784473]


Para usar LOOCV, podemos ou usar a função `LeaveOneOut()` ou, notando que LOOCV é equivalente a CV com $k=n$, usar a função `KFold()`.

In [58]:
cv=LeaveOneOut()
# cv = KFold(n_splits=X.shape[0]) 
cv_test_errors = cross_val_score(model, X, y, cv=k_fold, scoring='neg_mean_squared_error', n_jobs=-1)
print(np.mean(-cv_test_errors))

24.231513517929226


Podemos repetir esse procedimento para regressões polinomiais cada vez mais complexas e investigar o erro estimado por LOOCV.

In [59]:
for poly_order in range(1, 21, 2):
    model = Pipeline([('polynomial_regression', PolynomialFeatures(degree=poly_order)), ('linear', LinearRegression())])
    cv_test_errors = cross_val_score(model, X, y, cv=cv,  scoring = 'neg_mean_squared_error', n_jobs=-1)
    print(f"Order {poly_order}: {np.mean(-cv_test_errors)}")

Order 1: 24.231513517929226
Order 3: 19.334984064089344
Order 5: 19.033202860364923
Order 7: 19.125945340185698
Order 9: 19.133992634311166
Order 11: 19.093575370871264
Order 13: 27.76342373851964
Order 15: 35.29331546501886
Order 17: 43.654384822868444
Order 19: 60.96645503434402


Aparentemente deveríamos escolher o modelo de ordem 3, pois é o que tem menor erro de LOOCV.

## 5.3.3 k-Fold Cross-Validation

Para rodar $k$-fold CV, basta usar escolher o número de folds.

In [61]:
np.random.seed(1)
k = 10

for poly_order in range(1, 21, 2):
    model = Pipeline([('polynomial_regression', PolynomialFeatures(degree=poly_order)), ('linear', LinearRegression())])
    k_fold = KFold(n_splits=k) 
    cv_test_errors = cross_val_score(model, X, y, cv=k_fold,  scoring = 'neg_mean_squared_error', n_jobs = -1)
    print(f"Order {poly_order}: {np.mean(-cv_test_errors)}")

Order 1: 27.439933652339864
Order 3: 21.336606183332187
Order 5: 20.9055947045051
Order 7: 20.953025341423164
Order 9: 21.035364180513188
Order 11: 21.428606258458796
Order 13: 30.81009154986064
Order 15: 39.53674933663759
Order 17: 48.27499940440114
Order 19: 64.0239576185277


## 5.3.4 Bootstrap

Bootstrap significa estimar incerteza nos dados via reamostragem com reposição. Usamos amostras dos dados originais preservando o mesmo tamanho total dos dados para evitar que efeitos de tamanho da amostra influenciem nas estimativas. Essa técnica é muito útil para desenvolver intervalos de confiança e testes de hipótese.

Nesta subseção, vamos usar os dados `Portfolio`.

In [63]:
Portfolio = pd.read_csv('../data/Portfolio.csv', header=0)

Para usar o bootstrap, primeiro criamos uma função que recebe uma replicação dos dados e retorna a quantidade de interesse. Seguindo o exemplo do texto, vamos escolher a função $\alpha$, definida em (5.7).

In [65]:
def alpha_fn(data, index):
    X = data.X.iloc[index]
    Y = data.Y.iloc[index]
    return (np.var(Y) - np.cov(X,Y)[0,1])/(np.var(X) + np.var(Y) - 2 * np.cov(X, Y)[0,1])

Por exemplo, suponha que queiramos o valor de `alpha_fn()` calculada nas primeiras 100 instâncias dos dados:

In [67]:
alpha_fn(Portfolio, range(0,100))

0.5766511516104116

Agora, precisamos gerar uma amostra com reposição de um conjunto de índices, satisfazendo um certo tamanho total. Vamos usar algumas funções de Numpy para isso, e depois instanciar a função `alpha_fn()`.

In [69]:
np.sort(np.random.choice(range(0, 100), size=100, replace=True))

array([ 0,  2,  2,  5,  6,  6,  7,  7,  7,  9, 10, 10, 10, 12, 13, 13, 13,
       14, 15, 15, 17, 20, 20, 20, 21, 21, 21, 22, 23, 24, 24, 24, 25, 30,
       32, 36, 36, 40, 42, 43, 43, 45, 47, 48, 48, 49, 52, 53, 53, 54, 54,
       55, 56, 56, 57, 59, 60, 61, 65, 66, 66, 68, 69, 70, 70, 71, 71, 72,
       74, 75, 75, 76, 76, 77, 77, 77, 77, 77, 81, 82, 82, 82, 83, 84, 84,
       85, 86, 89, 91, 91, 92, 92, 94, 96, 96, 96, 96, 97, 97, 98])

In [70]:
# recall the previous function with a random set of input. 
alpha_fn(Portfolio, np.random.choice(range(0, 100), size=100, replace=True))

0.4750231770084347

Note que o resultado é diferente da função calculada nos 100 primeiros índices dos dados, pois o valor acima usa uma amostra diferente. O importante é que, tomando várias amostras de 100 indíces escolhidas com reposição, ganhamos uma estimativa válida da variabilidade de `alpha_fn()`.

In [75]:
def boot_python(data, input_function, replications):
    n = Portfolio.shape[0]
    sample_replications = np.random.randint(0, n, (replications, n))  # draw (replications) samples with numbers from 0 to n
    bootstrap_replications = np.zeros(replications)
    for i in range(len(sample_replications)):
        bootstrap_replications[i] = input_function(data, sample_replications[i])
    
    return {'Mean': np.mean(bootstrap_replications), 'std. dev': np.std(bootstrap_replications)}

In [80]:
boot_python(Portfolio, alpha_fn, 1000)

{'Mean': 0.5798295835545277, 'std. dev': 0.09547521666592128}

Ou seja, em média a função `alpha_fn` nos dados é 0.58, com um desvio padrão de 0.1.