In [24]:
# Testando vários modelos

In [25]:
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
import statsmodels.api as sm
import itertools

# Carregar o conjunto de dados California Housing
housing = fetch_california_housing(as_frame=True)
X = housing.data
y = housing.target

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Lista de todas as features disponíveis
all_features = X_train.columns

best_model = None
best_aic = np.inf

# Iterar sobre o número de features
for k in range(1, len(all_features) + 1):
    # Gerar todas as combinações possíveis de features para o número atual de features
    for subset in itertools.combinations(all_features, k):
        # Selecionar o subconjunto atual de features
        X_subset = X_train[list(subset)]
        
        # Adicionar um termo constante para o intercepto
        X_subset = sm.add_constant(X_subset)
        
        # Treinar o modelo OLS com o subconjunto atual de features
        model = sm.OLS(y_train, X_subset).fit()
        
        # Se o AIC do modelo atual for melhor (menor), atualizar o melhor modelo
        if model.aic < best_aic:
            best_model = model
            best_aic = model.aic

# Exibir um resumo do melhor modelo encontrado
print("Melhor modelo encontrado:")
print(best_model.summary())


Melhor modelo encontrado:
                            OLS Regression Results                            
Dep. Variable:            MedHouseVal   R-squared:                       0.613
Model:                            OLS   Adj. R-squared:                  0.612
Method:                 Least Squares   F-statistic:                     3727.
Date:                Thu, 29 Feb 2024   Prob (F-statistic):               0.00
Time:                        21:01:40   Log-Likelihood:                -17998.
No. Observations:               16512   AIC:                         3.601e+04
Df Residuals:                   16504   BIC:                         3.607e+04
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        -37.0114     