In [3]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.feature_selection import f_regression

## Criando o DataFrame
# Carregando o Dataset California Houses
from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()
# Convertendo o dataset em um dataframe para usar Pandas
dataset = pd.DataFrame(california.data, columns = california.feature_names)

print(dataset.head(5))

# Criando as variáveis explicativas
X = dataset[['MedInc', 'HouseAge', 'AveRooms', 'Population', 'AveOccup', 'Latitude', 'Longitude']]

# Criando a variável dependente (AveRooms)
y = dataset['AveBedrms']

# Criando e ajustando o modelo de regressão linear múltipla
modelo = LinearRegression()
modelo.fit(X, y)

# Obtendo os coeficientes de regressão e o intercepto
coefs = modelo.coef_
intercepto = modelo.intercept_

# Coeficiente de correlação (R²) e Erro médio quadrático (MSE)
r2 = r2_score(y, modelo.predict(X))
mse = mean_squared_error(y, modelo.predict(X))

# Teste F
f_statistic, pval = f_regression(X, y)

# Previsão para um novo conjunto de dados
x_novo = np.array([[10, 40, 10, 288, 3, 37.34, -120.2]])
y_predito = modelo.predict(x_novo)

# Imprimindo os resultados
print("\nCoeficientes:", coefs)
print("\nIntercepto:", intercepto)
print("\nPrevisão para o novo conjunto de dados:", y_predito)
print("\nCoeficiente de correlação (R²):", r2)
print("\nErro médio quadrático (MSE):", mse)
print("\nTeste F - Estatística F:", f_statistic)
print("\nTeste F - Valor p:", pval, '\n')

   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  
0    -122.23  
1    -122.22  
2    -122.24  
3    -122.25  
4    -122.25  
Coeficientes: [-1.03213628e-01  3.34835312e-04  1.92755530e-01  1.17158235e-06
  3.31582843e-04 -5.72317373e-02 -4.80339193e-02]

Intercepto: -3.266694528274142

Previsão para o novo conjunto de dados: [1.2800941]

Coeficiente de correlação (R²): 0.8570406365285332

Erro médio quadrático (MSE): 0.032105902314175

Teste F - Estatística F: [7.97421380e+01 1.25507930e+02 5.26664688e+04 9.08357498e+01
 7.88551336e-01 1.00812111e+02 3.67571965e+00]

Test

