### Passo 1: Carregar um Dataset de Regressão
Vamos usar o *California Housing* como dataset.

#### Código: Carregando e Explorando o Dataset

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler
# Carregar o dataset California Housing
data = fetch_california_housing(as_frame=True)

# Extrair os dados e organizar em um DataFrame
df = data.frame
print("Descrição do Dataset:")
print(data.DESCR)

# Visualizar as primeiras linhas do dataset
print("\nVisualização inicial do dataset:")
print(df.head())

# Estatísticas descritivas do dataset
print("\nEstatísticas descritivas:")
print(df.describe())

### 1. Limpar e preparar os dados (tratar valores nulos ou escalonar variáveis).


In [13]:
# Verificar valores nulos
missing_values = df.isnull().sum()

# Escalonar variáveis (StandardScaler)
scaler = StandardScaler()
scaled_features = scaler.fit_transform(df.drop(columns=["MedHouseVal"]))  # Exclui a variável alvo
scaled_df = pd.DataFrame(scaled_features, columns=df.columns[:-1])  # Mantém os nomes das colunas
scaled_df["MedHouseVal"] = df["MedHouseVal"]  # Reanexa a variável alvo

# Resumo após escalonamento
summary = scaled_df.describe()

### 2. Dividir os dados em treino e teste.


In [14]:
from sklearn.model_selection import train_test_split

# Dividir os dados em treino e teste (80% treino, 20% teste)
X = scaled_df.drop(columns=["MedHouseVal"])  # Variáveis independentes
y = scaled_df["MedHouseVal"]  # Variável dependente (target)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)


### 3. Ajustar um modelo de regressão linear.


In [15]:
from sklearn.linear_model import LinearRegression
# Ajustar o modelo de regressão linear ao dataset sintético
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

### 4. Avaliar a performance usando métricas como MSE e \( R^2 \).


In [16]:
from sklearn.metrics import mean_squared_error, r2_score

# Avaliar o modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Resultados do modelo
model_coefficients = pd.DataFrame(
    {"Feature": [f"Feature_{i}" for i in range(1, X.shape[1] + 1)], "Coefficient": model.coef_}
)

results = {
    "Intercept": model.intercept_,
    "Mean Squared Error": mse,
    "R-squared": r2
}

In [None]:
model_coefficients

In [None]:
results