In [1]:
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
# 1. Carregar e preparar o dataset
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

In [3]:
# 2. Normalização não é necessária para árvores, mas manteremos para consistência
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 4. Criar e treinar o modelo de árvore de regressão
tree_model = DecisionTreeRegressor(
    criterion='squared_error',  # pode ser 'squared_error' (MSE), 'friedman_mse', 'absolute_error', etc.
    max_depth=6,                # profundidade máxima da árvore
    min_samples_split=4,        # mínimo de amostras para dividir um nó
    min_samples_leaf=2,         # mínimo de amostras em uma folha
    random_state=42
)

tree_model.fit(X_train, y_train)

# 5. Avaliar o modelo
y_pred = tree_model.predict(X_test)

print("MSE:", mean_squared_error(y_test, y_pred))
print("R²:", r2_score(y_test, y_pred))

MSE: 0.4960626988720705
R²: 0.6214443680491355
