In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_squared_error
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv(r'..\dados\dataset_pronto_para_modelagem.csv')

X = df.drop(columns=['vegetacao_natural'])
y = df['vegetacao_natural']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

modelos = {
    "Regressão Linear": LinearRegression(),
    "Ridge": Ridge(),
    "Random Forest": RandomForestRegressor(random_state=42)
}

resultados = []
for nome, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    r2 = r2_score(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred) ** 0.5  # ✅ compatível com todas as versões
    resultados.append([nome, r2, rmse])

resultados_df = pd.DataFrame(resultados, columns=["Modelo", "R²", "RMSE"])
print(resultados_df)

melhor_modelo = RandomForestRegressor(random_state=42)
melhor_modelo.fit(X_train, y_train)
y_pred = melhor_modelo.predict(X_test)

sns.scatterplot(x=y_test, y=y_pred)
plt.xlabel("Valor real")
plt.ylabel("Predito")
plt.title("Desempenho do modelo Random Forest")
plt.show()