# Treinamento de Modelos Preditivos com Divisão por Sensibilidade CID-10

Este notebook realiza o treinamento de modelos preditivos para previsão de óbitos por doenças respiratórias, utilizando a segmentação por sensibilidade com base nos códigos CID-10 (Alta, Média, Baixa Sensibilidade) e a base completa com clusters. Essa divisão visa melhorar a performance dos modelos e permitir interpretações mais específicas sobre o impacto dos fatores ambientais em diferentes tipos de doenças.


In [64]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as pltß
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


In [65]:
def avaliar_modelo(y_true, y_pred, X_test):
    n = len(y_true)
    p = X_test.shape[1]
    r2 = r2_score(y_true, y_pred)
    r2_ajustado = 1 - (1 - r2) * (n - 1) / (n - p - 1)

    print("MAE:", round(mean_absolute_error(y_true, y_pred), 4))
    print("MSE:", round(mean_squared_error(y_true, y_pred), 4))
    print("RMSE:", round(np.sqrt(mean_squared_error(y_true, y_pred)), 4))
    print("R²:", round(r2, 4))
    print("R² Ajustado:", round(r2_ajustado, 4))
    print()


## Treinamento - Alta Sensibilidade

In [66]:
# Carregar os dados: Alta Sensibilidade
df = pd.read_csv("/Users/mariaisabel/Documents/PUC/5°Periodo/Projeto CD/ENG4040/Divisao/planilha_alta.csv")

# Seleção de features numéricas
features = ["AREA_DESMATADA_KM2", "FRP", "RISCOFOGO", "PRECIPITACAO", "DIASEMCHUVA", "pm2.5_atm"]
X = df[features].apply(pd.to_numeric, errors="coerce")  # Converte para numérico (tratando "-")

# Converter coluna alvo para numérico e tratar erros
y = pd.to_numeric(df["OBITOS"], errors="coerce")

# Tratamento de valores faltantes
X = X.fillna(X.mean())
y = y.fillna(y.mean())

# Separar em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [67]:
# Modelo: Regressão Linear
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

print("== Regressão Linear Múltipla ==")
avaliar_modelo(y_test, y_pred_lr, X_test)


== Regressão Linear Múltipla ==
MAE: 1.7724
MSE: 7.4631
RMSE: 2.7319
R²: -0.3444
R² Ajustado: -0.4164



In [68]:
# ÁRVORE DE REGRESSÃO
# =====================
tree = DecisionTreeRegressor(random_state=42)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)

print("== Árvore de Regressão ==")
avaliar_modelo(y_test, y_pred_tree, X_test)


== Árvore de Regressão ==
MAE: 2.3669
MSE: 10.3106
RMSE: 3.211
R²: -0.8574
R² Ajustado: -0.9569



In [69]:
# XGBOOST
# =====================
xgb = XGBRegressor(n_estimators=100, random_state=42)
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)

print("== XGBoost ==")
avaliar_modelo(y_test, y_pred_xgb, X_test)

== XGBoost ==
MAE: 2.3667
MSE: 10.3093
RMSE: 3.2108
R²: -0.8571
R² Ajustado: -0.9566



In [70]:
# RANDOM FOREST
# =====================
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print("== Random Forest ==")
avaliar_modelo(y_test, y_pred_rf, X_test)


== Random Forest ==
MAE: 2.4199
MSE: 10.5273
RMSE: 3.2446
R²: -0.8964
R² Ajustado: -0.998



## Treinamento - Média Sensibilidade

In [71]:
# Carregar os dados: Média Sensibilidade
df = pd.read_csv("/Users/mariaisabel/Documents/PUC/5°Periodo/Projeto CD/ENG4040/Divisao/planilha_media.csv")

# Seleção de features numéricas
features = ["AREA_DESMATADA_KM2", "FRP", "RISCOFOGO", "PRECIPITACAO", "DIASEMCHUVA", "pm2.5_atm"]
X = df[features].apply(pd.to_numeric, errors="coerce")  # Converte para numérico (tratando "-")

# Converter coluna alvo para numérico e tratar erros
y = pd.to_numeric(df["OBITOS"], errors="coerce")

# Tratamento de valores faltantes
X = X.fillna(X.mean())
y = y.fillna(y.mean())

# Separar em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [72]:
# Modelo: Regressão Linear
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

print("== Regressão Linear Múltipla ==")
avaliar_modelo(y_test, y_pred_lr, X_test)


== Regressão Linear Múltipla ==
MAE: 7.3875
MSE: 107.9349
RMSE: 10.3892
R²: -0.1494
R² Ajustado: -0.2296



In [73]:
# ÁRVORE DE REGRESSÃO
# =====================
tree = DecisionTreeRegressor(random_state=42)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)

print("== Árvore de Regressão ==")
avaliar_modelo(y_test, y_pred_tree, X_test)


== Árvore de Regressão ==
MAE: 8.3337
MSE: 127.8207
RMSE: 11.3058
R²: -0.3612
R² Ajustado: -0.4561



In [74]:
# XGBOOST
# =====================
xgb = XGBRegressor(n_estimators=100, random_state=42)
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)

print("== XGBoost ==")
avaliar_modelo(y_test, y_pred_xgb, X_test)

== XGBoost ==
MAE: 8.3335
MSE: 127.8167
RMSE: 11.3056
R²: -0.3611
R² Ajustado: -0.4561



In [75]:
# ÁRVORE DE REGRESSÃO
# =====================
tree = DecisionTreeRegressor(random_state=42)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)

print("== Árvore de Regressão ==")
avaliar_modelo(y_test, y_pred_tree, X_test)


== Árvore de Regressão ==
MAE: 8.3337
MSE: 127.8207
RMSE: 11.3058
R²: -0.3612
R² Ajustado: -0.4561



In [76]:
# RANDOM FOREST
# =====================
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print("== Random Forest ==")
avaliar_modelo(y_test, y_pred_rf, X_test)


== Random Forest ==
MAE: 8.2544
MSE: 124.7333
RMSE: 11.1684
R²: -0.3283
R² Ajustado: -0.421



## Treinamento - Baixa Sensibilidade

In [77]:
# Carregar os dados: Média Sensibilidade
df = pd.read_csv("/Users/mariaisabel/Documents/PUC/5°Periodo/Projeto CD/ENG4040/Divisao/planilha_baixa.csv")

# Seleção de features numéricas
features = ["AREA_DESMATADA_KM2", "FRP", "RISCOFOGO", "PRECIPITACAO", "DIASEMCHUVA", "pm2.5_atm"]
X = df[features].apply(pd.to_numeric, errors="coerce")  # Converte para numérico (tratando "-")

# Converter coluna alvo para numérico e tratar erros
y = pd.to_numeric(df["OBITOS"], errors="coerce")

# Tratamento de valores faltantes
X = X.fillna(X.mean())
y = y.fillna(y.mean())

# Separar em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [78]:
# Modelo: Regressão Linear
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

print("== Regressão Linear Múltipla ==")
avaliar_modelo(y_test, y_pred_lr, X_test)


== Regressão Linear Múltipla ==
MAE: 1.11
MSE: 2.9629
RMSE: 1.7213
R²: -0.0658
R² Ajustado: -0.1009



In [79]:
# ÁRVORE DE REGRESSÃO
# =====================
tree = DecisionTreeRegressor(random_state=42)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)

print("== Árvore de Regressão ==")
avaliar_modelo(y_test, y_pred_tree, X_test)


== Árvore de Regressão ==
MAE: 1.384
MSE: 6.0476
RMSE: 2.4592
R²: -1.1754
R² Ajustado: -1.2471



In [80]:
# XGBOOST
xgb = XGBRegressor(n_estimators=100, random_state=42)
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)

print("== XGBoost ==")
avaliar_modelo(y_test, y_pred_xgb, X_test)

== XGBoost ==
MAE: 1.3839
MSE: 6.0473
RMSE: 2.4591
R²: -1.1753
R² Ajustado: -1.247



In [81]:
# RANDOM FOREST
# =====================
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print("== Random Forest ==")
avaliar_modelo(y_test, y_pred_rf, X_test)


== Random Forest ==
MAE: 1.387
MSE: 5.9751
RMSE: 2.4444
R²: -1.1493
R² Ajustado: -1.2202



## Treinamento - Base Unificada com Cluster

In [82]:
# Carregar os dados: Base Unificada com Cluster
df = pd.read_csv("/Users/mariaisabel/Documents/PUC/5°Periodo/Projeto CD/ENG4040/Clustering/planilha/planilha_unificada_clusterizado.csv")

# Seleção de features numéricas
features = ["AREA_DESMATADA_KM2", "FRP", "RISCOFOGO", "PRECIPITACAO", "DIASEMCHUVA", "pm2.5_atm"]
X = df[features]
y = df["OBITOS"]

# Tratamento de valores faltantes
X = X.fillna(X.mean())
y = y.fillna(y.mean())

# Separar em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [83]:
# Modelo: Regressão Linear
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

print("== Regressão Linear Múltipla ==")
avaliar_modelo(y_test, y_pred_lr, X_test)


== Regressão Linear Múltipla ==
MAE: 6.4471
MSE: 115.2474
RMSE: 10.7353
R²: 0.0189
R² Ajustado: -0.0332



In [84]:
# XGBOOST
xgb = XGBRegressor(n_estimators=100, random_state=42)
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)

print("== XGBoost ==")
avaliar_modelo(y_test, y_pred_xgb, X_test)

== XGBoost ==
MAE: 6.4828
MSE: 114.8794
RMSE: 10.7182
R²: 0.0221
R² Ajustado: -0.0299



In [85]:
# ÁRVORE DE REGRESSÃO
# =====================
tree = DecisionTreeRegressor(random_state=42)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)

print("== Árvore de Regressão ==")
avaliar_modelo(y_test, y_pred_tree, X_test)


== Árvore de Regressão ==
MAE: 6.4828
MSE: 114.8799
RMSE: 10.7182
R²: 0.0221
R² Ajustado: -0.0299



In [86]:
# RANDOM FOREST
# =====================
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

print("== Random Forest ==")
avaliar_modelo(y_test, y_pred_rf, X_test)


== Random Forest ==
MAE: 6.511
MSE: 112.7109
RMSE: 10.6165
R²: 0.0405
R² Ajustado: -0.0104

