In [None]:
# ============================================================
# 4.2
# ALÍNEA 3A — regressão linear múltipla
# ============================================================
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Seleção das features e target
features = ['Affected_Population', 'Populated_Area[km2]', 'Air_Pollution_Average[ug/m3]']
X = df[df['Region'] == 'Southern Europe'][features]
y = df[df['Region'] == 'Southern Europe']['Premature_Deaths']

# Regressão Linear Múltipla com k-fold cross-validation
kf = KFold(n_splits=10, shuffle=True, random_state=42)
model = LinearRegression()

mae_scores = []
rmse_scores = []
r2_scores = []

for train_index, test_index in kf.split(X):
    X_train_fold, X_test_fold = X.iloc[train_index], X.iloc[test_index]
    y_train_fold, y_test_fold = y.iloc[train_index], y.iloc[test_index]

    model.fit(X_train_fold, y_train_fold)
    y_pred_fold = model.predict(X_test_fold)

    mae_scores.append(mean_absolute_error(y_test_fold, y_pred_fold))
    rmse_scores.append(np.sqrt(mean_squared_error(y_test_fold, y_pred_fold)))
    r2_scores.append(r2_score(y_test_fold, y_pred_fold))

# Resultados médios
print("Resultados da Regressão Linear Múltipla (k-fold cross-validation):")
print(f"MAE médio: {np.mean(mae_scores):.2f}")
print(f"RMSE médio: {np.mean(rmse_scores):.2f}")
print(f"R2 médio: {np.mean(r2_scores):.2f}")

# Treinar modelo final com todos os dados
model.fit(X, y)
print("\nModelo final treinado em todos os dados:")
print(f"Intercepto: {model.intercept_:.2f}")
print("Coeficientes:")
for feature, coef in zip(features, model.coef_):
    print(f"  {feature}: {coef:.4f}")

# Resultados da Regressão Linear Múltipla com validação cruzada (k-fold):

# O modelo foi avaliado usando k-fold cross-validation para garantir uma avaliação robusta.
# O MAE médio (Mean Absolute Error) foi aproximadamente 466.98, indicando que, em média,
# o erro absoluto nas previsões de mortes prematuras é cerca de 467 casos.

# O RMSE médio (Root Mean Squared Error) foi 1956.01, valor maior que o MAE, o que indica
# que existem alguns erros grandes que impactam a média quadrática do erro.

# O R² médio de 0.22 indica que aproximadamente 22% da variabilidade da variável 'Premature_Deaths'
# é explicada pelas variáveis independentes consideradas: 'Affected_Population',
# 'Populated_Area[km2]' e 'Air_Pollution_Average[ug/m3]'.

# Modelo final treinado em todos os dados:
# Intercepto: 10.51
# Coeficientes:
#   - Affected_Population: 0.0003 (pequeno impacto positivo na previsão)
#   - Populated_Area[km2]: 0.0319 (impacto positivo)
#   - Air_Pollution_Average[ug/m3]: -2.1823 (impacto negativo, pode indicar colinearidade ou outros fatores)

# Conclusão:
# O modelo de regressão linear múltipla apresenta desempenho moderado na previsão de mortes prematuras.
# O valor relativamente baixo do R² sugere que o modelo não explica grande parte da variação,
# indicando a necessidade de incluir variáveis adicionais ou usar métodos mais complexos.
# Assim, a regressão linear múltipla serve como uma linha de base, mas não deve ser o modelo final.
