# 3 - Machine Learning (ML)
*Processo de criação, treino, avaliação e validação de modelos*

Objetivo passa por criar um modelo preditivo que aprenda as relações entre os dados de entrada (features) e a variável alvo (Life expectancy) 

--- 

## 3.1 - Bibliotecas Utilizadas

In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

## 2.2 - Dataset Treino

In [3]:
# Ler o arquivo CSV "Life Expectancy Treino.csv" guaradado na pasta data 
df_treino = pd.read_csv('./data/Life_Expectancy_Treino.csv')


## 3.2 - Preparar os Dados (Divisão do Dataset)


In [8]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Divisão dos dados
X = df_treino.drop(columns=['Life expectancy'])
y = df_treino['Life expectancy']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelos
models = {
    "Regressão Linear": LinearRegression(),
    "Árvore de Decisão": DecisionTreeRegressor(),
    "Random Forest": RandomForestRegressor()
}

# Treino e Avaliação
results = {}
predictions = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    predictions[name] = y_pred
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    results[name] = {"MSE": mse, "R2": r2}

# Resultados
results_df = pd.DataFrame(results).T
print(results_df)

# Configuração do estilo Seaborn
sns.set_theme(style="whitegrid")

# Gráficos
for name, y_pred in predictions.items():
    # DataFrame auxiliar para visualização
    results_df = pd.DataFrame({
        "Valores Reais": y_test,
        "Previsões": y_pred
    })

    # Gráfico de Previsões vs Valores Reais
    plt.figure(figsize=(12, 6))
    sns.scatterplot(x="Valores Reais", y="Previsões", data=results_df, label="Previsões", color="dodgerblue", alpha=0.7)
    sns.lineplot(x=[y_test.min(), y_test.max()], y=[y_test.min(), y_test.max()], color='red', label="Valores Reais", linestyle="--")
    plt.title(f"{name} - Previsões vs Valores Reais", fontsize=14)
    plt.xlabel("Valores Reais (Adult Mortality)", fontsize=12)
    plt.ylabel("Previsões (Adult Mortality)", fontsize=12)
    plt.legend(fontsize=10)
    plt.tight_layout()
    plt.show()

    # Gráfico de Erros (Resíduos)
    residuals = y_test - y_pred
    plt.figure(figsize=(12, 6))
    sns.histplot(residuals, kde=True, bins=20, color="skyblue", edgecolor="k", label="Erros")
    plt.title(f"{name} - Erros (Resíduos)", fontsize=14)
    plt.xlabel("Erro (Adult Mortality - Previsões)", fontsize=12)
    plt.ylabel("Frequência", fontsize=12)
    plt.legend(fontsize=10)
    plt.tight_layout()
    plt.show()

# Importância das Features (para Random Forest ou Decision Tree)
rf_model = models["Random Forest"]
importances = pd.Series(rf_model.feature_importances_, index=X.columns).sort_values(ascending=False)

# Gráfico de Importância das Features
plt.figure(figsize=(12, 6))
sns.barplot(x=importances.values, y=importances.index, palette="viridis")
plt.title("Importância das Features - Random Forest", fontsize=14)
plt.xlabel("Importância", fontsize=12)
plt.ylabel("Features", fontsize=12)
plt.tight_layout()
plt.show()


ValueError: could not convert string to float: 'Cabo Verde'

## 3.3 - Treinar o Modelo

## 3.4 - Otimização (Hiperparâmetros)

## 3.5 - Resultados 
Guardar o novo dataset