In [14]:
# Célula 1: Preparação e Pré-processamento dos Dados (VERSÃO CORRIGIDA)

import pandas as pd
from sklearn.model_selection import train_test_split

# Carregue seu dataset
caminho_do_arquivo = "../dataset/heart_attack_prediction_dataset.csv" 
df = pd.read_csv(caminho_do_arquivo)

print("--- Dados Originais Carregados ---")
display(df.head())

# ==================== INÍCIO DO PRÉ-PROCESSAMENTO ====================

# PASSO 1: Remover colunas de identificação que não são features
# axis=1 significa que estamos removendo uma coluna
if 'Patient ID' in df.columns:
    df = df.drop('Patient ID', axis=1)
    print("\nColuna 'Patient ID' removida.")

# PASSO 2: Separar Features (X) e Alvo (y) ANTES do encoding
nome_coluna_alvo = 'Heart Attack Risk'
X = df.drop(nome_coluna_alvo, axis=1)
y = df[nome_coluna_alvo]

# PASSO 3: Converter todas as colunas de texto em colunas numéricas (One-Hot Encoding)
# O pandas identifica automaticamente as colunas com texto e as converte
print("\nAplicando One-Hot Encoding nas colunas categóricas...")
X_encoded = pd.get_dummies(X, drop_first=True) 
# drop_first=True é uma boa prática para remover redundância (ex: se não for Male, é Female)

from sklearn.preprocessing import StandardScaler

# Cria uma instância do scaler
scaler = StandardScaler()

# ATENÇÃO: É crucial treinar o scaler APENAS com os dados de treino para evitar vazamento de dados do teste.
# Por isso, fazemos a divisão ANTES de escalar.

# Dividir em Treino e Teste (usando o X_encoded)
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Treina o scaler nos dados de treino E transforma os dados de treino
X_train_scaled = scaler.fit_transform(X_train)

# Apenas TRANSFORMA os dados de teste usando o scaler JÁ TREINADO
X_test_scaled = scaler.transform(X_test)

print("✅ Dados escalados com sucesso!")

print("Novas dimensões do X após encoding:", X_encoded.shape)
print("Visualização do X transformado:")
display(X_encoded.head())

# ==================== FIM DO PRÉ-PROCESSAMENTO ====================


# PASSO 4: Dividir em Treino e Teste (usando o X_encoded)
print("\nDividindo os dados em conjuntos de treino e teste...")
# Agora usamos o X_encoded, que é puramente numérico
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

print(f"\Tamanho dos dados de treino: {X_train.shape[0]} amostras")
print(f"Tamanho dos dados de teste: {X_test.shape[0]} amostras")
print("\n✅ Preparação de dados concluída! Agora o modelo pode ser treinado.")

--- Dados Originais Carregados ---


  print(f"\Tamanho dos dados de treino: {X_train.shape[0]} amostras")


Unnamed: 0,Patient ID,Age,Sex,Cholesterol,Blood Pressure,Heart Rate,Diabetes,Family History,Smoking,Obesity,...,Sedentary Hours Per Day,Income,BMI,Triglycerides,Physical Activity Days Per Week,Sleep Hours Per Day,Country,Continent,Hemisphere,Heart Attack Risk
0,BMW7812,67,Male,208,158/88,72,0,0,1,0,...,6.615001,261404,31.251233,286,0,6,Argentina,South America,Southern Hemisphere,0
1,CZE1114,21,Male,389,165/93,98,1,1,1,1,...,4.963459,285768,27.194973,235,1,7,Canada,North America,Northern Hemisphere,0
2,BNI9906,21,Female,324,174/99,72,1,0,0,0,...,9.463426,235282,28.176571,587,4,4,France,Europe,Northern Hemisphere,0
3,JLN3497,84,Male,383,163/100,73,1,1,1,0,...,7.648981,125640,36.464704,378,3,4,Canada,North America,Northern Hemisphere,0
4,GFO8847,66,Male,318,91/88,93,1,1,1,1,...,1.514821,160555,21.809144,231,1,5,Thailand,Asia,Northern Hemisphere,0



Coluna 'Patient ID' removida.

Aplicando One-Hot Encoding nas colunas categóricas...
✅ Dados escalados com sucesso!
Novas dimensões do X após encoding: (8763, 3960)
Visualização do X transformado:


Unnamed: 0,Age,Cholesterol,Heart Rate,Diabetes,Family History,Smoking,Obesity,Alcohol Consumption,Exercise Hours Per Week,Previous Heart Problems,...,Country_Thailand,Country_United Kingdom,Country_United States,Country_Vietnam,Continent_Asia,Continent_Australia,Continent_Europe,Continent_North America,Continent_South America,Hemisphere_Southern Hemisphere
0,67,208,72,0,0,1,0,0,4.168189,0,...,False,False,False,False,False,False,False,False,True,True
1,21,389,98,1,1,1,1,1,1.813242,1,...,False,False,False,False,False,False,False,True,False,False
2,21,324,72,1,0,0,0,0,2.078353,1,...,False,False,False,False,False,False,True,False,False,False
3,84,383,73,1,1,1,0,1,9.82813,1,...,False,False,False,False,False,False,False,True,False,False
4,66,318,93,1,1,1,1,0,5.804299,1,...,True,False,False,False,True,False,False,False,False,False



Dividindo os dados em conjuntos de treino e teste...
\Tamanho dos dados de treino: 7010 amostras
Tamanho dos dados de teste: 1753 amostras

✅ Preparação de dados concluída! Agora o modelo pode ser treinado.


In [7]:
# Célula 2: Treinamento do Modelo

from sklearn.tree import DecisionTreeClassifier

# 1. Cria uma instância do modelo
# max_depth=5 limita a profundidade da árvore para evitar que ela decore os dados (overfitting)
modelo_arvore = DecisionTreeClassifier(max_depth=5, random_state=42)

# 2. Treina o modelo usando os dados de TREINO
print("Treinando o modelo de Árvore de Decisão...")
modelo_arvore.fit(X_train, y_train)

print("✅ Modelo treinado com sucesso!")

Treinando o modelo de Árvore de Decisão...
✅ Modelo treinado com sucesso!


In [8]:
# Célula 3: Avaliação do Modelo

# 1. Usa o modelo treinado para fazer previsões nos dados de TESTE
print("Fazendo previsões nos dados de teste...")
y_previsoes = modelo_arvore.predict(X_test)

# 2. Compara as previsões com os resultados reais (y_test)
acuracia = accuracy_score(y_test, y_previsoes)
print(f"\nAcurácia do modelo: {acuracia:.2%}")
print("Acurácia significa a porcentagem de vezes que o modelo acertou a previsão.")

# 3. Análise mais profunda com a Matriz de Confusão
print("\n--- Matriz de Confusão ---")
# Mostra onde o modelo acertou e errou de forma detalhada
cm = confusion_matrix(y_test, y_previsoes)
print(cm)
print("\nInterpretação da Matriz:")
print(f"Verdadeiros Negativos (previu 'não' e era 'não'): {cm[0][0]}")
print(f"Falsos Positivos (previu 'sim' e era 'não'): {cm[0][1]}")
print(f"Falsos Negativos (previu 'não' e era 'sim'): {cm[1][0]}  <-- Erro potencialmente perigoso!")
print(f"Verdadeiros Positivos (previu 'sim' e era 'sim'): {cm[1][1]}")

# 4. Relatório completo de classificação
print("\n--- Relatório de Classificação ---")
print(classification_report(y_test, y_previsoes))

Fazendo previsões nos dados de teste...

Acurácia do modelo: 63.95%
Acurácia significa a porcentagem de vezes que o modelo acertou a previsão.

--- Matriz de Confusão ---
[[1117    8]
 [ 624    4]]

Interpretação da Matriz:
Verdadeiros Negativos (previu 'não' e era 'não'): 1117
Falsos Positivos (previu 'sim' e era 'não'): 8
Falsos Negativos (previu 'não' e era 'sim'): 624  <-- Erro potencialmente perigoso!
Verdadeiros Positivos (previu 'sim' e era 'sim'): 4

--- Relatório de Classificação ---
              precision    recall  f1-score   support

           0       0.64      0.99      0.78      1125
           1       0.33      0.01      0.01       628

    accuracy                           0.64      1753
   macro avg       0.49      0.50      0.40      1753
weighted avg       0.53      0.64      0.50      1753



In [9]:
# Célula 2: Treinamento do Modelo

from sklearn.tree import DecisionTreeClassifier

# 1. Cria uma instância do modelo
# max_depth=5 limita a profundidade da árvore para evitar que ela decore os dados (overfitting)
modelo_arvore = DecisionTreeClassifier(max_depth=5, random_state=42, class_weight='balanced')

# 2. Treina o modelo usando os dados de TREINO
print("Treinando o modelo de Árvore de Decisão...")
modelo_arvore.fit(X_train, y_train)

print("✅ Modelo treinado com sucesso!")

Treinando o modelo de Árvore de Decisão...
✅ Modelo treinado com sucesso!


In [10]:
# Célula 3: Avaliação do Modelo

# 1. Usa o modelo treinado para fazer previsões nos dados de TESTE
print("Fazendo previsões nos dados de teste...")
y_previsoes = modelo_arvore.predict(X_test)

# 2. Compara as previsões com os resultados reais (y_test)
acuracia = accuracy_score(y_test, y_previsoes)
print(f"\nAcurácia do modelo: {acuracia:.2%}")
print("Acurácia significa a porcentagem de vezes que o modelo acertou a previsão.")

# 3. Análise mais profunda com a Matriz de Confusão
print("\n--- Matriz de Confusão ---")
# Mostra onde o modelo acertou e errou de forma detalhada
cm = confusion_matrix(y_test, y_previsoes)
print(cm)
print("\nInterpretação da Matriz:")
print(f"Verdadeiros Negativos (previu 'não' e era 'não'): {cm[0][0]}")
print(f"Falsos Positivos (previu 'sim' e era 'não'): {cm[0][1]}")
print(f"Falsos Negativos (previu 'não' e era 'sim'): {cm[1][0]}  <-- Erro potencialmente perigoso!")
print(f"Verdadeiros Positivos (previu 'sim' e era 'sim'): {cm[1][1]}")

# 4. Relatório completo de classificação
print("\n--- Relatório de Classificação ---")
print(classification_report(y_test, y_previsoes))

Fazendo previsões nos dados de teste...

Acurácia do modelo: 60.98%
Acurácia significa a porcentagem de vezes que o modelo acertou a previsão.

--- Matriz de Confusão ---
[[991 134]
 [550  78]]

Interpretação da Matriz:
Verdadeiros Negativos (previu 'não' e era 'não'): 991
Falsos Positivos (previu 'sim' e era 'não'): 134
Falsos Negativos (previu 'não' e era 'sim'): 550  <-- Erro potencialmente perigoso!
Verdadeiros Positivos (previu 'sim' e era 'sim'): 78

--- Relatório de Classificação ---
              precision    recall  f1-score   support

           0       0.64      0.88      0.74      1125
           1       0.37      0.12      0.19       628

    accuracy                           0.61      1753
   macro avg       0.51      0.50      0.46      1753
weighted avg       0.54      0.61      0.54      1753



In [11]:
# Célula 2 (VERSÃO COM RANDOM FOREST)

from sklearn.ensemble import RandomForestClassifier

# 1. Cria uma instância do modelo Random Forest
# n_estimators=100 significa que ele vai construir 100 árvores
modelo_rf = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42, class_weight='balanced')

# 2. Treina o modelo
print("Treinando o modelo Random Forest...")
modelo_rf.fit(X_train, y_train)

print("✅ Modelo treinado com sucesso!")

Treinando o modelo Random Forest...
✅ Modelo treinado com sucesso!


In [12]:
# Célula 3: Avaliação do Modelo

# 1. Usa o modelo treinado para fazer previsões nos dados de TESTE
print("Fazendo previsões nos dados de teste...")
y_previsoes = modelo_arvore.predict(X_test)

# 2. Compara as previsões com os resultados reais (y_test)
acuracia = accuracy_score(y_test, y_previsoes)
print(f"\nAcurácia do modelo: {acuracia:.2%}")
print("Acurácia significa a porcentagem de vezes que o modelo acertou a previsão.")

# 3. Análise mais profunda com a Matriz de Confusão
print("\n--- Matriz de Confusão ---")
# Mostra onde o modelo acertou e errou de forma detalhada
cm = confusion_matrix(y_test, y_previsoes)
print(cm)
print("\nInterpretação da Matriz:")
print(f"Verdadeiros Negativos (previu 'não' e era 'não'): {cm[0][0]}")
print(f"Falsos Positivos (previu 'sim' e era 'não'): {cm[0][1]}")
print(f"Falsos Negativos (previu 'não' e era 'sim'): {cm[1][0]}  <-- Erro potencialmente perigoso!")
print(f"Verdadeiros Positivos (previu 'sim' e era 'sim'): {cm[1][1]}")

# 4. Relatório completo de classificação
print("\n--- Relatório de Classificação ---")
print(classification_report(y_test, y_previsoes))

Fazendo previsões nos dados de teste...

Acurácia do modelo: 60.98%
Acurácia significa a porcentagem de vezes que o modelo acertou a previsão.

--- Matriz de Confusão ---
[[991 134]
 [550  78]]

Interpretação da Matriz:
Verdadeiros Negativos (previu 'não' e era 'não'): 991
Falsos Positivos (previu 'sim' e era 'não'): 134
Falsos Negativos (previu 'não' e era 'sim'): 550  <-- Erro potencialmente perigoso!
Verdadeiros Positivos (previu 'sim' e era 'sim'): 78

--- Relatório de Classificação ---
              precision    recall  f1-score   support

           0       0.64      0.88      0.74      1125
           1       0.37      0.12      0.19       628

    accuracy                           0.61      1753
   macro avg       0.51      0.50      0.46      1753
weighted avg       0.54      0.61      0.54      1753



In [None]:
# Célula para teste com SMOTE + Gradient Boosting

from imblearn.over_sampling import SMOTE
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# --- 1. Preparação de Dados (como antes) ---
# Usamos o X_encoded e o y do seu pré-processamento anterior
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Escala os dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# --- 2. Aplicação do SMOTE (A Grande Mudança) ---
print(f"Distribuição de classes ANTES do SMOTE:\n{y_train.value_counts()}")

smote = SMOTE(random_state=42)
# Aplica o SMOTE APENAS nos dados de TREINO
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

print(f"\nDistribuição de classes DEPOIS do SMOTE:\n{y_train_resampled.value_counts()}")


# --- 3. Treinamento com os Dados Balanceados ---
print("\nTreinando o modelo Gradient Boosting com dados balanceados...")
modelo_gb_smote = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# Treina o modelo com os dados 'resampled'
modelo_gb_smote.fit(X_train_resampled, y_train_resampled)

# --- 4. Avaliação (usando o conjunto de teste ORIGINAL) ---
print("\n--- Avaliação do Gradient Boosting com SMOTE ---")
y_pred_gb_smote = modelo_gb_smote.predict(X_test_scaled) # Avalia no teste original, não tocado

print(f"Acurácia: {accuracy_score(y_test, y_pred_gb_smote):.2%}")
print("\nMatriz de Confusão:")
print(confusion_matrix(y_test, y_pred_gb_smote))
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_gb_smote))

ModuleNotFoundError: No module named 'imblearn'

In [16]:
# Célula 5: Otimizando o Random Forest com Grid Search

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# Define os "settings" que queremos testar
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [5, 10, 15],
    'class_weight': ['balanced']
}

# Configura o Grid Search para focar em melhorar o RECALL
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42), 
                           param_grid=param_grid, 
                           cv=3, # Validação cruzada com 3 "folds"
                           scoring='recall', # A métrica que queremos otimizar!
                           verbose=2) # Mostra o progresso

print("Iniciando a busca pelos melhores hiperparâmetros...")
# Roda a busca usando os dados escalados
grid_search.fit(X_train_scaled, y_train)

print(f"\nMelhores parâmetros encontrados: {grid_search.best_params_}")

# Avalia o melhor modelo encontrado pelo Grid Search
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test_scaled)

print("\n--- Avaliação do Melhor Modelo Encontrado ---")
print(classification_report(y_test, y_pred_best))

Iniciando a busca pelos melhores hiperparâmetros...
Fitting 3 folds for each of 6 candidates, totalling 18 fits
[CV] END class_weight=balanced, max_depth=5, n_estimators=100; total time=   7.9s
[CV] END class_weight=balanced, max_depth=5, n_estimators=100; total time=   6.8s
[CV] END class_weight=balanced, max_depth=5, n_estimators=100; total time=   5.4s
[CV] END class_weight=balanced, max_depth=5, n_estimators=200; total time=  10.1s
[CV] END class_weight=balanced, max_depth=5, n_estimators=200; total time=   8.0s
[CV] END class_weight=balanced, max_depth=5, n_estimators=200; total time=   8.5s
[CV] END class_weight=balanced, max_depth=10, n_estimators=100; total time=   7.7s
[CV] END class_weight=balanced, max_depth=10, n_estimators=100; total time=   7.7s
[CV] END class_weight=balanced, max_depth=10, n_estimators=100; total time=   7.9s
[CV] END class_weight=balanced, max_depth=10, n_estimators=200; total time=  14.9s
[CV] END class_weight=balanced, max_depth=10, n_estimators=200; 