In [17]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
import tensorflow as tf

In [24]:
# Carregando o dataset
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"
columns = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target']
df = pd.read_csv(url, header=None, names=columns)


**Número de amostras:** 303

 **Features:**

 13, incluindo idade, sexo, tipo de dor no peito, pressão arterial em repouso, colesterol, nível de açúcar no sangue, eletrocardiograma, frequência cardíaca máxima, angina induzida por exercício, depressão do ST, inclinação do segmento ST, número de vasos principais coloridos por fluoroscopia, e a condição de fluxo sanguíneo.

 **Tarefa de classificação:**

O objetivo é prever a presença de doença cardíaca (target = 1) ou ausência de doença cardíaca (target = 0).
Desenvolvimento do Modelo em Keras
Agora, vamos desenvolver o modelo sequencial utilizando Keras.

In [25]:
df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,45.0,1.0,1.0,110.0,264.0,0.0,0.0,132.0,0.0,1.2,2.0,0.0,7.0,1
299,68.0,1.0,4.0,144.0,193.0,1.0,0.0,141.0,0.0,3.4,2.0,2.0,7.0,2
300,57.0,1.0,4.0,130.0,131.0,0.0,0.0,115.0,1.0,1.2,2.0,1.0,7.0,3
301,57.0,0.0,2.0,130.0,236.0,0.0,2.0,174.0,0.0,0.0,2.0,1.0,3.0,1


In [20]:
# Limpando e preparando os dados
df.replace('?', np.nan, inplace=True)
df.dropna(inplace=True)
df['target'] = df['target'].apply(lambda x: 1 if x > 0 else 0)

# Separando as features e o rótulo
X = df.drop(columns=['target'])
y = df['target']

# Padronizando os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividindo em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42, stratify=y)

In [21]:
# Definindo o modelo
model = Sequential()
model.add(Dense(1, activation='sigmoid', input_shape=(X_train.shape[1],)))

# Compilando o modelo
model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.AUC(name='auc')])

# Treinando o modelo
history = model.fit(X_train, y_train, epochs=50, batch_size=10, validation_split=0.2, verbose=1)

# Avaliação no conjunto de teste
y_pred = model.predict(X_test)
y_pred_binary = np.round(y_pred)

# Calculando métricas
accuracy = accuracy_score(y_test, y_pred_binary)
f1 = f1_score(y_test, y_pred_binary)

Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m19/19[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 29ms/step - accuracy: 0.5070 - auc: 0.5480 - loss: 0.8038 - val_accuracy: 0.5000 - val_auc: 0.4458 - val_loss: 0.9118
Epoch 2/50
[1m19/19[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step - accuracy: 0.5361 - auc: 0.5716 - loss: 0.7729 - val_accuracy: 0.5208 - val_auc: 0.4633 - val_loss: 0.8930
Epoch 3/50
[1m19/19[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.5640 - auc: 0.5958 - loss: 0.7448 - val_accuracy: 0.5208 - val_auc: 0.4764 - val_loss: 0.8764
Epoch 4/50
[1m19/19[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.6152 - auc: 0.6221 - loss: 0.7129 - val_accuracy: 0.5000 - val_auc: 0.4860 - val_loss: 0.8599
Epoch 5/50
[1m19/19[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.5925 - auc: 0.6420 - loss: 0.7032 - val_accuracy: 0.5417 - val_auc: 0.4965 - val_loss: 0.8449
Epoch 6/50
[1m19/19[0m [32m━━━━━━━━━━━━━━━━━━━━



[1m1/2[0m [32m━━━━━━━━━━[0m[37m━━━━━━━━━━[0m [1m0s[0m 41ms/step



[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step


In [22]:
print(f"Acurácia: {accuracy}")
print(f"F1-Score: {f1}")

Acurácia: 0.8333333333333334
F1-Score: 0.8


# Explicação dos Componentes

## Modelo Sequencial e Camada Dense:

O modelo sequencial com uma camada Dense é uma abordagem simples e direta para classificação binária.

## Função de Ativação Sigmoid:

A ativação sigmoid é usada para gerar uma probabilidade de saída entre 0 e 1.

## Otimizador Adam:

Adam é um otimizador robusto que ajusta a taxa de aprendizado durante o treinamento, baseado em momentos de gradiente, ajudando o modelo a convergir mais rapidamente e de forma estável.

## Função de Perda Binary Crossentropy:

A função binary_crossentropy é a escolha ideal para medir a diferença entre as previsões de classe binária e os valores reais.

## Métricas Accuracy e AUC:

Accuracy mede a proporção de previsões corretas, enquanto a AUC fornece uma visão mais detalhada da capacidade do modelo em discriminar entre as classes.

# Resultados e Interpretação

## Interpretação:

**Acurácia:** Uma acurácia de 0.83 indica que 83% das previsões do modelo estão corretas. Isso sugere um bom desempenho geral.

**F1 Score:** Um F1 score de 0.8, que é próximo da acurácia, indica um equilíbrio entre precisão e recall, importante para identificar corretamente os casos de doença cardíaca.

## Possíveis Melhorias:

**Ajuste de Hiperparâmetros:** Testar diferentes configurações para o número de épocas, taxa de aprendizado, e tamanho do batch.

**Camadas Adicionais:** Adicionar mais camadas ou neurônios pode capturar melhor a complexidade dos dados.

**Resampling:** Considerar o balanceamento das classes no conjunto de treinamento para melhorar o desempenho em dados desbalanceados.

Essas melhorias podem ajudar a aumentar a precisão e a capacidade do modelo de identificar corretamente os pacientes com risco de doenças cardíacas.