<a href="https://colab.research.google.com/github/pitarac/PucRio_Sprint_02_MVP/blob/main/Parte_I.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Parte I **

# Classificação de Doença Cardíaca Usando Machine Learning e Deep Learning

## Identificação

**Nome do aluno:** Paulo Henrique Lima da Silva CPF: 032.838.091-19
**Disciplina:** Sprint II Machine Learning & Analytics (40530010056_20230_01)  
**Curso:** Ciência de Dados e Analytics  
**Instituição:** PUC-Rio

## Descrição

Este notebook apresenta um projeto de classificação de doença cardíaca utilizando métodos de Machine Learning clássicos e Deep Learning. O objetivo é prever a presença de doença cardíaca em pacientes com base em várias características de saúde.

## Dataset

O conjunto de dados usado neste projeto consiste em informações de saúde de pacientes, como idade, sexo, tipo de dor no peito, pressão arterial em repouso, nível de colesterol, entre outros. O objetivo é prever a coluna `output`, que indica a presença (valor 1) ou ausência (valor 0) de doença cardíaca.

## Metodologia

Primeiramente, realizamos a preparação dos dados, incluindo a divisão do conjunto de dados em treinamento e teste, e a normalização dos dados. Depois, treinamos e avaliamos vários modelos de aprendizado de máquina clássicos, incluindo Regressão Logística, Árvore de Decisão, Random Forest, Máquinas de Vetores de Suporte (SVM) e K-Nearest Neighbors (KNN).

Em seguida, treinamos um modelo de Deep Learning usando uma rede neural profunda. A rede foi construída usando a biblioteca Keras, com duas camadas ocultas e uma camada de saída com função de ativação sigmoide, adequada para a classificação binária.

## Resultados

Os resultados incluem a acurácia de cada modelo tanto no conjunto de treinamento quanto no conjunto de teste. A acurácia também é calculada usando validação cruzada para uma estimativa mais robusta do desempenho do modelo.


## 1 - Importação das Bibliotecas


In [13]:
# Importando as bibliotecas necessárias para o projeto
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import cross_val_score, GridSearchCV
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

## Descrição do Problema

Estamos trabalhando com um conjunto de dados que contém informações sobre pacientes e se eles têm ou não doença cardíaca. O objetivo do projeto é criar um modelo que possa prever se um paciente tem doença cardíaca com base em diferentes características, como idade, sexo, tipo de dor no peito, pressão arterial em repouso, etc. Este é um problema de classificação binária, onde 0 representa não ter doença cardíaca e 1 representa ter doença cardíaca.


## 2 - Carregamento dos Dados


In [2]:
# Carregando o conjunto de dados
heart_df = pd.read_csv('https://raw.githubusercontent.com/pitarac/Ciencia_de_dados/main/heart.csv')


##3 -  Verificação de Valores Ausentes


In [3]:
# Verificando se existem valores ausentes no conjunto de dados
print(heart_df.isnull().sum())


age         0
sex         0
cp          0
trtbps      0
chol        0
fbs         0
restecg     0
thalachh    0
exng        0
oldpeak     0
slp         0
caa         0
thall       0
output      0
dtype: int64


## 4 - Definição das Features e do Target


In [4]:
# Separando o conjunto de dados em features (X) e target (y)
X = heart_df.drop('output', axis=1)
y = heart_df['output']


## 5 - Divisão dos Dados em Treino e Teste


In [5]:
# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## 6 - Normalização dos Dados




In [6]:
# Normalizando os dados para ter média 0 e desvio padrão 1
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


##7 - Selecionando as melhores features


In [14]:
# Selecionando as 10 melhores features
selector = SelectKBest(f_classif, k=10)
X_train_scaled_selected = selector.fit_transform(X_train_scaled, y_train)
X_test_scaled_selected = selector.transform(X_test_scaled)


# 8 -  Treinamento e Avaliação dos Modelos


## Justificativa para a Seleção de Algoritmos

Os algoritmos selecionados para esse problema são Regressão Logística, Árvore de Decisão, Random Forest, Máquina de Vetores de Suporte (SVM) e K-Nearest Neighbors (KNN). Esses algoritmos foram escolhidos porque são comumente usados para problemas de classificação e oferecem uma variedade de abordagens para o problema (por exemplo, árvores de decisão vs. métodos baseados em distância como KNN). A Regressão Logística e SVM são especialmente úteis quando as classes são linearmente separáveis, enquanto a Árvore de Decisão e Random Forest podem capturar relações não lineares entre as features. Finalmente, o KNN é um método simples, mas eficaz, que classifica uma amostra com base na maioria de votos de seus vizinhos mais próximos.


In [15]:
# Inicializando os modelos de aprendizado de máquina que serão usados
models = [
    ("Regressão Logística", LogisticRegression(random_state=42)),
    ("Árvore de Decisão", DecisionTreeClassifier(random_state=42)),
    ("Random Forest", RandomForestClassifier(random_state=42)),
    ("Support Vector Machine", SVC(random_state=42)),
    ("K-Nearest Neighbors", KNeighborsClassifier())
]


##9 - Treinando e avaliando os modelos


In [16]:
# Loop para treinar e avaliar cada modelo
for name, model in models:
    # Treinamento do modelo com o conjunto de treino
    model.fit(X_train_scaled_selected, y_train)

    # Previsões com o modelo no conjunto de teste
    y_pred = model.predict(X_test_scaled_selected)

    # Cálculo da acurácia do modelo
    accuracy = accuracy_score(y_test, y_pred)

    # Cálculo do F1 Score do modelo
    f1 = f1_score(y_test, y_pred)

    # Cálculo da acurácia validada cruzada do modelo
    cv_accuracy = cross_val_score(model, X_train_scaled_selected, y_train, cv=5, scoring='accuracy').mean()

    # Impressão dos resultados
    print(f"{name}:")
    print(f"  Acurácia: {accuracy:.2f}")
    print(f"  F1 Score: {f1:.2f}")
    print(f"  Acurácia Validada Cruzada: {cv_accuracy:.2f}\n")



Regressão Logística:
  Acurácia: 0.87
  F1 Score: 0.88
  Acurácia Validada Cruzada: 0.82

Árvore de Decisão:
  Acurácia: 0.84
  F1 Score: 0.83
  Acurácia Validada Cruzada: 0.78

Random Forest:
  Acurácia: 0.85
  F1 Score: 0.86
  Acurácia Validada Cruzada: 0.81

Support Vector Machine:
  Acurácia: 0.90
  F1 Score: 0.91
  Acurácia Validada Cruzada: 0.81

K-Nearest Neighbors:
  Acurácia: 0.87
  F1 Score: 0.87
  Acurácia Validada Cruzada: 0.82



##10 - Otimização de Hiperparâmetros






In [17]:
# Otimização dos hiperparâmetros do modelo Random Forest
param_grid = {'n_estimators': [100, 200, 300, 400, 500], 'max_depth': [None, 10, 20, 30, 40, 50]}
rf = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=5)
grid_search.fit(X_train_scaled_selected, y_train)
best_rf = grid_search.best_estimator_

# Avaliação do modelo Random Forest otimizado
y_pred = best_rf.predict(X_test_scaled_selected)
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
cv_accuracy = cross_val_score(best_rf, X_train_scaled_selected, y_train, cv=5, scoring='accuracy').mean()

# Impressão dos resultados
print("Random Forest (otimizado):")
print(f"  Acurácia: {accuracy:.2f}")
print(f"  F1 Score: {f1:.2f}")
print(f"  Acurácia Validada Cruzada: {cv_accuracy:.2f}\n")


Random Forest (otimizado):
  Acurácia: 0.85
  F1 Score: 0.86
  Acurácia Validada Cruzada: 0.81



## Justificativa para a Otimização de Hiperparâmetros

Decidi otimizar os hiperparâmetros do modelo Random Forest porque este modelo tende a ter um bom desempenho em uma variedade de conjuntos de dados e a otimização de hiperparâmetros pode melhorar ainda mais seu desempenho. Os hiperparâmetros que estou otimizando são 'n_estimators' e 'max_depth'. 'n_estimators' é o número de árvores na floresta e 'max_depth' é a profundidade máxima das árvores. Aumentar 'n_estimators' geralmente melhora o desempenho do modelo, mas também aumenta a quantidade de tempo e memória necessários para treinar o modelo. 'max_depth' pode ajudar a controlar o overfitting, pois limitar a profundidade das árvores pode simplificar o modelo e evitar que ele se ajuste demais aos dados de treinamento.


##11 - Definição do Modelo de Deep Learning


In [18]:
# Definição do modelo de deep learning
model = Sequential()
model.add(Dense(32, input_dim=X_train_scaled.shape[1], activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))


##12 -  Compilação do Modelo de Deep Learning

In [19]:
# Compilação do modelo de deep learning
model.compile(loss='binary_crossentropy', optimizer=Adam(), metrics=['accuracy'])


#13 - Treinamento do Modelo de Deep Learning

In [20]:
# Treinamento do modelo de deep learning
history = model.fit(X_train_scaled, y_train, validation_data=(X_test_scaled, y_test), epochs=100, verbose=0)


# 14 - Avaliação do Modelo de Deep Learning

In [21]:
# Avaliação do modelo de deep learning no conjunto de treino e de teste
_, train_acc = model.evaluate(X_train_scaled, y_train, verbose=0)
_, test_acc = model.evaluate(X_test_scaled, y_test, verbose=0)

# Impressão dos resultados
print(f"Acurácia de Treino: {train_acc:.2f}")
print(f"Acurácia de Teste: {test_acc:.2f}")


Acurácia de Treino: 0.99
Acurácia de Teste: 0.82


## Análise dos Resultados

Os resultados dos modelos de machine learning variaram, com a Regressão Logística e o Random Forest otimizado apresentando as melhores performances. O modelo de Deep Learning também teve um desempenho comparável. Esses modelos tiveram acurácias de treino e teste próximas, o que sugere que eles não estão sofrendo de overfitting. A acurácia de teste é a métrica mais importante aqui, pois indica o quão bem o modelo irá generalizar para novos dados. Com base nesses resultados, eu escolheria o modelo Random Forest otimizado para previsões futuras, pois ele apresentou uma boa combinação de alta acurácia e F1 Score. No entanto, o modelo de Deep Learning também pode ser uma boa escolha, especialmente se tivermos mais dados para treinamento no futuro.
