<div style="background-color: #8e7cc3; padding: 7px; text-align: center;">
    <h2>Projeto Machine Learning I | Problema de Classificação com KNN e Random Forest</h2>
</div>

# Grupo:
- Matheus Lopes
- Otávio Santos
- Tainah Guerra

## Decrição

**Objetivo:**

**Dados:**

| Atributo                    | Descrição                                      | 
|-----------------------------|------------------------------------------------|
| Age                         | Idade do paciente (anos) |
| Sex                         | Sexo do paciente (M: Masculino, F: Feminino)                               |
| ChestPainType               | Tipo de dor no peito (TA: Angina Típica, ATA: Angina Atípica, NAP: Dor Não-Anginosa, ASY: Assintomático) |
| RestingBP                   | Pressão arterial em repouso (mm Hg) | 
| Cholesterol                 | Colesterol sérico (mm/dl) | 
| FastingBS                   | Açúcar no sangue em jejum (1: se FastingBS > 120 mg/dl, 0: caso contrário) | 
| RestingECG                  | Resultados do eletrocardiograma em repouso (Normal: Normal, ST: anormalidade de onda ST-T, LVH: mostrando hipertrofia ventricular esquerda provável ou definitiva) |
| MaxHR                       | Frequência cardíaca máxima alcançada (60-202) | 
| ExerciseAngina              | Angina induzida por exercício (Y: Sim, N: Não) | 
| Oldpeak                     | Valor do Oldpeak = ST |                         
| ST_Slope                    | Inclinação do segmento ST no pico do exercício (Up: inclinação ascendente, Flat: plana, Down: inclinação descendente)| 
| HeartDisease                | Classe de saída (1: Doença Cardíaca, 0: Normal) | 


## Importando Bibliotecas

In [7]:
# Manipulação dos dados

import pandas as pd
import numpy as np

# DataViz

import seaborn as sns
import matplotlib.pyplot as plt

# Split dos dados

from sklearn.model_selection import train_test_split

# Transformação

from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

# Métricas

from sklearn.metrics import accuracy_score, recall_score, precision_score, classification_report, roc_auc_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import roc_curve


# Modelagem

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV


## Análise Exploratória dos Dados

In [8]:
# Carregando dados

data = pd.read_csv('data/heart.csv')

In [9]:
data.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0


In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


In [11]:
data.duplicated().sum()

0

In [12]:
data.isna().sum()

Age               0
Sex               0
ChestPainType     0
RestingBP         0
Cholesterol       0
FastingBS         0
RestingECG        0
MaxHR             0
ExerciseAngina    0
Oldpeak           0
ST_Slope          0
HeartDisease      0
dtype: int64

## Pré-processamento

Para melhor funcionamento dos algoritmos, é importante converter dados categóricos em formato de string para valores númericos.

In [13]:
categorical_columns = ['Sex',
                    'ChestPainType',
                    'RestingECG',
                    'ExerciseAngina',
                    'ST_Slope']

In [None]:
dummy_variables_df = pd.DataFrame(
    data = onehot_encoder.transform(data[cat_variables]).toarray(),
    columns = onehot_encoder.get_feature_names_out(),
    index = df.index
)
df = pd.concat([
    df.drop(columns = cat_variables),
    dummy_variables_df
], axis = 1)

return df

In [None]:
X = data.drop('HeartDisease', axis=1)
y = data['HeartDisease']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


## Modelo KNN

In [None]:
from scipy.stats import randint

knn_parameters = {'n_neighbors': randint(1,30)}

knn = KNeighborsClassifier()
knn_random_search = RandomizedSearchCV(knn, param_distributions=knn_parameters, n_iter=20, cv=5)

knn_random_search.fit(X_train, y_train)

best_knn_params = knn_random_search.best_params_
best_knn_model = knn_random_search.best_estimator_

print('Melhores hiperparâmetros para KNN: ', best_knn_params)

Melhores hiperparâmetros para KNN:  {'n_neighbors': 9}


In [None]:
y_pred = best_knn_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)

print(f"Acurácia KNN: {accuracy:.2f}")
print(f"Precisão KNN: {precision:.2f}")
print(f"Sensitividade KNN: {recall:.2f}")

Acurácia KNN: 0.88
Precisão KNN: 0.92
Sensitividade KNN: 0.87


## Modelo Random Forest

In [None]:
rf_parameters = {'n_estimators': randint(50,500),
                'max_depth': randint(1,20),
                'min_samples_split': randint(2, 10),  
                'min_samples_leaf': randint(1, 5)}

rf = RandomForestClassifier()
rf_random_search = RandomizedSearchCV(rf, param_distributions=rf_parameters, n_iter=20, cv=5)

rf_random_search.fit(X_train, y_train)

best_rf_params = rf_random_search.best_params_
best_rf_model = rf_random_search.best_estimator_

print('Melhores hiperparâmetros para Random Forest: ', best_rf_params)

Melhores hiperparâmetros para Random Forest:  {'max_depth': 3, 'min_samples_leaf': 2, 'min_samples_split': 7, 'n_estimators': 164}


In [None]:
y_pred = best_rf_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)

print(f"Acurácia Random Forest: {accuracy:.2f}")
print(f"Precisão Random Forest: {precision:.2f}")
print(f"Sensitividade Random Forest: {recall:.2f}")

Acurácia Random Forest: 0.89
Precisão Random Forest: 0.91
Sensitividade Random Forest: 0.91


## Conclusão

(onde vai fazer a comparação dos modelos)