<a href="https://colab.research.google.com/github/Vitor104/ads-machineLearningQ1/blob/main/Q5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Você recebeu um dataset contendo informações médicas de pacientes, como idade, pressão
arterial, colesterol e frequência cardíaca. Seu objetivo é construir um modelo de classificação para
prever se um paciente tem ou não uma doença cardíaco.

Tarefas:
- Carregue um dataset de doenças cardíacas (exemplo: Heart Disease UCI do Kaggle).
- Realize um pré-processamento adequado, tratando valores ausentes e normalizando as variáveis.
- Utilize pelo menos dois modelos de classificação (exemplo: Random Forest e SVM) e compare os
resultados.
- Avalie os modelos utilizando precisão, recall e curva ROC-AUC.
Pergunta: Qual modelo apresentou melhor desempenho? Quais variáveis mais impactaram na
previsão?


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, roc_auc_score, roc_curve

In [None]:
# Gerar dados sintéticos com make_classification

X, y = make_classification(n_samples=1000, n_features=4, random_state=42, n_classes=2)


In [None]:
# Organização dos dados

df = pd.DataFrame(X, columns=['idade', 'pressao_arterial', 'colesterol', 'frequencia_cardiaca'])
df['tem_doenca_cardiaca'] = y

In [None]:
# Verificando as 10 primeiras pessoas
df.head(10)

Unnamed: 0,idade,pressao_arterial,colesterol,frequencia_cardiaca,tem_doenca_cardiaca
0,-1.607711,-0.029398,1.569953,-0.527984,1
1,0.290131,0.317681,-0.996519,0.477009,0
2,-1.225096,0.895911,-0.900324,0.719861,1
3,2.046861,-1.680595,1.923718,-1.427244,1
4,1.828884,-0.289261,-1.049151,0.206271,0
5,0.53991,-0.670839,1.026939,-0.654529,1
6,-0.210155,-0.652656,1.68656,-0.861876,1
7,-0.827544,0.1445,0.443645,-0.076699,0
8,-1.91053,2.772194,-4.543441,2.802919,0
9,0.575348,-0.492673,0.587032,-0.425961,1


In [None]:
# Ajustar valores
def ajustar_valores(df):
  df.loc[:, 'colesterol'] = np.abs(df['colesterol'])
  df.loc[df['pressao_arterial'] > 220, 'pressao_arterial'] = 220
  df.loc[:, 'frequencia_cardiaca'] = np.abs(df['frequencia_cardiaca'])
  return df

In [None]:
df = ajustar_valores(df)

In [None]:
# Pré-Processamento
df.fillna(df.mean(), inplace=True)
scaler = StandardScaler()
df[['idade', 'pressao_arterial', 'colesterol', 'frequencia_cardiaca']] = scaler.fit_transform(df[['idade', 'pressao_arterial', 'colesterol', 'frequencia_cardiaca']])

In [None]:
# Separar dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(df.drop('tem_doenca_cardiaca', axis=1), df['tem_doenca_cardiaca'], test_size=0.2, random_state=42)

In [None]:
# RandomForest
modeloForest = RandomForestClassifier(n_estimators=100, random_state=42)
modeloForest.fit(X_train, y_train)

In [None]:
# SVM
modeloSVM = SVC(kernel='rbf', random_state=42)
modeloSVM.fit(X_train, y_train)

In [None]:
# Avaliação RandomForest
y_pred_forest = modeloForest.predict(X_test)
print(classification_report(y_test, y_pred_forest))

              precision    recall  f1-score   support

           0       0.94      0.94      0.94       101
           1       0.94      0.94      0.94        99

    accuracy                           0.94       200
   macro avg       0.94      0.94      0.94       200
weighted avg       0.94      0.94      0.94       200



In [None]:
# Avaliação SVM
y_pred_svm = modeloSVM.predict(X_test)
print(classification_report(y_test, y_pred_svm))

              precision    recall  f1-score   support

           0       0.88      0.91      0.89       101
           1       0.91      0.87      0.89        99

    accuracy                           0.89       200
   macro avg       0.89      0.89      0.89       200
weighted avg       0.89      0.89      0.89       200



In [None]:
# Precisão e Recall - Forest
print(classification_report(y_test, y_pred_forest, target_names=['Não Tem Doença', 'Tem Doença']))

                precision    recall  f1-score   support

Não Tem Doença       0.94      0.94      0.94       101
    Tem Doença       0.94      0.94      0.94        99

      accuracy                           0.94       200
     macro avg       0.94      0.94      0.94       200
  weighted avg       0.94      0.94      0.94       200



In [None]:
# Curva ROC - Forest
fpr_forest, tpr_forest, _ = roc_curve(y_test, y_pred_forest)
roc_auc_forest = roc_auc_score(y_test, y_pred_forest)
print(f'AUC: {roc_auc_forest}')

AUC: 0.9399939993999399


In [None]:
# Precisão e Recall - SVM
print(classification_report(y_test, y_pred_svm, target_names=['Não Tem Doença', 'Tem Doença']))

                precision    recall  f1-score   support

Não Tem Doença       0.88      0.91      0.89       101
    Tem Doença       0.91      0.87      0.89        99

      accuracy                           0.89       200
     macro avg       0.89      0.89      0.89       200
  weighted avg       0.89      0.89      0.89       200



In [None]:
# Curva ROC - SVM
fpr_svm, tpr_svm, _ = roc_curve(y_test, y_pred_svm)
roc_auc_svm = roc_auc_score(y_test, y_pred_svm)
print(f'AUC: {roc_auc_svm}')

AUC: 0.8897889788978899


In [None]:
# Quais variáveis mais afetaram a previsão do modelo
feature_importances = pd.Series(modeloForest.feature_importances_, index=X_train.columns)
feature_importances.sort_values(ascending=False, inplace=True)
print(feature_importances)

pressao_arterial       0.365676
idade                  0.309468
frequencia_cardiaca    0.172085
colesterol             0.152772
dtype: float64


In [None]:
df.to_csv('doencas_cardiacas.csv', index=False)

In [None]:
# Resposta:
# O modelo RandomForest foi o que teve melhor desempenho, com uma acurácia de 94% contra 89% do SVM. Além disso, o Random Forest
# também teve um valor superior no Recall e na nota ROC.
# E as variáveis que mais afetaram a previsão do modelo foram a pressao_arterial e a idade.