# Seleção / Base de dados

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/souzag/D.S.-Python/master/heart.csv')
df.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


In [5]:
new_cols = ['Idade (anos)', 'Sexo', 'Tipo de dor no peito', 'Pressão sanguínea em repouso (mm Hg)', 'Colesterol (mg/dl)', 'Açúcar no sangue em jejum', 
            'Resultados de eletrocardiograma em repouso', 'Frequência cardíaca máxima alcançada', 'Angina induzida por exercício', 'Exercício em relação ao descanso',
            'Inclinação do segmento ST de pico do exercício', 'Diagnóstico']
new_names_map = {df.columns[i]:new_cols[i] for i in range(len(new_cols))}

df.rename(new_names_map, axis=1, inplace=True)
df.head()

Unnamed: 0,Idade (anos),Sexo,Tipo de dor no peito,Pressão sanguínea em repouso (mm Hg),Colesterol (mg/dl),Açúcar no sangue em jejum,Resultados de eletrocardiograma em repouso,Frequência cardíaca máxima alcançada,Angina induzida por exercício,Exercício em relação ao descanso,Inclinação do segmento ST de pico do exercício,Diagnóstico
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0


In [6]:
#Convertendo para strings

colunas_com_objeto = df.select_dtypes(include="object").columns

df[colunas_com_objeto]=df[colunas_com_objeto].astype("string")

In [7]:
df.dtypes

Idade (anos)                                        int64
Sexo                                               string
Tipo de dor no peito                               string
Pressão sanguínea em repouso (mm Hg)                int64
Colesterol (mg/dl)                                  int64
Açúcar no sangue em jejum                           int64
Resultados de eletrocardiograma em repouso         string
Frequência cardíaca máxima alcançada                int64
Angina induzida por exercício                      string
Exercício em relação ao descanso                  float64
Inclinação do segmento ST de pico do exercício     string
Diagnóstico                                         int64
dtype: object

# Análise exploratória

In [None]:
# PARA FAZER (GRÁFICOS ENTRE AS VARIÁVEIS DO DATASET)

# Preprocessamento

In [None]:
# Selecionando colunas do tipo string (categóricas)

string_col=df.select_dtypes("string").columns.to_list()

In [None]:
# Distribuição das colunas categóricas

df[string_col].head()
for col in string_col:
    print(df[col].value_counts())

M    725
F    193
Name: Sexo, dtype: Int64
ASY    496
NAP    203
ATA    173
TA      46
Name: Tipo de dor no peito, dtype: Int64
Normal    552
LVH       188
ST        178
Name: Resultados de eletrocardiograma em repouso, dtype: Int64
N    547
Y    371
Name: Angina induzida por exercício, dtype: Int64
Flat    460
Up      395
Down     63
Name: Inclinação do segmento ST de pico do exercício, dtype: Int64


In [None]:
# Preprocessamento usando Hot Enconding, para tratar as colunas categóricas

df_nontree=pd.get_dummies(df,columns=string_col,drop_first=False)
df_nontree.head()

Unnamed: 0,Idade (anos),Pressão sanguínea em repouso (mm Hg),Colesterol (mg/dl),Açúcar no sangue em jejum,Frequência cardíaca máxima alcançada,Exercício em relação ao descanso,Diagnóstico,Sexo_F,Sexo_M,Tipo de dor no peito_ASY,...,Tipo de dor no peito_NAP,Tipo de dor no peito_TA,Resultados de eletrocardiograma em repouso_LVH,Resultados de eletrocardiograma em repouso_Normal,Resultados de eletrocardiograma em repouso_ST,Angina induzida por exercício_N,Angina induzida por exercício_Y,Inclinação do segmento ST de pico do exercício_Down,Inclinação do segmento ST de pico do exercício_Flat,Inclinação do segmento ST de pico do exercício_Up
0,40,140,289,0,172,0.0,0,0,1,0,...,0,0,0,1,0,1,0,0,0,1
1,49,160,180,0,156,1.0,1,1,0,0,...,1,0,0,1,0,1,0,0,1,0
2,37,130,283,0,98,0.0,0,0,1,0,...,0,0,0,0,1,1,0,0,0,1
3,48,138,214,0,108,1.5,1,1,0,1,...,0,0,0,1,0,0,1,0,1,0
4,54,150,195,0,122,0.0,0,0,1,0,...,1,0,0,1,0,1,0,0,0,1


In [None]:
#Reorganizando dataset e colocando a coluna de diagnóstico no fim

target="Diagnóstico"
y=df_nontree[target].values
df_nontree.drop("Diagnóstico",axis=1,inplace=True)
df_nontree=pd.concat([df_nontree,df[target]],axis=1)
df_nontree.head()

Unnamed: 0,Idade (anos),Pressão sanguínea em repouso (mm Hg),Colesterol (mg/dl),Açúcar no sangue em jejum,Frequência cardíaca máxima alcançada,Exercício em relação ao descanso,Sexo_F,Sexo_M,Tipo de dor no peito_ASY,Tipo de dor no peito_ATA,...,Tipo de dor no peito_TA,Resultados de eletrocardiograma em repouso_LVH,Resultados de eletrocardiograma em repouso_Normal,Resultados de eletrocardiograma em repouso_ST,Angina induzida por exercício_N,Angina induzida por exercício_Y,Inclinação do segmento ST de pico do exercício_Down,Inclinação do segmento ST de pico do exercício_Flat,Inclinação do segmento ST de pico do exercício_Up,Diagnóstico
0,40,140,289,0,172,0.0,0,1,0,1,...,0,0,1,0,1,0,0,0,1,0
1,49,160,180,0,156,1.0,1,0,0,0,...,0,0,1,0,1,0,0,1,0,1
2,37,130,283,0,98,0.0,0,1,0,1,...,0,0,0,1,1,0,0,0,1,0
3,48,138,214,0,108,1.5,1,0,1,0,...,0,0,1,0,0,1,0,1,0,1
4,54,150,195,0,122,0.0,0,1,0,0,...,0,0,1,0,1,0,0,0,1,0


# Modelo

In [None]:
from sklearn.model_selection import train_test_split

# Separação - Dados x Coluna Alvo

X = df_nontree.drop(['Diagnóstico'], axis=1)
y = df_nontree['Diagnóstico']

# Separação de conjuntos de treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

In [None]:
# PARA FAZER (MODELO DE CLASSIFICAÇÃO)

# Avaliação

In [8]:
# PARA FAZER (APLICAR MÉTRICAS COMO SCORE, PRECISION, ETC)