# Doença Cardíaca Statlog
conjunto de dados confiável sem valores ausentes

## Sobre o conjunto de dados
### Contexto
O conjunto de dados é o conjunto de dados Statlog Heart Disease retirado do repositório UCI. O conjunto de dados consiste em dados de 270 indivíduos. Existem 14 colunas no conjunto de dados (que foram extraídas de um conjunto maior de 75). Sem valores em falta. A tarefa de classificação é prever se um indivíduo está sofrendo de doença cardíaca ou não. (0: ausência, 1: presença)

dados originais: https://archive.ics.uci.edu/ml/datasets/statlog+(coração)

## Conteúdo
Esse banco de dados contém 13 atributos e uma variável de destino. Tem 8 valores nominais e 5 valores numéricos. A descrição detalhada de todos esses recursos é a seguinte:

    - Idade: Pacientes Idade em anos (Numérico)
    - Sexo: Sexo (Masculino: 1; Feminino : 0) (Nominal)
    - cp: Tipo de dor torácica experimentada pelo paciente. Este termo categorizado em 4 categorias.
    0 angina típica, 1 angina atípica, 2 dor não anginosa, 3 assintomática (nominal)
    - trestbps: nível de pressão arterial do paciente no modo de repouso em mm/HG (Numérico)
    - chol: Colesterol sérico em mg/dl (Numérico)
    - fbs: Os níveis de açúcar no sangue em jejum > 120 mg/dl representa como 1 em caso de verdadeiro e 0 como falso (Nominal)
    - restecg: Resultado do eletrocardiograma em repouso estão representados em 3 valores
    - distintos 0 : Normal 1: ter anormalidade da onda ST-T (inversões da onda T e/ou elevação do ST ou depressão de >0,05 mV) 2: mostrando hipertrofia ventricular esquerda provável ou definida pelos critérios de Estes (Nominal)
    - talach: Frequência cardíaca máxima atingida (Numérico)
    - exang: Angina induzida pelo exercício 0 representando NO 1 representando Sim (Nominal)
    - oldpeak: Depressão ST induzida pelo exercício em relação ao estado de repouso (Numérico)
    - inclinação: segmento ST medido em termos de inclinação durante o exercício de pico 0: inclinação para cima; 1: plano; 2: inclinação para baixo (nominal)
    - ca: O número de grandes navios (0–3) (nominal)
    - thal: Um distúrbio sanguíneo chamado talassemia 0: NULL 1: fluxo sanguíneo normal 2: defeito fixo (sem fluxo sanguíneo em alguma parte do coração) 3: defeito reversível (um fluxo sanguíneo é observado, mas não é normal (nominal)
    - alvo: É a variável alvo que temos que prever 1 significa que o paciente está sofrendo de doença cardíaca e 0 significa que o paciente é normal.

In [83]:
import pandas as pd
import numpy as np
import math
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC


from sklearn.metrics import accuracy_score, f1_score
from sklearn.preprocessing import StandardScaler

In [84]:
df = pd.read_csv(r'DtScience\Heart_disease_statlog.csv')
df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,70,1,3,130,322,0,2,109,0,2.4,1,3,1,1
1,67,0,2,115,564,0,2,160,0,1.6,1,0,3,0
2,57,1,1,124,261,0,0,141,0,0.3,0,0,3,1
3,64,1,3,128,263,0,0,105,1,0.2,1,1,3,0
4,74,0,1,120,269,0,2,121,1,0.2,0,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
265,52,1,2,172,199,1,0,162,0,0.5,0,0,3,0
266,44,1,1,120,263,0,0,173,0,0.0,0,0,3,0
267,56,0,1,140,294,0,2,153,0,1.3,1,0,1,0
268,57,1,3,140,192,0,0,148,0,0.4,1,0,2,0


In [85]:
df.columns = ['Idade', 'Sexo', 'Dor Torácica', 'Pressão Arterial mm/Hg', 'Colesterol Sérico mg/dl',
'Níveis de Açúcar', 'Eletrocardiograma', 'Frequência Cardíaca Max', 'Angina Induzida', 'Depressão ST', 
'Segmento ST', 'Vasos Principais', 'Talassemia', 'Alvo']

In [86]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 270 entries, 0 to 269
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Idade                    270 non-null    int64  
 1   Sexo                     270 non-null    int64  
 2   Dor Torácica             270 non-null    int64  
 3   Pressão Arterial mm/Hg   270 non-null    int64  
 4   Colesterol Sérico mg/dl  270 non-null    int64  
 5   Níveis de Açúcar         270 non-null    int64  
 6   Eletrocardiograma        270 non-null    int64  
 7   Frequência Cardíaca Max  270 non-null    int64  
 8   Angina Induzida          270 non-null    int64  
 9   Depressão ST             270 non-null    float64
 10  Segmento ST              270 non-null    int64  
 11  Vasos Principais         270 non-null    int64  
 12  Talassemia               270 non-null    int64  
 13  Alvo                     270 non-null    int64  
dtypes: float64(1), int64(13)
m

In [87]:
df['Sexo'] = df['Sexo'].apply(lambda x: str(x).replace('0', 'Feminino'))
df['Sexo'] = df['Sexo'].apply(lambda x: str(x).replace('1', 'Masculino'))

In [88]:
df['Dor Torácica'] = df['Dor Torácica'].apply(lambda x: str(x).replace('0', 'angina típica'))
df['Dor Torácica'] = df['Dor Torácica'].apply(lambda x: str(x).replace('1', 'angina atípica'))
df['Dor Torácica'] = df['Dor Torácica'].apply(lambda x: str(x).replace('2', 'dor não anginosa'))
df['Dor Torácica'] = df['Dor Torácica'].apply(lambda x: str(x).replace('3', 'assintomática'))

In [89]:
print(df['Níveis de Açúcar'].value_counts())

Níveis de Açúcar
0    230
1     40
Name: count, dtype: int64


In [90]:
df['Níveis de Açúcar'] = df['Níveis de Açúcar'].apply(lambda x: str(x).replace('0', '<120 mg/dl'))
df['Níveis de Açúcar'] = df['Níveis de Açúcar'].apply(lambda x: str(x).replace('1', '>120 mg/dl'))

In [91]:
df['Eletrocardiograma'] = df['Eletrocardiograma'].apply(lambda x: str(x).replace('0', 'Normal'))
df['Eletrocardiograma'] = df['Eletrocardiograma'].apply(lambda x: str(x).replace('1', 'anormalidade da onda'))
df['Eletrocardiograma'] = df['Eletrocardiograma'].apply(lambda x: str(x).replace('2', 'hipertrofia ventricular esquerda'))

In [92]:
df['Angina Induzida'] = df['Angina Induzida'].apply(lambda x: str(x).replace('0', 'Não'))
df['Angina Induzida'] = df['Angina Induzida'].apply(lambda x: str(x).replace('1', 'Sim'))

In [93]:
df['Segmento ST'] = df['Segmento ST'].apply(lambda x: str(x).replace('0', 'inclinação para cima'))
df['Segmento ST'] = df['Segmento ST'].apply(lambda x: str(x).replace('1', 'plano'))
df['Segmento ST'] = df['Segmento ST'].apply(lambda x: str(x).replace('2', 'inclinação para baixo'))

In [94]:
df['Alvo'] = df['Alvo'].apply(lambda x: str(x).replace('0', 'paciente normal.'))
df['Alvo'] = df['Alvo'].apply(lambda x: str(x).replace('1', 'paciente com doença cardíaca'))

In [95]:
df.corr(numeric_only=True)

Unnamed: 0,Idade,Pressão Arterial mm/Hg,Colesterol Sérico mg/dl,Frequência Cardíaca Max,Depressão ST,Vasos Principais,Talassemia
Idade,1.0,0.273053,0.220056,-0.402215,0.194234,0.356081,0.099055
Pressão Arterial mm/Hg,0.273053,1.0,0.173019,-0.039136,0.2228,0.085697,0.127273
Colesterol Sérico mg/dl,0.220056,0.173019,1.0,-0.018739,0.027709,0.126541,0.040317
Frequência Cardíaca Max,-0.402215,-0.039136,-0.018739,1.0,-0.349045,-0.265333,-0.241003
Depressão ST,0.194234,0.2228,0.027709,-0.349045,1.0,0.255005,0.32524
Vasos Principais,0.356081,0.085697,0.126541,-0.265333,0.255005,1.0,0.255315
Talassemia,0.099055,0.127273,0.040317,-0.241003,0.32524,0.255315,1.0


In [96]:
display(df)

Unnamed: 0,Idade,Sexo,Dor Torácica,Pressão Arterial mm/Hg,Colesterol Sérico mg/dl,Níveis de Açúcar,Eletrocardiograma,Frequência Cardíaca Max,Angina Induzida,Depressão ST,Segmento ST,Vasos Principais,Talassemia,Alvo
0,70,Masculino,assintomática,130,322,<>120 mg/dl20 mg/dl,hipertrofia ventricular esquerda,109,Não,2.4,plano,3,1,paciente com doença cardíaca
1,67,Feminino,dor não anginosa,115,564,<>120 mg/dl20 mg/dl,hipertrofia ventricular esquerda,160,Não,1.6,plano,0,3,paciente normal.
2,57,Masculino,angina atípica,124,261,<>120 mg/dl20 mg/dl,Normal,141,Não,0.3,inclinação para cima,0,3,paciente com doença cardíaca
3,64,Masculino,assintomática,128,263,<>120 mg/dl20 mg/dl,Normal,105,Sim,0.2,plano,1,3,paciente normal.
4,74,Feminino,angina atípica,120,269,<>120 mg/dl20 mg/dl,hipertrofia ventricular esquerda,121,Sim,0.2,inclinação para cima,1,1,paciente normal.
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
265,52,Masculino,dor não anginosa,172,199,>120 mg/dl,Normal,162,Não,0.5,inclinação para cima,0,3,paciente normal.
266,44,Masculino,angina atípica,120,263,<>120 mg/dl20 mg/dl,Normal,173,Não,0.0,inclinação para cima,0,3,paciente normal.
267,56,Feminino,angina atípica,140,294,<>120 mg/dl20 mg/dl,hipertrofia ventricular esquerda,153,Não,1.3,plano,0,1,paciente normal.
268,57,Masculino,assintomática,140,192,<>120 mg/dl20 mg/dl,Normal,148,Não,0.4,plano,0,2,paciente normal.


In [97]:
print(df["Sexo"].value_counts())
print(df["Sexo"].value_counts(normalize=True).map("{:.1%}".format))

Sexo
Masculino    183
Feminino      87
Name: count, dtype: int64
Sexo
Masculino    67.8%
Feminino     32.2%
Name: proportion, dtype: object


In [98]:
import plotly.express as px
for coluna in df.columns:
    grafico = px.histogram(df, x=coluna, color="Sexo", text_auto=True)
    grafico.show()