In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# for jupyter
%matplotlib inline 

dt = pd.read_csv('Dataset/heart.csv')
"""
font: https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction
Attribute Information
    Age: age of the patient [years]
    Sex: sex of the patient [M: Male, F: Female]
    ChestPainType: chest pain type [TA: Typical Angina, ATA: Atypical Angina, NAP: Non-Anginal Pain, ASY: Asymptomatic]
    RestingBP: resting blood pressure [mm Hg]
    Cholesterol: serum cholesterol [mm/dl] // algumas referêcias apontam mg/dl
    FastingBS: fasting blood sugar [1: if FastingBS > 120 mg/dl, 0: otherwise]
    RestingECG: resting electrocardiogram results [Normal: Normal, ST: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV), LVH: showing probable or definite left ventricular hypertrophy by Estes' criteria]
    MaxHR: maximum heart rate achieved [Numeric value between 60 and 202]
    ExerciseAngina: exercise-induced angina [Y: Yes, N: No]
    Oldpeak: oldpeak = ST [Numeric value measured in depression]
    ST_Slope: the slope of the peak exercise ST segment [Up: upsloping, Flat: flat, Down: downsloping]
    HeartDisease: output class [1: heart disease, 0: Normal]
"""      
print(dt.shape)
print(dt.info())
# dt.head(100)

In [None]:
""" Converter os tipos de objetos para numéricos """

#Sex
dt["Sex"] = dt["Sex"].apply(lambda x: 1 if x == 'M' else 0)
#ChestPainTypes
ChestPainTypes = ["TA","ATA","NAP","ASY"]
dt["ChestPainType"] = dt["ChestPainType"].apply(lambda x: ChestPainTypes.index(x))

## trocando os valores iguais a zero pela média, pequena correção
# Cholesterol
dt["Cholesterol"] = dt["Cholesterol"].apply(lambda x: dt["Cholesterol"].mean() if x == 0 else x) 

# RestingBP - 
dt["RestingBP"] = dt["RestingBP"].apply(lambda x: dt["RestingBP"].mean() if x == 0 else x)

# RestingECG
dt["RestingECG"] = dt["RestingECG"].apply(lambda x:['Normal', 'ST', 'LVH'].index(x))

# ExerciseAngina
dt["ExerciseAngina"] = dt["ExerciseAngina"].apply(lambda x: 1 if x == 'Y' else 0)

# dt['ST_Slope'].unique() # array(['Up', 'Flat', 'Down'], dtype=object)
dt['ST_Slope'] =  dt['ST_Slope'].apply(lambda x: ['Up', 'Flat', 'Down'].index(x))

In [None]:
dt.hist(bins=50,figsize=(20,15))
print("Hist: ")

In [None]:
pd.plotting.scatter_matrix(dt, figsize=(20,10))
print('Matriz de cofusão: ')

In [None]:
"""
    Tentativa de plotar dados binários
"""
dt.plot(kind="scatter", y="HeartDisease", x="Cholesterol", alpha=0.1,s=dt["Age"]*10, label="Idade",c="Sex",cmap=plt.get_cmap("jet"), colorbar=True,figsize=(20,5))
plt.legend()

# como os dados são binários, é mais interessante tentar aplicar uma cor ao resultado
# o resultado abaixo ainda é influenciado pelo tamanho dos círculos




In [None]:
dt.plot(kind="scatter", x="MaxHR", y="Age", alpha=0.5, s='Cholesterol', label="Cholesterol",
c="HeartDisease",cmap=plt.get_cmap("jet"), colorbar=True, figsize=(20,5) )
plt.legend()
# Problema:
#         Se alterar o parâmetro "alpha", você altera a região que precisaria classificar


In [None]:
# busca a correlação entre todas os campos númericos
dt.corr()

In [None]:
# vamos investigar a combinação das variáveis com maior correlação:
# 1- ST_Slope
# 2- ExerciseAngina
# 3- ChestPainType
# 4- Oldpeak ou MaxHR

# O banco de dados utilizados é muito pequeno para tentar treinar fetures de Sexo e Idade


In [None]:
"""
    Pensamos em uma abordagem diferente, como são dados binários não conseguimos perceber a frequência dos dados,
    então, randomizamos um pequeno incremento para cada variável
"""

import random
aumento = 60
dt['ST_Slope1'] = dt['ST_Slope'].apply(lambda x : x+(random.randrange(0,aumento)/100))
dt['ExerciseAngina1'] = dt['ExerciseAngina'].apply(lambda x : x+(random.randrange(0,aumento)/100))
dt['ChestPainType1'] = dt['ChestPainType'].apply(lambda x : x+(random.randrange(0,aumento)/100))
dt['RestingECG1'] = dt['RestingECG'].apply(lambda x : x+(random.randrange(0,aumento)/100))

# Gerar uma matriz de confusao:
All_col = ['ST_Slope1','ExerciseAngina1','ChestPainType1','Oldpeak','MaxHR']
col = []
for x in range(len(All_col)):
    for xx in range(x+1,len(All_col)):
        col.append( (All_col[x],All_col[xx]))
        

for c in col:
    # faz a plotagem
    dt.plot(kind='scatter', x=c[0], y = c[1], alpha=1,
        label='x='+c[0], title='',
        c='HeartDisease', cmap=plt.get_cmap("winter"),
        figsize=(10,5)
       )

    # desenha o label do eixo x
    #lt.text( max(dt[c[0]])/2 ,  min(dt[c[1]])-1 , "Downsloping", fontsize=12, horizontalalignment='center' )
    #plt.xticks(ticks=[1,2,3,4,5,], labels=["teste","123","123","123","abc"])
    #plt.text(1,4,"123")
    #plt.legend()
    #print(max(c[0]))
    
    

In [None]:
dt.plot(kind="scatter", x="MaxHR", y="ST_Slope", alpha=0.5,
# s=dt['Cholesterol'] , 
# s = (dt['ExerciseAngina']*10)+1,

label=" ",        
c="HeartDisease",cmap=plt.get_cmap("binary"), colorbar=True,
figsize=(20,5)
)
plt.legend( )

In [None]:
# me parece que temos varias variaveis binárias
## como cada uma delas se relacionam com a chance de ter doença cardíaca?
# vamos testar os fields com a maior correlação:
# ST_Slope
# ExerciseAngina
# ChestPainType
# Como fazemos isso?
# Como comparar dois valores binarios?




In [None]:
# dt.describe()

In [None]:
# dt.plot(kind='scatter', x='ExerciseAngina', y = 'ST_Slope', alpha=0.2,label="indices", c='HeartDisease', cmap=plt.get_cmap("jet"),figsize=(10,10))

In [None]:
# Agora ficou visível uma relação, não?!
dt.plot(kind='scatter', x='ExerciseAngina1', y = 'ST_Slope1', alpha=1,
        label="indices", title='test',
        c='HeartDisease', cmap=plt.get_cmap("winter"),
        figsize=(10,10)
       )
 


In [None]:
# vamos tentar colocar mais uma variavel no jogo?
"""
    from mpl_toolkits.mplot3d import Axes3D
    fig = plt.figure()
    ax = fig.add_subplot(111, projection='3d')
"""

In [None]:
# Relação entre 

# style = 
dt.plot(kind='scatter', x='ExerciseAngina1', y = 'ST_Slope1', alpha=0.5,
        label="indices", title='test',
        c='HeartDisease', cmap=plt.get_cmap("jet"), s=30,
        figsize=(10,10),
        xlabel={'center':'test', 'labelpad':1}
       )
#print(dt.axes)


In [None]:
"""dt.plot(kind='scatter', x='ExerciseAngina1', y = 'ChestPainType', alpha=0.5,
        label="indices", title='test',
        c='HeartDisease', cmap=plt.get_cmap("jet"), marker='^',
        figsize=(10,10)
       )
plt.xlabel("Culmen Length (mm)",fontweight ='bold', size=14)    
"""

"""
ST_Slope
ExerciseAngina
ChestPainType
Oldpeak
"""

ax = dt.plot.scatter(x='ExerciseAngina1', y = 'ST_Slope1' , label="Group 1", c='HeartDisease', cmap=plt.get_cmap("jet"), marker='^', s=30)



dt.plot.scatter(x='ExerciseAngina1', y = 'ChestPainType1', label="Group 2",  c='HeartDisease', 
                cmap=plt.get_cmap("winter"), ax=ax,figsize=(15,15),s=30)




In [None]:

dt.plot(kind='scatter', x='ExerciseAngina1', y = 'ST_Slope1', alpha=1,
        label="indices", title='test',
        c='HeartDisease', cmap=plt.get_cmap("winter"),
        figsize=(10,10)
       )
 

In [None]:
# Por que NÃO foi considerado o sexo do indivíduo?
# O problema de considerar o sexo é que os dados são experimentais, portanto, 
# a relação do banco de dados pode ser tendenciosa e não necessáriamente refletir o que acontece na natureaza

In [None]:
"""
    Os resultados no banco de dados estão equilibrados? ou há viés?
    
"""
# pegar a quantidade de pacientes com e sem insu. cardíaca
resultados_len = len(dt[dt.HeartDisease == 1]), len(dt[dt.HeartDisease == 0])

# vamos plotar com cores diferentes
plt.bar( [ 1 ],  resultados_len[0] , color='r', label = 'Pacientes que tiveram insuficiência cardíaca')
plt.bar( [ 2 ],  resultados_len[1] , color='g', label = 'Pacientes sem insuficiência cardíaca')

# remover os valores dos eixos x
plt.tick_params(labelbottom=False, labelsize=20) 

#adiciona a legenda no rodapé
plt.legend(bbox_to_anchor=(0,-0.3,0,0), loc="lower left", borderaxespad=0, ncol=1, fontsize=25, 
           title ="Legenda",title_fontsize=20, shadow=True)

# coloca um título
plt.title("Relação entre pacientes com e sem insuficiência cardíaca",fontsize=30)


# coloca a legenda do eixo y
plt.text(0.35 ,250, "Quantidade de pacientes", fontsize=30,  rotation='vertical',  verticalalignment='center')


# mostra o gráfico
plt.show()



In [None]:
#Que tipo de dados estou errando? 
# falso positivos?
#

In [None]:
"""
    Como estamos tentando plotar valores binários, vamos variar minimamente para não plotar em cima do outro
    **apenas para aspecto visual
"""
import random
aumento = 60
# para cada uma dessas variáveis randomiza um acrescimo entre 0 e 60
dt['ST_Slope1'] = dt['ST_Slope'].apply(lambda x : x+(random.randrange(0,aumento)/100))
dt['ExerciseAngina1'] = dt['ExerciseAngina'].apply(lambda x : x+(random.randrange(0,aumento)/100))
dt['ChestPainType1'] = dt['ChestPainType'].apply(lambda x : x+(random.randrange(0,aumento)/100))


# Gerar uma matriz de confusao:
All_col = ['ST_Slope1','ExerciseAngina1','ChestPainType1','Oldpeak','MaxHR']
col = []
for x in range(len(All_col)):
    for xx in range(x+1,len(All_col)):
        col.append( (All_col[x],All_col[xx]))
        

for c in col:
    dt.plot(kind='scatter', x=c[0], y = c[1], alpha=1,
        label='x='+c[0], title='',
        c='HeartDisease', cmap=plt.get_cmap("winter"),
        figsize=(10,5)
       )
    plt.legend()
 

In [None]:
"""
    Separar os valores para plotar, 
"""
# muda o tamanho das figuras de plotagem
plt.rcParams["figure.figsize"] = (25,10)


"""Separa em mais datasets para melhorar a vizualização"""
# cria um dataset apenas das pessoas com insuficiência cárdiaca
dty = dt[ dt['HeartDisease'] == 1]
### Desse dataset cria mais dois: os que sentem dor (cardíaca) quando se exercitam e os que não sentem
dt_failure_Pain = dty[ dty['ExerciseAngina'] == 1] 
dt_failure_     = dty[ dty['ExerciseAngina'] == 0] 



# cria um dataset apenas das pessoas sem insuficiência cárdiaca
dtn = dt[ dt['HeartDisease'] != 1]
### Desse dataset cria mais dois: os que sentem dor (cardíaca) quando se exercitam e os que não sentem
dt_work_Pain = dtn[ dtn['ExerciseAngina'] == 1] 
dt_work_     = dtn[ dtn['ExerciseAngina'] == 0] 

In [None]:
print("Gráfico usando:  ChestPainType1 x ST_Slope1, + ExerciseAngina e HeartDisease")

# plota cada dado da legenda, no grafíco
plt.scatter(dt_failure_Pain['ChestPainType1'],  dt_failure_Pain['ST_Slope1'], c='r', alpha=0.6, marker='^', label='Paciente com insuficiência cardíaca e sente dor ao se exercitar')
plt.scatter(    dt_failure_['ChestPainType1'],      dt_failure_['ST_Slope1'], c='r', alpha=0.6, marker='o', label='Paciente com insuficiência cardíaca')
plt.scatter(   dt_work_Pain['ChestPainType1'],     dt_work_Pain['ST_Slope1'], c='g', alpha=0.6, marker='^', label='Paciente que sente dor ao se exercitar')
plt.scatter(       dt_work_['ChestPainType1'],         dt_work_['ST_Slope1'], c='g', alpha=0.6, marker='s', label='Paciente sem insuficiência cardíaca e não sente dor ao se exercitar')
 
# coloca a legenda no rodapé
plt.legend(bbox_to_anchor=(0,-0.5,0,0), loc="lower left", borderaxespad=0, ncol=1, fontsize=25, 
           title ="Legenda",title_fontsize=20, shadow=True)

# mostra o título
plt.title("Relação entre insuficiência cardíaca",fontsize=30)

# mostrar os valores dos eixos x e y
plt.tick_params(labelbottom=True, labelleft=True)
# caption dos valores do eixo y
plt.yticks(ticks=[0.3,1.3,2.3], labels=["Upsloping","Flat","Downsloping"],fontsize=20)
# caption dos valores do eixo X
plt.xticks(ticks=[0.3,1.3,2.3,3.3], labels=["Typical Angina","Atypical Angina","Non-Anginal Pain","Asymptomatic"],fontsize=20)


# escreve o nome das variáveis no eixo Y e X
plt.text(-0.5, 1.3, "ST_Slope", fontsize=30,  rotation='vertical',  verticalalignment='center')
plt.text(1.85, -0.5, "ChestPainType", fontsize=30,  horizontalalignment='center')

# desenha linhas horizontais separando os valores
plt.plot( [0.25,3.5] , [0.9,0.9], linestyle='dashed', c= 'b')  
plt.plot( [0.25,3.5] , [1.9,1.9], linestyle='dashed', c= 'b')   

# desenha linhas verticais separando os valores
plt.plot( [0.9,0.9] , [0.25,2.5], linestyle='dashed', c= 'b')   
plt.plot( [1.9,1.9] , [0.25,2.5], linestyle='dashed', c= 'b')   
plt.plot( [2.9,2.9] , [0.25,2.5], linestyle='dashed', c= 'b')   

# mostra  o gráfico
plt.show()

In [None]:



x = 'Oldpeak'
plt.scatter(dt_failure_Pain[x], dt_failure_Pain['ST_Slope1'], c='r', alpha=0.6, marker='^', label='insuficiência cardíaca + dor ao exercitar')
plt.scatter(    dt_failure_[x],      dt_failure_['ST_Slope1'], c='r', alpha=0.6, marker='o', label='insuficiência cardíaca')
plt.scatter(   dt_work_Pain[x],     dt_work_Pain['ST_Slope1'], c='g', alpha=0.6, marker='^', label='dor ao exercitar')
plt.scatter(       dt_work_[x],         dt_work_['ST_Slope1'], c='g', alpha=0.6, marker='s', label='sem problemas')
 

plt.legend(bbox_to_anchor=(0,1.02,1,0.2), loc="lower left", mode="expand", borderaxespad=0, ncol=1, fontsize=25)

# upsloping, Flat: flat, Down: downsloping


print("Gráfico usando:  ChestPainType1 x ST_Slope1, + ExerciseAngina e HeartDisease")
 
plt.text(-0.5, 0.25, "Upsloping", fontsize=20)
plt.text(-0.33, 1.25, "Flat", fontsize=20)
plt.text(-0.55, 2.25, "Downsloping", fontsize=20)


#plt.text(0.25, -0.3, "Typical Angina", fontsize=20,  horizontalalignment='center')
#plt.text(1.25, -0.3, "Atypical Angina", fontsize=20,  horizontalalignment='center')
#plt.text(2.25, -0.3, "Non-Anginal Pain", fontsize=20,  horizontalalignment='center')
#plt.text(3.25, -0.3, "Asymptomatic", fontsize=20,  horizontalalignment='center')
#plt.line(       [0,,         dt_work_['ST_Slope1'], c='g', alpha=0.6, marker='s', label='sem problemas')
 
plt.title("123")
plt.plot()
plt.show()