In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Annotations

In [8]:
annotations = pd.read_csv('data/annotations.csv')
annotations.head()

Unnamed: 0,id_exam,id_patient,age,sex,1dAVb,RBBB,LBBB,SB,AF,ST,date_exam
0,1,542052,76,M,0,0,0,0,0,0,2012-11-30
1,3,1295343,71,M,0,0,0,0,1,0,2012-11-30
2,4,1773186,56,M,1,0,0,0,0,0,2012-11-30
3,5,475646,63,F,0,0,1,0,0,0,2012-11-30
4,6,558583,60,M,0,0,0,0,0,0,2012-12-01


In [9]:
print("Dimensões do Dataset")
linhas, colunas = annotations.shape
print(f"O dataset possui {linhas} linhas e {colunas} colunas.")

print("\nContagem de Valores Únicos para 'id_exam'")
print(annotations['id_exam'].value_counts())

print("\nVerificação de Dados Duplicados")
linhas_duplicadas = annotations.duplicated().sum()
print(f"Número de linhas duplicadas: {linhas_duplicadas}")

print("\nVerificação de Dados Faltantes (Nulos) por Coluna")
dados_faltantes = annotations.isnull().sum()
colunas_com_dados_faltantes = dados_faltantes[dados_faltantes > 0]
if not colunas_com_dados_faltantes.empty:
    print("Foram encontrados dados faltantes nas seguintes colunas:")
    print(colunas_com_dados_faltantes)
else:
    print("Não há dados faltantes em nenhuma coluna.")

Dimensões do Dataset
O dataset possui 2322465 linhas e 11 colunas.

Contagem de Valores Únicos para 'id_exam'
id_exam
1          1
3          1
4          1
5          1
6          1
          ..
4416610    1
4416611    1
4416614    1
4416615    1
4416616    1
Name: count, Length: 2322465, dtype: int64

Verificação de Dados Duplicados
Número de linhas duplicadas: 0

Verificação de Dados Faltantes (Nulos) por Coluna
Não há dados faltantes em nenhuma coluna.


# Chagas Code

In [12]:
chagas_code = pd.read_csv('data/chagas_code.csv')
chagas_code.head()

Unnamed: 0,exam_id,patient_id,chagas
0,3084775,921353,False
1,3084748,57510,False
2,3084384,156042,False
3,3084317,91017,False
4,3084241,348744,False


In [14]:
print("Dimensões do Dataset")
linhas, colunas = chagas_code.shape
print(f"O dataset possui {linhas} linhas e {colunas} colunas.")

print("\nContagem de Valores Únicos para 'chagas'")
print(chagas_code['chagas'].value_counts())

print("\nVerificação de Dados Duplicados")
linhas_duplicadas = chagas_code.duplicated().sum()
print(f"Número de linhas duplicadas: {linhas_duplicadas}")

print("\nVerificação de Dados Faltantes (Nulos) por Coluna")
dados_faltantes = chagas_code.isnull().sum()
colunas_com_dados_faltantes = dados_faltantes[dados_faltantes > 0]
if not colunas_com_dados_faltantes.empty:
    print("Foram encontrados dados faltantes nas seguintes colunas:")
    print(colunas_com_dados_faltantes)
else:
    print("Não há dados faltantes em nenhuma coluna.")

Dimensões do Dataset
O dataset possui 2304596 linhas e 3 colunas.

Contagem de Valores Únicos para 'chagas'
chagas
False    2257122
True       47474
Name: count, dtype: int64

Verificação de Dados Duplicados
Número de linhas duplicadas: 0

Verificação de Dados Faltantes (Nulos) por Coluna
Não há dados faltantes em nenhuma coluna.


# Comorbities

In [15]:
comorbities = pd.read_csv('data/comorbities.csv')
comorbities.head()

Unnamed: 0,id_exam,id_patient,diureticos,digital,betabloqueadores,inibidoresdaenzimaconversora,amiodarona,bloqueadoresdecalcio,obesidade,diabetesmellitus,tabagismo,revascularizacamiocardicaprevia,historicofamiliardoencacoronariana,infartomiocardioprevio,dislipidemia,doencarenalcronica,doencapulmonarcronica,doencadechagas,hipertencaoarterial
0,3084775,921353,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,3084748,57510,True,False,False,False,False,False,False,False,True,False,True,False,False,False,False,False,True
2,3084384,156042,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True
3,3084317,91017,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,3084241,348744,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [16]:
print("Dimensões do Dataset")
linhas, colunas = comorbities.shape
print(f"O dataset possui {linhas} linhas e {colunas} colunas.")

print("\nContagem de Valores Únicos para 'doencadechagas'")
print(comorbities['doencadechagas'].value_counts())

print("\nVerificação de Dados Duplicados")
linhas_duplicadas = comorbities.duplicated().sum()
print(f"Número de linhas duplicadas: {linhas_duplicadas}")

print("\nVerificação de Dados Faltantes (Nulos) por Coluna")
dados_faltantes = comorbities.isnull().sum()
colunas_com_dados_faltantes = dados_faltantes[dados_faltantes > 0]
if not colunas_com_dados_faltantes.empty:
    print("Foram encontrados dados faltantes nas seguintes colunas:")
    print(colunas_com_dados_faltantes)
else:
    print("Não há dados faltantes em nenhuma coluna.")


Dimensões do Dataset
O dataset possui 2312160 linhas e 19 colunas.

Contagem de Valores Únicos para 'doencadechagas'
doencadechagas
False    2260792
True       51368
Name: count, dtype: int64

Verificação de Dados Duplicados
Número de linhas duplicadas: 0

Verificação de Dados Faltantes (Nulos) por Coluna
Não há dados faltantes em nenhuma coluna.


# Samitrop_patients

In [None]:
samitrop = pd.read_csv('data/samitrop_patients.txt')
samitrop.head()

Unnamed: 0,60781
0,50679
1,1409965
2,1131213
3,108611
4,57110


In [None]:
print(samitrop.shape)
print(samitrop.isnull().sum().sum())
print(samitrop[samitrop.duplicated()])

(1813, 1)
0
Empty DataFrame
Columns: [60781]
Index: []


## Records

In [None]:
records = pd.read_csv('data/RECORDS.txt')
records.head()

Unnamed: 0,S0000000/TNMG1_N1
0,S0000000/TNMG1_N2
1,S0000000/TNMG2_N1
2,S0000000/TNMG2_N2
3,S0000000/TNMG2_N3
4,S0000000/TNMG3_N1


In [None]:
print(records.shape)
print(records.isnull().sum().sum())
print(records[records.duplicated()])

(8200070, 1)
0
Empty DataFrame
Columns: [S0000000/TNMG1_N1]
Index: []


## Resumo da Análise

- Total de exames em annotations: 2.322.465
- Total de exames em chagas code: 2.304.596
- Total de exames em commorbities: 2.312.160

## FUll eCODE

In [25]:
df = pd.read_csv("data/full_ecode.csv")
df.head()

Unnamed: 0,exam_id,id_patient,age,sex,1dAVb,RBBB,LBBB,SB,AF,ST,...,tabagismo,revascularizacamiocardicaprevia,historicofamiliardoencacoronariana,infartomiocardioprevio,dislipidemia,doencarenalcronica,doencapulmonarcronica,hipertencaoarterial,chagas,file_path
0,1,542052,76,M,0,0,0,0,0,0,...,False,False,True,False,False,False,False,True,False,S0000000/TNMG1_N1
1,3,1295343,71,M,0,0,0,0,1,0,...,False,False,False,False,False,False,False,False,False,S0000000/TNMG3_N1
2,4,1773186,56,M,1,0,0,0,0,0,...,False,False,False,False,False,False,False,False,False,S0000000/TNMG4_N1
3,5,475646,63,F,0,0,1,0,0,0,...,False,False,False,False,False,False,False,False,False,S0000000/TNMG5_N1
4,6,558583,60,M,0,0,0,0,0,0,...,False,False,False,False,False,False,False,False,False,S0000000/TNMG6_N1


In [27]:
print("Dimensões do Dataset")
linhas, colunas = df.shape
print(f"O dataset possui {linhas} linhas e {colunas} colunas.")

print("\nContagem de Valores Únicos para 'id_patient'")
print(df['id_patient'].value_counts())

print("\nContagem de Valores Únicos para 'chagas'")
print(df['chagas'].value_counts())

print("\nVerificação de Dados Duplicados")
linhas_duplicadas = df.duplicated().sum()
print(f"Número de linhas duplicadas: {linhas_duplicadas}")

print("\nVerificação de Dados Faltantes (Nulos) por Coluna")
dados_faltantes = df.isnull().sum()
colunas_com_dados_faltantes = dados_faltantes[dados_faltantes > 0]
if not colunas_com_dados_faltantes.empty:
    print("Foram encontrados dados faltantes nas seguintes colunas:")
    print(colunas_com_dados_faltantes)
else:
    print("Não há dados faltantes em nenhuma coluna.")

Dimensões do Dataset
O dataset possui 2304479 linhas e 29 colunas.

Contagem de Valores Únicos para 'id_patient'
id_patient
62835      138
50127       45
148354      40
718858      38
1330825     35
          ... 
1133751      1
377757       1
1133794      1
1133739      1
579544       1
Name: count, Length: 1556712, dtype: int64

Contagem de Valores Únicos para 'chagas'
chagas
False    2257006
True       47473
Name: count, dtype: int64

Verificação de Dados Duplicados
Número de linhas duplicadas: 0

Verificação de Dados Faltantes (Nulos) por Coluna
Não há dados faltantes em nenhuma coluna.
