# **PRÉ-PROCESSAMENTO DOS DADOS**

In [1]:
import numpy as np
import pandas as pd
import re

In [93]:
df = pd.read_csv(r'C:\Users\João Pedro\Documents\UFG\MD\estudo_caso\data\UCMF_raw.csv')
df.head()

Unnamed: 0,ID,Peso,Altura,IMC,Atendimento,DN,IDADE,Convenio,PULSOS,PA SISTOLICA,...,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,SEXO,MOTIVO1,MOTIVO2
0,1,5.0,51,19.0,11/05/06,30/03/06,0.12,GS,Normais,,...,Não Calculado,Anormal,Normal,Sistólico,112,Palpitacao,,M,6 - Suspeita de cardiopatia,6 - Palpitação/taquicardia/arritmia
1,2,3.5,50,14.0,25/05/05,19/05/05,0.02,GS,Normais,,...,Não Calculado,Anormal,Normal,ausente,128,Dispneia,,M,6 - Suspeita de cardiopatia,6 - Dispnéia
2,3,0.0,0,,12/06/01,08/05/05,-4.05,SULA,Normais,,...,Não Calculado,Anormal,Normal,Sistólico,88,Assintomático,,M,2 - Check-up,
3,4,8.1,65,19.0,15/10/09,21/04/09,0.5,,Normais,,...,Não Calculado,Anormal,Normal,ausente,92,Assintomático,,M,5 - Parecer cardiológico,
4,7,40.0,151,18.0,14/01/08,14/08/95,12.89,SAME,Normais,,...,Não Calculado,Anormal,Normal,ausente,96,Dor precordial,,M,5 - Parecer cardiológico,


## Retirando a coluna *ID*

In [95]:
df_copy = df.copy()
df_copy.drop(columns=['ID', 'Convenio', 'SEXO'], inplace=True)
df_copy.head()

Unnamed: 0,Peso,Altura,IMC,Atendimento,DN,IDADE,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,MOTIVO1,MOTIVO2
0,5.0,51,19.0,11/05/06,30/03/06,0.12,Normais,,,Não Calculado,Anormal,Normal,Sistólico,112,Palpitacao,,6 - Suspeita de cardiopatia,6 - Palpitação/taquicardia/arritmia
1,3.5,50,14.0,25/05/05,19/05/05,0.02,Normais,,,Não Calculado,Anormal,Normal,ausente,128,Dispneia,,6 - Suspeita de cardiopatia,6 - Dispnéia
2,0.0,0,,12/06/01,08/05/05,-4.05,Normais,,,Não Calculado,Anormal,Normal,Sistólico,88,Assintomático,,2 - Check-up,
3,8.1,65,19.0,15/10/09,21/04/09,0.5,Normais,,,Não Calculado,Anormal,Normal,ausente,92,Assintomático,,5 - Parecer cardiológico,
4,40.0,151,18.0,14/01/08,14/08/95,12.89,Normais,,,Não Calculado,Anormal,Normal,ausente,96,Dor precordial,,5 - Parecer cardiológico,


## Retirar linhas ou colunas com mais de 50% de dados faltantes

In [43]:
(df_copy.isna().mean() * 100).sort_values(ascending=False)

HDA2                96.631631
IMC                 32.599520
HDA 1               28.833899
Convenio            27.551105
MOTIVO2             22.428205
FC                   8.921625
IDADE                5.867748
DN                   4.874617
PULSOS               3.376645
NORMAL X ANORMAL     3.285608
B2                   3.252504
SOPRO                3.186295
Peso                 2.623521
MOTIVO1              2.234544
PPA                  1.795912
Atendimento          1.704875
SEXO                 0.033104
Altura               0.000000
dtype: float64

In [38]:
df_copy.drop(columns=['PA DIASTOLICA', 'PA SISTOLICA'], inplace=True)

In [40]:
# 1. Calcula a porcentagem de nulos para cada linha
percentual_nulos_linha = df_copy.isna().mean(axis=1)

# 2. Filtra apenas as linhas com mais de 50% (0.5) de nulos
linhas_vazias = df_copy[percentual_nulos_linha > 0.5]

# Mostra quantas linhas foram encontradas
print(f"Foram encontradas {len(linhas_vazias)} linhas com mais de 50% de dados faltantes.")

# Visualiza essas linhas (mostrando apenas as primeiras 5 para não poluir a tela)
linhas_vazias.head()

Foram encontradas 790 linhas com mais de 50% de dados faltantes.


Unnamed: 0,Peso,Altura,IMC,Atendimento,DN,IDADE,Convenio,PULSOS,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,SEXO,MOTIVO1,MOTIVO2
46,0.0,0,,,,,,,#VALUE!,,,,,,,Indeterminado,,
60,0.0,0,,,,,,,#VALUE!,,,,,,,Indeterminado,,
94,0.0,0,,,,,,,#VALUE!,,,,,,,Indeterminado,,
117,0.0,0,,,,,,,#VALUE!,,,,,,,Indeterminado,,
118,0.0,0,,,,,,,#VALUE!,,,,,,,Indeterminado,,


In [41]:
# 1. Identifica os índices das linhas com mais de 50% (0.5) de nulos
linhas_para_remover = df_copy[df_copy.isna().mean(axis=1) > 0.5].index

# 2. Remove as linhas usando .drop()
df_copy.drop(linhas_para_remover, inplace=True)

# 3. Feedback para você saber quantas foram apagadas
print(f"Foram removidas {len(linhas_para_remover)} linhas.")

Foram removidas 790 linhas.


## Tratando a coluna *Idade*

In [96]:
def limpar_data(val):
    try:
        # Tenta converter formato dia/mês/ano
        return pd.to_datetime(val, format='%d/%m/%y')
    except:
        try:
            # Se falhar, tenta converter número serial do Excel
            # (Base do Excel é aprox 30/12/1899)
            return pd.to_datetime(float(val), unit='D', origin='1899-12-30')
        except:
            return pd.NaT
    
df['DN_limpa'] = df['DN'].apply(limpar_data)
df['Atendimento_limpa'] = df['Atendimento'].apply(limpar_data)
df_copy.head()


Unnamed: 0,Peso,Altura,IMC,Atendimento,DN,IDADE,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,MOTIVO1,MOTIVO2
0,5.0,51,19.0,11/05/06,30/03/06,0.12,Normais,,,Não Calculado,Anormal,Normal,Sistólico,112,Palpitacao,,6 - Suspeita de cardiopatia,6 - Palpitação/taquicardia/arritmia
1,3.5,50,14.0,25/05/05,19/05/05,0.02,Normais,,,Não Calculado,Anormal,Normal,ausente,128,Dispneia,,6 - Suspeita de cardiopatia,6 - Dispnéia
2,0.0,0,,12/06/01,08/05/05,-4.05,Normais,,,Não Calculado,Anormal,Normal,Sistólico,88,Assintomático,,2 - Check-up,
3,8.1,65,19.0,15/10/09,21/04/09,0.5,Normais,,,Não Calculado,Anormal,Normal,ausente,92,Assintomático,,5 - Parecer cardiológico,
4,40.0,151,18.0,14/01/08,14/08/95,12.89,Normais,,,Não Calculado,Anormal,Normal,ausente,96,Dor precordial,,5 - Parecer cardiológico,


## Tratando a coluna *NORMAL X ANORMAL*

In [8]:
df_copy[(df_copy['NORMAL X ANORMAL'].isna()) & (df_copy['SOPRO'] != 'ausente') & (df_copy['SOPRO'].notna())]

Unnamed: 0,Peso,Altura,IMC,Atendimento,DN,IDADE,Convenio,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,SEXO,MOTIVO1,MOTIVO2
1353,0.0,0,,,,,,,,,#VALUE!,,,Contínuo,,,,2.0,,
1730,0.0,0,,,,,,,,,#VALUE!,,,Sistólico,,,,2.0,,
12589,5.3,60,15.0,02/12/08,13/09/08,0.23,,Normais,,,Não Calculado,,Normal,Sistólico,100.0,Assintomático,,1.0,6 - Suspeita de cardiopatia,6 - Sopro
12615,0.0,0,,12/05/08,18/06/99,9.24,,Normais,100.0,60.0,Não Calculado,,Normal,Sistólico,90.0,Assintomático,,0.0,1 - Cardiopatia já estabelecida,1 - Cardiopatia congenica
12687,0.0,0,,16/06/09,10/03/04,5.47,,Normais,,,Não Calculado,,Normal,Sistólico,90.0,Assintomático,,0.0,6 - Suspeita de cardiopatia,Outro
12747,46.0,162,18.0,04/08/03,08/04/89,14.86,UR,Normais,90.0,60.0,Não Calculado,,Normal,Sistólico,90.0,Assintomático,,0.0,2 - Check-up,
12757,20.0,0,,01/07/03,17/12/96,6.78,GS,Normais,90.0,60.0,Não Calculado,,Normal,Sistólico,100.0,Assintomático,,0.0,6 - Suspeita de cardiopatia,6 - Sopro
12766,24.0,118,17.0,17/02/09,14/09/03,5.63,,Normais,100.0,60.0,Não Calculado,,Normal,Sistólico,78.0,Assintomático,,0.0,6 - Suspeita de cardiopatia,6 - Sopro
12854,30.0,0,,22/08/06,,,GS,Normais,140.0,60.0,#VALUE!,,Normal,Sistólico,120.0,Dispneia,Cianose,1.0,5 - Parecer cardiológico,Outro


In [63]:
df_copy.dropna(subset=['NORMAL X ANORMAL'], inplace=True)

In [10]:
df_copy.head()

Unnamed: 0,Peso,Altura,IMC,Atendimento,DN,IDADE,Convenio,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,SEXO,MOTIVO1,MOTIVO2
0,5.0,51,19.0,11/05/06,30/03/06,0.12,GS,Normais,,,Não Calculado,Anormal,Normal,Sistólico,112,Palpitacao,,1.0,6 - Suspeita de cardiopatia,6 - Palpitação/taquicardia/arritmia
1,3.5,50,14.0,25/05/05,19/05/05,0.02,GS,Normais,,,Não Calculado,Anormal,Normal,ausente,128,Dispneia,,1.0,6 - Suspeita de cardiopatia,6 - Dispnéia
2,0.0,0,,12/06/01,08/05/05,-4.05,SULA,Normais,,,Não Calculado,Anormal,Normal,Sistólico,88,Assintomático,,1.0,2 - Check-up,
3,8.1,65,19.0,15/10/09,21/04/09,0.5,,Normais,,,Não Calculado,Anormal,Normal,ausente,92,Assintomático,,1.0,5 - Parecer cardiológico,
4,40.0,151,18.0,14/01/08,14/08/95,12.89,SAME,Normais,,,Não Calculado,Anormal,Normal,ausente,96,Dor precordial,,1.0,5 - Parecer cardiológico,


## Tratando coluna *Pulsos*

In [13]:
df_copy['PULSOS'].isna().sum()

np.int64(48)

In [64]:
df_copy.loc[df_copy['PULSOS'].isna(), ['SOPRO', 'PULSOS', 'PPA', 'PA SISTOLICA', 'PA DIASTOLICA', 'FC', 'NORMAL X ANORMAL', 'B2', 'HDA 1']]

Unnamed: 0,SOPRO,PULSOS,PPA,PA SISTOLICA,PA DIASTOLICA,FC,NORMAL X ANORMAL,B2,HDA 1
57,Sistólico,,Não Calculado,100.0,60.0,,Anormal,Normal,Outro
65,sistólico,,Não Calculado,,,100.0,Anormal,Normal,
84,sistólico,,Não Calculado,,,200.0,Anormal,Normal,
161,sistólico,,Não Calculado,,,164.0,Anormal,Normal,Dispneia
167,sistólico,,Não Calculado,,,152.0,Anormal,Normal,Dispneia
185,ausente,,Não Calculado,,,112.0,Normal,Normal,
268,ausente,,Não Calculado,,,100.0,Anormal,Hiperfonética,
371,ausente,,Não Calculado,,,120.0,Normal,Normal,Assintomático
403,sistólico,,Normal,90.0,55.0,80.0,Normal,Normal,
409,ausente,,Não Calculado,,,140.0,Normal,Normal,Assintomático


In [65]:
df_copy[(df_copy['PULSOS'].isna()) & (df_copy['NORMAL X ANORMAL'] == 'Anormal')]

Unnamed: 0,Peso,Altura,IMC,Atendimento,IDADE,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,MOTIVO1,MOTIVO2
57,32.0,0,,06/08/03,10.16,,100.0,60.0,Não Calculado,Anormal,Normal,Sistólico,,Outro,,6 - Suspeita de cardiopatia,6 - Alterações de pulso/perfusão
65,7.1,67,16.0,38185,0.43,,,,Não Calculado,Anormal,Normal,sistólico,100.0,,,6 - Suspeita de cardiopatia,6 - Sopro
84,0.0,0,,15/04/09,0.13,,,,Não Calculado,Anormal,Normal,sistólico,200.0,,,6 - Suspeita de cardiopatia,6 - Sopro
161,5.0,0,,12/03/08,0.11,,,,Não Calculado,Anormal,Normal,sistólico,164.0,Dispneia,,6 - Suspeita de cardiopatia,Outro
167,0.0,0,,08/01/04,0.1,,,,Não Calculado,Anormal,Normal,sistólico,152.0,Dispneia,Cianose,6 - Suspeita de cardiopatia,6 - Sopro
268,0.0,62,0.0,07/03/06,0.49,,,,Não Calculado,Anormal,Hiperfonética,ausente,100.0,,,6 - Suspeita de cardiopatia,6 - Sopro
418,0.0,0,,22/09/08,1.34,,,,Não Calculado,Anormal,Única,sistólico,160.0,,,1 - Cardiopatia já estabelecida,5 - Cirurgia
443,28.0,138,15.0,28/09/07,10.41,,130.0,70.0,HAS-2 PAS,Anormal,Normal,sistólico,84.0,Assintomático,,1 - Cardiopatia já estabelecida,1 - Cardiopatia congenica
450,37.0,151,16.0,25/10/04,11.9,,110.0,70.0,Normal,Anormal,Normal,sistólico,80.0,,,6 - Suspeita de cardiopatia,6 - Sopro
536,0.0,0,,,,,,,#VALUE!,Anormal,Hiperfonética,Sistólico,,,,,


In [66]:
lista_indices = [
    12562, 12578, 12581, 12590, 12607, 12616, 12634, 12636, 
    12662, 12667, 12688, 12708, 12738, 12748, 12758, 12763, 
    12767, 12782, 12803, 12833, 12839, 12855
]

df_copy.drop(index=lista_indices, inplace=True)

In [67]:
df_copy['PULSOS'].value_counts()

PULSOS
Normais                11509
Amplos                    52
Femorais diminuidos       39
Outro                     36
Diminuídos                18
NORMAIS                    2
AMPLOS                     1
Name: count, dtype: int64

In [68]:
df_copy['PULSOS'] = df_copy['PULSOS'].str.capitalize()
df_copy['PULSOS'] = np.where(df_copy['PULSOS'] == 'Normais', 0, 1)
df_copy['PULSOS'].value_counts()

PULSOS
0    11511
1      172
Name: count, dtype: int64

In [69]:
df_copy.head()

Unnamed: 0,Peso,Altura,IMC,Atendimento,IDADE,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,MOTIVO1,MOTIVO2
0,5.0,51,19.0,11/05/06,0.12,0,,,Não Calculado,Anormal,Normal,Sistólico,112,Palpitacao,,6 - Suspeita de cardiopatia,6 - Palpitação/taquicardia/arritmia
1,3.5,50,14.0,25/05/05,0.02,0,,,Não Calculado,Anormal,Normal,ausente,128,Dispneia,,6 - Suspeita de cardiopatia,6 - Dispnéia
2,0.0,0,,12/06/01,-4.05,0,,,Não Calculado,Anormal,Normal,Sistólico,88,Assintomático,,2 - Check-up,
3,8.1,65,19.0,15/10/09,0.5,0,,,Não Calculado,Anormal,Normal,ausente,92,Assintomático,,5 - Parecer cardiológico,
4,40.0,151,18.0,14/01/08,12.89,0,,,Não Calculado,Anormal,Normal,ausente,96,Dor precordial,,5 - Parecer cardiológico,


## Tratando coluna *Motivo 1 e 2*

In [59]:
df_copy['MOTIVO1'].isna().sum()

np.int64(1055)

In [60]:
df_copy['MOTIVO1'].value_counts()

MOTIVO1
5 - Parecer cardiológico           5352
6 - Suspeita de cardiopatia        4285
1 - Cardiopatia já estabelecida    1158
2 - Check-up                        701
7 - Outro                           322
Name: count, dtype: int64

In [22]:
df_copy['MOTIVO2'].isna().sum()

np.int64(2676)

In [23]:
df_copy['MOTIVO2'].value_counts()

MOTIVO2
5 - Cirurgia                           2846
6 - Sopro                              2284
1 - Cardiopatia congenica              1018
Outro                                   783
5 - Atividade física                    586
6 - Palpitação/taquicardia/arritmia     397
6 - Dor precordial                      369
6 - HAS/dislipidemia/obesidade          226
6 - Dispnéia                            216
6 - Cianose                             137
1 - Cardiopatia adquirida                90
6 - Cardiopatia na familia               32
5 - Uso de cisaprida                      9
6 - Cansaço                               6
6 - Alterações de pulso/perfusão          5
6 - Cianose e dispnéia                    3
Name: count, dtype: int64

In [70]:
def limpar_motivo(valor):
    if pd.isna(valor):
        return np.nan
    
    texto = str(valor)

    texto_limpo = re.sub(r'^\d+\s*-\s*', '', texto)

    return texto_limpo.strip().lower()

df_copy['MOTIVO1'] = df_copy['MOTIVO1'].apply(limpar_motivo)
df_copy['MOTIVO2'] = df_copy['MOTIVO2'].apply(limpar_motivo)

df_copy['MOTIVO'] = df_copy['MOTIVO2'].fillna(df_copy['MOTIVO1'])

df_copy.drop(columns=['MOTIVO1', 'MOTIVO2'], inplace=True)
df_copy.head()

Unnamed: 0,Peso,Altura,IMC,Atendimento,IDADE,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,HDA 1,HDA2,MOTIVO
0,5.0,51,19.0,11/05/06,0.12,0,,,Não Calculado,Anormal,Normal,Sistólico,112,Palpitacao,,palpitação/taquicardia/arritmia
1,3.5,50,14.0,25/05/05,0.02,0,,,Não Calculado,Anormal,Normal,ausente,128,Dispneia,,dispnéia
2,0.0,0,,12/06/01,-4.05,0,,,Não Calculado,Anormal,Normal,Sistólico,88,Assintomático,,check-up
3,8.1,65,19.0,15/10/09,0.5,0,,,Não Calculado,Anormal,Normal,ausente,92,Assintomático,,parecer cardiológico
4,40.0,151,18.0,14/01/08,12.89,0,,,Não Calculado,Anormal,Normal,ausente,96,Dor precordial,,parecer cardiológico


## Tratando colunas *HDA 1 e 2*

In [71]:
df_copy['HDA 1'].isna().sum()

np.int64(3119)

In [72]:
df_copy['HDA 1'].value_counts()

HDA 1
Assintomático      6532
Dispneia            539
Dor precordial      507
Palpitacao          362
Cianose             258
Desmaio/tontura     155
Outro               124
Ganho de peso        87
Name: count, dtype: int64

In [73]:
df_copy['HDA2'].isna().sum()

np.int64(11281)

In [74]:
df_copy['HDA2'].value_counts()

HDA2
Palpitacao         83
Dispneia           82
Dor precordial     65
Cianose            62
Desmaio/tontura    49
Outro              41
Ganho de peso      19
Assintomático       1
Name: count, dtype: int64

In [None]:
def unir_sintomas(row):
    sintomas = set()

    if pd.notna(row['HDA 1']):
        sintoma1 = str(row['HDA 1']).strip().lower()
        if sintoma1 not in ['', 'nan']:
            sintomas.add(sintoma1)

    if pd.notna(row['HDA2']):
        sintoma2 = str(row['HDA2']).strip().lower()
        if sintoma2 not in ['', 'nan']:
            sintomas.add(sintoma2)

    return ",".join(sintomas) 

df_copy['HDA'] = df_copy.apply(unir_sintomas, axis=1)

df_copy.drop(columns=['HDA 1', 'HDA2'], inplace=True)

print("Coluna unida:")
print(df_copy['HDA'].head())

Coluna unida:
0        palpitacao
1          dispneia
2     assintomático
3     assintomático
4    dor precordial
Name: HDA, dtype: object


In [76]:
df_copy.head()

Unnamed: 0,Peso,Altura,IMC,Atendimento,IDADE,PULSOS,PA SISTOLICA,PA DIASTOLICA,PPA,NORMAL X ANORMAL,B2,SOPRO,FC,MOTIVO,HDA
0,5.0,51,19.0,11/05/06,0.12,0,,,Não Calculado,Anormal,Normal,Sistólico,112,palpitação/taquicardia/arritmia,palpitacao
1,3.5,50,14.0,25/05/05,0.02,0,,,Não Calculado,Anormal,Normal,ausente,128,dispnéia,dispneia
2,0.0,0,,12/06/01,-4.05,0,,,Não Calculado,Anormal,Normal,Sistólico,88,check-up,assintomático
3,8.1,65,19.0,15/10/09,0.5,0,,,Não Calculado,Anormal,Normal,ausente,92,parecer cardiológico,assintomático
4,40.0,151,18.0,14/01/08,12.89,0,,,Não Calculado,Anormal,Normal,ausente,96,parecer cardiológico,dor precordial


## Tratando coluna *PPA*

In [78]:
df_copy['PPA'].isna().sum()

np.int64(217)

In [79]:
df_copy['PPA'].value_counts()

PPA
Não Calculado          8681
Normal                 1790
#VALUE!                 706
HAS-2 PAS                73
Pre-Hipertensão PAD      73
Pre-Hipertensão PAS      48
HAS-1 PAS                48
HAS-1 PAD                26
HAS-2 PAD                21
Name: count, dtype: int64

In [85]:
df_copy['PA DIASTOLICA'].isna().sum()

np.int64(6562)