In [47]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq


In [48]:
df = pd.read_parquet('dataset_renomeado.parquet')

In [49]:
df.columns

Index(['id_ncontro', 'id_paciente', 'id_hospital', 'idade', 'imc',
       'cirurgia_eletiva', 'etnia', 'genero', 'altura', 'fonte_admissao_uti',
       'id_uti', 'tipo_estadia_uti', 'tipo_uti', 'dias_de_permanencia_pre_uti',
       'peso', 'diagnostico_pache_2', 'diagnostico_apache_3j',
       'apache_pos_operatorio', 'arf_apache', 'gcs_olhos_apache',
       'gcs_motor_apache', 'gcs_incapaz_apache', 'gcs_verbal_pache',
       'frequencia_cardiaca_apache', 'intubado_apache', 'map_apache',
       'frequencia_respiratoria_pache', 'temperatura_apache',
       'ventilado_apache', 'd1_pressao_arterial_diastolica_maxima',
       'd1_pressao_arterial_diastolica_minima',
       'd1_pressao_arterial_diastolica_nao_invasiva_maxima',
       'd1_pressao_arterial_diastólica_nao_invasiva_minima',
       'd1_frequencia_cardiaca_maxima', 'd1_frequencia_cardiaca_minima',
       'd1_pressao_arterial_media_maxima', 'd1_pressao_arterial_media_minima',
       'd1_pressao_arterial_media_nao_invasiva_maxima',

In [50]:
# lista de colunas a serem deletadas
colunas_deletar = ['id_ncontro', 'id_paciente', 'id_hospital','probabilidade_morte_na_uti_(apache_4a)','probabilidade_morte_no_hospital_(apache_4a)','id_uti']

In [51]:
# deletar as colunas
df = df.drop(columns=colunas_deletar)

In [52]:
df.columns

Index(['idade', 'imc', 'cirurgia_eletiva', 'etnia', 'genero', 'altura',
       'fonte_admissao_uti', 'tipo_estadia_uti', 'tipo_uti',
       'dias_de_permanencia_pre_uti', 'peso', 'diagnostico_pache_2',
       'diagnostico_apache_3j', 'apache_pos_operatorio', 'arf_apache',
       'gcs_olhos_apache', 'gcs_motor_apache', 'gcs_incapaz_apache',
       'gcs_verbal_pache', 'frequencia_cardiaca_apache', 'intubado_apache',
       'map_apache', 'frequencia_respiratoria_pache', 'temperatura_apache',
       'ventilado_apache', 'd1_pressao_arterial_diastolica_maxima',
       'd1_pressao_arterial_diastolica_minima',
       'd1_pressao_arterial_diastolica_nao_invasiva_maxima',
       'd1_pressao_arterial_diastólica_nao_invasiva_minima',
       'd1_frequencia_cardiaca_maxima', 'd1_frequencia_cardiaca_minima',
       'd1_pressao_arterial_media_maxima', 'd1_pressao_arterial_media_minima',
       'd1_pressao_arterial_media_nao_invasiva_maxima',
       'd1_pressao_arterial_media_nao_invasiva_minima',
    

## Tratar valores nulos 



In [53]:
# Percorrer todas as colunas do conjunto de dados
for coluna in df.columns:
    if df[coluna].dtype == object:  # Verificar se a coluna é do tipo string
        df[coluna].fillna('desconhecido', inplace=True)  # Preencher os valores nulos com 'desconhecido'
    else:
        media = df[coluna].mean()  # Calcular a média da coluna numérica
        df[coluna].fillna(media, inplace=True)  # Preencher os valores nulos com a média


In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91713 entries, 0 to 91712
Data columns (total 78 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   idade                                               91713 non-null  float64
 1   imc                                                 91713 non-null  float64
 2   cirurgia_eletiva                                    91713 non-null  int64  
 3   etnia                                               91713 non-null  object 
 4   genero                                              91713 non-null  object 
 5   altura                                              91713 non-null  float64
 6   fonte_admissao_uti                                  91713 non-null  object 
 7   tipo_estadia_uti                                    91713 non-null  object 
 8   tipo_uti                                            91713 non-null  object 


## Converterndo para inteiro 

In [55]:
# Percorrer todas as colunas do conjunto de dados
for coluna in df.columns:
    if df[coluna].dtype == float:  # Verificar se a coluna é do tipo string
        df[coluna] = df[coluna].replace({'0.': 0, '1.': 1}).astype(int)
    

## Organizando nomes

In [56]:
# Substituir os valores na coluna "genero"
df['genero'] = df['genero'].replace({'M': 'Masculino', 'F': 'Feminino'}).fillna('Desconhecido')

In [58]:
df['tipo_estadia_uti'] = df['tipo_estadia_uti'].replace({'admit': 'Admitido', 'readmit': 'Readmitido', 'transfer': 'Transferido'})

In [None]:
# Dicionário de tradução dos valores
fonte = {
    'Floor': 'Piso',
    'Accident & Emergency': 'Acidente e Emergência',
    'Operating Room / Recovery': 'Sala de Cirurgia / Recuperação',
    'Other Hospital': 'Outro Hospital',
    'Other ICU': 'Outra UTI'
}

# Substituir os valores na coluna "fonte_admissao_uti"
df['fonte_admissao_uti'] = df['fonte_admissao_uti'].replace(fonte)

In [59]:
# Salvar o dataFrame em formato Parquet
df.to_parquet('dataset_streamlit.parquet')