# <span style="color:lightblue"> Limpeza de Dados</span>

### Carregamento dos Dados

In [None]:
import pandas as pd

df_raw = pd.read_csv('..\data\dados_brutos\liver_cirrhosis.csv')
df_raw


* Os dados vieram  do arquivo csv obtido do Kaggles e foram convertidos para um dataframe do Pandas para iniciar a manipulação.

### Tradução das Colunas e Termos

In [2]:
#Traduzindo os nomes das colunas

# Tradução das colunas
traducao = {
    'N_Days': 'Numero_dias',# ate um transplante ou morte ou fim do estudo
    'Status': 'Situação', #se o paciente foi transplantado(CL), morreu(D) ou sobreviveu(C)
    'Drug': 'Droga',
    'Age': 'Idade',
    'Sex': 'Sexo',
    'Ascites': 'Ascite', #acumulo de liquido no abdome
    'Hepatomegaly': 'Hepatomegalia',
    'Spiders': 'Telangiectasia', #pequenos vasos sanguíneos dilatados
    'Edema': 'Edema', #inchaço
    'Bilirubin': 'Bilirrubina(mg/dl)', #miligramas por decilitro
    'Cholesterol': 'Colesterol(mg/dl)', #miligramas por decilitro
    'Albumin': 'Albumina(gm/dl)', #gramas por decilitro
    'Copper': 'Cobre_Urina(ug/dia)', #microgramas por dia
    'Alk_Phos': 'Fosfatase_Alcalina (U/L)', #unidades por litro
    'SGOT': 'Aspartato_Aminotransferase(U/L)', #unidades por litro
    'Tryglicerides': 'Triglicerídeos(mg/dl)', #miligramas por decilitro
    'Platelets': 'Plaquetas(ml/1000)', #numero de plaquetas por milimetro cubico
    'Prothrombin': 'Tempo_de_Protrombina(s)', #segundos
    'Stage': 'Estágio'
}

# Renomear as colunas
df_raw.rename(columns=traducao, inplace=True)

df_raw.head()

Unnamed: 0,Numero_dias,Situação,Droga,Idade,Sexo,Ascite,Hepatomegalia,Telangiectasia,Edema,Bilirrubina(mg/dl),Colesterol(mg/dl),Albumina(gm/dl),Cobre_Urina(ug/dia),Fosfatase_Alcalina (U/L),Aspartato_Aminotransferase(U/L),Triglicerídeos(mg/dl),Plaquetas(ml/1000),Tempo_de_Protrombina(s),Estágio
0,2221,C,Placebo,18499,F,N,Y,N,N,0.5,149.0,4.04,227.0,598.0,52.7,57.0,256.0,9.9,1
1,1230,C,Placebo,19724,M,Y,N,Y,N,0.5,219.0,3.93,22.0,663.0,45.0,75.0,220.0,10.8,2
2,4184,C,Placebo,11839,F,N,N,N,N,0.5,320.0,3.54,51.0,1243.0,122.45,80.0,225.0,10.0,2
3,2090,D,Placebo,16467,F,N,N,N,N,0.7,255.0,3.74,23.0,1024.0,77.5,58.0,151.0,10.2,2
4,2105,D,Placebo,21699,F,N,Y,N,N,1.9,486.0,3.54,74.0,1052.0,108.5,109.0,151.0,11.5,1


* Para melhor compreensão, foi necessária a tradução e simplificação de determinados nomes de colunas do dataframe, além da adição de unidades para tipos numéricos. As traduções resultaram em:

    - `N_Days`: Número de dias até um transplante, morte ou fim do estudo.
    - `Status`: Situação do paciente, se foi transplantado (CL), morreu (D) ou sobreviveu (C).
    - `Drug`: Droga administrada.
    - `Age`: Idade do paciente.
    - `Sex`: Sexo do paciente.
    - `Ascites`: Acúmulo de líquido no abdômen.
    - `Hepatomegaly`: Hepatomegalia.
    - `Spiders`: Telangiectasia, pequenos vasos sanguíneos dilatados.
    - `Edema`: Inchaço.
    - `Bilirubin`: Bilirrubina (mg/dl).
    - `Cholesterol`: Colesterol (mg/dl).
    - `Albumin`: Albumina (gm/dl).
    - `Copper`: Cobre na urina (ug/dia).
    - `Alk_Phos`: Fosfatase Alcalina (U/L), unidades por litro.
    - `SGOT`: Aspartato Aminotransferase (U/L), unidades por litro.
    - `Tryglicerides`: Triglicerídeos (mg/dl).
    - `Platelets`: Plaquetas (ml/1000), número de plaquetas por milímetro cúbico.
    - `Prothrombin`: Tempo de Protrombina (s), segundos.
    - `Stage`: Estágio da cirrose biliar primária.

In [3]:
#Tradução de alguns termos na tabela

traducao = {
    'D-penicillamine': 'D-penicilamina',
    'Y': 'S',
    'N': 'N',
    'C': 'Sobreviveu',
    'D': 'Morte',
    'CL': 'Transplante'
}

df_raw = df_raw.replace(traducao)
df_raw.head()


Unnamed: 0,Numero_dias,Situação,Droga,Idade,Sexo,Ascite,Hepatomegalia,Telangiectasia,Edema,Bilirrubina(mg/dl),Colesterol(mg/dl),Albumina(gm/dl),Cobre_Urina(ug/dia),Fosfatase_Alcalina (U/L),Aspartato_Aminotransferase(U/L),Triglicerídeos(mg/dl),Plaquetas(ml/1000),Tempo_de_Protrombina(s),Estágio
0,2221,Sobreviveu,Placebo,18499,F,N,S,N,N,0.5,149.0,4.04,227.0,598.0,52.7,57.0,256.0,9.9,1
1,1230,Sobreviveu,Placebo,19724,M,S,N,S,N,0.5,219.0,3.93,22.0,663.0,45.0,75.0,220.0,10.8,2
2,4184,Sobreviveu,Placebo,11839,F,N,N,N,N,0.5,320.0,3.54,51.0,1243.0,122.45,80.0,225.0,10.0,2
3,2090,Morte,Placebo,16467,F,N,N,N,N,0.7,255.0,3.74,23.0,1024.0,77.5,58.0,151.0,10.2,2
4,2105,Morte,Placebo,21699,F,N,S,N,N,1.9,486.0,3.54,74.0,1052.0,108.5,109.0,151.0,11.5,1


* Além disso, também houve a substituição de alguns termos:

    - `D-penicillamine`: `D-penicilamina`
    - `Y`: `S`
    - `N`: `N`
    - `C`: `Sobreviveu`
    - `D`: `Morte`
    - `CL`: `Transplante`

### Retirada de Duplicatas

In [4]:
#Removendo linhas duplicadas
linhas_duplicadas = df_raw[df_raw.duplicated()]
#print(linhas_duplicadas)
print(len(df_raw))


df = df_raw.drop_duplicates()
linhas_duplicadas = df[df.duplicated()]
print(len(df))

print(df.dtypes)

25000
9637
Numero_dias                          int64
Situação                            object
Droga                               object
Idade                                int64
Sexo                                object
Ascite                              object
Hepatomegalia                       object
Telangiectasia                      object
Edema                               object
Bilirrubina(mg/dl)                 float64
Colesterol(mg/dl)                  float64
Albumina(gm/dl)                    float64
Cobre_Urina(ug/dia)                float64
Fosfatase_Alcalina (U/L)           float64
Aspartato_Aminotransferase(U/L)    float64
Triglicerídeos(mg/dl)              float64
Plaquetas(ml/1000)                 float64
Tempo_de_Protrombina(s)            float64
Estágio                              int64
dtype: object


* Na documentação do dataset foi apontado que houveram inserções de dados sintéticos seguindo o modelo de distribuição dos dados originais, esse processo causou muitas linhas de dados duplicados. Nessa etapa foi utilizado o comando `drop_duplicates()` para manter apenas uma ocorrência dessas linhas.

### Criação dos Arquivos CSV

In [5]:
df

Unnamed: 0,Numero_dias,Situação,Droga,Idade,Sexo,Ascite,Hepatomegalia,Telangiectasia,Edema,Bilirrubina(mg/dl),Colesterol(mg/dl),Albumina(gm/dl),Cobre_Urina(ug/dia),Fosfatase_Alcalina (U/L),Aspartato_Aminotransferase(U/L),Triglicerídeos(mg/dl),Plaquetas(ml/1000),Tempo_de_Protrombina(s),Estágio
0,2221,Sobreviveu,Placebo,18499,F,N,S,N,N,0.5,149.000000,4.04,227.000000,598.000000,52.700000,57.000000,256.0,9.9,1
1,1230,Sobreviveu,Placebo,19724,M,S,N,S,N,0.5,219.000000,3.93,22.000000,663.000000,45.000000,75.000000,220.0,10.8,2
2,4184,Sobreviveu,Placebo,11839,F,N,N,N,N,0.5,320.000000,3.54,51.000000,1243.000000,122.450000,80.000000,225.0,10.0,2
3,2090,Morte,Placebo,16467,F,N,N,N,N,0.7,255.000000,3.74,23.000000,1024.000000,77.500000,58.000000,151.0,10.2,2
4,2105,Morte,Placebo,21699,F,N,S,N,N,1.9,486.000000,3.54,74.000000,1052.000000,108.500000,109.000000,151.0,11.5,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24963,3577,Sobreviveu,Placebo,17897,F,S,N,S,N,0.7,369.510563,3.49,97.648387,1982.655769,122.556346,124.702128,243.0,9.7,1
24971,4795,Sobreviveu,Placebo,23376,F,S,N,S,N,1.8,369.510563,3.24,97.648387,1982.655769,122.556346,124.702128,139.0,10.5,1
24972,3358,Morte,D-penicilamina,24585,F,N,S,N,N,2.1,262.000000,3.48,58.000000,2045.000000,89.900000,84.000000,412.0,11.8,3
24991,4365,Sobreviveu,D-penicilamina,21324,F,N,N,N,N,0.9,346.000000,3.40,81.000000,1098.000000,122.450000,90.000000,228.0,10.3,2


In [6]:
#Criação do CSV com colunas completas

import os

pasta = '../data/dados_processados'
arquivo = 'liver_cirrhosis_v1.csv'
caminho_arquivo = os.path.join(pasta, arquivo)

#Verifica se a pasta existe, se não, cria a pasta
if not os.path.exists(pasta):
    os.makedirs(pasta)

#Verifica se o arquivo já existe, se existir, remove
if os.path.exists(caminho_arquivo):
    os.remove(caminho_arquivo)

#Salva o DataFrame como um arquivo CSV
df.to_csv(caminho_arquivo, index=False)

print(f'O arquivo {arquivo} foi salvo na pasta {pasta}.')

O arquivo liver_cirrhosis_v1.csv foi salvo na pasta ../data/dados_processados.


In [7]:
# Criação do Arquivo CSV com apenas colunas de Sintomas + Estagios (Prever Estagio)

colunas_desejadas = [
    'Ascite', 'Hepatomegalia', 'Telangiectasia', 'Edema', 'Bilirrubina(mg/dl)', 
    'Colesterol(mg/dl)', 'Albumina(gm/dl)', 'Cobre_Urina(ug/dia)', 
    'Fosfatase_Alcalina (U/L)', 'Aspartato_Aminotransferase(U/L)', 
    'Triglicerídeos(mg/dl)', 'Plaquetas(ml/1000)', 'Tempo_de_Protrombina(s)', 'Estágio'
]

df_selecionado = df[colunas_desejadas]
print(df_selecionado)


      Ascite Hepatomegalia Telangiectasia Edema  Bilirrubina(mg/dl)   
0          N             S              N     N                 0.5  \
1          S             N              S     N                 0.5   
2          N             N              N     N                 0.5   
3          N             N              N     N                 0.7   
4          N             S              N     N                 1.9   
...      ...           ...            ...   ...                 ...   
24963      S             N              S     N                 0.7   
24971      S             N              S     N                 1.8   
24972      N             S              N     N                 2.1   
24991      N             N              N     N                 0.9   
24992      S             S              S     N                 0.8   

       Colesterol(mg/dl)  Albumina(gm/dl)  Cobre_Urina(ug/dia)   
0             149.000000             4.04           227.000000  \
1             2

In [8]:
# Salvando o csv v2
pasta = '../data/dados_processados'
arquivo = 'liver_cirrhosis_v2.csv'
caminho_arquivo = os.path.join(pasta, arquivo)

#Verifica se a pasta existe, se não, cria a pasta
if not os.path.exists(pasta):
    os.makedirs(pasta)

#Verifica se o arquivo já existe, se existir, remove
if os.path.exists(caminho_arquivo):
    os.remove(caminho_arquivo)

#Salva o DataFrame como um arquivo CSV
df_selecionado.to_csv(caminho_arquivo, index=False)

print(f'O arquivo {arquivo} foi salvo na pasta {pasta}.')

O arquivo liver_cirrhosis_v2.csv foi salvo na pasta ../data/dados_processados.


In [9]:
# Selecionando colunas Idade + Sintomas + Estagio + Situação (Prever evento morte, transplante ou sobrevivencia)

colunas_desejadas = [
    'Situação', 'Idade',
    'Bilirrubina(mg/dl)', # pode indicar maior mortalidade
    'Albumina(gm/dl)', #Função hepatica comprometida
    'Aspartato_Aminotransferase(U/L)', #Dano Hepático
    'Plaquetas(ml/1000)', #Complicações Hepaticas
    'Tempo_de_Protrombina(s)', #coagulação do sangue comprometida em caso de tempo prolongado
    'Estágio'
]

df_selecionado = df[colunas_desejadas]
print(df_selecionado)

         Situação  Idade  Bilirrubina(mg/dl)  Albumina(gm/dl)   
0      Sobreviveu  18499                 0.5             4.04  \
1      Sobreviveu  19724                 0.5             3.93   
2      Sobreviveu  11839                 0.5             3.54   
3           Morte  16467                 0.7             3.74   
4           Morte  21699                 1.9             3.54   
...           ...    ...                 ...              ...   
24963  Sobreviveu  17897                 0.7             3.49   
24971  Sobreviveu  23376                 1.8             3.24   
24972       Morte  24585                 2.1             3.48   
24991  Sobreviveu  21324                 0.9             3.40   
24992       Morte  28650                 0.8             2.94   

       Aspartato_Aminotransferase(U/L)  Plaquetas(ml/1000)   
0                            52.700000               256.0  \
1                            45.000000               220.0   
2                           122.4

In [10]:
# Salvando o csv v3
pasta = '../data/dados_processados'
arquivo = 'liver_cirrhosis_v3.csv'
caminho_arquivo = os.path.join(pasta, arquivo)

#Verifica se a pasta existe, se não, cria a pasta
if not os.path.exists(pasta):
    os.makedirs(pasta)

#Verifica se o arquivo já existe, se existir, remove
if os.path.exists(caminho_arquivo):
    os.remove(caminho_arquivo)

#Salva o DataFrame como um arquivo CSV
df_selecionado.to_csv(caminho_arquivo, index=False)

print(f'O arquivo {arquivo} foi salvo na pasta {pasta}.')

O arquivo liver_cirrhosis_v3.csv foi salvo na pasta ../data/dados_processados.


* Após o pré-processamento, foram gerados 3 arquivos CSV para diferentes propósitos:

    - `liver_cirrohosis_v1.csv`: Este arquivo contém o conjunto de dados tratado e completo, com todas as colunas.
    - `liver_cirrohosis_v2.csv`: Contém apenas as colunas relacionadas a Sintomas e Estágios, destinado a prever o Estágio da cirrose.
    - `liver_cirrohosis_v3.csv`: Inclui as colunas de Idade, Estágio e Situação, com o objetivo de prever o evento de morte, transplante ou sobrevivência, além dos sintomas relevantes, tais como:
    
        - `Bilirrubina (mg/dl)`: Pode indicar maior taxa de mortalidade.
        - `Albumina (gm/dl)`: Reflete comprometimento da função hepática.
        - `Aspartato Aminotransferase (U/L)`: Indicador de dano hepático.
        - `Plaquetas (ml/1000)`: Associadas a complicações hepáticas.
        - `Tempo de Protrombina (s)`: Prolongamento indicativo de comprometimento na coagulação sanguínea.

### Referências


-Marini, S., & Fraga, R. Título da matéria. MedicinaNet, 2014. Disponível em: [https://www.medicinanet.com.br/conteudos/revisoes/5619/cirrose_e_suas_complicacoes.htm].