# **Predição de Sobrevivência de Pacientes com Cirrose**

**[Base de Dados proveniente do Kaggle](https://www.kaggle.com/datasets/joebeachcapital/cirrhosis-patient-survival-prediction)**

## **Objetivo**

**Investigar o efeito do tratamento utilizando a droga D-penicillamine**

## **Sobre o Dataset**

**Essa base de dados contém dados de pacientes da [Mayo Clinic](https://www.mayoclinic.org/) que participaram de um estudo entre os anos de 1974 e 1984 para análisar a efetividade da droga D-penicillamine no tratamento de pacientes com Cirrose Hepática**
* **Tamanho da Amostra**: Inicialmente haviam 424 pacientes, porém somente 312 pacientes optaram por participarem do teste, foi feito o acompanhamento dos 112 restantes dos quais 6 rapidamente ficaram irrastreáveis. (para essa análise será utilizado a informação dos 312 pacientes que optaram por participar do teste)
* A base consiste em 17 parâmetros clínicos e o status do paciente (0 = Morto, 1 = Censurado, 2 = Censurado por transplante de fígado)

### **Tabela de Variáveis**

|Variable Name|Role|Type|Demographic|Description|Units|Missing Values|
|-------------|----|----|-----------|-----------|-----|--------------|
|ID|ID|Integer||unique identifier||no|
|N_Days|Other|Integer||number of days between registration and the earlier of death, transplantation, or study analysis time in July 1986||no|
|Status|Target|Categorical||status of the patient C (censored), CL (censored due to liver tx), or D (death)||no|
|Drug|Feature|Categorical||type of drug D-penicillamine or placebo||yes|
|Age|Feature|Integer|Age|age|days|no|
|Sex|Feature|Categorical|Sex|M (male) or F (Female)||no|
|Ascites|Feature|Categorical||presence of ascites N (No) or Y (Yes)||yes|
|Hepatomegaly|Feature|Categorical||presence of hepatomegaly N (No) or Y (Yes)||yes|
|Spiders|Feature|Categorical||presence of spiders N (No) or Y (Yes)||yes|
|Edema|Feature|Categorical||presence of edema N (no edema and no diuretic therapy for edema), S (edema present without diuretics, or edema resolved by diuretics), or Y (edema despite diuretic therapy)||no|
|Bilirubin|Feature|Constinuos||serum bilirubin|mg/dl|no|
|Cholesterol|Feature|Integer||serum cholesterol|mg/dl|yes|
|Albumin|Feature|Continuous||albumin|gm/dl|no|
|Copper|Feature|Integer||urine copper|ug/day|yes|
|Alk_Phos|Feature|Continuous||alkaline phosphatase|U/liter|yes|
|SGOT|Feature|Continuous||SGOT|U/ml|yes|
|Tryglicerides|Feature|Integer||tryglicerides||yes|
|Platelets|Feature|Integer||platelets per cubic|ml/1000/yes|
|Prothrombin|Feature|Continuous||prothrombin time|s|yes|
|Stage|Feature|Categorical||histologic stage of disease (1,2,3 or 4)||yes|

## **Análise Exploratória dos Dados**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

In [51]:
dataset = pd.read_csv('cirrhosis.csv')
dataset.dtypes

ID                 int64
N_Days             int64
Status            object
Drug              object
Age                int64
Sex               object
Ascites           object
Hepatomegaly      object
Spiders           object
Edema             object
Bilirubin        float64
Cholesterol      float64
Albumin          float64
Copper           float64
Alk_Phos         float64
SGOT             float64
Tryglicerides    float64
Platelets        float64
Prothrombin      float64
Stage            float64
dtype: object

In [52]:
# Remoção do Campo ID pois o mesmo não é útil para a análise
dataset = dataset.drop(columns=['ID'])


# Remoção dos Pacientes que não fizeram parte do teste
dataset = dataset[dataset.Drug.notna()]


In [53]:
# Como sabemos que alguns campos tem valores em branco (mesmo com os pacientes que participaram do teste) temos 2 opções: 
# 1 - Remover todos os registros com valores em branco
# 2 - Preencher os valores em branco (preenchimento com média, último valor ou primeiro valor)
# Para essa análise vou optar pela remoção dos registros com valores em branco

quantidade_antes = len(dataset)
print(f'Quantidade antes da remoção: {quantidade_antes}')
dataset = dataset.dropna()
quantidade_depois = len(dataset)
print(f'Qauntidade após remoção: {quantidade_depois}')
print(f'Porcentagem de registros removidos: {100-(quantidade_depois/quantidade_antes)*100:.2f}%')

Quantidade antes da remoção: 312
Qauntidade após remoção: 276
Porcentagem de registros removidos: 11.54%


In [54]:
campos_correcao_tipo = ['Status', 'Drug', 'Sex', 'Ascites', 'Hepatomegaly', 'Spiders', 'Edema', 'Cholesterol', 'Copper', 'Tryglicerides', 'Platelets', 'Stage']
correcao_tipo = ['category' , 'category', 'category', 'category', 'category', 'category', 'category', 'int64', 'int64', 'int64', 'int64', 'category']

try:
    for campo, tipo in zip(campos_correcao_tipo, correcao_tipo):
        dataset[campo] = dataset[campo].astype(tipo)
except:
    print(campo)

dataset.dtypes

N_Days              int64
Status           category
Drug             category
Age                 int64
Sex              category
Ascites          category
Hepatomegaly     category
Spiders          category
Edema            category
Bilirubin         float64
Cholesterol         int64
Albumin           float64
Copper              int64
Alk_Phos          float64
SGOT              float64
Tryglicerides       int64
Platelets           int64
Prothrombin       float64
Stage            category
dtype: object