# Tratamento de dados

In [19]:
import pandas as pd
pd.set_option('display.max_columns', None)

## Entendimento dos dados

In [4]:
df = pd.read_csv('waitlist_kidney_brazil.csv', encoding='iso-8859-1')

In [9]:
df.head()

Unnamed: 0,Id,date,age_at_list_registration,age_cat,time_on_Dialysis,race,sex,underline_disease,diabetes,Blood_type,...,Time_death,Transplant,Transplant_Y_N,X36MthsTx,Time_Tx,priorization,removed_list,razon_removed,time,event
0,4,2017-06-29,67,Maior.60,1.0,Branca,M,Outras,1,A,...,13,Não,Não,0,13.07,Não,Não,,392,0
1,5,2008-11-03,58,18.a.60,4.0,Branca,M,Diabetes,0,A,...,69,Óbito Lista,Não,0,68.87,Não,Não,,2066,2
2,6,2010-07-13,51,18.a.60,2.0,Branca,M,HAS,1,O,...,98,Não,Não,0,12.17,Não,Sim,Removido (suspenso > 365 dias),365,3
3,7,2011-10-03,52,18.a.60,17.0,Branca,M,Diabetes,0,O,...,83,Não,Não,0,12.17,Não,Sim,Removido (suspenso > 365 dias),365,3
4,8,2006-07-05,67,Maior.60,68.0,Parda,M,HAS,1,A,...,6,Óbito Lista,Não,0,6.47,Não,Não,,194,2


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48153 entries, 0 to 48152
Data columns (total 53 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Id                          48153 non-null  int64  
 1   date                        48153 non-null  object 
 2   age_at_list_registration    48153 non-null  int64  
 3   age_cat                     48153 non-null  object 
 4   time_on_Dialysis            46817 non-null  float64
 5   race                        48153 non-null  object 
 6   sex                         48153 non-null  object 
 7   underline_disease           48153 non-null  object 
 8   diabetes                    48153 non-null  int64  
 9   Blood_type                  48153 non-null  object 
 10  number_transfusion          48153 non-null  int64  
 11  gestation                   48153 non-null  object 
 12  number_gestation            19464 non-null  float64
 13  prior_transplant            481

In [44]:
targets = ['death', 'Time_death', 'Transplant', 'Transplant_Y_N', 'X36MthsTx', 'Time_Tx', 'removed_list', 'time', 'event']

In [45]:
df[targets]

Unnamed: 0,death,Time_death,Transplant,Transplant_Y_N,X36MthsTx,Time_Tx,removed_list,time,event
0,Não,13,Não,Não,0,13.07,Não,392,0
1,Sim,69,Óbito Lista,Não,0,68.87,Não,2066,2
2,Não,98,Não,Não,0,12.17,Sim,365,3
3,Não,83,Não,Não,0,12.17,Sim,365,3
4,Sim,6,Óbito Lista,Não,0,6.47,Não,194,2
...,...,...,...,...,...,...,...,...,...
48148,Sim,11,Óbito Lista,Não,0,11.47,Não,344,2
48149,Sim,97,Óbito Lista,Não,0,97.30,Não,2919,2
48150,Sim,41,Óbito Lista,Não,0,41.23,Não,1237,2
48151,Não,8,Não,Não,0,8.40,Não,252,0


In [50]:
df.iloc[df['Time_death'].argmax(),]

Id                                                      1787
date                                              2000-01-04
age_at_list_registration                                  51
age_cat                                              18.a.60
time_on_Dialysis                                         0.0
race                                                   Parda
sex                                                        M
underline_disease                                        GNC
diabetes                                                   1
Blood_type                                                 A
number_transfusion                                         1
gestation                                                Não
number_gestation                                         NaN
prior_transplant                                         Sim
number_prior_transplant                                    1
subregion                                            HCFMUSP
cPRA                    

In [51]:
df['event'].value_counts()

event
3    14356
1    13732
0    10933
2     9132
Name: count, dtype: int64

In [54]:
df[['event','removed_list', 'Transplant']].value_counts()

event  removed_list  Transplant 
3      Sim           Não            14356
1      Não           Sim            13732
0      Não           Não            10933
2      Não           Óbito Lista     8193
       Sim           Óbito Lista      939
Name: count, dtype: int64

## Tratamento de nulos

In [28]:
df_clean = df.copy()

In [13]:
df.isna().sum()/len(df)*100

Id                             0.000000
date                           0.000000
age_at_list_registration       0.000000
age_cat                        0.000000
time_on_Dialysis               2.774490
race                           0.000000
sex                            0.000000
underline_disease              0.000000
diabetes                       0.000000
Blood_type                     0.000000
number_transfusion             0.000000
gestation                      0.000000
number_gestation              59.578842
prior_transplant               0.000000
number_prior_transplant        0.000000
subregion                      0.000000
cPRA                           0.000000
cPRA_cat                       0.000000
HLA_A1                         0.000000
HLA_A2                         0.000000
HLA_B1                         0.000000
HLA_B2                         0.000000
HLA_DR1                        0.000000
HLA_DR2                        0.000000
DR_00                          0.000000


### Número de gestações

In [27]:
print(((df['number_gestation'] == 0) & (df['sex'] == 'F')).sum())
print(((df['number_gestation'].isna()) & (df['sex'] == 'F')).sum())

7428
10


In [29]:
df_clean['number_gestation'].fillna(0, inplace=True)

### Tempo em diálise

In [30]:
df_clean['time_on_Dialysis'].fillna(1, inplace=True)

### Chagas, Anti HCV e Anti HB

In [31]:
df_clean['agHBs'].value_counts()

agHBs
Não    44022
Sim      119
Name: count, dtype: int64

In [32]:
df_clean['chagas'].value_counts()

chagas
Não    44069
Sim       72
Name: count, dtype: int64

In [33]:
df_clean['anti.HCV'].value_counts()

anti.HCV
Não    43595
Sim      546
Name: count, dtype: int64

In [37]:
for col in 'agHBs', 'chagas', 'anti.HCV':
    df_clean[col].fillna('Não', inplace=True)

### Razón removed

In [39]:
df_clean['razon_removed'].value_counts()

razon_removed
Removido (suspenso > 365 dias)     12985
Transferido para outro Estado        662
Não quer ser transplantado           592
Removido sem condições clínicas      412
Removido pela equipe                 254
Função renal recuperada              212
Abandonou o tratamento                93
Removido administrativo               62
Removido (inscrição duplicada)        17
Transferido de Equipe                  6
Name: count, dtype: int64

In [58]:
df_clean[['razon_removed', 'removed_list']].fillna('popo',inplace=False).value_counts()

razon_removed                    removed_list
popo                             Não             32858
Removido (suspenso > 365 dias)   Sim             12985
Transferido para outro Estado    Sim               662
Não quer ser transplantado       Sim               592
Removido sem condições clínicas  Sim               412
Removido pela equipe             Sim               254
Função renal recuperada          Sim               212
Abandonou o tratamento           Sim                93
Removido administrativo          Sim                62
Removido (inscrição duplicada)   Sim                17
Transferido de Equipe            Sim                 6
Name: count, dtype: int64

In [59]:
df_clean['razon_removed'].fillna('Não removido', inplace=True)

### Relevância de features