# EP4 - Inteligência Artificial
#### Thiago Santos Teixeira nUSP-10736987

### Processamento de dados: Fleury

In [79]:
import pandas as pd
pacientes = pd.read_csv('./dados/Grupo_Fleury_Dataset_Covid19_Pacientes.csv', sep = '|')
pacientes.shape

(129596, 7)

In [80]:
#Passo 1: Removendo eventuais duplicatas:
pacientes.drop_duplicates(keep = False)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP
0,1AD07C7A1E4D80B608DD7A650766CCF0,M,1961,Brasil,SP,SAO PAULO,CCCC
1,7B10786D64F27D7732503D915A38DE6F,M,1945,Brasil,SP,SAO PAULO,CCCC
2,83C018729869BB1BAB8819021D8E048E,F,1973,Brasil,SP,SAO PAULO,CCCC
3,74F422BB575BF224F676EE88DD77301F,M,2000,Brasil,SP,SAO PAULO,CCCC
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,M,1972,Brasil,SP,SAO PAULO,CCCC


In [81]:
#Podemos notar que o dataset possue colunas inúteis ao nosso projeto, 
#como por exemplo a UF e o CEP, portanto, cortaremos elas.
pacientes = pacientes.drop("CD_UF", axis=1)
pacientes = pacientes.drop("CD_CEP", axis=1)
pacientes = pacientes.drop("CD_MUNICIPIO", axis =1)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS
0,1AD07C7A1E4D80B608DD7A650766CCF0,M,1961,Brasil
1,7B10786D64F27D7732503D915A38DE6F,M,1945,Brasil
2,83C018729869BB1BAB8819021D8E048E,F,1973,Brasil
3,74F422BB575BF224F676EE88DD77301F,M,2000,Brasil
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,M,1972,Brasil


In [82]:
#Para facilitar nossa implementação, trocaremos o valor do sexo do paciente de M e F para 0 e 1 respectivamente
pacientes['IC_SEXO'] = pacientes['IC_SEXO'].map( {'M': 0, 'F': 1} ).astype(int)

É possível perceber também que os valores contidos em "cd_pais" aparentam ser, em grande maioria, Brasil, portanto, checaremos quais alteracoes podemos ter nessa coluna:

In [83]:
pacientes['CD_PAIS'].unique() #devolvera todos os valores unicos da coluna

array(['Brasil'], dtype=object)

In [84]:
#Com a resposta da célula acima, podemos ter certeza de que só há um valor nessa coluna,
#e portanto ela também é descartável.
pacientes = pacientes.drop("CD_PAIS", axis = 1)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO
0,1AD07C7A1E4D80B608DD7A650766CCF0,0,1961
1,7B10786D64F27D7732503D915A38DE6F,0,1945
2,83C018729869BB1BAB8819021D8E048E,1,1973
3,74F422BB575BF224F676EE88DD77301F,0,2000
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,0,1972


In [85]:
pacientes.shape

(129596, 3)

Ah! Agora temos uma base de dados bem mais limpa e simples! Porém, ainda nos deparamos com um problema: algumas datas de nacimento estão com o valor "AAAA", ou seja, dados faltantes. Porém, como temos uma base de dados bastante extensa ainda (quase 130k linhas segundo a célula acima), podemos nos dar o luxo de eliminar pacientes sem DOB do dataset :)

In [86]:
pacientes = pacientes[pacientes.AA_NASCIMENTO != "AAAA"]

In [87]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO
0,1AD07C7A1E4D80B608DD7A650766CCF0,0,1961
1,7B10786D64F27D7732503D915A38DE6F,0,1945
2,83C018729869BB1BAB8819021D8E048E,1,1973
3,74F422BB575BF224F676EE88DD77301F,0,2000
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,0,1972


Agora, para tornar os dados mais compreensívos antes de exportar para um novo csv, filtrarei o conteudo da data de nascimento para a idade do paciente, ou seja, para o valor `ano_atual - ano de nascimento`

In [88]:
def idade(DOB):
    return pd.Timestamp('now').year - int(DOB)
pacientes['IDADE'] = pacientes['AA_NASCIMENTO'].apply(idade)
pacientes = pacientes.drop("AA_NASCIMENTO", axis=1)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,IDADE
0,1AD07C7A1E4D80B608DD7A650766CCF0,0,59
1,7B10786D64F27D7732503D915A38DE6F,0,75
2,83C018729869BB1BAB8819021D8E048E,1,47
3,74F422BB575BF224F676EE88DD77301F,0,20
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,0,48


Exportando para um novo .csv:

In [89]:
pacientes.to_csv('./dados/Fpacientes_processado', header = True)

In [90]:
pacientes.shape

(128403, 3)