# EP4 - Inteligência Artificial
#### Thiago Santos Teixeira nUSP-10736987

## Processamento de dados: Fleury-pacientes

In [117]:
import pandas as pd
pacientes = pd.read_csv('./dados/Grupo_Fleury_Dataset_Covid19_Pacientes.csv', sep = '|')
pacientes.shape

(129596, 7)

In [118]:
#Passo 1: Removendo eventuais duplicatas:
pacientes.drop_duplicates(keep = 'first', inplace = True)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP
0,1AD07C7A1E4D80B608DD7A650766CCF0,M,1961,Brasil,SP,SAO PAULO,CCCC
1,7B10786D64F27D7732503D915A38DE6F,M,1945,Brasil,SP,SAO PAULO,CCCC
2,83C018729869BB1BAB8819021D8E048E,F,1973,Brasil,SP,SAO PAULO,CCCC
3,74F422BB575BF224F676EE88DD77301F,M,2000,Brasil,SP,SAO PAULO,CCCC
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,M,1972,Brasil,SP,SAO PAULO,CCCC


In [119]:
#Podemos notar que o dataset possue colunas inúteis ao nosso projeto, 
#como por exemplo a UF e o CEP, portanto, cortaremos elas.
pacientes = pacientes.drop("CD_UF", axis=1)
pacientes = pacientes.drop("CD_CEP", axis=1)
pacientes = pacientes.drop("CD_MUNICIPIO", axis =1)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS
0,1AD07C7A1E4D80B608DD7A650766CCF0,M,1961,Brasil
1,7B10786D64F27D7732503D915A38DE6F,M,1945,Brasil
2,83C018729869BB1BAB8819021D8E048E,F,1973,Brasil
3,74F422BB575BF224F676EE88DD77301F,M,2000,Brasil
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,M,1972,Brasil


In [120]:
#Para facilitar nossa implementação, trocaremos o valor do sexo do paciente de M e F para 0 e 1 respectivamente
pacientes['IC_SEXO'] = pacientes['IC_SEXO'].map( {'M': 0, 'F': 1} ).astype(int)

É possível perceber também que os valores contidos em "cd_pais" aparentam ser, em grande maioria, Brasil, portanto, checaremos quais alteracoes podemos ter nessa coluna:

In [121]:
pacientes['CD_PAIS'].unique() #devolvera todos os valores unicos da coluna

array(['Brasil'], dtype=object)

In [122]:
#Com a resposta da célula acima, podemos ter certeza de que só há um valor nessa coluna,
#e portanto ela também é descartável.
pacientes = pacientes.drop("CD_PAIS", axis = 1)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO
0,1AD07C7A1E4D80B608DD7A650766CCF0,0,1961
1,7B10786D64F27D7732503D915A38DE6F,0,1945
2,83C018729869BB1BAB8819021D8E048E,1,1973
3,74F422BB575BF224F676EE88DD77301F,0,2000
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,0,1972


In [123]:
pacientes.shape

(129596, 3)

Ah! Agora temos uma base de dados bem mais limpa e simples! Porém, ainda nos deparamos com um problema: algumas datas de nacimento estão com o valor "AAAA", ou seja, dados faltantes. Porém, como temos uma base de dados bastante extensa ainda (quase 130k linhas segundo a célula acima), podemos nos dar o luxo de eliminar pacientes sem DOB do dataset :)

In [124]:
pacientes = pacientes[pacientes.AA_NASCIMENTO != "AAAA"]

In [125]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO
0,1AD07C7A1E4D80B608DD7A650766CCF0,0,1961
1,7B10786D64F27D7732503D915A38DE6F,0,1945
2,83C018729869BB1BAB8819021D8E048E,1,1973
3,74F422BB575BF224F676EE88DD77301F,0,2000
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,0,1972


Agora, para tornar os dados mais compreensívos antes de exportar para um novo csv, filtrarei o conteudo da data de nascimento para a idade do paciente, ou seja, para o valor `ano_atual - ano de nascimento`

In [126]:
def idade(DOB):
    return pd.Timestamp('now').year - int(DOB)
pacientes['IDADE'] = pacientes['AA_NASCIMENTO'].apply(idade)
pacientes = pacientes.drop("AA_NASCIMENTO", axis=1)
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,IDADE
0,1AD07C7A1E4D80B608DD7A650766CCF0,0,59
1,7B10786D64F27D7732503D915A38DE6F,0,75
2,83C018729869BB1BAB8819021D8E048E,1,47
3,74F422BB575BF224F676EE88DD77301F,0,20
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,0,48


Exportando para um novo .csv:

In [127]:
pacientes.to_csv('./dados/Fpacientes_processado', header = True)

In [128]:
pacientes.shape

(128403, 3)

## Processamento de dados: Fleury-exames

In [129]:
exames = pd.read_csv("./dados/Grupo_Fleury_Dataset_Covid19_Resultados_Exames.csv", sep = '|', encoding='latin-1')
exames.shape

(2496591, 8)

In [130]:
#Assim como fizemos com pacientes, removemos eventuais duplicatas:
exames.drop_duplicates(keep = 'first', inplace = True)
exames.shape

(2494613, 8)

In [136]:
exames.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
0,1AD07C7A1E4D80B608DD7A650766CCF0,19/03/2020,LAB,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",NÃO DETECTADO,,Não detectado
1,1AD07C7A1E4D80B608DD7A650766CCF0,19/03/2020,LAB,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Material",raspado de nasofaringe,,
2,7B10786D64F27D7732503D915A38DE6F,30/12/2019,LAB,"HEMOGRAMA, sangue total",Hemoglobina,152,g/dL,"13,5 a 17,5"
3,7B10786D64F27D7732503D915A38DE6F,30/12/2019,LAB,"HEMOGRAMA, sangue total",VCM,892,fL,"81,0 a 95,0"
4,7B10786D64F27D7732503D915A38DE6F,30/12/2019,LAB,"HEMOGRAMA, sangue total",Leucócitos,5940,/mm3,3.500 a 10.500


Após retirarmos duplicatas, seguiremos a recomendação feita na aula e criaremos um novo dataset com a quantidade de cada tipo de exame que foi realizado, para isso, executaremos a célula abaixo.

In [144]:
exames_count = exames[['DE_EXAME', 'DE_ANALITO']].groupby(['DE_EXAME', 'DE_ANALITO'])['DE_ANALITO'] \
                                     .count().reset_index(name="COUNT").sort_values(["COUNT"], ascending=False)
exames_count

Unnamed: 0,DE_EXAME,DE_ANALITO,COUNT
277,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimiolumin.-Índice",84996
279,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",84986
278,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimioluminescência",83767
280,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",83753
797,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",50223
798,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Material",50223
542,"HEMOGRAMA, sangue total",Plaquetas,35485
550,"HEMOGRAMA, sangue total",VCM,35485
521,"HEMOGRAMA, sangue total",Concentração de Hemoglobina Corpuscular,35485
524,"HEMOGRAMA, sangue total",Eritrócitos,35485


In [146]:
#salvando em csv:
exames_count.to_csv("./dados/exames_count.csv")