In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

In [6]:
!ls '../Dados/Fleury/'

 fleury.zip
'Grupo_Fleury_Dataset_Covid19_Dicionário de Dados.xlsx'
 Grupo_Fleury_Dataset_Covid19_Pacientes.csv
 Grupo_Fleury_Dataset_Covid19_Resultados_Exames.csv


## Lendo datasets

In [7]:
fleury = pd.read_csv('../Dados/Fleury/Grupo_Fleury_Dataset_Covid19_Resultados_Exames.csv', sep='|', encoding = "ISO-8859-1")
fleury_pacientes = pd.read_csv('../Dados/Fleury/Grupo_Fleury_Dataset_Covid19_Pacientes.csv', sep='|', encoding = "ISO-8859-1")
fleury = fleury[['ID_PACIENTE', 'DT_COLETA', 'DE_ORIGEM', 'DE_EXAME', 
                       'DE_ANALITO', 'DE_RESULTADO', 'CD_UNIDADE', 'DE_VALOR_REFERENCIA']].copy()

# EDA

In [8]:
fleury_pacientes['IC_SEXO'].value_counts() / fleury_pacientes['IC_SEXO'].value_counts().sum() * 100

F    56.650668
M    43.349332
Name: IC_SEXO, dtype: float64

In [9]:
fleury_pacientes['AA_NASCIMENTO'].drop()

ValueError: Need to specify at least one of 'labels', 'index' or 'columns'

## Casos estranhos

### Três valores de referência para o mesmo exame com mesmo analito

In [10]:
fleury[(fleury['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Quimiolumin.-Índice') &
       (fleury['DE_EXAME'] == 'COVID19, ANTICORPOS IgG, soro')]['DE_VALOR_REFERENCIA'].unique()

array(['inferior a 1,0', 'inferior a 0,8', 'inferior a 0,9', nan],
      dtype=object)

## Processando

In [11]:
fleury['DE_VALOR_REFERENCIA'] = fleury['DE_VALOR_REFERENCIA'].replace(np.nan, 'NaN')
fleury['CD_UNIDADE'] = fleury['CD_UNIDADE'].replace(np.nan, 'NaN') 

In [12]:
fleury.loc[fleury['DE_VALOR_REFERENCIA'].str.contains('\d+', regex=True), 'DE_RESULTADO'] = 'Number'

In [13]:
fleury.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
0,1AD07C7A1E4D80B608DD7A650766CCF0,19/03/2020,LAB,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",NÃO DETECTADO,,Não detectado
1,1AD07C7A1E4D80B608DD7A650766CCF0,19/03/2020,LAB,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Material",raspado de nasofaringe,,
2,7B10786D64F27D7732503D915A38DE6F,30/12/2019,LAB,"HEMOGRAMA, sangue total",Hemoglobina,Number,g/dL,"13,5 a 17,5"
3,7B10786D64F27D7732503D915A38DE6F,30/12/2019,LAB,"HEMOGRAMA, sangue total",VCM,Number,fL,"81,0 a 95,0"
4,7B10786D64F27D7732503D915A38DE6F,30/12/2019,LAB,"HEMOGRAMA, sangue total",Leucócitos,Number,/mm3,3.500 a 10.500


In [14]:
def check_float(string):
    try:
        number = float(string)
        return 'Number'
    except:
        return string

In [15]:
fleury['DE_RESULTADO'] = fleury['DE_RESULTADO'].str.replace(',', '.')
fleury['DE_RESULTADO'] = fleury['DE_RESULTADO'].apply(lambda x: check_float(x))

## Vários exames de COVID-19

In [16]:
different_covid_exams = fleury[(fleury['DE_EXAME'].str.contains('COV')) | (fleury['DE_EXAME'].str.contains(
    'Corona')) | (fleury['DE_EXAME'].str.contains('CORONAV'))]['DE_EXAME'].unique()

In [17]:
for exam in different_covid_exams:
    print(exam)

NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO POR PCR
COVID19, ANTICORPOS IgG, soro
COVID19, ANTICORPOS IgM, soro
COVID19, ANTICORPOS IgA, soro
SARS-COV-2, ANTICORPOS IgG, soro


In [18]:
different_covid_exams.size

5

In [19]:
fleury['count'] = 1

fleury_cov = fleury[fleury['DE_EXAME'].isin(different_covid_exams)].copy()
fleury_cov = fleury_cov.groupby(
    ['DE_EXAME', 'DE_ANALITO', 'DE_RESULTADO', 'CD_UNIDADE', 'DE_VALOR_REFERENCIA']).agg({'count': 'sum'})

In [None]:
fleury

## Pivot Table 

In [None]:
pivot = fleury.pivot_table(index=['ID_PACIENTE', 'DT_COLETA'], columns='DE_EXAME', values='DE_RESULTADO', aggfunc=np.max)
pivot

In [None]:
pivot.to_csv('pivot_caching.csv', index=False)

## Grouping by instances

When we group by intances, we're getting a distribuition of how many instances did a given exam.

In [20]:
values = fleury['DE_EXAME'].value_counts()
values

HEMOGRAMA, sangue total                                 785838
URINA TIPO I - JATO MEDIO                               206216
COVID19, ANTICORPOS IgG, soro                           175728
COVID19, ANTICORPOS IgM, soro                           168763
NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO POR PCR    100518
                                                         ...  
IGE ESPECIFICO, G2 - GRAMA RASTEIRA, soro                    1
ANTICORPOS ANTI-ANTIGENO PRECOCE DO VIRUS EB, soro           1
VÍRUS DA FEBRE AMARELA, DETECÇÃO DO RNA POR PCR              1
MUSCULO ESTRIADO, AUTO-ANTICORPOS, soro                      1
IGE ESPECIFICO, F82 - QUEIJO CAMEMBERT, soro                 1
Name: DE_EXAME, Length: 722, dtype: int64

Each patient appears with the same exams many times...

In [None]:
fleury['ID_PACIENTE'].value_counts()

## Grouping by patient and exam type

We'll normalize our dataset in such a way that the tuple (ID_PACIENTE, DE_EXAME) becomes a single instance, in order to find out the most representative exams in terms of the distribuition of patients.

In [22]:
id_paciente_de_exame = fleury.groupby(['ID_PACIENTE', 'DE_EXAME', 'DE_ANALITO'], as_index=False).agg({'count':'sum'})

<span style='color:red'>**Strange:**</span> Did someone _really_ do 660 hemograms?

In [23]:
id_paciente_de_exame.sort_values(['count'], ascending=False)

Unnamed: 0,ID_PACIENTE,DE_EXAME,DE_ANALITO,count
1915821,F0C7FF52C472F0815251B16B47553AAB,"TEMPO DE PROTROMBINA, plasma",TP/INR,39
1915822,F0C7FF52C472F0815251B16B47553AAB,"TEMPO DE PROTROMBINA, plasma",Tempo de Protrombina,39
1586627,C73948E212801903FD62A8335D69BBBA,"SODIO, soro",Sódio,31
1586620,C73948E212801903FD62A8335D69BBBA,"POTASSIO, soro",Potássio,31
627047,4EC221F2B48FFD9ADF0FAB7AD365ACF7,URINA TIPO I - JATO MEDIO,"Proteínas, urina isolada",29
...,...,...,...,...
736752,5CBC87A43C145857277A63F49C6DC91F,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",1
736751,5CBC87A43C145857277A63F49C6DC91F,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",1
736750,5CBC87A43C145857277A63F49C6DC91F,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimioluminescência",1
736749,5CBC87A43C145857277A63F49C6DC91F,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimiolumin.-Índice",1


In [29]:
id_paciente_de_exame['count_exames_e_analitos'] = id_paciente_de_exame['DE_EXAME'] + " - " + id_paciente_de_exame['DE_ANALITO']
exam_per_patient_distribuition = id_paciente_de_exame['count_exames_e_analitos'].value_counts() / id_paciente_de_exame['ID_PACIENTE'].nunique()

In [26]:
exam_per_patient_distribuition

COVID19, ANTICORPOS IgG, soroCovid 19, Anticorpos IgG, Quimiolumin.-Índice        0.642178
COVID19, ANTICORPOS IgM, soroCovid 19, Anticorpos IgM, Quimiolumin.-Índice        0.642070
COVID19, ANTICORPOS IgG, soroCovid 19, Anticorpos IgG, Quimioluminescência        0.633474
COVID19, ANTICORPOS IgM, soroCovid 19, Anticorpos IgM, Quimioluminescência        0.633350
NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO POR PCRCovid 19, Detecção por PCR    0.371272
                                                                                    ...   
PESQUISA DE MICROSPORIDIA NAS FEZESMicrosporidia, pesquisa, fezes                 0.000008
CISTICERCOSE, ANTICORPOS, soroCisticercose, IgG                                   0.000008
URINA TIPO I - JATO FINALAspecto, urina                                           0.000008
VÍRUS DA FEBRE AMARELA, DETECÇÃO DO RNA POR PCRFebre Amarela, PCR                 0.000008
PAINEL SOROLOGICO PARA ENTEROVIRUSVirus Coxsackie - A9                            0.000008

## Distribuition of the most important exams...

In [None]:
%%time
grouped = id_paciente_de_exame.groupby('ID_PACIENTE')
representative_exams_list = exam_per_patient_distribuition.index[:25].to_list()
df = pd.DataFrame(columns=["ID_PACIENTE", *representative_exams_list])

instances = []

for id_paciente, group in grouped:
    aux = {'ID_PACIENTE':id_paciente}
    
    set1 = set(representative_exams_list)
    set2 = set(group['count_exames_e_analitos'])
    
    intersection = set1.intersection(set2)
    
    aux.update({i : True for i in intersection})
    
    instances.append(aux)
        
df = df.append(instances)
df.fillna(False, inplace=True)

In [None]:
df

In [None]:
df['COUNT_EXAMS'] = df[representative_exams_list].sum(axis=1)

In [None]:
df['COUNT_EXAMS'].value_counts()

df.plot(kind='hist', by=['COUNT_EXAMS'], bins=len(representative_exams_list));