# Inserção de informações na base de dados

 Neste notebook vamos inserir dados do DataSharingCOVID19 no Atlas (MongoDB)

In [4]:
import pymongo
import pandas as pd
import numpy as np
import os
import sys
import ssl
import warnings
from collections import Counter

Define o path dos dados

In [5]:
pwd = %pwd
pwd = os.path.join(os.path.dirname(pwd), 'dados')
sys.path.insert(0, pwd)

In [6]:
pwd

'/home/opt/program/projects/DataSharingCOVID19/dados'

Cria um dicionario de mapeamento para o nome dos arquivos e hospitais/clinicas

In [7]:
data_mapping = {
    'EINSTEINAgosto':{'name':'EINSTEIN', 'exames':'EINSTEIN_Exames_2.csv', 'pacientes':'EINSTEIN_Pacientes_2.csv'},
    'GrupoFleuryAgosto':{'name':'GrupoFleury', 'exames':'GrupoFleury_Exames_2.csv', 'pacientes':'GrupoFleury_Pacientes_2.csv'},
    'final':{'name':'HSL', 'exames':'HSL_Exames_2.csv', 'pacientes':'HSL_Pacientes_2.csv'}
}

Carrega as informações dos exames

In [8]:
exames = None
for key in data_mapping.keys():
    f = os.path.join(pwd, os.path.join(key, data_mapping[key]['exames']))
    
    if exames is None:
        exames = pd.read_csv(f, sep='|')
        exames['source'] = [data_mapping[key]['name']] * len(exames)
    else:
        _tmp = pd.read_csv(f, sep='|')
        _tmp['source'] = [data_mapping[key]['name']] * len(_tmp)
        exames = pd.concat([exames, _tmp], axis=0)
exames = exames.replace({np.NaN : None})
exames.reset_index(inplace=True)
exames.rename(columns={'index':'ID_EXAME'}, inplace=True)

In [9]:
exames.head()

Unnamed: 0,ID_EXAME,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA,source,ID_ATENDIMENTO
0,0,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Dosagem de D-Dímero,D-Dímero,863.0,ng/mL FEU,<=500,EINSTEIN,
1,1,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Hemograma com Plaquetas,RDW,13.0,%,11.5 a 16.5,EINSTEIN,
2,2,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Dosagem de Sódio,Sódio,134.0,mEq/L,135 a 145,EINSTEIN,
3,3,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Hemograma Contagem Auto,Eosinófilos,1.3,%,,EINSTEIN,
4,4,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Dosagem de Uréia,Uréia,24.0,mg/dL,17 a 49,EINSTEIN,


In [None]:
Counter(exames['source']).most_common(10)

Carrega as informações dos pacientes

In [10]:
pacientes = None
for key in data_mapping.keys():
    f = os.path.join(pwd, os.path.join(key, data_mapping[key]['pacientes']))
    
    if pacientes is None:
        pacientes = pd.read_csv(f, sep='|')
        pacientes['source'] = [data_mapping[key]['name']] * len(pacientes)
    else:
        _tmp = pd.read_csv(f, sep='|')
        _tmp['source'] = [data_mapping[key]['name']] * len(_tmp)
        pacientes = pd.concat([pacientes, _tmp], axis=0)
pacientes = pacientes.replace({np.NaN : None})

In [11]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_UF,CD_MUNICIPIO,CD_CEPREDUZIDO,CD_PAIS,source
0,13d016bccfdd1b92039607f025f9dd87a03c3bcb,M,1961,SP,SAO PAULO,CCCC,BR,EINSTEIN
1,dd3867bd301ef64a20e8a4f62b661ecea83c3a64,M,1980,SP,CARAPICUIBA,CCCC,BR,EINSTEIN
2,08b0c43e08784fe685588a6fec4425c2e3a6f136,M,1959,SP,SAO PAULO,CCCC,BR,EINSTEIN
3,8106880fb080a34ae9ef20a64884e8a1a8772c68,F,1971,SP,SAO PAULO,CCCC,BR,EINSTEIN
4,dd02af1a979c3b31010fe39be0bc9f3380f29047,F,1982,SP,MMMM,CCCC,BR,EINSTEIN


In [None]:
Counter(pacientes['source']).most_common(10)

Verifica se existe o mesmo ID_PACIENTE em mais de um source

In [12]:
b = pd.concat([pacientes, pd.get_dummies(pacientes['source'])], axis=1)
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    b = b.groupby('ID_PACIENTE')['EINSTEIN','GrupoFleury','HSL'].agg({'EINSTEIN':'sum','GrupoFleury':'sum','HSL':'sum'}).reset_index()
b['TOTAL'] = b.apply(lambda x: sum([x['EINSTEIN'],x['GrupoFleury'],x['HSL']]), axis=1)

In [13]:
print(f"Pacientes com o mesmo ID em diferentes hospitais/clinicas: {len(b.loc[b['TOTAL'] > 1])}")

Pacientes com o mesmo ID em diferentes hospitais/clinicas: 0


## Analise de inconsistencias dos dados de pacientes

In [14]:
from collections import Counter

Busca inconsistencia nas informacoes de CD_MUNICIPIO

In [15]:
Counter(pacientes['CD_MUNICIPIO']).most_common(10)

[('SAO PAULO', 157685),
 ('OSASCO', 36558),
 ('MMMM', 28902),
 ('RIO DE JANEIRO', 27689),
 ('RECIFE', 8168),
 ('PORTO ALEGRE', 7444),
 ('CURITIBA', 6179),
 ('BARUERI', 5317),
 ('CAMPINAS', 5225),
 ('SANTO ANDRE', 4592)]

Busca inconsistencia nas informacoes de CD_PAIS

In [16]:
Counter(pacientes['CD_PAIS']).most_common(10)

[('BR', 331977), ('XX', 140)]

Busca inconsistencia nas informacoes de AA_NASCIMENTO

In [17]:
pacientes['AA_NASCIMENTO'].apply(lambda x: None if x.isnumeric() else x).dropna().unique()

array(['AAAA', 'YYYY'], dtype=object)

Busca inconsistencia nas informacoes de CD_UF

In [18]:
siglas = ['AC','AL','AP','AM','BA','CE','DF','ES','GO','MA','MT','MS','MG','PA','PB','PR','PE','PI','RJ','RN','RS','RO','RR','SC','SP','SE','TO']
pacientes.loc[~(pacientes['CD_UF'].isin(siglas))]['CD_UF'].unique()

array(['UU', None], dtype=object)

Busca inconsistencia nas informacoes de CD_CEPREDUZIDO

In [19]:
pacientes['CD_CEPREDUZIDO'].apply(lambda x: None if x.isnumeric() else x).dropna().unique()

array(['CCCC'], dtype=object)

Busca inconsistencia nas informacoes de CD_PAIS

In [20]:
pacientes['CD_PAIS'].unique()

array(['BR', 'XX'], dtype=object)

Busca inconsistencia nas informacoes de IC_SEXO

In [21]:
pacientes['IC_SEXO'].unique()

array(['M', 'F', None], dtype=object)

Realiza tratamentos para as informações invalidas

In [23]:
pacientes['AA_NASCIMENTO'] = pacientes['AA_NASCIMENTO'].apply(lambda x: None if x is None or x in ['AAAA','YYYY'] else x)

In [24]:
pacientes['CD_MUNICIPIO'] = pacientes['CD_MUNICIPIO'].apply(lambda x: None if x == 'MMMM' else x)

In [25]:
pacientes['CD_UF'] = pacientes['CD_UF'].apply(lambda x: None if x == 'UU' or str(x) =='nan' else x)

In [26]:
pacientes['CD_CEPREDUZIDO'] = pacientes['CD_CEPREDUZIDO'].apply(lambda x: None if x == 'CCCC' else x)

In [27]:
pacientes['CD_PAIS'] = pacientes['CD_PAIS'].apply(lambda x: None if x == 'XX' else x)

In [28]:
pacientes['IC_SEXO'] = pacientes['IC_SEXO'].apply(lambda x: None if x is None or str(x) == 'nan' else x)

Cria uma feature para a idade do paciente

In [29]:
pacientes['IDADE'] = pacientes['AA_NASCIMENTO'].apply(lambda x: None if x is None else int(2020-int(x)))

In [30]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_UF,CD_MUNICIPIO,CD_CEPREDUZIDO,CD_PAIS,source,IDADE
0,13d016bccfdd1b92039607f025f9dd87a03c3bcb,M,1961,SP,SAO PAULO,,BR,EINSTEIN,59.0
1,dd3867bd301ef64a20e8a4f62b661ecea83c3a64,M,1980,SP,CARAPICUIBA,,BR,EINSTEIN,40.0
2,08b0c43e08784fe685588a6fec4425c2e3a6f136,M,1959,SP,SAO PAULO,,BR,EINSTEIN,61.0
3,8106880fb080a34ae9ef20a64884e8a1a8772c68,F,1971,SP,SAO PAULO,,BR,EINSTEIN,49.0
4,dd02af1a979c3b31010fe39be0bc9f3380f29047,F,1982,SP,,,BR,EINSTEIN,38.0


Verifica dados faltantes nos pacientes

In [31]:
for c in pacientes.columns:
    x = pacientes[c].isna().sum()
    print(f"{c} has {round((x/len(pacientes))*100,2)}% ({x}) missing")

ID_PACIENTE has 0.0% (0) missing
IC_SEXO has 0.0% (2) missing
AA_NASCIMENTO has 0.7% (2331) missing
CD_UF has 0.74% (2471) missing
CD_MUNICIPIO has 8.7% (28903) missing
CD_CEPREDUZIDO has 80.92% (268741) missing
CD_PAIS has 0.04% (140) missing
source has 0.0% (0) missing
IDADE has 0.7% (2331) missing


Verifica dados faltantes nos exames

In [33]:
for c in exames.columns:
    x = exames[c].isna().sum()
    print(f"{c} has {round((x/len(exames))*100,2)}% ({x}) missing")

ID_EXAME has 0.0% (0) missing
ID_PACIENTE has 0.0% (0) missing
DT_COLETA has 0.0% (0) missing
DE_ORIGEM has 0.0% (0) missing
DE_EXAME has 0.0% (0) missing
DE_ANALITO has 0.0% (0) missing
DE_RESULTADO has 0.0% (0) missing
CD_UNIDADE has 23.78% (2270867) missing
DE_VALOR_REFERENCIA has 22.32% (2130725) missing
source has 0.0% (0) missing
ID_ATENDIMENTO has 97.28% (9288558) missing


### Formatação dos dados

A estrategia para vincular os dados é alinhar em:
    
    paciente
        |- informacoes do paciente
        |- exames
            |- datas dos exames
                |- exames relalizados
                    |- informacoes dos exames realizados

Para fazer esse alinhamento, seram necessarias duas tabelas de transição:
* pacientes_coletas: Para relacionar os pacientes as datas de coletas dos exames
* coletas_exames: Para relacionar as datas de coletas aos exames realizados

Deste modo, temos o seguinte caminho: <br>
pacientes -> pacientes_coletas -> coletas_exames -> exames_ids

Cria um dicionario de pacientes

In [34]:
pacientes = pacientes.groupby('ID_PACIENTE')[pacientes.columns[1:]].agg({
    k:'first' for k in pacientes.columns[1:]
}).to_dict(orient='index')

In [35]:
pacientes_coletas = exames.groupby('ID_PACIENTE')['DT_COLETA'].apply(list).to_dict()

In [36]:
coletas_exames = exames[['ID_PACIENTE','DT_COLETA','ID_EXAME']].copy()
coletas_exames['ID'] = coletas_exames.apply(lambda x: '{}.{}'.format(x['ID_PACIENTE'],x['DT_COLETA']), axis=1)
coletas_exames = coletas_exames.groupby('ID')['ID_EXAME'].apply(list).to_dict()

In [37]:
cols = ['DE_EXAME','DE_ANALITO','DE_RESULTADO','CD_UNIDADE','DE_VALOR_REFERENCIA','ID_ATENDIMENTO']
exames_ids = exames.groupby('ID_EXAME')[cols].agg({
    k:'first' for k in cols
}).to_dict(orient='index')

Uma vez que a estruturação dos dados esta pronta, vamos fazer o caminho: <br>
pacientes -> pacientes_coletas -> coletas_exames -> exames_ids

In [38]:
for key in pacientes:
    if key not in pacientes_coletas:
        continue
    
    for dt in pacientes_coletas[key]:
        coleta = '{}.{}'.format(key, dt)
        ex = [exames_ids[eid] for eid in coletas_exames[coleta]]
        
        pacientes[key]['exames'] = {dt:ex}

Com os dados formatados de acordo, então podemos criar uma conexão com a base de dados

In [39]:
client = pymongo.MongoClient("mongodb+srv://admin:admin@cluster0.pfryc.mongodb.net/Patients?ssl=true", ssl_cert_reqs=ssl.CERT_NONE)
client.server_info()

{'version': '4.2.10',
 'gitVersion': '88276238fa97b47c0ef14362b343c5317ecbd739',
 'modules': ['enterprise'],
 'allocator': 'tcmalloc',
 'javascriptEngine': 'mozjs',
 'sysInfo': 'deprecated',
 'versionArray': [4, 2, 10, 0],
 'openssl': {'running': 'OpenSSL 1.0.1e-fips 11 Feb 2013',
  'compiled': 'OpenSSL 1.0.1e-fips 11 Feb 2013'},
 'buildEnvironment': {'distmod': 'rhel70',
  'distarch': 'x86_64',
  'cc': '/opt/mongodbtoolchain/v3/bin/gcc: gcc (GCC) 8.2.0',
  'ccflags': '-fno-omit-frame-pointer -fno-strict-aliasing -ggdb -pthread -Wall -Wsign-compare -Wno-unknown-pragmas -Winvalid-pch -Werror -O2 -Wno-unused-local-typedefs -Wno-unused-function -Wno-deprecated-declarations -Wno-unused-const-variable -Wno-unused-but-set-variable -Wno-missing-braces -fstack-protector-strong -fno-builtin-memcmp',
  'cxx': '/opt/mongodbtoolchain/v3/bin/g++: g++ (GCC) 8.2.0',
  'cxxflags': '-Woverloaded-virtual -Wno-maybe-uninitialized -fsized-deallocation -std=c++17',
  'target_arch': 'x86_64',
  'target_os':

Agora criamos um namespace dentro da base

In [40]:
db = client.DataSharingCOVID

E dentro deste namespace vamos criar a coleção **pacientes**

In [41]:
tbl_pacientes = db.pacientes

Com a tabela criada, basta inserir os dados na base

In [None]:
for key in pacientes.keys():
    pacientes[key]['_id'] = key # Esta etapa é necessaria para usar o ID_PACIENTE como identificador do registro
    tbl_pacientes.insert_one(pacientes[key])