# Inserção de informações na base de dados

 Neste notebook vamos inserir dados do DataSharingCOVID19 no Atlas (MongoDB)

In [106]:
import pymongo
import pandas as pd
import numpy as np
import os
import sys
import ssl
import warnings

Define o path dos dados

In [15]:
pwd = %pwd
pwd = os.path.join(os.path.dirname(pwd), 'dados')
sys.path.insert(0, pwd)

In [17]:
pwd

'/home/opt/program/projects/DataSharingCOVID19/dados'

Cria um dicionario de mapeamento para o nome dos arquivos e hospitais/clinicas

In [18]:
data_mapping = {
    'EINSTEINAgosto':{'name':'EINSTEIN', 'exames':'EINSTEIN_Exames_2.csv', 'pacientes':'EINSTEIN_Pacientes_2.csv'},
    'GrupoFleuryAgosto':{'name':'GrupoFleury', 'exames':'GrupoFleury_Exames_2.csv', 'pacientes':'GrupoFleury_Pacientes_2.csv'},
    'final':{'name':'HSL', 'exames':'HSL_Exames_2.csv', 'pacientes':'HSL_Pacientes_2.csv'}
}

Carrega as informações dos exames

In [28]:
exames = None
for key in data_mapping.keys():
    f = os.path.join(pwd, os.path.join(key, data_mapping[key]['exames']))
    
    if exames is None:
        exames = pd.read_csv(f, sep='|')
        exames['source'] = [data_mapping[key]['name']] * len(exames)
    else:
        _tmp = pd.read_csv(f, sep='|')
        _tmp['source'] = [data_mapping[key]['name']] * len(_tmp)
        exames = pd.concat([exames, _tmp], axis=0)
exames = exames.replace({np.NaN : None})
exames.reset_index(inplace=True)
exames.rename(columns={'index':'ID_EXAME'}, inplace=True)

In [63]:
exames.head()

Unnamed: 0,ID_EXAME,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA,source,ID_ATENDIMENTO
0,0,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Dosagem de D-Dímero,D-Dímero,863.0,ng/mL FEU,<=500,EINSTEIN,
1,1,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Hemograma com Plaquetas,RDW,13.0,%,11.5 a 16.5,EINSTEIN,
2,2,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Dosagem de Sódio,Sódio,134.0,mEq/L,135 a 145,EINSTEIN,
3,3,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Hemograma Contagem Auto,Eosinófilos,1.3,%,,EINSTEIN,
4,4,00006490d57666d73747c29c01079b60b1353002,04/06/2020,HOSP,Dosagem de Uréia,Uréia,24.0,mg/dL,17 a 49,EINSTEIN,


Carrega as informações dos pacientes

In [116]:
pacientes = None
for key in data_mapping.keys():
    f = os.path.join(pwd, os.path.join(key, data_mapping[key]['pacientes']))
    
    if pacientes is None:
        pacientes = pd.read_csv(f, sep='|')
        pacientes['source'] = [data_mapping[key]['name']] * len(pacientes)
    else:
        _tmp = pd.read_csv(f, sep='|')
        _tmp['source'] = [data_mapping[key]['name']] * len(_tmp)
        pacientes = pd.concat([pacientes, _tmp], axis=0)
pacientes = pacientes.replace({np.NaN : None})

In [21]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_UF,CD_MUNICIPIO,CD_CEPREDUZIDO,CD_PAIS,source
0,13d016bccfdd1b92039607f025f9dd87a03c3bcb,M,1961,SP,SAO PAULO,CCCC,BR,EINSTEIN
1,dd3867bd301ef64a20e8a4f62b661ecea83c3a64,M,1980,SP,CARAPICUIBA,CCCC,BR,EINSTEIN
2,08b0c43e08784fe685588a6fec4425c2e3a6f136,M,1959,SP,SAO PAULO,CCCC,BR,EINSTEIN
3,8106880fb080a34ae9ef20a64884e8a1a8772c68,F,1971,SP,SAO PAULO,CCCC,BR,EINSTEIN
4,dd02af1a979c3b31010fe39be0bc9f3380f29047,F,1982,SP,MMMM,CCCC,BR,EINSTEIN


Verifica se existe o mesmo ID_PACIENTE em mais de um source

In [110]:
b = pd.concat([pacientes, pd.get_dummies(pacientes['source'])], axis=1)
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    b = b.groupby('ID_PACIENTE')['EINSTEIN','GrupoFleury','HSL'].agg({'EINSTEIN':'sum','GrupoFleury':'sum','HSL':'sum'}).reset_index()
b['TOTAL'] = b.apply(lambda x: sum([x['EINSTEIN'],x['GrupoFleury'],x['HSL']]), axis=1)

In [None]:
print(f"Pacientes com o mesmo ID em diferentes hospitais/clinicas: {len(b.loc[b['TOTAL'] > 1])}")

### Formatação dos dados

A estrategia para vincular os dados é alinhar em:
    
    paciente
        |- informacoes do paciente
        |- exames
            |- datas dos exames
                |- exames relalizados
                    |- informacoes dos exames realizados

Para fazer esse alinhamento, seram necessarias duas tabelas de transição:
* pacientes_coletas: Para relacionar os pacientes as datas de coletas dos exames
* coletas_exames: Para relacionar as datas de coletas aos exames realizados

Deste modo, temos o seguinte caminho: <br>
pacientes -> pacientes_coletas -> coletas_exames -> exames_ids

Cria um dicionario de pacientes

In [117]:
pacientes = pacientes.groupby('ID_PACIENTE')[pacientes.columns[1:]].agg({
    k:'first' for k in pacientes.columns[1:]
}).to_dict(orient='index')

In [67]:
pacientes_coletas = exames.groupby('ID_PACIENTE')['DT_COLETA'].apply(list).to_dict()

In [None]:
coletas_exames = exames[['ID_PACIENTE','DT_COLETA','ID_EXAME']].copy()
coletas_exames['ID'] = coletas_exames.apply(lambda x: '{}.{}'.format(x['ID_PACIENTE'],x['DT_COLETA']), axis=1)
coletas_exames = coletas_exames.groupby('ID')['ID_EXAME'].apply(list).to_dict()

In [None]:
cols = ['DE_EXAME','DE_ANALITO','DE_RESULTADO','CD_UNIDADE','DE_VALOR_REFERENCIA','ID_ATENDIMENTO']
exames_ids = exames.groupby('ID_EXAME')[cols].agg({
    k:'first' for k in cols
}).to_dict(orient='index')

Uma vez que a estruturação dos dados esta pronta, vamos fazer o caminho: <br>
pacientes -> pacientes_coletas -> coletas_exames -> exames_ids

In [118]:
for key in pacientes:
    if key not in pacientes_coletas:
        continue
    
    for dt in pacientes_coletas[key]:
        coleta = '{}.{}'.format(key, dt)
        ex = [exames_ids[eid] for eid in coletas_exames[coleta]]
        
        pacientes[key]['exames'] = {dt:ex}

Com os dados formatados de acordo, então podemos criar uma conexão com a base de dados

In [130]:
client = pymongo.MongoClient("mongodb+srv://admin:admin@cluster0.pfryc.mongodb.net/Patients?ssl=true", ssl_cert_reqs=ssl.CERT_NONE)
client.server_info()

{'version': '4.2.10',
 'gitVersion': '88276238fa97b47c0ef14362b343c5317ecbd739',
 'modules': ['enterprise'],
 'allocator': 'tcmalloc',
 'javascriptEngine': 'mozjs',
 'sysInfo': 'deprecated',
 'versionArray': [4, 2, 10, 0],
 'openssl': {'running': 'OpenSSL 1.0.1e-fips 11 Feb 2013',
  'compiled': 'OpenSSL 1.0.1e-fips 11 Feb 2013'},
 'buildEnvironment': {'distmod': 'rhel70',
  'distarch': 'x86_64',
  'cc': '/opt/mongodbtoolchain/v3/bin/gcc: gcc (GCC) 8.2.0',
  'ccflags': '-fno-omit-frame-pointer -fno-strict-aliasing -ggdb -pthread -Wall -Wsign-compare -Wno-unknown-pragmas -Winvalid-pch -Werror -O2 -Wno-unused-local-typedefs -Wno-unused-function -Wno-deprecated-declarations -Wno-unused-const-variable -Wno-unused-but-set-variable -Wno-missing-braces -fstack-protector-strong -fno-builtin-memcmp',
  'cxx': '/opt/mongodbtoolchain/v3/bin/g++: g++ (GCC) 8.2.0',
  'cxxflags': '-Woverloaded-virtual -Wno-maybe-uninitialized -fsized-deallocation -std=c++17',
  'target_arch': 'x86_64',
  'target_os':

Agora criamos um namespace dentro da base

In [134]:
db = client.DataSharingCOVID

E dentro deste namespace vamos criar a tabela **pacientes**

In [161]:
tbl_pacientes = db.pacientes

Com a tabela criada, basta inserir os dados na base

In [None]:
for key in pacientes.keys():
    pacientes[key]['_id'] = key # Esta etapa é necessaria para usar o ID_PACIENTE como identificador do registro
    tbl_pacientes.insert_one(pacientes[key])