## Engenheiro de Dados Pleno: Teste Técnico

### Candidato: Luciano Martins dos Santos

### O objetivo é extrair apenas dos dados necessários de todo o conjunto de arquivos json, para ganhar de performance nas consultas finais:
### 1 - Top 10 Condições
### 2 - Top 10 Prescrições de Medicamentos
### 3 - Quantidade de gêneros masculinos

In [1]:
import pandas as pd
import os
import glob

In [2]:
path = "C:\\Users\\lucia\\Documents\\teste_engenheiro-main\\teste_engenheiro-main\\data"

In [3]:
# a função glob faz com que eu consiga carregar todos os arquivos json do path de uma só vez para uma variável
json_files = glob.glob(os.path.join(path, '*.json'))

In [4]:
# esta estrutura, método concat combinado com a List Comprehension, faz com que eu transforme todo conteúdo num único dataframe. 
pacientes_source =  pd.concat([pd.read_json(file) for file in json_files], ignore_index=True)

In [74]:
pacientes_source

Unnamed: 0,resourceType,type,entry
0,Bundle,transaction,{'fullUrl': 'urn:uuid:6d6fec2a-b149-49c1-b669-...
1,Bundle,transaction,{'fullUrl': 'urn:uuid:f99c74cc-7d1a-3f95-9a33-...
2,Bundle,transaction,{'fullUrl': 'urn:uuid:0000016d-3a85-4cca-0000-...
3,Bundle,transaction,{'fullUrl': 'urn:uuid:a21e7637-c334-4a82-9bab-...
4,Bundle,transaction,{'fullUrl': 'urn:uuid:7523aaad-02e2-48ba-8c72-...
...,...,...,...
523581,Bundle,transaction,{'fullUrl': 'urn:uuid:83d6d640-1945-4fdf-bbe4-...
523582,Bundle,transaction,{'fullUrl': 'urn:uuid:ebb82585-bbab-4586-abf5-...
523583,Bundle,transaction,{'fullUrl': 'urn:uuid:f6b80e87-6a90-40bd-966f-...
523584,Bundle,transaction,{'fullUrl': 'urn:uuid:fd8b2c08-9dcf-4ff2-841d-...


In [73]:
# Exercício proposto : Quais são as 10 condições médicas mais comuns? 
# Esta lógica varre o dataframe pacientes_source, pesquisa os índices resource onde o valor é 'Condition' para criar um dataframe filtrado da estrutura de dados original.
# A extração dos dados levam apenas segundos
conditions = pd.DataFrame({})
for i in range(len(pacientes_source)):
    if pacientes_source.entry.iloc[i].get('resource').get('resourceType') == 'Condition':
        condition = pd.DataFrame({'resource': pacientes_source.entry.iloc[i].get('resource').get('resourceType'),
                     'text': pacientes_source.entry.iloc[i].get('resource').get('code').get('text')},index=[i])
        conditions = pd.concat([conditions,condition],ignore_index=True)

In [39]:
# A consulta da análise de Condições dos pacientes leva menos que um segundo
conditions.groupby('text').count().sort_values(by='resource',ascending=False).head(10).reset_index(0)

Unnamed: 0,text,resource
0,Viral sinusitis (disorder),1222
1,Acute viral pharyngitis (disorder),746
2,Acute bronchitis (disorder),539
3,Normal pregnancy,513
4,Prediabetes,386
5,Anemia (disorder),380
6,Body mass index 30+ - obesity (finding),342
7,Hypertension,328
8,Chronic sinusitis (disorder),248
9,Miscarriage in first trimester,207


In [47]:
pacientes_source.entry.iloc[700].get('resource').get('medicationCodeableConcept').get('text')

'Penicillin V Potassium 500 MG Oral Tablet'

In [51]:
# Exercício proposto : Quais são os 10 medicamentos mais prescritos? 
# Esta lógica varre o dataframe pacientes_source, pesquisa os índices resource onde o valor é 'MedicationRequest' para criar um dataframe filtrado da estrutura de dados orioginal. 
# A extração dos dados levam apenas segundos
medications = pd.DataFrame({})
for i in range(len(pacientes_source)):
    if pacientes_source.entry.iloc[i].get('resource').get('resourceType') == 'MedicationRequest':
        medication = pd.DataFrame({'resource': pacientes_source.entry.iloc[i].get('resource').get('resourceType'),
                     'medication': pacientes_source.entry.iloc[i].get('resource').get('medicationCodeableConcept').get('text')},index=[i])
        medications = pd.concat([medications,medication],ignore_index=True)

In [68]:
# A consulta da análise de medicamentos mais prescritos leva menos que um segundo
medications.groupby('medication').agg({'resource':'count'}).sort_values(by='resource',ascending=False).reset_index().head(10)

Unnamed: 0,medication,resource
0,1 ML Epoetin Alfa 4000 UNT/ML Injection [Epogen],4133
1,Simvistatin 10 MG,2296
2,Cisplatin 50 MG Injection,880
3,PACLitaxel 100 MG Injection,820
4,Acetaminophen 325 MG Oral Tablet,613
5,Naproxen sodium 220 MG Oral Tablet,262
6,Amoxicillin 250 MG / Clavulanate 125 MG Oral T...,262
7,Ibuprofen 200 MG Oral Tablet,174
8,Acetaminophen 160 MG Oral Tablet,144
9,Hydrochlorothiazide 25 MG,144


In [17]:
# Exercício proposto : Quantos pacientes são do sexo masculino?
# Esta lógica varre o dataframe pacientes_source, pesquisa os índices resource onde o valor é (resource = 'Patiente' & 'Gender' = 'male') para criar um dataframe filtrado da estrutura de dados orioginal.
# A extração dos dados levam apenas segundos
patients = pd.DataFrame({})
for i in range(len(pacientes_source)):
    if pacientes_source.entry.iloc[i].get('resource').get('resourceType') == 'Patient'\
     and pacientes_source.entry.iloc[i].get('resource').get('gender') == 'male':
        patient = pd.DataFrame({'resource': pacientes_source.entry.iloc[i].get('resource').get('resourceType'),
                     'gender': pacientes_source.entry.iloc[i].get('resource').get('gender')},index=[i])
        patients = pd.concat([patients,patient],ignore_index=True)

In [69]:
# A consulta da análise de generos masculinos leva menos que um segundo
patients.groupby('gender').count().sort_values(by='count',ascending=False).reset_index()

Unnamed: 0,gender,count
0,male,558


### Análise dos dados com PostgreSQL

In [6]:
# Import da biblioteca create_engine para ser possível inserir dos dados no PostgreSQL
from sqlalchemy import create_engine

In [70]:
# String de conexão. Esse exemplo pode ser reproduzido facilmente em qualquer instalação do Postgres On-Premisse.
engine = create_engine('postgresql+psycopg2://postgres:admin@localhost:5432/postgres')

In [71]:
# O método to_sql cria e insere dados do dataframe pandas nas tabelas no PostgreSQL
medications.to_sql('medications', engine, if_exists='append', index=False)
patients.to_sql('patients', engine, if_exists='append', index=False)
conditions.to_sql('conditions', engine, if_exists='append', index=False)

687