# Introdução

## Importação das bibliotecas necessarias

In [1]:
%matplotlib inline
import requests
import pandas as pd
import os
import json
import sys

## Funções auxiliares

In [2]:
def return_sql_query(query_string):
    ret = {
        "token": {
            "token": token
        },
        "sql": {
            "sql": {
                "query":query_string
            }
        }
    }
    return ret

def json_to_df(resp):
    columns = [col['name'] for col in resp.json()['columns']]
    values = resp.json()['rows']  
    return pd.DataFrame(values, columns=columns)

def rows_and_columns_to_df(columns, rows):
    columns_array = [col['name'] for col in columns]
    return pd.DataFrame(rows, columns=columns_array)

def fetch_all_data_from_response(res, initial_records_rows):
    while 'cursor' in res.json():
        res_next = {
            "token": {
                "token": token
            },
            "sql": {
                "sql": {
                    "cursor": res.json()['cursor']
                }
            }
        }
        res = requests.post(os.path.join(url_base,'sql_query'), json=res_next)
        initial_records_rows+=res.json()['rows']
        sys.stdout.write('.')
        sys.stdout.flush()
    print('(y)')
    return initial_records_rows

## Dados de acesso a api

In [3]:
from IPython.display import clear_output
import getpass

token = getpass.getpass('Digite o seu token para acesso a API:')

clear_output()

In [4]:
url_base = "https://bigdata-api.fiocruz.br"

## Bases de dados disponiveis na API atualizadas

In [5]:
params = {
          "token": token
        }
resp = requests.post(url_base+ '/show_tables', json=params)
print(resp.json())

{'databases': ['datasus-sim', 'datasus-sinasc', 'datasus-sih', 'datasus-cnes-lt-2008-2017', 'datasus-cnes-eq-2008-2017', 'datasus-cnes-pf-2008-2017', 'datasus-cnes-sr-2008-2017', 'datasus-sim-dofet']}


## Busca dos campos existentes na base SIM

In [6]:
%time
sql = {
          "token": {
            "token": token
          },
          "sql": {
            "sql": {"query":'describe "datasus-sim"'}
          }
        }
resp = requests.post(os.path.join(url_base,'sql_query'), json=sql)
#resp.content
fields = [x[0] for x in resp.json()['rows']]
print(fields)

CPU times: user 1 µs, sys: 3 µs, total: 4 µs
Wall time: 8.82 µs
['ACIDTRAB', 'ALTCAUSA', 'ASSISTMED', 'ATESTADO', 'ATESTANTE', 'CAUSABAS', 'CAUSABAS_O', 'CAUSAMAT', 'CB_PRE', 'CIRCOBITO', 'CIRURGIA', 'CODBAIOCOR', 'CODBAIRES', 'CODCART', 'CODESTAB', 'CODIFICADO', 'CODINST', 'CODMUNCART', 'CODMUNNATU', 'CODMUNOCOR', 'CODMUNRES', 'COMUNSVOIM', 'CONTADOR', 'CRM', 'DIFDATA', 'DTATESTADO', 'DTCADASTRO', 'DTCADINF', 'DTCADINV', 'DTCONCASO', 'DTCONINV', 'DTINVESTIG', 'DTNASC', 'DTOBITO', 'DTRECEBIM', 'DTRECORIG', 'DTRECORIGA', 'DTREGCART', 'ESC', 'ESC2010', 'ESCFALAGR1', 'ESCMAE', 'ESCMAE2010', 'ESCMAEAGR1', 'ESTABDESCR', 'ESTCIV', 'EXAME', 'EXPDIFDATA', 'FONTE', 'FONTEINV', 'FONTES', 'FONTESINF', 'GESTACAO', 'GRAVIDEZ', 'HORAOBITO', 'IDADE', 'IDADEMAE', 'LINHAA', 'LINHAB', 'LINHAC', 'LINHAD', 'LINHAII', 'LOCOCOR', 'MORTEPARTO', 'NATURAL', 'NECROPSIA', 'NUDIASINF', 'NUDIASOBCO', 'NUDIASOBIN', 'NUMERODN', 'NUMERODO', 'NUMERODV', 'NUMEROLOTE', 'NUMREGCART', 'NUMSUS', 'OBITOGRAV', 'OBITOPARTO', 

## Busca dos campos existentes na base SINASC

In [7]:
%time
sql = {
          "token": {
            "token": token
          },
          "sql": {
            "sql": {"query":'describe "datasus-sinasc"'}
          }
        }
resp = requests.post(os.path.join(url_base,'sql_query'), json=sql)
#resp.content
fields = [x[0] for x in resp.json()['rows']]
print(fields)

CPU times: user 4 µs, sys: 0 ns, total: 4 µs
Wall time: 9.06 µs
['APGAR1', 'APGAR5', 'CODANOMAL', 'CODBAINASC', 'CODBAIRES', 'CODCART', 'CODESTAB', 'CODINST', 'CODMUNCART', 'CODMUNNASC', 'CODMUNNATU', 'CODMUNRES', 'CODOCUPMAE', 'CODPAISRES', 'CODUFNATU', 'CONSPRENAT', 'CONSULTAS', 'CONTADOR', 'DIFDATA', 'DTCADASTRO', 'DTDECLARAC', 'DTNASC', 'DTNASCMAE', 'DTRECEBIM', 'DTRECORIG', 'DTRECORIGA', 'DTREGCART', 'DTULTMENST', 'ESCMAE', 'ESCMAE2010', 'ESCMAEAGR1', 'ESTCIVMAE', 'GESTACAO', 'GRAVIDEZ', 'HORANASC', 'IDADEMAE', 'IDADEPAI', 'IDANOMAL', 'KOTELCHUCK', 'LOCNASC', 'MESPRENAT', 'NATURALMAE', 'NOVO', 'NUMERODN', 'NUMERODV', 'NUMEROLOTE', 'NUMREGCART', 'ORIGEM', 'PARIDADE', 'PARTO', 'PESO', 'PREFIXODN', 'QTDFILMORT', 'QTDFILVIVO', 'QTDGESTANT', 'QTDPARTCES', 'QTDPARTNOR', 'RACACOR', 'RACACORMAE', 'RACACORN', 'RACACOR_RN', 'SEMAGESTAC', 'SERIESCMAE', 'SEXO', 'STCESPARTO', 'STDNEPIDEM', 'STDNNOVA', 'STTRABPART', 'TPAPRESENT', 'TPDOCRESP', 'TPFUNCRESP', 'TPMETESTIM', 'TPNASCASSI', 'TPROBSON'

# Razão de Mortalidade Materna (SIM + SINASC)

A ideia inicial era explorar os dados de todo o Brasil do período de 2012 a 2019.
Como a tabela SIH-RD tratada e filtrada que temos é do período de 2018 até 2019 e apenas do Estado de São Paulo, iremos utilizar o mesmo subconjunto.

In [6]:
%time
sql_t_nasc_vivos = return_sql_query("SELECT CODMUNRES, ano_nasc as Ano, count(*) as Qtd_Total  \
                    FROM \"datasus-sinasc\" \
                    WHERE ano_nasc>=2012 AND \
                    ano_nasc<=2020 \
                    GROUP BY CODMUNRES, ano_nasc")
resp_sql_t_nasc_vivos = requests.post(os.path.join(url_base,'sql_query'), json=sql_t_nasc_vivos)
record_columns=resp_sql_t_nasc_vivos.json()['columns']
record_rows=resp_sql_t_nasc_vivos.json()['rows']

fetch_all_data_from_response(resp_sql_t_nasc_vivos, record_rows)
print("Record rows length : "+str(len(record_rows)))

df_t_nasc_vivos = rows_and_columns_to_df(record_columns, record_rows)

CPU times: user 3 µs, sys: 3 µs, total: 6 µs
Wall time: 11.4 µs
...................................................(y)
Record rows length : 50268


In [7]:
%time
# CODMUNRES= para identificação do município de residência;
# Para identificação dos óbitos maternos, utilizar CAUSABAS=O00.0 a O08.9, O10.0 a O10.9;
# O11 a O23.9; O24.0 a O24.3; O24.4; O24.9; O25; O26.0 a O92.7; O.95; O98.0 a O99.8.
# Usar também CAUSABAS=A34; B20 a B24; D39.2, E23.0, F53;
# M83.0 apenas quando  OBITOGRAV=1 OU OBITOPUERP=1     
sql_razao_mm = return_sql_query(
    "SELECT CODMUNRES, ano_obito as Ano, count(*) as Qtd_Morte_Materna \
    FROM \"datasus-sim\" WHERE ano_obito>=2012 AND ano_obito<=2020 AND \
    SEXO=2 AND \
    ((CAUSABAS LIKE 'A34%' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'B20%' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'B21%' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'B22%' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'B23%' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'B24%' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'D392' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'E230' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     (CAUSABAS LIKE 'F53%' AND (OBITOGRAV=1 OR OBITOPUERP=1)) OR \
     CAUSABAS LIKE 'O244' OR \
     CAUSABAS LIKE 'O249' OR \
     CAUSABAS LIKE 'O25' OR \
     CAUSABAS LIKE 'O95' OR \
     (CAUSABAS >='O000' AND CAUSABAS <='O089') OR \
     (CAUSABAS >='O100' AND CAUSABAS <='O109') OR \
     (CAUSABAS >='O11' AND CAUSABAS <='O239') OR \
     (CAUSABAS >='O240' AND CAUSABAS <='O243') OR \
     (CAUSABAS >='O260' AND CAUSABAS <='O927') OR \
     (CAUSABAS >='O980' AND CAUSABAS <='O998') OR \
     (CAUSABAS LIKE 'M830' AND (OBITOGRAV=1 OR OBITOPUERP=1))) \
     GROUP BY CODMUNRES, ano_obito")

resp_sql_razao_mm = requests.post(os.path.join(url_base,'sql_query'), json=sql_razao_mm)
resp_sql_razao_mm.json()

record_columns=resp_sql_razao_mm.json()['columns']
record_rows=resp_sql_razao_mm.json()['rows']

fetch_all_data_from_response(resp_sql_razao_mm, record_rows)
print("Record rows length : "+str(len(record_rows)))

df_razao_mm = rows_and_columns_to_df(record_columns, record_rows)

CPU times: user 3 µs, sys: 2 µs, total: 5 µs
Wall time: 11.2 µs
.........(y)
Record rows length : 8037


In [6]:
sql_teste = return_sql_query(
    "SELECT CAUSABAS, COUNT(*) \
    FROM \"datasus-sim\" WHERE ano_obito>=2012 AND ano_obito<=2019 AND \
    SEXO=2 AND CAUSABAS LIKE 'A34%' GROUP BY CAUSABAS")

#    causabas_capitulo, causabas_categoria, causabas_grupo, causabas_subcategoria \
resp_sql_teste = requests.post(os.path.join(url_base, 'sql_query'), json=sql_teste)
resp_sql_teste.json()
record_columns=resp_sql_teste.json()['columns']
record_rows=resp_sql_teste.json()['rows']

fetch_all_data_from_response(resp_sql_teste, record_rows)
print("Record rows length : "+str(len(record_rows)))

df_teste = rows_and_columns_to_df(record_columns, record_rows)

.(y)
Record rows length : 1


In [8]:
df_teste.head(60)

NameError: name 'df_teste' is not defined

In [9]:
df_razao_mm["Qtd_Morte_Materna"] = df_razao_mm["Qtd_Morte_Materna"].astype(float)
df_razao_mm.head()

Unnamed: 0,CODMUNRES,Ano,Qtd_Morte_Materna
0,110001,2015,1.0
1,110002,2012,1.0
2,110002,2013,1.0
3,110002,2014,2.0
4,110002,2015,2.0


In [10]:
df_t_nasc_vivos["Qtd_Total"] = df_t_nasc_vivos["Qtd_Total"].astype(float)
df_t_nasc_vivos.head()

Unnamed: 0,CODMUNRES,Ano,Qtd_Total
0,110000,2012,2.0
1,110000,2013,16.0
2,110000,2014,4.0
3,110000,2015,4.0
4,110000,2016,2.0


In [11]:
df_razao_mm['Ano'] = df_razao_mm['Ano'].astype(int)
df_merge = pd.merge(df_razao_mm, df_t_nasc_vivos, how='right', on=['CODMUNRES','Ano'])
df_merge = df_merge.fillna(0)
# Número de óbitos maternos de mulheres residentes no município divido pelo 
# número de nascidos vivos no município no ano por 100.000
#df_merge['Ratio'] = ((df_merge['Qtd_Morte_Materna']/df_merge['Qtd_Total'])*100000)
df_merge['Ratio'] = ((df_merge['Qtd_Morte_Materna']/df_merge['Qtd_Total'])*100000)
df_merge.head()

Unnamed: 0,CODMUNRES,Ano,Qtd_Morte_Materna,Qtd_Total,Ratio
0,110000,2012,0.0,2.0,0.0
1,110000,2013,0.0,16.0,0.0
2,110000,2014,0.0,4.0,0.0
3,110000,2015,0.0,4.0,0.0
4,110000,2016,0.0,2.0,0.0


In [12]:
%time
df_merge.to_csv('../csv_files/QW-20-razao_mortalidade_materna.csv',index=False)

CPU times: user 3 µs, sys: 2 µs, total: 5 µs
Wall time: 11.7 µs
