## Extração de Dados da API Open Data SUS

O objetivo desse notebook será gerar um CSV com um conjunto de dados associados de forma a possibilitar diferentes análises que faremos nas etapas seguintes. 

A idéia é ter em cada linha da tabela a informação do município e como ele estava no dia em questão e dessa maneira poder ser analisado evolução de casos e situações ao decorrer do tempo. 

Metas: 
- [x] Integrar dados agrupados por município com informações descritivas e geográficas 
- [x] Obter indicadores de casos separados por cada dia 
- [x] Obter informação do aumento do número suspeitos, confirmados e óbitos por dia
- [x] Salvar dados em CSV
- [ ] Salvar dados em Excel (XLSX) 

### Links Referência OpenSUS

1. [Conjunto de APIs](https://github.com/EscolaDeSaudePublica/coronavirusAPI/issues/17)

### Links Interessantes
Abaixo alguns links utilizados com maiores instruções e detalhamentos sobre os procedimentos utilizados. 

1. [Convertendo JSON to dataframe](https://stackoverflow.com/questions/42518864/convert-json-data-from-request-into-pandas-dataframe)

2. [Básico de Plotly](https://paulovasconcellos.com.br/como-criar-gr%C3%A1ficos-interativos-utilizando-plotly-e-python-3eb6eda57a2b)

3. [Como Trabalhar com Datas](https://dicasdepython.com.br/python-como-converter-date-em-string-com-formatacao/)


### Instalando dependências
As dependências utilizadas estão a seguir. Basta descomentar e executar a célula abaixo para que possa ser instalada. 

In [1]:
# %conda install -c anaconda requests
# %conda install -c plotly chart-studio
# %conda install -c plotly plotly

### Iniciando dependências e configurações básicas

In [2]:
import pandas as pd
import requests
from datetime import date,datetime, timedelta
import numpy as np

### Criando um método auxiliar para consumir as APIs 

Normalmente todas APIs seguem o padrão de alguns campos como idMunicipio (ID IBGE do município) e data (dia no formato YYYY-MM-DD). 

In [3]:
def get_dataframe(api_url, data='', id_municipio=''):
    '''Método básico para converter uma chamada a API em um objeto Dataframe'''
    
    api_url = api_url + '?'
    if(id_municipio != ''): 
        api_url = '{}idMunicipio={}&'.format(api_url, id_municipio)
    
    if(data != ''): 
        api_url = '{}data={}&'.format(api_url, data)
    
    result = requests.get(api_url)
    result = result.json()    
    result = pd.DataFrame.from_dict(result)
    
    if(id_municipio != ''): 
        result.insert(0, 'idMunicipio', id_municipio)
        
    return result

In [4]:
municipios          = get_dataframe('https://indicadores.integrasus.saude.ce.gov.br/api/municipio')
macro_regiao        = get_dataframe('https://indicadores.integrasus.saude.ce.gov.br/api/macro-regiao')
regiao_saude        = get_dataframe('https://indicadores.integrasus.saude.ce.gov.br/api/regiao-saude')
qtd_por_municipios  = get_dataframe('https://indicadores.integrasus.saude.ce.gov.br/api/coronavirus/qtd-por-municipio')

In [5]:
qtd_por_municipios.head(3)

Unnamed: 0,tipo,qtdSuspeito,municipio,idMunicipio,qtdObito,qtdConfirmado
0,Suspeito,50.0,Sem informação,,,
1,Suspeito,14.0,CAMOCIM,230260.0,,
2,Suspeito,2.0,ABAIARA,230010.0,,


In [6]:
municipios.head(3)

Unnamed: 0,id,idMacroRegiao,idRegiaoSaude,descricao,latitude,longitude
0,230010,8,19,ABAIARA,-735542,-3904079
1,230015,1,2,ACARAPE,-422124,-3870508
2,230020,2,12,ACARAU,-288469,-4011870


In [7]:
macro_regiao.head(3)

Unnamed: 0,id,descricao
0,8,CARIRI
1,1,FORTALEZA
2,10,LITORAL LESTE/JAGUARIBE


### Unir Município e Macro Região
Como unir os dados dessas tabelas? Vamos usar a função [merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) do pandas, o qual é semelhante ao PROCV do Excel.  

In [8]:
# Vamos unir a tabela de municípios com as suas respectivas macro regiões. 
municipio_macro_regiao = municipios.merge(macro_regiao, 
                               left_on='idMacroRegiao', 
                               right_on='id', 
                               suffixes=['Municipio','MacroRegiao'])

municipio_macro_regiao.head(3)

Unnamed: 0,idMunicipio,idMacroRegiao,idRegiaoSaude,descricaoMunicipio,latitude,longitude,idMacroRegiao.1,descricaoMacroRegiao
0,230010,8,19,ABAIARA,-735542,-3904079,8,CARIRI
1,230030,8,18,ACOPIARA,-609062,-3945153,8,CARIRI
2,230060,8,20,ALTANEIRA,-700102,-3973774,8,CARIRI


### Unir Região de Saúde

In [9]:
regiao_saude.head(3)

Unnamed: 0,id,idMacroRegiao,descricao
0,1,1,1ª REGIÃO FORTALEZA
1,2,1,3ª REGIÃO MARACANAÚ
2,3,1,2ª REGIÃO CAUCAIA


In [10]:
# Vamos unir a tabela de municípios com as suas respectivas macro regiões. 
municipio_macro_regiao = municipio_macro_regiao.merge(regiao_saude, 
                               left_on='idRegiaoSaude', 
                               right_on='id', suffixes=['','RegiaoSaude'])

municipio_macro_regiao.head(3)

Unnamed: 0,idMunicipio,idMacroRegiao,idRegiaoSaude,descricaoMunicipio,latitude,longitude,idMacroRegiao.1,descricaoMacroRegiao,id,idMacroRegiaoRegiaoSaude,descricao
0,230010,8,19,ABAIARA,-735542,-3904079,8,CARIRI,19,8,19ª REGIÃO BREJO SANTO
1,230170,8,19,AURORA,-693893,-3896717,8,CARIRI,19,8,19ª REGIÃO BREJO SANTO
2,230200,8,19,BARRO,-717277,-3877582,8,CARIRI,19,8,19ª REGIÃO BREJO SANTO


In [11]:
# apaga algumas colunas desnecessárias
municipio_macro_regiao.drop(columns=['idMacroRegiaoRegiaoSaude','id'], index=1, inplace=True)
# algumas colunas estão duplicadas e podem nos atrapalhar. Removendo. 
municipio_macro_regiao = municipio_macro_regiao.loc[:,
                                                    ~municipio_macro_regiao.columns.duplicated()]
municipio_macro_regiao.head(3)

Unnamed: 0,idMunicipio,idMacroRegiao,idRegiaoSaude,descricaoMunicipio,latitude,longitude,descricaoMacroRegiao,descricao
0,230010,8,19,ABAIARA,-735542,-3904079,CARIRI,19ª REGIÃO BREJO SANTO
2,230200,8,19,BARRO,-717277,-3877582,CARIRI,19ª REGIÃO BREJO SANTO
3,230250,8,19,BREJO SANTO,-748943,-3898571,CARIRI,19ª REGIÃO BREJO SANTO


### Ajustar nomes de colunas dos municípios e regiões

In [12]:
municipio_macro_regiao.rename(columns={"descricao": "regiaoSaude", 
                                       "descricaoMunicipio": "municipio",
                                       "descricaoMacroRegiao": "macroRegiao",
                                       "latitude":"lat", 
                                       "longitude":"lon"},
                             inplace=True)

In [13]:
municipio_macro_regiao.shape 
# Quantos municipios tem o Ceará? TUDO OK
# https://www.google.com/search?q=quantos+municipios+tem+o+ceara&oq=quantos+municipios+tem+o+ceara&aqs=chrome..69i57j0l2.5808j0j7&sourceid=chrome&ie=UTF-8

(183, 8)

### Unir dados à Quantidade Por Município
- Agora vamos unir os dados de municipio/macro-região aos dados de quantidades por municipio

In [14]:
qtd_por_municipios.head(3)

Unnamed: 0,tipo,qtdSuspeito,municipio,idMunicipio,qtdObito,qtdConfirmado
0,Suspeito,50.0,Sem informação,,,
1,Suspeito,14.0,CAMOCIM,230260.0,,
2,Suspeito,2.0,ABAIARA,230010.0,,


In [15]:
qtd_por_municipios.shape

(249, 6)

In [16]:
qtd_por_municipios[qtd_por_municipios.idMunicipio.isna()]

Unnamed: 0,tipo,qtdSuspeito,municipio,idMunicipio,qtdObito,qtdConfirmado
0,Suspeito,50.0,Sem informação,,,
248,Confirmado,,Sem informação,,,20.0


### Pergunta
[Pergunta](https://github.com/EscolaDeSaudePublica/coronavirusAPI/issues/17#issuecomment-612133737) 
 @victorMagalhaesPacheco, na API qtd-por-municipio em alguns não há informação do município. Pode explicar melhor quando isso ocorre? É realmente esperado?


In [17]:
qtd_por_municipios = qtd_por_municipios[~qtd_por_municipios['idMunicipio'].isna()]
qtd_por_municipios['idMunicipio'] = qtd_por_municipios['idMunicipio'].astype(int)
qtd_por_municipios.shape

(247, 6)

In [18]:
fortaleza = qtd_por_municipios[qtd_por_municipios.municipio == 'FORTALEZA']
display(fortaleza)

Unnamed: 0,tipo,qtdSuspeito,municipio,idMunicipio,qtdObito,qtdConfirmado
177,Suspeito,6275.0,FORTALEZA,230440,,
185,Óbito,,FORTALEZA,230440,53.0,
208,Confirmado,,FORTALEZA,230440,,1429.0


In [19]:
# Como fica apenas FORTALEZA agrupado por id do município
qtd_por_municipios = qtd_por_municipios.groupby('idMunicipio').sum()
qtd_por_municipios.head(3)

Unnamed: 0_level_0,qtdSuspeito,qtdObito,qtdConfirmado
idMunicipio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
230010,2.0,0.0,0.0
230015,6.0,0.0,0.0
230020,34.0,0.0,0.0


In [20]:
qtd_por_municipios.reset_index(inplace=True)
display(qtd_por_municipios.head(3))

Unnamed: 0,idMunicipio,qtdSuspeito,qtdObito,qtdConfirmado
0,230010,2.0,0.0,0.0
1,230015,6.0,0.0,0.0
2,230020,34.0,0.0,0.0


In [21]:
df_parcial  = municipio_macro_regiao.merge(qtd_por_municipios, on='idMunicipio')
df_parcial.head(3)

Unnamed: 0,idMunicipio,idMacroRegiao,idRegiaoSaude,municipio,lat,lon,macroRegiao,regiaoSaude,qtdSuspeito,qtdObito,qtdConfirmado
0,230010,8,19,ABAIARA,-735542,-3904079,CARIRI,19ª REGIÃO BREJO SANTO,2.0,0.0,0.0
1,230200,8,19,BARRO,-717277,-3877582,CARIRI,19ª REGIÃO BREJO SANTO,4.0,0.0,0.0
2,230250,8,19,BREJO SANTO,-748943,-3898571,CARIRI,19ª REGIÃO BREJO SANTO,11.0,0.0,0.0


In [22]:
df_parcial.shape

(178, 11)

In [23]:
# Padronizar as latitudes / longitudes. 
# atualmente os dados estão em formato string (texto) e o valor não é um decimal válido. 

# Convertendo de texto (str) para numérico (int)
df_parcial['lat']  = df_parcial['lat'].astype(int)
df_parcial['lon'] = df_parcial['lon'].astype(int)

# utilizando formato mais comum de sistemas geográficos (decimal): dividindo por 10000
df_parcial['lat']  = df_parcial['lat']  /100000
df_parcial['lon'] = df_parcial['lon'] /100000

In [24]:
df_parcial.head(3)

Unnamed: 0,idMunicipio,idMacroRegiao,idRegiaoSaude,municipio,lat,lon,macroRegiao,regiaoSaude,qtdSuspeito,qtdObito,qtdConfirmado
0,230010,8,19,ABAIARA,-7.35542,-39.04079,CARIRI,19ª REGIÃO BREJO SANTO,2.0,0.0,0.0
1,230200,8,19,BARRO,-7.17277,-38.77582,CARIRI,19ª REGIÃO BREJO SANTO,4.0,0.0,0.0
2,230250,8,19,BREJO SANTO,-7.48943,-38.98571,CARIRI,19ª REGIÃO BREJO SANTO,11.0,0.0,0.0


#### Como estão apresentados os dados de Fortaleza? 

In [25]:
df_parcial[df_parcial.municipio == 'FORTALEZA']

Unnamed: 0,idMunicipio,idMacroRegiao,idRegiaoSaude,municipio,lat,lon,macroRegiao,regiaoSaude,qtdSuspeito,qtdObito,qtdConfirmado
67,230440,1,1,FORTALEZA,-3.71701,-38.53926,FORTALEZA,1ª REGIÃO FORTALEZA,6275.0,53.0,1429.0


### Incluindo informações de número de testes

In [26]:
## TODO

### Informações Por Sexo e Faixa Etária

In [27]:
## TODO
# /api/coronavirus/qtd-por-faixa-etaria-sexo?data=2020-04-09&tipo=Confirmado&idMunicipio=

### Obter os dados por dia 

Como realizar a chamada dia-a-dia e criar uma tabela completa com a informação de como estava naquele dia específico? 

In [28]:
# api_qtd_por_municipio = 'https://indicadores.integrasus.saude.ce.gov.br/api/coronavirus/qtd-por-municipio'
# data1 = get_dataframe(api_qtd_por_municipio, data='2020-03-01')
# data2 = get_dataframe(api_qtd_por_municipio, data='2020-03-02')
# data3 = get_dataframe(api_qtd_por_municipio, data='2020-03-03')
# display(data1.head(3))
# display(data2.head(3))
# display(data3.head(3))

# tudo = pd.concat([data1, data2, data3], axis=0, ignore_index=True, sort=True)
# display(tudo.head(5))
# del tudo, data1, data2, data3

 - **Realizar laço do dia inicial até hoje e concatenar todos resultados**

In [29]:
# api_endpoint = "https://indicadores.integrasus.saude.ce.gov.br/api/coronavirus/qtd-por-municipio"

# ref_date = date(year=2020, month=1, day=1) # 2020-01-01
# end_date = date.today()
# one_day  = timedelta(days=1)

# df1 = get_dataframe(api_endpoint, data=ref_date.strftime('%Y-%m-%d'))
# while(ref_date < end_date):
#     ref_date = ref_date + one_day
#     df2 = get_dataframe(api_endpoint, data=ref_date.strftime('%Y-%m-%d'))
#     df1 = pd.concat([df1, df2], 
#                     axis=0, 
#                     ignore_index=True, sort=True)
    
# qtd_por_dia_tipo = df1
# del df1, df2

In [30]:
# display(qtd_municipios_data.shape)
# display(qtd_municipios_data.head(10))
# display(qtd_municipios_data.shape)
# qtd_municipios_data.drop_duplicates(inplace=True)
# qtd_municipios_data = qtd_municipios_data[~qtd_municipios_data.idMunicipio.isna()]
# display(qtd_municipios_data.shape)
# display(qtd_municipios_data.head(3))
# qtd_municipios_data = qtd_municipios_data.groupby(['data','idMunicipio']).sum()
# qtd_municipios_data.head()
# df = qtd_municipios_data
# df['difQtdConfirmado'] = np.nan
# df['difQtdObito']      = np.nan
# df.sort_index(inplace=True)
# display(df)
# for idx in df.index.levels[0]:
#     df.difQtdConfirmado[idx] = df.difQtdConfirmado[idx].diff()
#     df.difQtdObito[idx]      = df.difQtdObito[idx].diff()

# df[df.idMunicipio == 230440][~df.difQtdObito.isna()]

### Obter Contagens Por Dia (NOVA API: qtd-por-dia-tipo)

Liberaram uma API muito boa que dá o resultado por dia, mas um problema é que não temos a identificação do município no retorno. 
Contudo, como posso passar o município como parâmetro para a API, irei utilizado para iterar na lista de municípios, realizar uma consulta específica por município e unir os dados. 
Observer que ficou bem mais fácil que o código complexo acima que está comentado. 

In [31]:
api_endpoint = "https://indicadores.integrasus.saude.ce.gov.br/api/coronavirus/qtd-por-dia-tipo"
qtd_por_dia_municipio = [get_dataframe(api_endpoint, id_municipio=idm) for idm in municipios.id]
qtd_por_dia = pd.concat(qtd_por_dia_municipio, axis=0, ignore_index=True, sort=True)
qtd_por_dia['data'] = pd.to_datetime(qtd_por_dia['data'], format='%d/%m/%Y')
qtd_por_dia.head(3)
qtd_por_dia.sort_values(['data','idMunicipio'], inplace=True)

In [32]:
display("Menor data {} e maior data {}".format(qtd_por_dia.data.min(), qtd_por_dia.data.max()))
display("Quantidade de municípios com código vazio: {}".format(qtd_por_dia[qtd_por_dia.idMunicipio.isna()].shape[0]))
display(qtd_por_dia.head(5))

'Menor data 2019-03-16 00:00:00 e maior data 2020-08-17 00:00:00'

'Quantidade de municípios com código vazio: 0'

Unnamed: 0,data,idMunicipio,quantidade,tipo
473,2019-03-16,230440,1.0,Suspeito
474,2020-01-30,230440,1.0,Suspeito
104,2020-02-23,230120,1.0,Suspeito
475,2020-02-27,230440,5.0,Suspeito
422,2020-02-28,230428,1.0,Suspeito


### Inconsistência: Dados de 2019 e no futuro 
Inconsistência na informação: dados de Março de 2019 e Agosto de 2020.  
Reportado em: https://github.com/EscolaDeSaudePublica/coronavirusAPI/issues/17#issuecomment-612434411

### Limpeza de dados inconsistentes

In [33]:
display(qtd_por_dia.shape)
inicio = datetime(year=2020,month=2, day=1)
fim    = datetime.today()
qtd_por_dia = qtd_por_dia[(qtd_por_dia['data'] > inicio) & (qtd_por_dia['data'] <= fim)]
display(qtd_por_dia.shape)

(1475, 4)

(1463, 4)

In [34]:
# fig = px.bar(qtd_por_dia, x="data", y="quantidade", color='tipo', barmode='group')
# fig.show()

In [35]:
# qtd_por_dia['log_quantidade'] = np.log(qtd_por_dia.quantidade)
# fig = px.bar(qtd_por_dia, x="data", y="log_quantidade", color='tipo', barmode='group')
# fig.show()

In [36]:
qtd_por_dia = municipio_macro_regiao.merge(qtd_por_dia, on='idMunicipio')

In [37]:
display(qtd_por_dia.shape)
display(qtd_por_dia.head(3))

(1458, 11)

Unnamed: 0,idMunicipio,idMacroRegiao,idRegiaoSaude,municipio,lat,lon,macroRegiao,regiaoSaude,data,quantidade,tipo
0,230010,8,19,ABAIARA,-735542,-3904079,CARIRI,19ª REGIÃO BREJO SANTO,2020-04-02,1.0,Suspeito
1,230010,8,19,ABAIARA,-735542,-3904079,CARIRI,19ª REGIÃO BREJO SANTO,2020-04-07,1.0,Suspeito
2,230200,8,19,BARRO,-717277,-3877582,CARIRI,19ª REGIÃO BREJO SANTO,2020-03-19,1.0,Suspeito


### Exportar Dados para Excel / CSV

In [38]:
# Salvando o número de casos por munício em formato CSV
df_parcial.to_csv('../data/dados_por_municipio_{}.csv'.format(date.today()))
# Salvando o número casos por dia e municipio CSV
qtd_por_dia.to_csv('../data/dados_por_municipio_dia_{}.csv'.format(date.today()))

In [39]:
# df = df_parcial
# fig = px.scatter_mapbox(df, lat="latitude", lon="longitude", 
#                         hover_name="descricaoMunicipio", 
#                         hover_data=["descricaoMunicipio", "qtdSuspeito","qtdObito", "qtdConfirmado"], 
#                         zoom=5, height=300)

# fig.update_layout(mapbox_style="open-street-map")
# fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
# fig.show()

In [40]:
fig = px.scatter_mapbox(df, lat="latitude", lon="longitude",
                        color="qtdConfirmado", size="qtdSuspeito",
                        hover_data=["descricaoMunicipio", "qtdSuspeito","qtdObito", "qtdConfirmado"],
                  color_continuous_scale=px.colors.carto.Armyrose, size_max=100, zoom=5)
fig.update_layout(mapbox_style="open-street-map") #stamen-terrain
fig.show()

NameError: name 'px' is not defined

In [None]:
import plotly.express as px
df = px.data.gapminder()
px.scatter(df, x="gdpPercap", y="lifeExp", animation_frame="year", animation_group="country",
           size="pop", color="continent", hover_name="country",
           log_x=True, size_max=55, range_x=[100,100000], range_y=[25,90])

In [None]:
quakes = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/earthquakes-23k.csv')

import plotly.graph_objects as go
fig = go.Figure(go.Densitymapbox(lat=quakes.Latitude, lon=quakes.Longitude, z=quakes.Magnitude,
                                 radius=10))
fig.update_layout(mapbox_style="stamen-terrain", mapbox_center_lon=180)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()