# Análise de Dados 🕵🏽 🎲 em Alto Desempenho 🚀 🧞‍♂️

## Sumário da Aula

<ul>
    <li>Pandas 🐼</li>
    <ul>
        <li>Recapitulando Aspectos do Pandas 🐼</li>
        <li>DataFrame 📽️</li>
        <li>Descrição dos Dados ✍️ 🎲</li>
    </ul>
    <li>Juntando as Peças 🧩</li>
    <ul>
        <li>(Fontes de Dados 🚰 ➕ Manipulação 🪡 ➕ Análise de Dados 🕵🏽) <sup>Alto Desempenho 🚀 🧞‍♂️</li>
    </ul>
</ul>

## Pandas 🐼

### Biblioteca Principal 📚: pandas

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="100" style="float: right;">

In [1]:
!pip install --upgrade pandas --quiet

In [2]:
import pandas as pd

### Recapitulando Aspectos do Pandas 🐼

<ul>
    <li>Análise de Dados 🕵🏽 🎲 em Alto Desempenho 🚀 🧞‍♂️</li>
    <li>Frequentemente utilizado com bibliotecas:
        <ul>
            <li>de computação numérica, e.g. NumPy, SciPy;</li>
            <li>analíticas, e.g. como statsmodels e scikit-learn</li>
            <li>de visualização de dados, e.g. matplotlib e seaborn.</li>
        </ul>
    </li>
    <li>Adota o estilo idiomático de Computação Vetorizada 🧮 do NumPy, especialmente:
        <ul>
            <li>função baseada em vetores (<i>arrays</i>)</li>
            <li>preferência por processamento de dados sem laços <i>for</i></li>
        </ul>
    </li>
    <li>No entanto, há uma diferença significativa:
        <ul>
            <li>Pandas é desenhado para trabalhar com dados tabulares e heterogêneos; e</li>
            <li>NumPy é desenhado para trabalhar com dados numéricos homogêneos.</li>
        </ul>
    </li>
    <li>É maduro, aplicável em um vasto cenário de casos de usos reais e tem uma comunidade com mais de 2500 colaboradores</li>
</ul>

👉 Referência: <a href='https://pandas.pydata.org/'>pandas.pydata.org</a>

👉 Pandas <a href='https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf'>cheat sheet</a>

### DataFrame 📽️

<ul>
    <li>Objeto de <b>duas</b> dimensões equivalente ao <b>2D ndarray</b> do NumPy</li>
    <ul>
        <li>contém uma coleção de colunas ordenadas; onde</li>
        <ul>
            <li> cada coluna pode conter diferentes tipos de dados (numérico, string, booleano, entre outros)</li>
        </ul>
        <li>dois vetores (<i>arrays</i>) de rótulos chamados de índice de linha e índice de coluna</li>
    </ul>
</ul>

<img src="https://www.w3resource.com/w3r_images/pandas-series-image.svg" style="margin-left: auto; margin-right: auto;">

👉 Referência: <a href='https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html'>pandas.DataFrame</a>

<pre>Você pode criar um DataFrame a partir de um dicionário de listas...</pre>

In [3]:
data = {"state": ["Ohio", "Ohio", "Ohio", 
                  "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


<pre>... ou a partir de um dicionário de dicionários</pre>

👉 dica: as chaves externas serão os nomes das colunas e as chaves internas serão os nomes das linhas

In [4]:
pd.DataFrame({"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
              "Nevada": {2001: 2.4, 2002: 2.9}})

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


<pre>Você pode mostrar apenas as primeiras linhas (ou as últimas linhas) de um DataFrame</pre>

In [5]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [6]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


<pre>Você pode ordenar as colunas de um DataFrame ao especificar a ordem/sequência desejada</pre>

In [7]:
frame = pd.DataFrame(data, columns=["year", "state", "pop"])
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


<pre>Você pode recuperar uma coluna do DataFrame como uma Serie</pre>

👉 dica: habitue-se a usar a notação entre colchetes <b>[ ]</b> porque a notação com ponto <b>.</b> não funciona para colunas com espaço

In [8]:
frame['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [9]:
frame.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

<pre>Você pode recuperar uma linha do DataFrame como uma Serie</pre>

In [10]:
frame.loc[0]

year     2000
state    Ohio
pop       1.5
Name: 0, dtype: object

In [11]:
frame.iloc[0]

year     2000
state    Ohio
pop       1.5
Name: 0, dtype: object

<pre>Você pode inserir ou modificar uma coluna do DataFrame utilizando a operação de atribuição</pre>

👉 dica: ao atribuir valores a uma coluna que não existe, ela será automaticamente criada com os valores designados

In [12]:
frame['debt'] = 16.5
frame

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [13]:
frame["debt"] = range(6)
frame

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0
1,2001,Ohio,1.7,1
2,2002,Ohio,3.6,2
3,2001,Nevada,2.4,3
4,2002,Nevada,2.9,4
5,2003,Nevada,3.2,5


<pre>Você pode excluir colunas da mesma forma que em um dicionário</pre>

In [14]:
keep_debt_safe = frame['debt']

In [15]:
del frame['debt']
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [16]:
frame['debt'] = keep_debt_safe

<pre>Você pode transpor um DataFrame (trocar linhas por colunas e vice-versa)</pre>

👉 dica: ao transpor, você pode perder a informação do tipo de dados da coluna; portanto, cuidado.

In [17]:
frame.T

Unnamed: 0,0,1,2,3,4,5
year,2000,2001,2002,2001,2002,2003
state,Ohio,Ohio,Ohio,Nevada,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9,3.2
debt,0,1,2,3,4,5


<pre>Você pode acessar os valores do DataFrame por meio do atribute <i>values</i></pre>

👉 dica: curiosamente (ou não) os valores vem em um objeto <b>2D ndarray</b> do NumPy

In [18]:
frame.values

array([[2000, 'Ohio', 1.5, 0],
       [2001, 'Ohio', 1.7, 1],
       [2002, 'Ohio', 3.6, 2],
       [2001, 'Nevada', 2.4, 3],
       [2002, 'Nevada', 2.9, 4],
       [2003, 'Nevada', 3.2, 5]], dtype=object)

In [19]:
type(frame.values)

numpy.ndarray

<pre>Você pode remover uma linha ou uma coluna do DataFrame </pre>

In [20]:
frame = frame.drop(index=[0, 5])
frame

Unnamed: 0,year,state,pop,debt
1,2001,Ohio,1.7,1
2,2002,Ohio,3.6,2
3,2001,Nevada,2.4,3
4,2002,Nevada,2.9,4


In [21]:
frame = frame.drop(columns=['debt'])
frame

Unnamed: 0,year,state,pop
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


<pre>Você pode atribuir nomes aos índices e às colunas</pre>

In [22]:
frame = frame.rename(columns={'year': 'ano', 'state': 'estado'}, 
                     index={0: 'zero', 1: 'um', 2: 'dois', 
                            3: 'três', 4: 'quatro'})
frame

Unnamed: 0,ano,estado,pop
um,2001,Ohio,1.7
dois,2002,Ohio,3.6
três,2001,Nevada,2.4
quatro,2002,Nevada,2.9


### Descrição dos Dados ✍️ 🎲

<ul>
    <li>Objetos pandas vêm com um conjunto de métodos matemáticos e estatísticos comuns</li>
    <li>Os métodos do pandas podem tratar nativamente dados <i>NA</i><br />(diferentemente dos mesmos métodos encontrados em NumPy)</li>
</ul>

In [23]:
from numpy import nan
df = pd.DataFrame([[1.4, nan], [7.1, -4.5], 
                   [nan, nan], [0.75, -1.3]], \
                  index=["a", "b", "c", "d"], \
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


<pre>Você pode obter a soma dos valores das colunas...</pre>

<ul>
    <li>quando a coluna inteira contém apenas valores <i>NA</i>, a soma é <b>zero</b>; </li>
    <li>nos demais casos, o(s) valor(es) <i>NA</i> é(são) descartado(s) para fins de soma.</li>
</ul>

👉 dica: com o parâmetro <i>skipna=False</i>, na presença de ao menos um valor ausente/indisponível, o resultado da soma é ausente/indisponível.

In [24]:
df.sum(axis='index')

one    9.25
two   -5.80
dtype: float64

In [25]:
df.sum(axis='index', skipna=False)

one   NaN
two   NaN
dtype: float64

<pre>... bem como obter a soma dos valores das linhas</pre>

<ul>
    <li>quando a linha inteira contém apenas valores <i>NA</i>, a soma é <b>zero</b>; </li>
    <li>nos demais casos, o(s) valor(es) <i>NA</i> é(são) descartado(s) para fins de soma.</li>
</ul>

👉 dica: com o parâmetro <i>skipna=False</i>, na presença de ao menos um valor ausente/indisponível, o resultado da soma é ausente/indisponível.

In [26]:
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [27]:
df.sum(axis="columns", skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

<pre>Você pode obter a média aritmética dos valores das colunas (e linhas)</pre>

<ul>
    <li>quando a coluna (ou linha) inteira contém apenas valores <i>NA</i>, a média é <b>ausente/indisponível</b>; </li>
    <li>nos demais casos, o(s) valor(es) <i>NA</i> é(são) descartado(s) para fins de média.</li>
</ul>

👉 dica: lembre-se que os métodos do pandas podem tratar nativamente dados <i>NA</i> com o <i>skipna</i>

In [28]:
df.mean(axis="index")

one    3.083333
two   -2.900000
dtype: float64

In [29]:
df.mean(axis="columns")

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

<pre>Você pode usar métodos de estatística indireta, e.g. obter o índice com menor (resp. maior) valor</pre>

In [30]:
df.idxmin(axis='index')

one    d
two    b
dtype: object

In [31]:
df.idxmax(axis='index')

one    b
two    d
dtype: object

<pre>Você pode calcular valores acumulados</pre>

In [32]:
df.cumsum(axis='index')

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


<pre>Você pode produzir um resumo estatístico dos seus dados</pre>

👉 dica: aqui não temos o parâmetro <i>axis</i>, então use a transposta para produzir o resumo estatístico das linhas

In [33]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [34]:
df.T.describe()

Unnamed: 0,a,b,c,d
count,1.0,2.0,0.0,2.0
mean,1.4,1.3,,-0.275
std,,8.202439,,1.449569
min,1.4,-4.5,,-1.3
25%,1.4,-1.6,,-0.7875
50%,1.4,1.3,,-0.275
75%,1.4,4.2,,0.2375
max,1.4,7.1,,0.75


<pre>🍒 🎂 Você pode produzir um resumo estatístico dos seus dados (mesmo quando não são numéricos!)</pre>

In [35]:
df = pd.Series(["a", "a", "b", "c"] * 4)
df

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [36]:
df.describe()

count     16
unique     3
top        a
freq       8
dtype: object

#### Quadro-resumo dos métodos de descrição dos dados

<table>
    <tr><th>Método</th><th>Descrição</th></tr>
    <tr><td>count</td><td>Número de valores presentes e disponíveis</td></tr>
    <tr><td>describe</td><td>Resumo estatístico dos dados</td></tr>
    <tr><td>min, max</td><td>Calcula os valores mínimo e máximo</td></tr>
    <tr><td>argmin, argmax</td><td>Computa localizações de índice (inteiros) em que o valor mínimo ou máximo é obtido, respectivamente</td></tr>
    <tr><td>not</td><td>disponível em objetos DataFrame</td></tr>
    <tr><td>idxmin, idxmax</td><td>Computa rótulos de índice nos quais o valor mínimo ou máximo é obtido, respectivamente</td></tr>
    <tr><td>quantile</td><td>Calcula o quantil da amostra variando de 0 a 1 (padrão: 0,5)</td></tr>
    <tr><td>sum</td><td>Soma dos valores</td></tr>
    <tr><td>mean</td><td>Média aritmética dos valores</td></tr>
    <tr><td>median</td><td>Mediana aritmética (quantil de 50%) dos valores</td></tr>
    <tr><td>mad</td><td>Desvio absoluto médio do valor médio</td></tr>
    <tr><td>prod</td><td>Produto de todos os valores</td></tr>
    <tr><td>var</td><td>Variância dos valores</td></tr>
    <tr><td>std</td><td>Desvio padrão dos valores</td></tr>
    <tr><td>skew</td><td>Assimetria (terceiro momento) dos valores</td></tr>
    <tr><td>kurt</td><td>Curtose (quarto momento) dos valores</td></tr>
    <tr><td>cumsum</td><td>Soma cumulativa de valores</td></tr>
    <tr><td>cummin, cummax</td><td>Mínimo e máximo cumulativo de valores, respectivamente</td></tr>
    <tr><td>cumprod</td><td>Produto cumulativo de valores</td></tr>
    <tr><td>diff</td><td>Calcula a primeira diferença aritmética (útil para séries temporais)</td></tr>
    <tr><td>pct_change</td><td>Calcula as alterações percentuais</td></tr>
</table>

## Juntando as Peças 🧩

### (Fontes de Dados 🚰 ➕ Manipulação 🪡 ➕ Análise de Dados 🕵🏽) <sup>Alto Desempenho 🚀 🧞‍♂️</sup>

#### Funções Auxiliares

In [37]:
import os, json, sqlite3, pandas as pd

In [38]:
def build_path(subfolder = 'raw'):
    folderpath = os.path.join(os.getcwd(), os.pardir, 
                              'project', 'data', subfolder)
    folderpath = os.path.abspath(folderpath)
    if not os.path.exists(folderpath):
        os.makedirs(folderpath)
    return folderpath

#### csv

In [39]:
def get_estados_georreferenciamento(
        filename='estados_georreferenciamento.csv'):
    filepath = os.path.join(build_path(), filename)
    
    return pd.read_csv(filepath)

In [40]:
def get_municipios_georreferenciamento(
        filename='municipios_georreferenciamento.csv'):
    filepath = os.path.join(build_path(), filename)
    
    return pd.read_csv(filepath)

In [41]:
def get_covid_infections_and_deaths(
        filename='ALL_HIST_PAINEL_COVID.csv'):
    filepath = os.path.join(build_path(), filename)
    
    return pd.read_csv(filepath, sep=';', parse_dates = ['data'],\
                       dtype={'codmun': 'Int64', \
                              'codRegiaoSaude': 'Int64', \
                              'populacaoTCU2019': 'Int64', \
                              'casosAcumulado': 'Int64', \
                              'Recuperadosnovos': 'Int64', \
                              'emAcompanhamentoNovos': 'Int64', \
                              'interior/metropolitana': 'Int64'}, \
                       encoding='utf-8')

#### Informações de Georreferenciamento

##### Unidades Federativas

In [42]:
estados_georreferenciamento = get_estados_georreferenciamento()

In [43]:
estados_georreferenciamento.head()

Unnamed: 0,codigo_uf,uf,nome,latitude,longitude,regiao
0,11,RO,Rondônia,-10.83,-63.34,Norte
1,12,AC,Acre,-8.77,-70.55,Norte
2,13,AM,Amazonas,-3.47,-65.1,Norte
3,14,RR,Roraima,1.99,-61.33,Norte
4,15,PA,Pará,-3.79,-52.48,Norte


In [44]:
estados_georreferenciamento.dtypes

codigo_uf      int64
uf            object
nome          object
latitude     float64
longitude    float64
regiao        object
dtype: object

In [45]:
estados_georreferenciamento.describe()

Unnamed: 0,codigo_uf,latitude,longitude
count,27.0,27.0,27.0
mean,29.111111,-12.381111,-48.41037
std,13.024631,8.476122,9.291479
min,11.0,-30.17,-70.55
25%,19.0,-18.645,-52.99
50%,27.0,-10.57,-48.26
75%,38.0,-6.205,-41.025
max,53.0,1.99,-36.59


##### Municípios

In [46]:
municipios_georreferenciamento = get_municipios_georreferenciamento()

In [47]:
municipios_georreferenciamento.head()

Unnamed: 0,codigo_ibge,nome,latitude,longitude,capital,codigo_uf,siafi_id,ddd,fuso_horario
0,5200050,Abadia de Goiás,-16.7573,-49.4412,0,52,1050,62,America/Sao_Paulo
1,3100104,Abadia dos Dourados,-18.4831,-47.3916,0,31,4001,34,America/Sao_Paulo
2,5200100,Abadiânia,-16.197,-48.7057,0,52,9201,62,America/Sao_Paulo
3,3100203,Abaeté,-19.1551,-45.4444,0,31,4003,37,America/Sao_Paulo
4,1500107,Abaetetuba,-1.72183,-48.8788,0,15,401,91,America/Sao_Paulo


In [48]:
municipios_georreferenciamento.dtypes

codigo_ibge       int64
nome             object
latitude        float64
longitude       float64
capital           int64
codigo_uf         int64
siafi_id          int64
ddd               int64
fuso_horario     object
dtype: object

In [49]:
municipios_georreferenciamento.describe()

Unnamed: 0,codigo_ibge,latitude,longitude,capital,codigo_uf,siafi_id,ddd
count,5570.0,5570.0,5570.0,5570.0,5570.0,5570.0,5570.0
mean,3253591.0,-16.449101,-46.231012,0.004847,32.377738,4519.878276,57.099461
std,984910.3,8.287274,6.408578,0.069461,9.833862,3050.156056,25.42275
min,1100015.0,-33.6866,-72.8997,0.0,11.0,1.0,11.0
25%,2512126.0,-22.843875,-50.878525,0.0,25.0,1595.5,35.0
50%,3146280.0,-18.0943,-46.5232,0.0,31.0,4382.0,55.0
75%,4119190.0,-8.496445,-41.410775,0.0,41.0,7180.5,82.0
max,5300108.0,4.60314,-32.4107,1.0,53.0,9997.0,99.0


#### Informações de Casos e Óbitos por Covid-19 no Brasil

In [50]:
covid_infections_and_deaths = get_covid_infections_and_deaths()

In [51]:
covid_infections_and_deaths.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2023-07-01,26,210147125,37682660,11240,704159,195,36943287,35214,
1,Brasil,,,76,,,,2023-07-02,27,210147125,37682660,0,704159,0,36939608,38893,
2,Brasil,,,76,,,,2023-07-03,27,210147125,37682660,0,704159,0,36935925,42576,
3,Brasil,,,76,,,,2023-07-04,27,210147125,37682660,0,704159,0,36935925,42576,
4,Brasil,,,76,,,,2023-07-05,27,210147125,37682660,0,704159,0,36941392,37109,


In [52]:
covid_infections_and_deaths.dtypes

regiao                            object
estado                            object
municipio                         object
coduf                              int64
codmun                             Int64
codRegiaoSaude                     Int64
nomeRegiaoSaude                   object
data                      datetime64[ns]
semanaEpi                          int64
populacaoTCU2019                   Int64
casosAcumulado                     Int64
casosNovos                         int64
obitosAcumulado                    int64
obitosNovos                        int64
Recuperadosnovos                   Int64
emAcompanhamentoNovos              Int64
interior/metropolitana             Int64
dtype: object

In [53]:
covid_infections_and_deaths.describe()

Unnamed: 0,coduf,codmun,codRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
count,7193188.0,7156480.0,7129600.0,7193188,7193188.0,7166308.0,7193188.0,7193188.0,7193188.0,7193188.0,1310.0,1310.0,7129600.0
mean,32.36019,325258.01413,32403.123698,2021-12-26 10:06:05.846130944,26.59265,114423.505346,11999.598133,15.76365,262.7686,0.2943514,20928346.324427,517280.235878,0.0693
min,11.0,110000.0,11001.0,2020-02-25 00:00:00,1.0,781.0,0.0,-336837.0,0.0,-9114.0,0.0,-6206.0,0.0
25%,25.0,251200.0,25010.0,2021-02-09 00:00:00,15.0,5474.0,281.0,0.0,5.0,0.0,7368230.25,127228.25,0.0
50%,31.0,314610.0,31059.0,2021-12-26 00:00:00,27.0,11695.0,875.0,0.0,14.0,0.0,21413060.5,399018.0,0.0
75%,41.0,411915.0,41015.0,2022-11-11 00:00:00,38.0,25765.0,2423.0,1.0,42.0,0.0,34067346.25,743322.25,0.0
max,76.0,530010.0,53001.0,2023-09-27 00:00:00,53.0,210147125.0,37796956.0,336959.0,705775.0,9115.0,37091152.0,11232608.0,1.0
std,9.874141,98535.031084,9836.341996,,14.28004,2970244.401195,361036.997732,725.4447,7732.456,16.77708,13293052.750054,585175.189635,0.253963


#### json

In [54]:
#fail
def get_estados_codigos(filename='estados_codigos.json'):
    filepath = os.path.join(build_path(), filename)
    
    return pd.read_json(filepath)

#solution
def get_estados_codigos(filename='estados_codigos.json'):
    filepath = os.path.join(build_path(), filename)
    
    with open(filepath) as jsonfile:
        return pd.json_normalize(json.load(jsonfile))

In [55]:
#fail
def get_estados_caracteristicas(filename='estados_caracteristicas.json'):
    filepath = os.path.join(build_path(), filename)

    return pd.read_json(filepath)

#solution
def get_estados_caracteristicas(filename='estados_caracteristicas.json'):
    filepath = os.path.join(build_path(), filename)

    with open(filepath) as jsonfile:
        return pd.json_normalize(json.load(jsonfile), \
                                 record_path='characteristics', \
                                 record_prefix='characteristics_', \
                                 meta='state',\
                                 meta_prefix='state_')

In [56]:
#big fail
def get_estados_vacinacao(filename='estados_vacinacao.json'):
    filepath = os.path.join(build_path(), filename)

    return pd.read_json(filepath)

#solution
def get_estados_vacinacao(filename='estados_vacinacao.json'):
    filepath = os.path.join(build_path(), filename)

    with open(filepath) as jsonfile:
        df = pd.json_normalize(json.load(jsonfile)['Paciente_Estado']['buckets'], \
                               record_path=['Data_Aplicacao_Vacina', ['buckets']], \
                               meta=['key', 'doc_count'], \
                               record_prefix='vacinacao_', \
                               meta_prefix='estado_').convert_dtypes()
        df['vacinacao_key'] = pd.to_datetime(df['vacinacao_key'], unit='ms')
        return df

In [57]:
#big fail
def get_municipios_vacinacao(filename='municipios_vacinacao.json'):
    filepath = os.path.join(build_path(), filename)

    return pd.read_json(filepath)

#solution
def get_municipios_vacinacao(filename='municipios_vacinacao.json'):
    filepath = os.path.join(build_path(), filename)

    with open(filepath) as jsonfile:
        df = pd.json_normalize(json.load(jsonfile)['Paciente_Municipio']['buckets'], \
                               record_path=['Data_Aplicacao_Vacina', ['buckets']], \
                               meta=['key', 'doc_count'], \
                               record_prefix='vacinacao_', \
                               meta_prefix='municipio_',).convert_dtypes()
        df['vacinacao_key'] = pd.to_datetime(df['vacinacao_key'], unit='ms')
        return df

##### Características das Unidades da Federação

In [58]:
estados_caracteristicas = get_estados_caracteristicas()

In [59]:
estados_caracteristicas.head()

Unnamed: 0,characteristics_label,characteristics_value,characteristics_measure,state_state
0,Governador,MARCOS JOSÉ ROCHA DOS SANTOS,,ro
1,Capital,Porto Velho,,ro
2,Gentílico,rondoniense ou rondoniano,,ro
3,Área Territorial,"237.754,172",km²,ro
4,População residente,1.581.016,pessoas,ro


In [60]:
estados_caracteristicas.dtypes

characteristics_label      object
characteristics_value      object
characteristics_measure    object
state_state                object
dtype: object

In [61]:
estados_caracteristicas.describe()

Unnamed: 0,characteristics_label,characteristics_value,characteristics_measure,state_state
count,324,324.0,324.0,324
unique,12,320.0,8.0,27
top,Governador,1.01,,ro
freq,27,2.0,108.0,12


#### Dados de Vacinação

##### Unidades Federativas

In [62]:
estados_vacinacao = get_estados_vacinacao()

In [63]:
estados_vacinacao.head()

Unnamed: 0,vacinacao_key_as_string,vacinacao_key,vacinacao_doc_count,estado_key,estado_doc_count
0,2023-09-27T00:00:00.000Z,2023-09-27,1804,SP,167868829
1,2023-09-26T00:00:00.000Z,2023-09-26,2081,SP,167868829
2,2023-09-25T00:00:00.000Z,2023-09-25,1968,SP,167868829
3,2023-09-24T00:00:00.000Z,2023-09-24,5,SP,167868829
4,2023-09-23T00:00:00.000Z,2023-09-23,400,SP,167868829


In [64]:
estados_vacinacao.dtypes

vacinacao_key_as_string    string[python]
vacinacao_key              datetime64[ms]
vacinacao_doc_count                 Int64
estado_key                 string[python]
estado_doc_count                    Int64
dtype: object

In [65]:
estados_vacinacao.describe()

Unnamed: 0,vacinacao_key,vacinacao_doc_count,estado_doc_count
count,30386,30386.0,30386.0
mean,2021-04-06 20:43:28.359000,19069.044231,23504207.3938
min,1899-12-30 00:00:00,1.0,1663183.0
25%,2021-06-01 00:00:00,252.0,7393061.0
50%,2022-03-10 00:00:00,3583.5,11222771.0
75%,2022-12-16 00:00:00,16356.0,29892356.0
max,2023-09-27 00:00:00,1418733.0,167868829.0
std,,51441.317067,33654814.375997


##### Municípios

In [66]:
municipios_vacinacao = get_municipios_vacinacao()

In [67]:
municipios_vacinacao.head()

Unnamed: 0,vacinacao_key_as_string,vacinacao_key,vacinacao_doc_count,municipio_key,municipio_doc_count
0,2023-09-27T00:00:00.000Z,2023-09-27,361,355030,46490089
1,2023-09-26T00:00:00.000Z,2023-09-26,595,355030,46490089
2,2023-09-25T00:00:00.000Z,2023-09-25,615,355030,46490089
3,2023-09-23T00:00:00.000Z,2023-09-23,112,355030,46490089
4,2023-09-22T00:00:00.000Z,2023-09-22,659,355030,46490089


In [68]:
municipios_vacinacao.dtypes

vacinacao_key_as_string    string[python]
vacinacao_key              datetime64[ms]
vacinacao_doc_count                 Int64
municipio_key              string[python]
municipio_doc_count                 Int64
dtype: object

In [69]:
municipios_vacinacao.describe()

Unnamed: 0,vacinacao_key,vacinacao_doc_count,municipio_doc_count
count,61362,61362.0,61362.0
mean,2022-02-13 06:35:00.088000,3527.839722,3821753.401291
min,1900-08-21 00:00:00,1.0,1154376.0
25%,2021-07-29 00:00:00,91.0,1382455.0
50%,2022-04-11 00:00:00,1022.5,2017416.0
75%,2022-12-26 00:00:00,3484.0,3392438.0
max,2023-09-27 00:00:00,316422.0,46490089.0
std,,10389.366483,6626675.520003


#### sqlite

In [70]:
def get_municipios_codigos(filename='municipios_codigos.db'):
    filepath = os.path.join(build_path(), filename)

    conn = sqlite3.connect(filepath)
    municipios_codigos = pd.read_sql_query('select * from ibge', conn, index_col='id')

    return municipios_codigos

#### Código do IBGE

##### Unidades Federativas

In [71]:
estados_codigos = get_estados_codigos()

In [72]:
estados_codigos.head()

Unnamed: 0,id,sigla,nome,regiao.id,regiao.sigla,regiao.nome
0,11,RO,Rondônia,1,N,Norte
1,12,AC,Acre,1,N,Norte
2,13,AM,Amazonas,1,N,Norte
3,14,RR,Roraima,1,N,Norte
4,15,PA,Pará,1,N,Norte


In [73]:
estados_codigos.dtypes

id               int64
sigla           object
nome            object
regiao.id        int64
regiao.sigla    object
regiao.nome     object
dtype: object

In [74]:
estados_codigos.describe()

Unnamed: 0,id,regiao.id
count,27.0,27.0
mean,29.111111,2.555556
std,13.024631,1.395965
min,11.0,1.0
25%,19.0,1.5
50%,27.0,2.0
75%,38.0,3.5
max,53.0,5.0


##### Municípios

In [75]:
municipios_codigos = get_municipios_codigos()

In [76]:
municipios_codigos.head()

Unnamed: 0_level_0,state,city
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1100015,RO,Alta Floresta D''Oeste
1100379,RO,Alto Alegre dos Parecis
1100403,RO,Alto Paraíso
1100346,RO,Alvorada D''Oeste
1100023,RO,Ariquemes


In [77]:
municipios_codigos.dtypes

state    object
city     object
dtype: object

In [78]:
municipios_codigos.describe()

Unnamed: 0,state,city
count,5570,5570
unique,27,5298
top,MG,Bom Jesus
freq,853,5
