# Processando dados da vacinação 

Neste notebook você encontra todos os scripts para processamento dos boletins da vacinação publicados quase que diariamente pela secretaria de estado da saúde. 

Os boletins são publicados em formato excel e baixados manualmente para a pasta input. Os boletins forma renomeados para o formato **YYYY-MM-DD.xlsx**. 

In [414]:
import pandas as pd

A partir dos boletins publicados vai ser gerada uma base única que informe para cada dia, o total de doses aplicadas em cada um dos municípios de Sergipe. Para cada arquivo, as colunas de interesse serão a do nome do município e a do total de doses aplicadas. No entanto, essas colunas de interesse vão mudando a medida que a vacinação vai avançando com a inclusão do total por doses aplicadas. Sendo assim, essas colunas de interesse vão mudar a depender do arquivo que esteja sendo processando. 

In [415]:
# Coluna de nome na primeira posição e coluna de total na última coluna
type1 = ['2021-02-03','2020-02-08']
type2 = ['2021-02-09','2020-03-08']
type3 = ['2021-03-11', '2020-06-27']
type4 = ['2021-06-28', '2020-07-06']
type5 = ['2021-07-07','2020-09-23']
type6 = ['2021-09-24','2020-11-12']

In [416]:
def process_type1(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=2,header=None)
    data_ = data_.iloc[:, [0,-1]]
    data_ = data_.rename(columns={data_.columns[0]: 'nome_municipio', data_.columns[-1]: 'aplicadas_dose1'})
    data_ = data_.fillna(0)
    data_['nome_municipio'] = data_['nome_municipio'].str.replace("-", " ")
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:].str.strip()
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = 0
    data_['aplicadas_dose_unica'] = 0
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose1'] = 0
    data_['enviadas_dose2'] = 0
    data_['enviadas_dose_unica'] = 0
    data_['enviadas_dose_reforco'] = 0
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    data_.to_csv(output + "/" + file_name + ".csv", index=False)  

In [359]:
process_type1("../input/boletins_vacinacao/2021-02-03.xlsx", "../tmp/boletins_temporarios")

In [417]:
def process_type2(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=9,header=None)
    data_ = data_.iloc[:, [0,-6,-5,-3,-2]]
    data_ = data_.rename(columns={
        data_.columns[0]: 'nome_municipio', 
        data_.columns[1]: 'enviadas_dose1', 
        data_.columns[2]: 'aplicadas_dose1',
        data_.columns[3]: 'enviadas_dose2',
        data_.columns[4]: 'aplicadas_dose2'
    })
    data_ = data_.fillna(0)
    data_['nome_municipio'] = data_['nome_municipio']
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['codigo_municipio'] = 0
    data_['aplicadas_dose_unica'] = 0
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose_unica'] = 0
    data_['enviadas_dose_reforco'] = 0
    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    data_.to_csv(output + "/" + file_name + ".csv", index=False)

In [413]:
process_type2("../input/boletins_vacinacao/2021-02-10.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,0,Amparo de São Francisco,52,22,0,0,42,0,0,0
1,0,Aquidabã,372,151,0,0,264,120,0,0
2,0,Aracaju,23670,11169,0,0,12245,166,0,0
3,0,Arauá,172,74,0,0,92,0,0,0
4,0,Areia Branca,308,131,0,0,201,31,0,0
...,...,...,...,...,...,...,...,...,...,...
70,0,Siriri,133,53,0,0,130,37,0,0
71,0,Telha,79,36,0,0,69,16,0,0
72,0,Tobias Barreto,958,406,0,0,754,119,0,0
73,0,Tomar do Geru,146,54,0,0,119,12,0,0


In [418]:
def process_type3(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,5,6,7,8]]
    data_ = data_.rename(columns={data_.columns[0]: 'nome_municipio', data_.columns[1]: 'enviadas_dose1', data_.columns[2]: 'enviadas_dose2', data_.columns[3]: 'aplicadas_dose1', data_.columns[4]: 'aplicadas_dose2'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['enviadas_dose_unica'] = 0
    data_['enviadas_dose_reforco'] = 0
    data_['aplicadas_dose_unica'] = 0
    data_['aplicadas_dose_reforco'] = 0

    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    data_.to_csv(output + "/" + file_name + ".csv", index=False)

In [365]:
process_type3("../input/boletins_vacinacao/2021-03-11.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,112,52,0,0,94,50,0,0
1,280020,Aquidabã,883,372,0,0,655,299,0,0
2,280030,Aracaju,36560,13230,0,0,33928,12097,0,0
3,280040,Arauá,342,172,0,0,349,130,0,0
4,280050,Areia Branca,608,308,0,0,516,253,0,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,293,133,0,0,302,130,0,0
71,280730,Telha,139,79,0,0,115,75,0,0
72,280740,Tobias Barreto,2098,618,0,0,2162,639,0,0
73,280750,Tomar do Geru,366,146,0,0,290,119,0,0


In [419]:
def process_type4(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,5,6,7,8,-23]]
    data_ = data_.rename(columns={
        data_.columns[0]: 'nome_municipio', 
        data_.columns[1]: 'enviadas_dose1', 
        data_.columns[2]: 'enviadas_dose2', 
        data_.columns[3]: 'aplicadas_dose1', 
        data_.columns[4]: 'aplicadas_dose2', 
        data_.columns[5]: 'aplicadas_dose_unica'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['aplicadas_dose_unica'] = data_['aplicadas_dose_unica'].astype(int)
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose_reforco'] = 0
    data_['enviadas_dose_unica'] = 0


    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    data_.to_csv(output + "/" + file_name + ".csv", index=False)


In [367]:
process_type4("../input/boletins_vacinacao/2021-06-28.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,1020,306,0,0,970,249,0,0
1,280020,Aquidabã,7632,2964,0,0,7191,2450,0,0
2,280030,Aracaju,260259,93970,0,0,265815,75489,3504,0
3,280040,Arauá,3115,1081,0,0,2818,1081,0,0
4,280050,Areia Branca,6132,1701,0,0,6071,1537,0,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,2768,973,0,0,2586,916,0,0
71,280730,Telha,1012,369,0,0,958,367,0,0
72,280740,Tobias Barreto,18689,6537,0,0,16038,6137,0,0
73,280750,Tomar do Geru,3933,1336,0,0,3610,1182,0,0


In [420]:
def process_type5(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,5,6,7,8,9,10]]
    data_ = data_.rename(columns={
        data_.columns[0]: 'nome_municipio', 
        data_.columns[1]: 'enviadas_dose1', 
        data_.columns[2]: 'enviadas_dose2',
        data_.columns[3]: 'enviadas_dose_unica', 
        data_.columns[4]: 'aplicadas_dose1', 
        data_.columns[5]: 'aplicadas_dose2', 
        data_.columns[6]: 'aplicadas_dose_unica'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['enviadas_dose_unica'] = data_['enviadas_dose_unica'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['aplicadas_dose_unica'] = data_['aplicadas_dose_unica'].astype(int)
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose_reforco'] = 0
    

    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    data_.to_csv(output + "/" + file_name + ".csv", index=False)

In [369]:
process_type5("../input/boletins_vacinacao/2021-07-07.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,1104,546,30,0,1011,250,0,0
1,280020,Aquidabã,8287,3564,210,0,7714,2436,0,0
2,280030,Aracaju,292854,111160,11665,0,286944,83025,4629,0
3,280040,Arauá,3445,1251,100,0,3136,1089,0,0
4,280050,Areia Branca,6726,1971,185,0,6669,1738,198,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,3110,1263,75,0,2821,919,0,0
71,280730,Telha,1154,419,45,0,1155,417,46,0
72,280740,Tobias Barreto,21379,7527,1160,0,20659,7231,1159,0
73,280750,Tomar do Geru,4369,1526,135,0,4078,1309,124,0


In [421]:
def process_type6(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,5,6,7,8,9,10,11,12]]
    data_ = data_.rename(columns={
        data_.columns[0]: 'nome_municipio',
        data_.columns[1]: 'enviadas_dose1', 
        data_.columns[2]: 'enviadas_dose2',
        data_.columns[3]: 'enviadas_dose_unica',  
        data_.columns[4]: 'enviadas_dose_reforco', 
        data_.columns[5]: 'aplicadas_dose1',
        data_.columns[6]: 'aplicadas_dose2', 
        data_.columns[7]: 'aplicadas_dose_unica', 
        data_.columns[8]: 'aplicadas_dose_reforco'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['enviadas_dose_unica'] = data_['enviadas_dose_unica'].astype(int)
    data_['enviadas_dose_reforco'] = data_['enviadas_dose_reforco'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['aplicadas_dose_unica'] = data_['aplicadas_dose_unica'].astype(int)
    data_['aplicadas_dose_reforco'] = data_['aplicadas_dose_reforco'].astype(int)
    

    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    data_.to_csv(output + "/" + file_name + ".csv", index=False)

In [372]:
process_type6("../input/boletins_vacinacao/2021-11-11.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,1823,1603,30,178,1781,1526,30,144
1,280020,Aquidabã,16813,15463,210,1548,15444,9881,212,1014
2,280030,Aracaju,529749,494018,12715,58913,504527,396852,12589,39330
3,280040,Arauá,7510,6663,100,726,8136,5636,102,419
4,280050,Areia Branca,13778,12284,185,1116,13777,10504,198,784
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,6238,5490,75,648,5964,4546,75,566
71,280730,Telha,2439,2165,45,257,2371,1681,46,155
72,280740,Tobias Barreto,38818,33682,1160,4088,37872,28040,1187,2326
73,280750,Tomar do Geru,10403,9335,135,786,8587,5676,139,291


In [422]:
def parse_date_list(list_):
    result_ = [datetime.strptime(x, '%Y-%m-%d') for x in list_]
    return result_

In [423]:
def get_type(date_):
    type1 = parse_date_list(['2021-02-03','2021-02-08'])
    type2 = parse_date_list(['2021-02-09','2021-03-08'])
    type3 = parse_date_list(['2021-03-11', '2021-06-27'])
    type4 = parse_date_list(['2021-06-28', '2021-07-06'])
    type5 = parse_date_list(['2021-07-07','2021-09-23'])
    type6 = parse_date_list(['2021-09-24','2021-11-12'])
    
    if date_ >= type1[0] and date_ <= type1[1]:
        return 1
    elif date_ >= type2[0] and date_ <= type2[1]:
        return 2
    elif date_ >= type3[0] and date_ <= type3[1]:
        return 3
    elif date_ >= type4[0] and date_ <= type4[1]:
        return 4
    elif date_ >= type5[0] and date_ <= type5[1]:
        return 5
    elif date_ >= type6[0] and date_ <= type6[1]:
        return 6
    else:
        return -1

In [425]:
import os 
from datetime import datetime

path_ = "../input/boletins_vacinacao/"
path_temp = "../tmp/boletins_temporarios"

all_files = os.listdir(path_)

for file_ in all_files:
    
    file_split = file_.split(".")
    if file_split[1] == 'xlsx':
        date_ = datetime.strptime(file_split[0], '%Y-%m-%d')
        type_ = get_type(date_)

        file_path = path_ + file_
        
        
        if type_ == 1:
            process_type1(file_path, path_temp)
        elif type_ == 2:
            process_type2(file_path, path_temp)
        elif type_ == 3:
            process_type3(file_path, path_temp)
        elif type_ == 4:
            process_type4(file_path, path_temp)
        elif type_ == 5:
            process_type5(file_path, path_temp)
        elif type_ == 6:
            process_type6(file_path, path_temp)
        

    #print(file_path)
    
    

    

## Processando os arquivos temporários

Para padronização de nomes vamos utilizar a tabela de diretórios brasileiros do site [Base dos Dados](https://basedosdados.org/dataset/br-bd-diretorios-brasil). Os dados foram extraídos a partir da consulta SQL:

```sql
SELECT * FROM `basedosdados.br_bd_diretorios_brasil.municipio` where sigla_uf = 'SE' LIMIT 100
```

Os resultados foram salvos no arquivo .csv `diretorio_brasileiro_se.csv`.

In [426]:
data_diretorio = pd.read_csv("../input/diretorio_brasileiro_se.csv")
data_diretorio

Unnamed: 0,id_municipio,id_municipio_6,id_municipio_tse,id_municipio_rf,id_municipio_bcb,nome,capital_uf,id_comarca,id_regiao_saude,regiao_saude,...,regiao_intermediaria,id_microrregiao,microrregiao,id_mesorregiao,mesorregiao,ddd,id_uf,sigla_uf,nome_uf,regiao
0,2800100,280010,31011,3101,25690.0,Amparo de São Francisco,0,2801603,28007,Propriá,...,Aracaju,28007,Propriá,2803,Leste Sergipano,79,28,SE,Sergipe,Nordeste
1,2800209,280020,31038,3103,40008.0,Aquidabã,0,2800209,28007,Propriá,...,Aracaju,28003,Nossa Senhora das Dores,2802,Agreste Sergipano,79,28,SE,Sergipe,Nordeste
2,2800308,280030,31054,3105,13530.0,Aracaju,1,2800308,28001,Aracaju,...,Aracaju,28011,Aracaju,2803,Leste Sergipano,79,28,SE,Sergipe,Nordeste
3,2800407,280040,31070,3107,26486.0,Arauá,0,2800407,28002,Estância,...,Aracaju,28012,Boquim,2803,Leste Sergipano,79,28,SE,Sergipe,Nordeste
4,2800506,280050,31097,3109,30960.0,Areia Branca,0,2803609,28003,Itabaiana,...,Itabaiana,28004,Agreste de Itabaiana,2802,Agreste Sergipano,79,28,SE,Sergipe,Nordeste
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
70,2807204,280720,32433,3243,5971.0,Siriri,0,2804607,28006,Nossa Senhora do Socorro,...,Aracaju,28008,Cotinguiba,2803,Leste Sergipano,79,28,SE,Sergipe,Nordeste
71,2807303,280730,32450,3245,11745.0,Telha,0,2801603,28007,Propriá,...,Aracaju,28007,Propriá,2803,Leste Sergipano,79,28,SE,Sergipe,Nordeste
72,2807402,280740,32476,3247,17543.0,Tobias Barreto,0,2807402,28004,Lagarto,...,Itabaiana,28005,Tobias Barreto,2802,Agreste Sergipano,79,28,SE,Sergipe,Nordeste
73,2807501,280750,32492,3249,21931.0,Tomar do Geru,0,2801702,28002,Estância,...,Aracaju,28012,Boquim,2803,Leste Sergipano,79,28,SE,Sergipe,Nordeste


In [449]:
data_temp = pd.read_csv("../tmp/boletins_temporarios/2021-02-03.csv")
data_temp

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,AMPARO DE SAO FRANCISCO,0,0,0,0,32,0,0,0
1,280020,AQUIDABA,0,0,0,0,221,0,0,0
2,280030,ARACAJU,0,0,0,0,8908,0,0,0
3,280040,ARAUA,0,0,0,0,72,0,0,0
4,280050,AREIA BRANCA,0,0,0,0,151,0,0,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,SIRIRI,0,0,0,0,100,0,0,0
71,280730,TELHA,0,0,0,0,46,0,0,0
72,280740,TOBIAS BARRETO,0,0,0,0,660,0,0,0
73,280750,TOMAR DO GERU,0,0,0,0,97,0,0,0


In [456]:
data_temp2 = pd.read_csv("../tmp/boletins_temporarios/2021-02-09.csv")
data_temp2

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,0,Amparo de São Francisco,52,22,0,0,42,0,0,0
1,0,Aquidabã,372,134,0,0,241,0,0,0
2,0,Aracaju,23670,11169,0,0,11141,121,0,0
3,0,Arauá,172,74,0,0,82,0,0,0
4,0,Areia Branca,308,131,0,0,201,0,0,0
...,...,...,...,...,...,...,...,...,...,...
70,0,Siriri,133,53,0,0,102,22,0,0
71,0,Telha,79,36,0,0,69,0,0,0
72,0,Tobias Barreto,958,406,0,0,744,45,0,0
73,0,Tomar do Geru,146,54,0,0,107,0,0,0


In [460]:
def update_name_df(df):
    return data_diretorio.loc[data_diretorio['id_municipio_6'] == df['codigo_municipio']]['nome']

def update_codigo_df(df):
    return data_diretorio.loc[data_diretorio['nome'] == df['nome_municipio']]['id_municipio_6']

In [455]:
data_temp['nome_municipio'] = update_name_df(data_temp)
data_temp

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,0,0,0,0,32,0,0,0
1,280020,Aquidabã,0,0,0,0,221,0,0,0
2,280030,Aracaju,0,0,0,0,8908,0,0,0
3,280040,Arauá,0,0,0,0,72,0,0,0
4,280050,Areia Branca,0,0,0,0,151,0,0,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,0,0,0,0,100,0,0,0
71,280730,Telha,0,0,0,0,46,0,0,0
72,280740,Tobias Barreto,0,0,0,0,660,0,0,0
73,280750,Tomar do Geru,0,0,0,0,97,0,0,0


In [461]:
data_temp2['codigo_municipio'] = update_codigo_df(data_temp2)
data_temp2

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,52,22,0,0,42,0,0,0
1,280020,Aquidabã,372,134,0,0,241,0,0,0
2,280030,Aracaju,23670,11169,0,0,11141,121,0,0
3,280040,Arauá,172,74,0,0,82,0,0,0
4,280050,Areia Branca,308,131,0,0,201,0,0,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,133,53,0,0,102,22,0,0
71,280730,Telha,79,36,0,0,69,0,0,0
72,280740,Tobias Barreto,958,406,0,0,744,45,0,0
73,280750,Tomar do Geru,146,54,0,0,107,0,0,0


In [472]:
path_temp = "../tmp/boletins_temporarios"

all_files = os.listdir(path_temp)

all_df = []

for file_ in all_files:
    df_ = pd.read_csv(path_temp + "/" + file_)
    file_split = file_.split(".")
    df_['data'] = file_split[0]
    df_['nome_municipio'] = update_name_df(df_)
    df_['codigo_municipio'] = update_codigo_df(df_)
    all_df.append(df_)

final_ = pd.concat(all_df, ignore_index=True)

In [474]:
final_

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco,data
0,280010.0,Amparo de São Francisco,202,92,0,0,144,50,0,0,2021-03-25
1,280020.0,Aquidabã,1864,664,0,0,1364,367,0,0,2021-03-25
2,280030.0,Aracaju,67240,19280,0,0,49540,13338,0,0,2021-03-25
3,280040.0,Arauá,722,332,0,0,580,182,0,0,2021-03-25
4,280050.0,Areia Branca,1221,491,0,0,932,271,0,0,2021-03-25
...,...,...,...,...,...,...,...,...,...,...,...
16420,280720.0,Siriri,1263,803,0,0,1085,685,0,0,2021-04-21
16421,280730.0,Telha,409,279,0,0,368,221,0,0,2021-04-21
16422,280740.0,Tobias Barreto,7027,4687,0,0,6440,3302,0,0,2021-04-21
16423,280750.0,Tomar do Geru,1406,926,0,0,1242,519,0,0,2021-04-21


In [477]:
final_ = final_.sort_values(by=['data','nome_municipio'])
final_ = final_[['data','codigo_municipio', 'nome_municipio', 'enviadas_dose1',
       'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco',
       'aplicadas_dose1', 'aplicadas_dose2', 'aplicadas_dose_unica',
       'aplicadas_dose_reforco']]

In [476]:
final_.columns

Index(['codigo_municipio', 'nome_municipio', 'enviadas_dose1',
       'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco',
       'aplicadas_dose1', 'aplicadas_dose2', 'aplicadas_dose_unica',
       'aplicadas_dose_reforco', 'data'],
      dtype='object')

In [478]:
final_.to_csv("../output/vacinacao_municipios_se.csv", index=False)