# Processando dados da vacinação 

Neste notebook você encontra todos os scripts para processamento dos boletins da vacinação publicados quase que diariamente pela secretaria de estado da saúde. 

Os boletins são publicados em formato excel e baixados manualmente para a pasta input. Os boletins forma renomeados para o formato **YYYY-MM-DD.xlsx**. 

In [160]:
import pandas as pd

A partir dos boletins publicados vai ser gerada uma base única que informe para cada dia, o total de doses aplicadas em cada um dos municípios de Sergipe. Para cada arquivo, as colunas de interesse serão a do nome do município e a do total de doses aplicadas. No entanto, essas colunas de interesse vão mudando a medida que a vacinação vai avançando com a inclusão do total por doses aplicadas. Sendo assim, essas colunas de interesse vão mudar a depender do arquivo que esteja sendo processando. 

In [161]:
# Coluna de nome na primeira posição e coluna de total na última coluna
type1 = ['2021-02-03','2020-02-08']
type2 = ['2021-02-09','2020-03-08']
type3 = ['2021-03-11', '2020-06-27']
type4 = ['2021-06-28', '2020-07-06']
type5 = ['2021-07-07','2020-09-23']
type6 = ['2021-09-24']

In [358]:
def process_type1(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=2,header=None)
    data_ = data_.iloc[:, [0,-1]]
    data_ = data_.rename(columns={data_.columns[0]: 'nome_municipio', data_.columns[-1]: 'aplicadas_dose1'})
    data_['nome_municipio'] = data_['nome_municipio'].str.replace("-", " ")
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:].str.strip()
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = 0
    data_['aplicadas_dose_unica'] = 0
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose1'] = 0
    data_['enviadas_dose2'] = 0
    data_['enviadas_dose_unica'] = 0
    data_['enviadas_dose_reforco'] = 0
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    data_.to_csv(output + "/" + file_name + ".csv", index=False)  

In [359]:
process_type1("../input/boletins_vacinacao/2021-02-03.xlsx", "../tmp/boletins_temporarios")

In [361]:
def process_type2(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=9,header=None)
    data_ = data_.iloc[:, [0,-6,-5,-3,-2]]
    data_ = data_.rename(columns={
        data_.columns[0]: 'nome_municipio', 
        data_.columns[1]: 'enviadas_dose1', 
        data_.columns[2]: 'aplicadas_dose1',
        data_.columns[3]: 'enviadas_dose2',
        data_.columns[4]: 'aplicadas_dose2'
    })
    data_ = data_.fillna(0)
    data_['nome_municipio'] = data_['nome_municipio']
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['codigo_municipio'] = 0
    data_['aplicadas_dose_unica'] = 0
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose_unica'] = 0
    data_['enviadas_dose_reforco'] = 0
    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    #data_.to_csv(output + "/" + file_name + ".csv", index=False)

    return data_

In [362]:
process_type2("../input/boletins_vacinacao/2021-02-09.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,0,Amparo de São Francisco,52,22,0,0,42,0,0,0
1,0,Aquidabã,372,134,0,0,241,0,0,0
2,0,Aracaju,23670,11169,0,0,11141,121,0,0
3,0,Arauá,172,74,0,0,82,0,0,0
4,0,Areia Branca,308,131,0,0,201,0,0,0
...,...,...,...,...,...,...,...,...,...,...
70,0,Siriri,133,53,0,0,102,22,0,0
71,0,Telha,79,36,0,0,69,0,0,0
72,0,Tobias Barreto,958,406,0,0,744,45,0,0
73,0,Tomar do Geru,146,54,0,0,107,0,0,0


In [364]:
def process_type3(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,5,6,7,8]]
    data_ = data_.rename(columns={data_.columns[0]: 'nome_municipio', data_.columns[1]: 'enviadas_dose1', data_.columns[2]: 'enviadas_dose2', data_.columns[3]: 'aplicadas_dose1', data_.columns[4]: 'aplicadas_dose2'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['enviadas_dose_unica'] = 0
    data_['enviadas_dose_reforco'] = 0
    data_['aplicadas_dose_unica'] = 0
    data_['aplicadas_dose_reforco'] = 0

    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    #data_.to_csv(output + "/" + file_name + ".csv", index=False)

    return data_

In [365]:
process_type3("../input/boletins_vacinacao/2021-03-11.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,112,52,0,0,94,50,0,0
1,280020,Aquidabã,883,372,0,0,655,299,0,0
2,280030,Aracaju,36560,13230,0,0,33928,12097,0,0
3,280040,Arauá,342,172,0,0,349,130,0,0
4,280050,Areia Branca,608,308,0,0,516,253,0,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,293,133,0,0,302,130,0,0
71,280730,Telha,139,79,0,0,115,75,0,0
72,280740,Tobias Barreto,2098,618,0,0,2162,639,0,0
73,280750,Tomar do Geru,366,146,0,0,290,119,0,0


In [366]:
def process_type4(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,5,6,7,8,-23]]
    data_ = data_.rename(columns={
        data_.columns[0]: 'nome_municipio', 
        data_.columns[1]: 'enviadas_dose1', 
        data_.columns[2]: 'enviadas_dose2', 
        data_.columns[3]: 'aplicadas_dose1', 
        data_.columns[4]: 'aplicadas_dose2', 
        data_.columns[5]: 'aplicadas_dose_unica'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['aplicadas_dose_unica'] = data_['aplicadas_dose_unica'].astype(int)
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose_reforco'] = 0
    data_['enviadas_dose_unica'] = 0


    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    #data_.to_csv(output + "/" + file_name + ".csv", index=False)

    return data_

In [367]:
process_type4("../input/boletins_vacinacao/2021-06-28.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,1020,306,0,0,970,249,0,0
1,280020,Aquidabã,7632,2964,0,0,7191,2450,0,0
2,280030,Aracaju,260259,93970,0,0,265815,75489,3504,0
3,280040,Arauá,3115,1081,0,0,2818,1081,0,0
4,280050,Areia Branca,6132,1701,0,0,6071,1537,0,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,2768,973,0,0,2586,916,0,0
71,280730,Telha,1012,369,0,0,958,367,0,0
72,280740,Tobias Barreto,18689,6537,0,0,16038,6137,0,0
73,280750,Tomar do Geru,3933,1336,0,0,3610,1182,0,0


In [368]:
def process_type5(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','enviadas_dose1', 'enviadas_dose2', 'enviadas_dose_unica', 'enviadas_dose_reforco','aplicadas_dose1','aplicadas_dose2','aplicadas_dose_unica','aplicadas_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,5,6,7,8,9,10]]
    data_ = data_.rename(columns={
        data_.columns[0]: 'nome_municipio', 
        data_.columns[1]: 'enviadas_dose1', 
        data_.columns[2]: 'enviadas_dose2',
        data_.columns[3]: 'enviadas_dose_unica', 
        data_.columns[4]: 'aplicadas_dose1', 
        data_.columns[5]: 'aplicadas_dose2', 
        data_.columns[6]: 'aplicadas_dose_unica'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['enviadas_dose1'] = data_['enviadas_dose1'].astype(int)
    data_['enviadas_dose2'] = data_['enviadas_dose2'].astype(int)
    data_['enviadas_dose_unica'] = data_['enviadas_dose_unica'].astype(int)
    data_['aplicadas_dose1'] = data_['aplicadas_dose1'].astype(int)
    data_['aplicadas_dose2'] = data_['aplicadas_dose2'].astype(int)
    data_['aplicadas_dose_unica'] = data_['aplicadas_dose_unica'].astype(int)
    data_['aplicadas_dose_reforco'] = 0
    data_['enviadas_dose_reforco'] = 0
    

    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    #data_.to_csv(output + "/" + file_name + ".csv", index=False)

    return data_

In [369]:
process_type5("../input/boletins_vacinacao/2021-07-07.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,enviadas_dose1,enviadas_dose2,enviadas_dose_unica,enviadas_dose_reforco,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforco
0,280010,Amparo de São Francisco,1104,546,30,0,1011,250,0,0
1,280020,Aquidabã,8287,3564,210,0,7714,2436,0,0
2,280030,Aracaju,292854,111160,11665,0,286944,83025,4629,0
3,280040,Arauá,3445,1251,100,0,3136,1089,0,0
4,280050,Areia Branca,6726,1971,185,0,6669,1738,198,0
...,...,...,...,...,...,...,...,...,...,...
70,280720,Siriri,3110,1263,75,0,2821,919,0,0
71,280730,Telha,1154,419,45,0,1155,417,46,0
72,280740,Tobias Barreto,21379,7527,1160,0,20659,7231,1159,0
73,280750,Tomar do Geru,4369,1526,135,0,4078,1309,124,0


In [314]:
def process_type6(file, output): 

    file_name = file.split("/")[-1].split(".")[0]
    order_columns = ['codigo_municipio','nome_municipio','total_dose1','total_dose2','total_dose_unica','total_dose_reforco']

    data_ = pd.read_excel(file, skiprows=3,header=None)
    data_ = data_.iloc[:, [0,9,10,11,12]]
    data_ = data_.rename(columns={data_.columns[0]: 'nome_municipio', data_.columns[1]: 'total_dose1', data_.columns[2]: 'total_dose2', data_.columns[3]: 'total_dose_unica', data_.columns[4]: 'total_dose_reforco'})
    data_ = data_.fillna(0)
    data_['codigo_municipio'] = data_['nome_municipio'].str[0:6]
    data_['nome_municipio'] = data_['nome_municipio'].str[7:]
    data_['nome_municipio'] = data_['nome_municipio'].str.strip()
    data_['total_dose1'] = data_['total_dose1'].astype(int)
    data_['total_dose2'] = data_['total_dose2'].astype(int)
    data_['total_dose_unica'] = data_['total_dose_unica'].astype(int)
    data_['total_dose_reforco'] = data_['total_dose_reforco'].astype(int)

    
    data_ = data_.iloc[0:75, :]
    data_ = data_[order_columns]

    

    #data_.to_csv(output + "/" + file_name + ".csv", index=False)

    return data_

In [355]:
process_type6("../input/boletins_vacinacao/2021-11-11.xlsx", "../tmp/boletins_temporarios")

Unnamed: 0,codigo_municipio,nome_municipio,total_dose1,total_dose2,total_dose_unica,total_dose_reforco
0,280010,Amparo de São Francisco,1781,1526,30,144
1,280020,Aquidabã,15444,9881,212,1014
2,280030,Aracaju,504527,396852,12589,39330
3,280040,Arauá,8136,5636,102,419
4,280050,Areia Branca,13777,10504,198,784
...,...,...,...,...,...,...
70,280720,Siriri,5964,4546,75,566
71,280730,Telha,2371,1681,46,155
72,280740,Tobias Barreto,37872,28040,1187,2326
73,280750,Tomar do Geru,8587,5676,139,291
