In [2]:
import os

import pandas as pd
import numpy as np

# Explorando os dados

In [3]:
datadir = '../data/raw/' # variavel do diretório de dados que será usada ao longo do caderno

listfiles = os.listdir(datadir)
listfiles.sort()

print("Dados disponíveis no diretório ".upper() + datadir)
listfiles

DADOS DISPONÍVEIS NO DIRETÓRIO ../data/raw/


['2000-2021-coberturas_vacinais_por_ano_segundo_imuno.csv',
 '2017_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao.csv',
 '2018_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao.csv',
 '2019_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao.csv',
 '2020_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao.csv']

## Unidades da Federação Agregadas

Comecemos pela cobertura vacinal - em nível federal - por ano para cada imunobiológico (termo usado pela própria página do SUS) - http://tabnet.datasus.gov.br/cgi/pni/pniimuno.htm



In [5]:
# def read_coberturas_vacinais_por_ano_segundo_imuno():
file = datadir + '2000-2021-coberturas_vacinais_por_ano_segundo_imuno.csv'

df = pd.read_csv(file, encoding='ISO-8859-1', sep =';', decimal=',', na_values=[0])
df

Unnamed: 0,Imuno,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,Total
0,BCG,111.74,112.6,110.28,108.47,113.36,114.48,113.06,111.08,108.91,...,107.42,107.28,105.08,95.55,97.98,99.72,86.67,73.39,52.04,104.02
1,Hepatite B em crianças até 30 dias,,,,,,,,,,...,,88.54,90.93,81.75,85.88,88.4,78.57,62.98,45.05,70.59
2,Rotavírus Humano,,,,,,,46.52,79.79,81.18,...,93.52,93.44,95.35,88.98,85.12,91.33,85.4,77.01,56.22,64.47
3,Meningococo C,,,,,,,,,,...,99.7,96.36,98.19,91.68,87.44,88.49,87.41,78.23,57.07,64.55
4,Hepatite B,91.08,91.88,91.47,92.0,96.26,98.46,100.3,99.89,96.06,...,100.56,96.42,97.74,105.19,84.4,88.53,70.77,76.95,57.62,92.9
5,Penta,,,,,,,,,,...,95.89,94.85,96.3,89.27,84.24,88.49,70.76,76.95,57.62,79.08
6,Pneumocócica,,,,,,,,,,...,93.57,93.45,94.23,95.0,92.15,95.25,89.07,81.03,58.51,83.32
7,Poliomielite,101.44,102.83,100.01,100.48,104.3,105.12,105.25,105.43,100.18,...,100.71,96.76,98.29,84.43,84.74,89.54,84.19,75.86,57.01,96.36
8,Poliomielite 4 anos,,,,,,,,,,...,,,,,62.26,63.62,68.45,67.11,42.29,62.7
9,Febre Amarela,37.14,40.24,38.7,34.68,38.29,42.95,46.17,49.23,47.09,...,51.5,46.86,46.31,44.59,47.37,59.5,62.41,57.11,50.21,46.82


Parece que existem muitos valores nulos, pode ser interessante retirar alguns deles para obtermos uma melhor coesão e continuidade na análise

In [6]:
df.isnull().sum()

Imuno      0
2000      17
2001      17
2002      16
2003      16
2004      18
2005      18
2006      17
2007      17
2008      17
2009      17
2010      15
2011      15
2012      14
2013       6
2014       3
2015       4
2016       3
2017       5
2018       5
2019       5
2020       5
2021       7
 Total     0
dtype: int64

Como existem muitos nulos até 2012, vamos iniciar a análise só no ano de 2013, já fazendo mudanças de 'index' e 'dtypes'.

In [7]:
# def
file = datadir + '2000-2021-coberturas_vacinais_por_ano_segundo_imuno.csv'

df = pd.read_csv(file, encoding='ISO-8859-1', sep =';', decimal=',', usecols=[0]+list(range(14,23)), 
                 na_values=[0], index_col='Imuno')#(, converters)
df.columns = df.columns.astype('int64')
display(df, df.shape)

Unnamed: 0_level_0,2013,2014,2015,2016,2017,2018,2019,2020,2021
Imuno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
BCG,107.42,107.28,105.08,95.55,97.98,99.72,86.67,73.39,52.04
Hepatite B em crianças até 30 dias,,88.54,90.93,81.75,85.88,88.4,78.57,62.98,45.05
Rotavírus Humano,93.52,93.44,95.35,88.98,85.12,91.33,85.4,77.01,56.22
Meningococo C,99.7,96.36,98.19,91.68,87.44,88.49,87.41,78.23,57.07
Hepatite B,100.56,96.42,97.74,105.19,84.4,88.53,70.77,76.95,57.62
Penta,95.89,94.85,96.3,89.27,84.24,88.49,70.76,76.95,57.62
Pneumocócica,93.57,93.45,94.23,95.0,92.15,95.25,89.07,81.03,58.51
Poliomielite,100.71,96.76,98.29,84.43,84.74,89.54,84.19,75.86,57.01
Poliomielite 4 anos,,,,,62.26,63.62,68.45,67.11,42.29
Febre Amarela,51.5,46.86,46.31,44.59,47.37,59.5,62.41,57.11,50.21


(27, 9)

In [8]:
(df.loc[:,2017:2020] > 100).sum()

2017    0
2018    0
2019    0
2020    0
dtype: int64

Como ajuste final dos valores nulos, vamos remover as linhas que contem valores nulos e restringir a análise entre 2017 e 2020, pelo fato de haver uma aparente padronização e mudanças nos dados a partir de 2017:
- Em primeiro lugar, inexistem valores acima de 100%, diferente dos anos anteriores
- Em segundo lugar, linhas como "Ignorado" e "Tetravalente" desaparecem, enquanto outras, como "Poliomielite 4 anos" inicia-se neste período. Provavelmente houve alguma mudança no Plano Nacional de Imunização que explique todas estas variações.

O ano de 2021 será eliminado a princípio, por não estar finalizado.

In [9]:
df = df.loc[:,2017:2020]

In [10]:
df.dropna(axis='index', how='any', inplace=True)

In [11]:
df

Unnamed: 0_level_0,2017,2018,2019,2020
Imuno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BCG,97.98,99.72,86.67,73.39
Hepatite B em crianças até 30 dias,85.88,88.4,78.57,62.98
Rotavírus Humano,85.12,91.33,85.4,77.01
Meningococo C,87.44,88.49,87.41,78.23
Hepatite B,84.4,88.53,70.77,76.95
Penta,84.24,88.49,70.76,76.95
Pneumocócica,92.15,95.25,89.07,81.03
Poliomielite,84.74,89.54,84.19,75.86
Poliomielite 4 anos,62.26,63.62,68.45,67.11
Febre Amarela,47.37,59.5,62.41,57.11


In [12]:
for i in df.index:
    print(i, end = ", ")

BCG, Hepatite B  em crianças até 30 dias, Rotavírus Humano, Meningococo C, Hepatite B, Penta, Pneumocócica, Poliomielite, Poliomielite 4 anos, Febre Amarela, Hepatite A, Pneumocócica(1º ref), Meningococo C (1º ref), Poliomielite(1º ref), Tríplice Viral  D1, Tríplice Viral  D2, Tetra Viral(SRC+VZ), DTP REF (4 e 6 anos), Tríplice Bacteriana(DTP)(1º ref), Dupla adulto e tríplice acelular gestante, dTpa gestante, Total, 

------

Finalizamos aqui com a definição de utilizar os seguintes parametros para a análise:

`Anos`: 2017, 2018, 2019, 2020

`Imunos`: valores filtrados presentes no índice (`df.index`) da tabela acima, salvos na lista `imunos_a_utilizar` -> BCG, Hepatite B  em crianças até 30 dias, Rotavírus Humano, Meningococo C, Hepatite B, Penta, Pneumocócica, Poliomielite, Poliomielite 4 anos, Febre Amarela, Hepatite A, Pneumocócica(1º ref), Meningococo C (1º ref), Poliomielite(1º ref), Tríplice Viral  D1, Tríplice Viral  D2, Tetra Viral(SRC+VZ), DTP REF (4 e 6 anos), Tríplice Bacteriana(DTP)(1º ref), Dupla adulto e tríplice acelular gestante, dTpa gestante

Vamos generalizar o processo numa função para usarmos depois.

In [13]:
imunos_a_utilizar = df.index[:-1].to_list() # exceto a linha referente ao total por ano

In [14]:
def read_coberturas_vacinais_por_ano_segundo_imuno():
    path = datadir
    file = '2000-2021-coberturas_vacinais_por_ano_segundo_imuno.csv'

    df = pd.read_csv(path+file, encoding='ISO-8859-1', sep =';', decimal=',', usecols=[0]+list(range(14,23)), 
                     na_values=[0], index_col='Imuno')
    
    df.columns = df.columns.astype('int64')
    df = df.loc[:,2017:2020]
    df.dropna(axis='index', how='any', inplace=True)
    df.index.name = 'imuno'
    df.index = df.index.str.replace('º', '')
    
    return df

In [15]:
read_coberturas_vacinais_por_ano_segundo_imuno().info()

<class 'pandas.core.frame.DataFrame'>
Index: 22 entries, BCG to Total
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   2017    22 non-null     float64
 1   2018    22 non-null     float64
 2   2019    22 non-null     float64
 3   2020    22 non-null     float64
dtypes: float64(4)
memory usage: 880.0+ bytes


## Unidades da Federação Segmentadas

Agora faremos o processamento dos dados de coberturas vacinais por unidade federativa para as imunos selecionadas em `imunos_a_utilizar` nos 4 anos entre 2017 e 2020, usando como teste o ano de 2017 para generalizar o tratamento.

In [16]:
file = datadir + '2017_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao.csv'

df = pd.read_csv(file, encoding='ISO-8859-1', sep =';',decimal=',', 
                 index_col='Unidade da Federação', usecols=['Unidade da Federação']+imunos_a_utilizar)

df.index = [uf[3:] for uf in df.index] #'11 Rondônia' -> 'Rondônia'
df.drop(index=df.index[-1], inplace=True) # removendo "total por imuno"

display(df.info(), df.shape, df.head())

<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Data columns (total 21 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   BCG                                        27 non-null     float64
 1   Hepatite B  em crianças até 30 dias        27 non-null     float64
 2   Rotavírus Humano                           27 non-null     float64
 3   Meningococo C                              27 non-null     float64
 4   Hepatite B                                 27 non-null     float64
 5   Penta                                      27 non-null     float64
 6   Pneumocócica                               27 non-null     float64
 7   Poliomielite                               27 non-null     float64
 8   Poliomielite 4 anos                        27 non-null     float64
 9   Febre Amarela                              27 non-null     float64
 10  Hepatite A  

None

(27, 21)

Unnamed: 0,BCG,Hepatite B em crianças até 30 dias,Rotavírus Humano,Meningococo C,Hepatite B,Penta,Pneumocócica,Poliomielite,Poliomielite 4 anos,Febre Amarela,...,Pneumocócica(1º ref),Meningococo C (1º ref),Poliomielite(1º ref),Tríplice Viral D1,Tríplice Viral D2,Tetra Viral(SRC+VZ),DTP REF (4 e 6 anos),Tríplice Bacteriana(DTP)(1º ref),Dupla adulto e tríplice acelular gestante,dTpa gestante
Rondônia,97.81,90.09,94.66,94.94,109.01,108.92,107.68,108.18,60.88,107.67,...,83.42,86.61,79.34,103.01,81.58,76.25,66.08,79.66,31.28,32.16
Acre,96.83,82.56,76.11,78.63,72.58,72.57,84.66,74.01,39.93,62.66,...,66.16,70.76,60.79,75.14,57.0,52.16,53.98,59.76,14.4,15.68
Amazonas,93.82,85.45,74.51,81.17,75.99,75.96,86.72,76.43,49.35,70.32,...,74.27,77.57,63.25,79.83,61.32,59.11,61.79,64.89,48.29,56.72
Roraima,116.74,113.83,92.88,91.37,94.47,94.24,99.84,90.52,86.93,96.83,...,86.65,83.49,89.25,86.53,86.27,84.65,82.43,81.78,58.08,66.53
Pará,85.83,74.97,65.3,71.83,61.63,61.6,76.8,67.63,24.91,59.14,...,61.32,65.46,52.12,67.51,54.16,51.04,44.9,56.87,19.7,21.5


In [25]:
df[(df > 100)]

Unnamed: 0,BCG,Hepatite B em crianças até 30 dias,Rotavírus Humano,Meningococo C,Hepatite B,Penta,Pneumocócica,Poliomielite,Poliomielite 4 anos,Febre Amarela,...,Pneumocócica(1º ref),Meningococo C (1º ref),Poliomielite(1º ref),Tríplice Viral D1,Tríplice Viral D2,Tetra Viral(SRC+VZ),DTP REF (4 e 6 anos),Tríplice Bacteriana(DTP)(1º ref),Dupla adulto e tríplice acelular gestante,dTpa gestante
Rondônia,,,,,109.01,108.92,107.68,108.18,,107.67,...,,,,103.01,,,,,,
Acre,,,,,,,,,,,...,,,,,,,,,,
Amazonas,,,,,,,,,,,...,,,,,,,,,,
Roraima,116.74,113.83,,,,,,,,,...,,,,,,,,,,
Pará,,,,,,,,,,,...,,,,,,,,,,
Amapá,,,,,,,,,,,...,,,,,,,,,,
Tocantins,104.75,,,,,,,,,,...,,,,,,,,,,
Maranhão,105.69,,,,,,,,,,...,,,,,,,,,,
Piauí,,,,,,,,,,,...,,,,,,,,,,
Ceará,109.59,,103.0,103.92,,,109.36,,,,...,,,,100.69,,,,,,


In [28]:
(df > 100).sum(axis=0)

BCG                                          9
Hepatite B  em crianças até 30 dias          3
Rotavírus Humano                             1
Meningococo C                                1
Hepatite B                                   1
Penta                                        1
Pneumocócica                                 2
Poliomielite                                 1
Poliomielite 4 anos                          0
Febre Amarela                                1
Hepatite A                                   0
Pneumocócica(1º ref)                         0
Meningococo C (1º ref)                       0
Poliomielite(1º ref)                         0
Tríplice Viral  D1                           2
Tríplice Viral  D2                           0
Tetra Viral(SRC+VZ)                          0
DTP REF (4 e 6 anos)                         0
Tríplice Bacteriana(DTP)(1º ref)             0
Dupla adulto e tríplice acelular gestante    0
dTpa gestante                                0
dtype: int64

In [27]:
(df > 100).sum(axis=1)

Rondônia               6
Acre                   0
Amazonas               0
Roraima                2
Pará                   0
Amapá                  0
Tocantins              1
Maranhão               1
Piauí                  0
Ceará                  5
Rio Grande do Norte    0
Paraíba                1
Pernambuco             0
Alagoas                1
Sergipe                0
Bahia                  0
Minas Gerais           0
Espírito Santo         0
Rio de Janeiro         1
São Paulo              1
Paraná                 0
Santa Catarina         0
Rio Grande do Sul      0
Mato Grosso do Sul     2
Mato Grosso            0
Goiás                  0
Distrito Federal       1
dtype: int64

In [17]:
df.isna().sum().sum()

0

Ao que parece, a seleção e o tratamento feitos anteriormente nos dados agregados a nível federal, já eliminou alguns problemas desta série. As colunas foram filtradas de acordo com a lista `imunos_a_utilizar` e não há nenhum valor nulo. No entanto, apareceram valores acima de 100%. Vamos, portanto, generalizar isto numa função aplicável aos outros anos.

In [29]:
df.columns

Index(['BCG', 'Hepatite B  em crianças até 30 dias', 'Rotavírus Humano',
       'Meningococo C', 'Hepatite B', 'Penta', 'Pneumocócica', 'Poliomielite',
       'Poliomielite 4 anos', 'Febre Amarela', 'Hepatite A',
       'Pneumocócica(1º ref)', 'Meningococo C (1º ref)',
       'Poliomielite(1º ref)', 'Tríplice Viral  D1', 'Tríplice Viral  D2',
       'Tetra Viral(SRC+VZ)', 'DTP REF (4 e 6 anos)',
       'Tríplice Bacteriana(DTP)(1º ref)',
       'Dupla adulto e tríplice acelular gestante', 'dTpa gestante'],
      dtype='object')

In [30]:
def read_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao(file = None, ano: int = None):
    
    if (file is None) & (ano is None):
        print("Função não executada. Algum dos argumentos deve ser passado.")
        return
        
    path = datadir
    basename = '_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao.csv'
#     file = path + str(ano) + basename
    
    if file is None:
        file = path + str(ano) + basename
    else:
        file = path + file

    df = pd.read_csv(file, encoding='ISO-8859-1', sep =';',decimal=',', 
                     index_col='Unidade da Federação', usecols=['Unidade da Federação']+imunos_a_utilizar)

    df.index = [uf[3:] for uf in df.index] #'11 Rondônia' -> 'Rondônia'
    df.drop(index=df.index[-1], inplace=True) # removendo "total por imuno"
    df.columns = df.columns.str.replace('º', '')

    return df

### Unificando 

Aqui unificaremos os arquivos "coberturas_vacinais_por_imuno_segundo_unidade_da_federacao" em um só, para facilitar as manipulações durante a análise e explorações gráficas do próximo notebook

No fim, teremos uma tabela na qual cada linha é referente a um valor de cobertura vacinal, numa combinação única de:
- `Imuno`: Total de 21 valores
- `Unidade Federativa`: Total de 27 valores
- `Ano`: Total de 4 valores

Portanto, devemos obter uma tabela com 21 x 27 x 4 = 2268 linhas.

In [31]:
def merge_and_melt(anos: list):
    
    dfs = []
    
    # for each year: read_csv to create df -> check for null values -> melt -> append to list
    for ano in anos:
        
        df = read_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao(ano=ano)
    
        if df.isna().sum().sum() != 0:
            print(f'Os dados do ano {ano} contém valores nulos')
        
        df.index.name = 'uf'
        df = df.reset_index().melt(id_vars=['uf'], var_name='imuno', value_name=f'{ano}_cobertura_vacinal')
        
        dfs.append(df)
    
    
    # MERGING
    merged_df = dfs[0]
    for df in dfs[1:]:
        merged_df = merged_df.merge(df, on=['uf', 'imuno'])

    # renaming columns
    merged_df = merged_df.rename(lambda x: x.split("_")[0], axis='columns')
    
    # melting merged dataframe
    merged_df = merged_df.melt(id_vars=['uf','imuno'], var_name='ano', value_name='cobertura_vacinal')
    merged_df['ano'] = merged_df['ano'].astype('int64')
    

    return merged_df

In [32]:
merged_df = merge_and_melt(anos=range(2017,2021))
merged_df

Unnamed: 0,uf,imuno,ano,cobertura_vacinal
0,Rondônia,BCG,2017,97.81
1,Acre,BCG,2017,96.83
2,Amazonas,BCG,2017,93.82
3,Roraima,BCG,2017,116.74
4,Pará,BCG,2017,85.83
...,...,...,...,...
2263,Rio Grande do Sul,dTpa gestante,2020,53.54
2264,Mato Grosso do Sul,dTpa gestante,2020,52.92
2265,Mato Grosso,dTpa gestante,2020,58.15
2266,Goiás,dTpa gestante,2020,46.44


Como esperado, o número esperado de 2268 linhas foi o resultado. Agora exportaremos esta tabela como csv para iniciar a análise propriamente dita no próximo caderno.

# Resumo

Finalizamos, então, com 2 arquivos:

In [33]:
read_coberturas_vacinais_por_ano_segundo_imuno().info()

<class 'pandas.core.frame.DataFrame'>
Index: 22 entries, BCG to Total
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   2017    22 non-null     float64
 1   2018    22 non-null     float64
 2   2019    22 non-null     float64
 3   2020    22 non-null     float64
dtypes: float64(4)
memory usage: 880.0+ bytes


In [34]:
merge_and_melt(anos=range(2017,2021)).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2268 entries, 0 to 2267
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   uf                 2268 non-null   object 
 1   imuno              2268 non-null   object 
 2   ano                2268 non-null   int64  
 3   cobertura_vacinal  2268 non-null   float64
dtypes: float64(1), int64(1), object(2)
memory usage: 71.0+ KB


In [35]:
processed_datadir = '../data/processed/'
filename = '2017_2020_coberturas_vacinais_por_ano_segundo_imuno'
path = processed_datadir + filename + '.csv.gz'

df = read_coberturas_vacinais_por_ano_segundo_imuno()
df.to_csv(path, sep =';', encoding='ISO-8859-1', compression='gzip')

In [36]:
df

Unnamed: 0_level_0,2017,2018,2019,2020
imuno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BCG,97.98,99.72,86.67,73.39
Hepatite B em crianças até 30 dias,85.88,88.4,78.57,62.98
Rotavírus Humano,85.12,91.33,85.4,77.01
Meningococo C,87.44,88.49,87.41,78.23
Hepatite B,84.4,88.53,70.77,76.95
Penta,84.24,88.49,70.76,76.95
Pneumocócica,92.15,95.25,89.07,81.03
Poliomielite,84.74,89.54,84.19,75.86
Poliomielite 4 anos,62.26,63.62,68.45,67.11
Febre Amarela,47.37,59.5,62.41,57.11


Este arquivo, que não separa os dados por unidade da federação, foi importante para filtrar quais anos e imunos seriam utilizados. O arquivo final que será utilizado na análise do caderno 3 é o *"2017_2020_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao.csv.gz"*, exposto abaixo

In [37]:
processed_datadir = '../data/processed/'
filename = '2017_2020_coberturas_vacinais_por_imuno_segundo_unidade_da_federacao'
path = processed_datadir + filename + '.csv.gz'

df = merge_and_melt(anos=range(2017,2021))
df.to_csv(path, sep =';', encoding='ISO-8859-1', compression='gzip', index=False)

In [38]:
df

Unnamed: 0,uf,imuno,ano,cobertura_vacinal
0,Rondônia,BCG,2017,97.81
1,Acre,BCG,2017,96.83
2,Amazonas,BCG,2017,93.82
3,Roraima,BCG,2017,116.74
4,Pará,BCG,2017,85.83
...,...,...,...,...
2263,Rio Grande do Sul,dTpa gestante,2020,53.54
2264,Mato Grosso do Sul,dTpa gestante,2020,52.92
2265,Mato Grosso,dTpa gestante,2020,58.15
2266,Goiás,dTpa gestante,2020,46.44
