# Microdados de Vacinação - OpenDataSUS

Este documento possui o código que estou utilizando para processar o arquivo de microdados da vacinação disponibilizado pelo SUS. As informações sobre a base pode ser encontrada [neste link](https://opendatasus.saude.gov.br/dataset/covid-19-vacinacao). Existem duas formas de acessar os dados: (1) a partir do arquivo CSV, que atualmente possui mais de 1GB de dados ou (2) através de uma API Elasticsearch. 

Estou usando uma versão disponibilizada pelo [Brasil.io](brasil.io). Detalhes deste documento podem ser encontrados nesse status do twitter: https://twitter.com/brasil_io/status/1361080270791864321. Os dados processados pelo brasil.io estão mais limpos, consistentes e com alterações que permitiram gerar um arquivo menor. O processamento a seguir vai ser feito em cima deste arquivo que pode ser acessado a partir do status do brasil.io. O arquivo não está disponível neste repositório. 

Minha proposta neste documento é mostrar como podemos usar o [pandas](https://pandas.pydata.org/) para olhar um pouco mais para esses dados. Quando esses dados estiverem mais consolidados, devo usa-los para criar visualizações que irão complementar o painel da covid que mantenho no endereço https://covid19.data2learning.com.  

**Vale ressaltar que estes dados contém informações do Brasil inteiro e que inconsistências podem existir por diversos motivos como erros na hora da coletar e da alimentação dos dados.**

O compartilhamento destes dados são de extrema importância para que todos possam ter accesso às informações completas dos registros da vacinação. Até o dia 20/02 os dados ainda estavam incompletos totalizando pouco mais de 5,5 milhões de registros (primeira e segunda doses). Outras fontes informavam nesta mesma data um quantitativo em torno de 5,8 milhões só da primeira dose.

A medida que o arquivo for sendo atualizado, esse doumento também será. 

In [1]:
# Bibliotecas utilizadas 

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Carregando os dados a partir do arquivo microdados_vacinacao.csv

data_microdados = pd.read_csv("data/microdados_vacinacao.csv")

In [3]:
data_microdados.head()

Unnamed: 0,paciente_codigo_grupo,vacina,vacina_lote,estabelecimento_razao_social,estabelecimento,paciente_cep,estabelecimento_unidade_federativa,sistema_origem,paciente_municipio,paciente_etnia,...,data_aplicacao,documento_uuid,paciente_sexo_biologico,estabelecimento_codigo_cnes,paciente_unidade_federativa,paciente_codigo_pais,paciente_pais,paciente_codigo_ibge_municipio,paciente_subgrupo,paciente_codigo_etnia
0,9.0,Covid-19-Coronavac-Sinovac/Butantan,210015,PREFEITURA DO MUNICIPIO DE SAO PAULO,HOSP MUN DR IGNACIO PROENCA DE GOUVEA,2083.0,SP,Pendente identificação,São Paulo,,...,2021-02-15,bbcda716-4acd-5f60-9b9b-7ce55971419c,F,2084473,SP,10.0,Brasil,3550308.0,Outros,99.0
1,9.0,Vacina Covid-19 - Covishield,4120Z005,CENTRAL DE IMUNOBIOLOGICOS,REDE DE FRIO DO MUNICIPIO DE MARICA,24900.0,RJ,Novo PNI,Maricá,,...,2021-02-04,3b48177e-03cd-50de-baf7-59eb4854d194,F,127744,RJ,10.0,Brasil,3302700.0,Enfermeiro(a),99.0
2,2.0,Vacina Covid-19 - Covishield,4120Z005,MANAUS SECRETARIA MUNICIPAL DE SAUDE,USF MJ PM SALVIO BELOTA,69095.0,AM,Pendente identificação,Manaus,Amarela,...,2021-02-02,a987dca4-1419-5b9d-a84e-eec57ea45581,F,2013886,AM,10.0,Brasil,1302603.0,Pessoas de 80 anos ou mais,4.0
3,2.0,Covid-19-Coronavac-Sinovac/Butantan,210012,SMS DE CAMPO MAIOR,CENTRO DE SAUDE III,64280.0,PI,Novo PNI,Campo Maior,Amarela,...,2021-02-12,5d4cf2a2-5525-5662-b3e7-0bb70b3900fb,M,2369850,PI,10.0,Brasil,2202208.0,Pessoas de 80 anos ou mais,4.0
4,9.0,Covid-19-Coronavac-Sinovac/Butantan,202009015,PREFEITURA MUNICIPAL DE PRES VENCESLAU,CENTRO DE SAUDE I TACITO LEITE DE CARVALHO E S...,19380.0,SP,Pendente identificação,Ribeirão dos Índios,Branca,...,2021-02-12,b99fb876-a5cc-5ae1-86c5-99dacf859bc2,F,2051249,SP,10.0,Brasil,3543238.0,Outros,1.0


In [4]:
data_microdados.columns

Index(['paciente_codigo_grupo', 'vacina', 'vacina_lote',
       'estabelecimento_razao_social', 'estabelecimento', 'paciente_cep',
       'estabelecimento_unidade_federativa', 'sistema_origem',
       'paciente_municipio', 'paciente_etnia', 'estabelecimento_municipio',
       'paciente_idade', 'paciente_codigo_subgrupo', 'numero_dose',
       'paciente_nacionalidade', 'codigo_vacina',
       'estabelecimento_codigo_ibge_municipio', 'paciente_uuid',
       'paciente_grupo', 'data_aplicacao', 'documento_uuid',
       'paciente_sexo_biologico', 'estabelecimento_codigo_cnes',
       'paciente_unidade_federativa', 'paciente_codigo_pais', 'paciente_pais',
       'paciente_codigo_ibge_municipio', 'paciente_subgrupo',
       'paciente_codigo_etnia'],
      dtype='object')

In [5]:
data_microdados.dtypes

paciente_codigo_grupo                    float64
vacina                                    object
vacina_lote                               object
estabelecimento_razao_social              object
estabelecimento                           object
paciente_cep                             float64
estabelecimento_unidade_federativa        object
sistema_origem                            object
paciente_municipio                        object
paciente_etnia                            object
estabelecimento_municipio                 object
paciente_idade                           float64
paciente_codigo_subgrupo                   int64
numero_dose                                int64
paciente_nacionalidade                    object
codigo_vacina                              int64
estabelecimento_codigo_ibge_municipio      int64
paciente_uuid                             object
paciente_grupo                            object
data_aplicacao                            object
documento_uuid      

In [6]:
data_microdados.shape

(5335315, 29)

## Olhando mais para os dados

Nesse tipo de dado, que é gerado a partir de informações coletadas no Brasil inteiro por diversos municípios, pode acontecer de ter algumas inconsistências. Muitas das vezes essas inconsistências se dar por conta de erros no processo de digitação e coleta destas informações. Mesmo sem ter como saber a origem do problema, vale a pena verificar algumas possíveis inconsistências para um eventual pré-processamento da base e utilização da mesma para construção de dashboards.

### Datas 

A primeira coisa que vou fazer é olhar a quantidade de registros de vacinação por dia. 

In [7]:
data_microdados.groupby(by=['data_aplicacao','numero_dose']).count()[['paciente_uuid']]

Unnamed: 0_level_0,Unnamed: 1_level_0,paciente_uuid
data_aplicacao,numero_dose,Unnamed: 2_level_1
2020-01-20,1,1
2020-01-28,1,1
2020-12-20,1,1
2020-12-28,1,2
2020-12-29,1,1
...,...,...
2021-02-17,2,106636
2021-02-18,1,63773
2021-02-18,2,116475
2021-02-19,1,40092


Existem registros anteriores à data oficial de início da vacinação. Vamos ver quantos registros de vacinação antes do dia 17/01 quando a primeira dose da vacina foi aplicada: https://noticias.uol.com.br/saude/ultimas-noticias/redacao/2021/01/17/enfermeira-de-sp-negra-moradora-de-itaquera-e-1-vacinada-no-brasil.htm.

In [8]:
data_microdados[data_microdados['data_aplicacao'] < '2021-01-17'].groupby(by=['data_aplicacao','numero_dose']).count()[['paciente_uuid']]

Unnamed: 0_level_0,Unnamed: 1_level_0,paciente_uuid
data_aplicacao,numero_dose,Unnamed: 2_level_1
2020-01-20,1,1
2020-01-28,1,1
2020-12-20,1,1
2020-12-28,1,2
2020-12-29,1,1
2021-01-01,1,2
2021-01-03,1,1
2021-01-04,1,1
2021-01-11,1,5
2021-01-11,2,1


Observe que no total são apenas 12 registros com datas anteriores à 17/01.

### Idade

Uma outra verificação é em relação a idade de quem recebeu as doses. Para isso vamos olhar o quantitativo no campo `paciente_idade_grupo` que é criado a partir do campo original `paciente_idade`. O campo `paciente_idade_grupo` discretiza os dados em faixas faixas hetárias. Foi utilizada a seguinte classificação de idades: Criança (0-12 anos), adolescente (13-18 anos), adulto (19-59 anos) e idoso (acima de 60 anos).

In [9]:
data_microdados['paciente_idade_grupo'] = pd.cut(data_microdados['paciente_idade'],bins=[0,13,19,60,float("inf")],right=False,labels=['criança','adolescente','adulto','idoso'])
data_microdados[['paciente_idade_grupo']].value_counts()

paciente_idade_grupo
adulto                  3674113
idoso                   1642758
adolescente               18084
criança                     359
dtype: int64

Somando o quantitativo de **crianças** e **adolescentes** tempos no total 18443 registros de pessoas menores que 17 anos que receberam a vacina. Sabendo que a aplicação da vacina está sendo em grupos prioritários que não incluem crianças e adolescentes, esses dados podem ser resultado de alguma inconsistência. Vamos ver esse quantitativo por idade. 

In [10]:
data_microdados[data_microdados['paciente_idade'] < 18].groupby(by='paciente_idade').count()[['paciente_uuid']]

Unnamed: 0_level_0,paciente_uuid
paciente_idade,Unnamed: 1_level_1
0.0,23
1.0,21
2.0,19
3.0,21
4.0,30
5.0,25
6.0,20
7.0,29
8.0,25
9.0,31


Vamos relacionar esses dados com o campo `paciente_subgrupo`:

In [11]:
temp_data = data_microdados[data_microdados['paciente_idade'] < 18].groupby(by=['paciente_idade','paciente_subgrupo']).count()[['paciente_uuid']]
initial_age = 0
print('Idade 0')
for index, row in temp_data.iterrows():
        if index[0] != initial_age:
            print()
            print('Idade %i' % index[0])
            initial_age = index[0]
        print(' %i %s' % (row['paciente_uuid'], index[1]))

Idade 0
 2 Assistente Social
 9 Outros
 1 Pessoal da Limpeza
 1 Pessoas de 70 a 74 anos
 2 Pessoas de 80 anos ou mais
 7 Povos indígenas em terras indígenas
 1 Técnico de Enfermagem

Idade 1
 2 Enfermeiro(a)
 4 Outros
 2 Pessoas de 60 nos ou mais Institucionalizadas
 7 Pessoas de 80 anos ou mais
 5 Povos indígenas em terras indígenas
 1 Técnico de Enfermagem

Idade 2
 1 Cuidador de Idosos
 2 Enfermeiro(a)
 6 Outros
 1 Pessoas de 70 a 74 anos
 3 Pessoas de 80 anos ou mais
 5 Povos indígenas em terras indígenas
 1 Recepcionista

Idade 3
 1 Médico
 10 Outros
 1 Pessoas de 60 nos ou mais Institucionalizadas
 1 Pessoas de 75 a 79 anos
 2 Pessoas de 80 anos ou mais
 5 Povos indígenas em terras indígenas
 1 Segurança

Idade 4
 2 Enfermeiro(a)
 1 Fisioterapeutas
 1 Fonoaudiólogo
 2 Médico
 10 Outros
 2 Pessoas de 70 a 74 anos
 3 Pessoas de 80 anos ou mais
 6 Povos indígenas em terras indígenas
 1 Profissionais de Educação Física
 1 Recepcionista
 1 Técnico de Enfermagem

Idade 5
 1 Motorista d

Veja que pelos dados temos médicos, enfermeiros, motoristas com idades inferiores à 18 anos. 

### Recebimento das doses

O campo `paciente_id` identifica unicamente cada uma das pessoas que receberam a vacina. Com essa informação é possível fazer algumas verificações a respeito da duplicidade de informação. Vamos dar uma olhada nisso em vários aspectos. 

Primeiro vamos ver se existe dados duplicados entre os pacientes que receberam a primeira dose. 

In [12]:
all_dose1 = data_microdados[data_microdados['numero_dose'] == 1]

Rodando o código a seguir, é possível ver que existem pouco mais de 37000 registros duplicados.

In [13]:
all_dose1[all_dose1[['paciente_uuid']].duplicated()]

Unnamed: 0,paciente_codigo_grupo,vacina,vacina_lote,estabelecimento_razao_social,estabelecimento,paciente_cep,estabelecimento_unidade_federativa,sistema_origem,paciente_municipio,paciente_etnia,...,documento_uuid,paciente_sexo_biologico,estabelecimento_codigo_cnes,paciente_unidade_federativa,paciente_codigo_pais,paciente_pais,paciente_codigo_ibge_municipio,paciente_subgrupo,paciente_codigo_etnia,paciente_idade_grupo
17467,9.0,Vacina Covid-19 - Covishield,4120Z005,PREFEITURA MUNICIPAL DE JARAGUA DO SUL,CENTRAL DE IMUNIZACAO,89270.0,SC,Pendente identificação,Guaramirim,Branca,...,089626f1-b622-5cfa-a83d-b5d58938cee4,F,2745178,SC,10.0,Brasil,4206504.0,Recepcionista,1.0,adulto
28379,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010020,MUNICIPIO DE PELOTAS,CENTRAL REDE DE FRIO MUNICIPL NUCLEO MUNCIPAL,96080.0,RS,Novo PNI,Pelotas,Branca,...,537b3a95-09a7-57d0-9f85-fc1dcdd360a7,F,433489,RS,10.0,Brasil,4314407.0,Técnico de Enfermagem,1.0,adulto
36289,2.0,Vacina Covid-19 - Covishield,4120Z005,PREFEITURA MUNICIPAL DE ANORI,POSTO DE SAUDE FAUSTO GOMES DA ROCHA,,AM,Novo PNI,Anori,Branca,...,7ea1ad02-bef8-520f-834f-f7ea11df90bf,F,3539687,AM,10.0,Brasil,1300102.0,Pessoas de 75 a 79 anos,1.0,adulto
41695,9.0,Covid-19-Coronavac-Sinovac/Butantan,0202010034,PREFEITURA MUNICIPAL DE JARAGUA DO SUL,CENTRAL DE IMUNIZACAO,89253.0,SC,Pendente identificação,Jaraguá do Sul,Branca,...,8020252d-cb33-5058-a108-1cb3722783bd,F,2745178,SC,10.0,Brasil,4208906.0,Auxiliar de Enfermagem,1.0,adulto
41826,9.0,Covid-19-Coronavac-Sinovac/Butantan,0202010034,PREFEITURA MUNICIPAL DE JARAGUA DO SUL,CENTRAL DE IMUNIZACAO,89254.0,SC,Pendente identificação,Jaraguá do Sul,Branca,...,3c83f898-d9e8-5984-a1ad-c573d90d3400,F,2745178,SC,10.0,Brasil,4208906.0,Recepcionista,1.0,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5335078,9.0,Vacina Covid-19 - Covishield,4120Z005,PREFEITURA MUNICIPAL DE JARAGUA DO SUL,CENTRAL DE IMUNIZACAO,89251.0,SC,Pendente identificação,Jaraguá do Sul,Branca,...,7041c71b-db5d-5393-97d5-1ddbc552968d,F,2745178,SC,10.0,Brasil,4208906.0,Técnico de Enfermagem,1.0,adulto
5335114,9.0,Vacina Covid-19 - Covishield,4120Z005,PREFEITURA DE SANTO ANDRE,HOSPITAL DE CAMPANHA COVID 19 PEDRO DELL ANTONIA,9240.0,SP,Pendente identificação,Santo André,,...,21231bf2-566e-572d-9a9a-54c4b0869638,M,109746,SP,10.0,Brasil,3547809.0,Outros,99.0,adulto
5335196,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010027,IRMANDADE DA SANTA CASA DE MISERICORDIA DE SAO...,HOSPITAL NOSSA SENHORA DA POMPEIA,44360.0,BA,Novo PNI,São Félix,Amarela,...,a8710766-c0a4-50c3-9f9f-56ece262d415,M,2520613,BA,10.0,Brasil,2929008.0,Pessoal da Limpeza,4.0,adulto
5335267,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010038,PREFEITURA MUNICIPAL DE OLIVEIRA FORTES,UNIDADE BASICA DE SAUDE DE OLIVEIRA FORTES,36250.0,MG,Novo PNI,Oliveira Fortes,Branca,...,765fed54-d446-5a38-afe9-e869c3cc0950,F,2141787,MG,10.0,Brasil,3145703.0,Recepcionista,1.0,adulto


O código acima exibe somente as linhas duplicadas. Podemos ver os registros duplicados um seguido do outro com o código a seguir. 

In [14]:
all_dose1[all_dose1[['paciente_uuid']].duplicated(keep=False)].sort_values(by='paciente_uuid')

Unnamed: 0,paciente_codigo_grupo,vacina,vacina_lote,estabelecimento_razao_social,estabelecimento,paciente_cep,estabelecimento_unidade_federativa,sistema_origem,paciente_municipio,paciente_etnia,...,documento_uuid,paciente_sexo_biologico,estabelecimento_codigo_cnes,paciente_unidade_federativa,paciente_codigo_pais,paciente_pais,paciente_codigo_ibge_municipio,paciente_subgrupo,paciente_codigo_etnia,paciente_idade_grupo
3335773,3.0,Covid-19-Coronavac-Sinovac/Butantan,202010038,PREFEITURA MUNICIPAL DE ESMERALDAS,CAPS 2 ESMERALDAS,,MG,Novo PNI,Sem-Peixe,Preta,...,39c87f38-9fa5-5525-9809-269859091a0b,M,2117010,MG,10.0,Brasil,3165560.0,Pessoas de 60 nos ou mais Institucionalizadas,2.0,idoso
3268559,3.0,Covid-19-Coronavac-Sinovac/Butantan,202010038,PREFEITURA MUNICIPAL DE ESMERALDAS,CAPS 2 ESMERALDAS,,MG,Novo PNI,Sem-Peixe,Preta,...,63515f1a-52e1-5bb2-9ec5-0108697703d0,M,2117010,MG,10.0,Brasil,3165560.0,Pessoas de 60 nos ou mais Institucionalizadas,2.0,idoso
4605956,9.0,Covid-19-Coronavac-Sinovac/Butantan,202009014,PREFEITURA DA CIDADE DO RECIFE,US 162 POLICLINICA ALBERT SABIN,,PE,Novo PNI,Recife,,...,a5ab4518-7c63-5b80-9e50-4a84844b50a3,F,612,PE,10.0,Brasil,2611606.0,Outros,99.0,adulto
3952578,9.0,Covid-19-Coronavac-Sinovac/Butantan,202009014,PREFEITURA DA CIDADE DO RECIFE,US 162 POLICLINICA ALBERT SABIN,,PE,Novo PNI,Recife,,...,a62ae5ed-01ec-5f56-92b9-b234c1a321f0,F,612,PE,10.0,Brasil,2611606.0,Outros,99.0,adulto
3930212,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010020,MUNICIPIO DE IJUI PODER EXECUTIVO,ESTRATEGIA SAUDE DA FAMILIA ESF 18,98700.0,RS,Novo PNI,Ijuí,Branca,...,7c9b77ad-59ad-53a2-9cab-baee6e3abb22,F,7417470,RS,10.0,Brasil,4310207.0,Outros,1.0,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1111526,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010027,MUNICIPIO DE BARREIRAS,COPIM COORDENACAO MUNICIPAL DE IMUNIZACAO,47800.0,BA,Novo PNI,Barreiras,Branca,...,9c4ef8d8-92bc-512c-8440-72a9d7e2e26d,F,5871824,BA,10.0,Brasil,2903201.0,Técnico de Enfermagem,1.0,adulto
659811,2.0,Covid-19-Coronavac-Sinovac/Butantan,202010031,PREFEITURA MUNICIPAL DE ANAPOLIS,CENTRAL MUNICIPAL DA REDE DE FRIO ANAPOLIS,,GO,Novo PNI,Anápolis,,...,896bc39e-1b07-5ae9-a2ed-17e9e05c6216,F,2383780,GO,10.0,Brasil,5201108.0,Pessoas de 80 anos ou mais,99.0,idoso
2604405,2.0,Covid-19-Coronavac-Sinovac/Butantan,202010031,PREFEITURA MUNICIPAL DE ANAPOLIS,CENTRAL MUNICIPAL DA REDE DE FRIO ANAPOLIS,,GO,Novo PNI,Anápolis,,...,25a18309-ef3e-50f2-8a99-2947e9a81713,F,2383780,GO,10.0,Brasil,5201108.0,Pessoas de 80 anos ou mais,99.0,idoso
2464439,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010019,MS INCA HC I HOSPITAL DO CANCER I,MS INCA HOSPITAL DO CANCER I,,RJ,Novo PNI,Rio de Janeiro,,...,a00442ff-f68e-5e96-acdc-8d6e91d0dbd1,F,2273454,RJ,10.0,Brasil,3304557.0,Enfermeiro(a),99.0,adulto


Vamos fazer a mesma coisa com a segunda dose:

In [15]:
all_dose2 = data_microdados[data_microdados['numero_dose'] == 2]
all_dose2[all_dose2[['paciente_uuid']].duplicated()]

Unnamed: 0,paciente_codigo_grupo,vacina,vacina_lote,estabelecimento_razao_social,estabelecimento,paciente_cep,estabelecimento_unidade_federativa,sistema_origem,paciente_municipio,paciente_etnia,...,documento_uuid,paciente_sexo_biologico,estabelecimento_codigo_cnes,paciente_unidade_federativa,paciente_codigo_pais,paciente_pais,paciente_codigo_ibge_municipio,paciente_subgrupo,paciente_codigo_etnia,paciente_idade_grupo
29006,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010020,PREFEITURA MUNICIPAL DE TRES DE MAIO,UNIDADE CENTRAL DE SAUDE,98910.0,RS,Novo PNI,Três de Maio,Branca,...,138bedac-e3e8-581a-96b5-f4c62e46e1b5,F,2250373,RS,10.0,Brasil,4321808.0,Auxiliar de Enfermagem,1.0,adulto
38082,9.0,Covid-19-Coronavac-Sinovac/Butantan,210010,MUNICIPIO DE LAJEADO,ESTRATEGIA DE SAUDE DA FAMILIA MONTANHA 1,,RS,Pendente identificação,Estrela,Branca,...,0be0cc7d-aa40-5ea9-81ad-b5acfc567b68,F,7081782,RS,10.0,Brasil,4307807.0,Técnico de Enfermagem,1.0,adulto
44808,9.0,Covid-19-Coronavac-Sinovac/Butantan,210015,PREFEITURA MUNICIPAL DE JARAGUA DO SUL,CENTRAL DE IMUNIZACAO,89260.0,SC,Pendente identificação,Jaraguá do Sul,Branca,...,cee959f3-5ff6-5dbb-a894-b7363f4eff6d,F,2745178,SC,10.0,Brasil,4208906.0,Outros,1.0,adulto
89015,3.0,Covid-19-Coronavac-Sinovac/Butantan,210011A,SMS RIO CMS DR ALBERT SABIN AP 21,SMS CMS DR ALBERT SABIN AP 21,22451.0,RJ,Novo PNI,Rio de Janeiro,Parda,...,a8df8661-0c48-59b7-88a8-c541deba164e,M,2270072,RJ,10.0,Brasil,3304557.0,Pessoas de 60 nos ou mais Institucionalizadas,3.0,idoso
109373,9.0,Covid-19-Coronavac-Sinovac/Butantan,210015,PREFEITURA MUNICIPAL DE JARAGUA DO SUL,CENTRAL DE IMUNIZACAO,89260.0,SC,Pendente identificação,Jaraguá do Sul,Branca,...,040e7664-551b-5a84-a0bb-4f4168504f26,F,2745178,SC,10.0,Brasil,4208906.0,Outros,1.0,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5319434,7.0,Covid-19-Coronavac-Sinovac/Butantan,202010034,MINISTERIO DA SAUDE,UNIDADE DE SAUDE INDIGENA JENIPAPO KANIDE,61700.0,CE,Novo PNI,Aquiraz,Indígena,...,95ec1b93-bb12-5649-a655-073b79fe91a3,F,6159893,CE,10.0,Brasil,2301000.0,Povos indígenas em terras indígenas,5.0,idoso
5319475,9.0,Covid-19-Coronavac-Sinovac/Butantan,125589,SECRETARIA MUNICIPAL DE SAUDE DE ARACAJU,US ONESIMO PINTO FILHO JARDIM CENTENARIO,49220.0,SE,Sistema utilizado pela secretaria para registr...,Arauá,Branca,...,aefc3e15-ca57-5578-a258-a7957d507065,M,2844,SE,10.0,Brasil,2800407.0,Enfermeiro(a),1.0,idoso
5320194,9.0,Covid-19-Coronavac-Sinovac/Butantan,200279,SECRETARIA MUNICIPAL DE SAUDE DE NATAL,SECRETARIA MUNICIPAL DE SAUDE NIVEL CENTRAL,59570.0,RN,RN+Vacina,Ceará-Mirim,Parda,...,960efd04-53ad-511d-bb53-0a4ecb1d1228,F,6347223,RN,10.0,Brasil,2402600.0,Técnico de Enfermagem,3.0,adulto
5322544,3.0,Covid-19-Coronavac-Sinovac/Butantan,202010031,PREFEITURA MUNICIPAL DE CAPELINHA,CENTRO DE SAUDE JOSE PIMENTA CAPELINHA,39680.0,MG,Novo PNI,Capelinha,Amarela,...,092312e4-21e5-58a9-8d6a-87409798bddd,F,2133989,MG,10.0,Brasil,3112307.0,Pessoas de 60 nos ou mais Institucionalizadas,4.0,idoso


Um pouco mais de 3600 linhas duplicas. Exibindo os registros duplicados no mesmo dataframe, temos:

In [16]:
all_dose2[all_dose2[['paciente_uuid']].duplicated(keep=False)].sort_values(by='paciente_uuid')

Unnamed: 0,paciente_codigo_grupo,vacina,vacina_lote,estabelecimento_razao_social,estabelecimento,paciente_cep,estabelecimento_unidade_federativa,sistema_origem,paciente_municipio,paciente_etnia,...,documento_uuid,paciente_sexo_biologico,estabelecimento_codigo_cnes,paciente_unidade_federativa,paciente_codigo_pais,paciente_pais,paciente_codigo_ibge_municipio,paciente_subgrupo,paciente_codigo_etnia,paciente_idade_grupo
554069,7.0,Covid-19-Coronavac-Sinovac/Butantan,202010025,DISTRITO SANITARIO ESPECIAL DE SAUDE INDIGENA ...,POLO BASE FEIJOAL,69630.0,AM,Novo PNI,Benjamin Constant,Indígena,...,88cd7021-121c-537e-8279-3ae975429e5a,F,5591171,AM,10.0,Brasil,1300607.0,Povos indígenas em terras indígenas,5.0,adulto
341869,7.0,Covid-19-Coronavac-Sinovac/Butantan,202010025,DISTRITO SANITARIO ESPECIAL DE SAUDE INDIGENA ...,POLO BASE FEIJOAL,69630.0,AM,Novo PNI,Benjamin Constant,Indígena,...,076e8fb6-6e93-500e-b9cb-e8167f868a26,F,5591171,AM,10.0,Brasil,1300607.0,Povos indígenas em terras indígenas,5.0,adulto
634356,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010031,PREFEITURA MUNICIPAL DE SAO GONCALO DO RIO ABAIXO,PRONTO ATENDIMENTO SAO GONCALO DO RIO ABAIXO,35935.0,MG,Novo PNI,São Gonçalo do Rio Abaixo,Parda,...,c7a418ac-955a-5302-bb14-2105ede0233f,F,2170086,MG,10.0,Brasil,3161908.0,Cozinheiro e Auxiliares,3.0,adulto
3779278,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010031,PREFEITURA MUNICIPAL DE SAO GONCALO DO RIO ABAIXO,PRONTO ATENDIMENTO SAO GONCALO DO RIO ABAIXO,35935.0,MG,Novo PNI,São Gonçalo do Rio Abaixo,Parda,...,e046232c-5e31-565d-9cc1-d50c220f83af,F,2170086,MG,10.0,Brasil,3161908.0,Cozinheiro e Auxiliares,3.0,adulto
2732466,7.0,Covid-19-Coronavac-Sinovac/Butantan,202010025,DISTRITO SANITARIO ESPECIAL DE SAUDE INDIGENA ...,POLO BASE FEIJOAL,69630.0,AM,Novo PNI,Benjamin Constant,,...,de579b39-75e2-5cd4-a198-8c0506243936,M,5591171,AM,10.0,Brasil,1300607.0,Povos indígenas em terras indígenas,99.0,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3683651,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010018,PREFEITURA MUNICIPAL DE SARANDI,UNIDADE BASICA DE SAUDE AURORA,85935.0,PR,Novo PNI,Assis Chateaubriand,,...,9e7be207-7b0f-595d-abfb-56fd98b9d6bb,F,2735679,PR,10.0,Brasil,4102000.0,Pessoal da Limpeza,99.0,idoso
755474,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010018,PREFEITURA MUNICIPAL DE SARANDI,UNIDADE BASICA DE SAUDE AURORA,85935.0,PR,Novo PNI,Assis Chateaubriand,,...,3e5f13cd-1bd6-5162-8244-8d802bbc7a6b,F,2735679,PR,10.0,Brasil,4102000.0,Pessoal da Limpeza,99.0,idoso
2048734,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010018,PREFEITURA MUNICIPAL DE SARANDI,UNIDADE BASICA DE SAUDE AURORA,85935.0,PR,Novo PNI,Assis Chateaubriand,,...,67143815-123f-5cd1-9345-c5921375889b,F,2735679,PR,10.0,Brasil,4102000.0,Pessoal da Limpeza,99.0,idoso
1730367,9.0,Covid-19-Coronavac-Sinovac/Butantan,202010034,SECRETARIA MUNICIPAL DA SAUDE DE JOINVILLE,SAE UNIDADE SANITARIA,88717.0,SC,Novo PNI,Sangão,Branca,...,dad7554c-605b-57e1-ba94-97df914136fe,F,2511444,SC,10.0,Brasil,4215455.0,Técnico de Enfermagem,1.0,adulto


Uma outra verificação é se existem registros de segunda dose sem a primeira. Vamos utilizar o merge dos dois dataframes `all_dose1` e `all_dose2`. Para simplificar, a visualização, vamos usar somente as informações `paciente_id` e `numero_dose`. Vou fazer um merge das duas bases utilizando a base da dose2 para o join. Vou usar um Right Join, ou seja, vou selecionar os registros da dose 2 e fazer um merge com os registros da dose 1. Em seguida selecionar aqueles nos quais a a dose 1 está nula. 

In [49]:
selected_dose1 = all_dose1[['paciente_uuid','numero_dose']]
selected_dose2 = all_dose2[['paciente_uuid','numero_dose']]
selected_merge = pd.merge(selected_dose1, selected_dose2, how ='right', suffixes=['1','2'], on =['paciente_uuid']) 
selected_merge = selected_merge.drop_duplicates()
selected_merge

Unnamed: 0,paciente_uuid,numero_dose1,numero_dose2
0,6e42a649-2b79-5f41-91d0-b892ee35a974,1.0,2
1,1e286f7a-7b47-55cd-ae4d-a2db02d6b1bb,1.0,2
2,1256214b-d2eb-5aa3-b167-c01bb9107431,1.0,2
3,0e7af0eb-c951-5206-b989-ae4e6ee6bf04,1.0,2
4,78b42db1-1e32-5db8-84fc-4918ca99b08e,1.0,2
...,...,...,...
867441,1199832b-28d8-557e-8f3a-29b88d4bbaf2,1.0,2
867442,ac6c90ff-9715-57f5-99cb-0309ae2014a6,1.0,2
867443,ed7081aa-75ce-5812-8b66-8551965dfbe9,1.0,2
867444,122c6132-db57-58f1-8af7-eb42bdfa0b3d,1.0,2


In [50]:
selected_merge[selected_merge['numero_dose1'].isnull()]

Unnamed: 0,paciente_uuid,numero_dose1,numero_dose2
35,207ca278-5587-5a50-bcc0-3ba7a3af2e94,,2
73,e2717ffa-69bd-5bca-8d56-74431370ddcf,,2
74,3e7b19b5-5bb4-5316-8931-e57ca55c1781,,2
84,0788c0de-7f83-56bd-8641-20b94a1496f0,,2
119,47d151f7-e64b-5e04-ac61-377714bd4d4f,,2
...,...,...,...
867259,afadfebf-4ec0-56b0-9b2d-0ed339626a4c,,2
867263,62ff8875-d787-51c2-a7a9-ea874c356148,,2
867373,c5553537-5c11-5757-bc51-266b4b8566b4,,2
867377,d7bcb6b1-ea6f-57aa-8be8-e5f50d12aa6f,,2


Foram encontrados 39320 registros que estão marcados como segunda dose mas  não tem a primeira dose correspondente. 

## Extraindo os totais de cada variável categórica 

Uma outra coisa que ajuda a enxergar um pouco como esses dados estão distribuídos é verificar o quantitativo por raça, sexto, idade, grupos. Vamos exibir essas informações utilizando o `value_counts` que será aplicado às variáveis categóricas. Vou fazer isso apenas para a primeira dose. Para isso, vou usar o campo `numero_dose`. A informação de UF será utilizada a do estabelecimento para garantir o quantitativo por estado, já que a UF do paciente não é necessariamente a de onde ele tomou a vacina. Essa informação está no campo `estabelecimento_unidade_federativa`.

In [19]:
data_microdados.columns

Index(['paciente_codigo_grupo', 'vacina', 'vacina_lote',
       'estabelecimento_razao_social', 'estabelecimento', 'paciente_cep',
       'estabelecimento_unidade_federativa', 'sistema_origem',
       'paciente_municipio', 'paciente_etnia', 'estabelecimento_municipio',
       'paciente_idade', 'paciente_codigo_subgrupo', 'numero_dose',
       'paciente_nacionalidade', 'codigo_vacina',
       'estabelecimento_codigo_ibge_municipio', 'paciente_uuid',
       'paciente_grupo', 'data_aplicacao', 'documento_uuid',
       'paciente_sexo_biologico', 'estabelecimento_codigo_cnes',
       'paciente_unidade_federativa', 'paciente_codigo_pais', 'paciente_pais',
       'paciente_codigo_ibge_municipio', 'paciente_subgrupo',
       'paciente_codigo_etnia', 'paciente_idade_grupo'],
      dtype='object')

In [20]:
cat_columns = ['paciente_idade_grupo','paciente_etnia','estabelecimento_unidade_federativa','paciente_sexo_biologico','paciente_grupo','paciente_subgrupo']
data_selected = data_microdados[data_microdados['numero_dose'] == 1]
dt_ = {}

for c in cat_columns:
    dt_[c] = pd.DataFrame(data_selected[c].value_counts())
    dt_[c].reset_index(inplace=True)
    dt_[c].columns = ['info','total']
    


In [21]:
dt_['paciente_sexo_biologico']

Unnamed: 0,info,total
0,F,3047043
1,M,1437705
2,I,3


In [22]:
dt_['paciente_grupo']

Unnamed: 0,info,total
0,Trabalhadores de Saúde,2918013
1,Faixa Etária,1226490
2,Povos Indígenas,181259
3,Pessoas de 60 anos ou mais institucionalizadas,122398
4,Pessoas com Deficiência,12920
5,Comorbidades,10603
6,Povos e Comunidades Tradicionais,6966
7,Forças de Segurança e Salvamento,3505
8,Trabalhadores da Educação,1721
9,Forças Armadas (membros ativos),315


In [23]:
for index, row in dt_['paciente_subgrupo'].iterrows():
    print("%s: %i" % (row['info'], row['total']))

Outros: 1676197
Pessoas de 80 anos ou mais: 1024365
Técnico de Enfermagem: 330761
Povos indígenas em terras indígenas: 181259
Enfermeiro(a): 160611
Médico: 149856
Pessoas de 60 nos ou mais Institucionalizadas: 122398
Pessoal da Limpeza: 96891
Recepcionista: 84244
Pessoas de 75 a 79 anos: 64981
Odontologista: 64200
Motorista de Ambulância: 56163
Pessoas de 70 a 74 anos: 54279
Pessoas de 60 a 64 anos: 49811
Fisioterapeutas: 39119
Farmacêutico: 36039
Pessoas de 65 a 69 anos: 33054
Psicólogo: 27351
Cuidador de Idosos: 26902
Auxiliar de Enfermagem: 25303
Cozinheiro e Auxiliares: 24106
Técnico de Odontologia: 20070
Segurança: 17828
Assistente Social: 16263
Nutricionista: 14650
Pessoas com Deficiência Institucionalizadas: 10367
Estudante: 9757
Biomédico: 8580
Profissionais de Educação Física: 7663
Fonoaudiólogo: 7070
Quilombola: 6965
Funcionário do Sistema Funerário c/ cadáveres potencialmente contaminados: 6749
Médico Veterinário: 5852
Hipertensão de difícil controle ou com complicações/lesã

In [24]:
dt_['paciente_idade_grupo']

Unnamed: 0,info,total
0,adulto,2930673
1,idoso,1537709
2,adolescente,16055
3,criança,314


In [25]:
dt_['paciente_etnia']

Unnamed: 0,info,total
0,Branca,1751519
1,Parda,756040
2,Amarela,500496
3,Preta,163999
4,Indígena,129703


In [26]:
dt_['estabelecimento_unidade_federativa']

Unnamed: 0,info,total
0,SP,1537972
1,MG,357248
2,RS,296016
3,RJ,265605
4,BA,198941
5,AM,176356
6,PE,167934
7,PR,154582
8,GO,142169
9,MA,117615


## Pré-processamento e Visualização de dados

_Em breve_