# Microdados de Vacinação - OpenDataSUS

Este documento possui o código que estou utilizando para processar o arquivo de microdados da vacinação disponibilizado pelo SUS. As informações sobre a base pode ser encontrada [neste link](https://opendatasus.saude.gov.br/dataset/covid-19-vacinacao). Existem duas formas de acessar os dados: (1) a partir do arquivo CSV, que atualmente possui mais de 1GB de dados ou (2) através de uma API Elasticsearch. 

Estou usando uma versão disponibilizada pelo [Brasil.io](brasil.io). Detalhes deste documento podem ser encontrados nesse status do twitter: https://twitter.com/brasil_io/status/1361080270791864321. Os dados processados pelo brasil.io estão mais limpos, consistentes e com alterações que permitiram gerar um arquivo menor. O processamento a seguir vai ser feito em cima deste arquivo que pode ser acessado a partir do status do brasil.io. O arquivo não está disponível neste repositório. 

Minha proposta neste documento é mostrar como podemos usar o [pandas](https://pandas.pydata.org/) para olhar um pouco mais para esses dados. Vale ressaltar que estes dados contém informações do Brasil inteiro e que inconsistências podem existir por diversos motivos como erros na hora da coletar e da alimentação dos dados. 

O compartilhamento destes dados são de extrema importância para que todos possam ter accesso às informações completas dos registros da vacinação. Até o dia 12/02 os dados ainda estavam incompletos totalizando pouco mais de 2,1 milhões de vacinados. Outras fontes informavam nesta mesma data mais de 4 milhões de vacinados.

A medida que o arquivo for sendo atualizado, esse doumento também será. 

In [2]:
# Bibliotecas utilizadas 

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [33]:
# Carregando os dados a partir do arquivo microdados_vacinacao.csv

data_microdados = pd.read_csv("data/microdados_vacinacao.csv")

In [34]:
data_microdados.head()

Unnamed: 0,documento_uuid,paciente_uuid,paciente_idade,paciente_sexo_biologico,paciente_codigo_etnia,paciente_etnia,paciente_codigo_ibge_municipio,paciente_codigo_pais,paciente_municipio,paciente_pais,...,paciente_codigo_subgrupo,paciente_subgrupo,paciente_codigo_grupo,paciente_grupo,vacina_lote,data_aplicacao,numero_dose,codigo_vacina,vacina,sistema_origem
0,cff59c9f-7059-5daa-8fae-933fffa3ae33,331b2d7a-8074-559d-8700-a30bdbf6e364,82.0,F,5.0,Indígena,2911402.0,10.0,Glória,Brasil,...,701,Povos indígenas em terras indígenas,7.0,Povos Indígenas,202010027,2021-01-20,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI
1,bf443981-541a-5f04-b1a6-3b25ca250ea0,76122550-1f8d-5f36-b340-6a098cbe4b41,35.0,F,3.0,Parda,2804409.0,10.0,Neópolis,Brasil,...,926,Outros,9.0,Trabalhadores de Saúde,200280,2021-02-09,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI
2,e0305612-79ae-5960-af32-9d6b54d5a74a,823ec249-b52d-576b-ae2a-84dbc9a6f451,78.0,F,4.0,Amarela,2307304.0,10.0,Juazeiro do Norte,Brasil,...,204,Pessoas de 75 a 79 anos,2.0,Faixa Etária,4120Z005,2021-02-04,1,85,Vacina Covid-19 - Covishield,Novo PNI
3,14bf0206-b358-524a-a378-a3f56615d4c8,51581b55-f97e-5dab-b8a5-f17ca1555f83,87.0,M,1.0,Branca,3304557.0,10.0,Rio de Janeiro,Brasil,...,205,Pessoas de 80 anos ou mais,2.0,Faixa Etária,202009015,2021-02-10,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI
4,a1e37795-7652-5267-9150-88bbf6d480c9,fee27694-96ef-5e25-8d56-9de742e240a5,30.0,F,4.0,Amarela,3162500.0,10.0,São João del Rei,Brasil,...,923,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010038,2021-01-22,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI


In [35]:
data_microdados.columns

Index(['documento_uuid', 'paciente_uuid', 'paciente_idade',
       'paciente_sexo_biologico', 'paciente_codigo_etnia', 'paciente_etnia',
       'paciente_codigo_ibge_municipio', 'paciente_codigo_pais',
       'paciente_municipio', 'paciente_pais', 'paciente_unidade_federativa',
       'paciente_cep', 'paciente_nacionalidade', 'estabelecimento_codigo_cnes',
       'estabelecimento_razao_social', 'estabelecimento',
       'estabelecimento_codigo_ibge_municipio', 'estabelecimento_municipio',
       'estabelecimento_unidade_federativa', 'paciente_codigo_subgrupo',
       'paciente_subgrupo', 'paciente_codigo_grupo', 'paciente_grupo',
       'vacina_lote', 'data_aplicacao', 'numero_dose', 'codigo_vacina',
       'vacina', 'sistema_origem'],
      dtype='object')

In [36]:
data_microdados.dtypes

documento_uuid                            object
paciente_uuid                             object
paciente_idade                           float64
paciente_sexo_biologico                   object
paciente_codigo_etnia                    float64
paciente_etnia                            object
paciente_codigo_ibge_municipio           float64
paciente_codigo_pais                     float64
paciente_municipio                        object
paciente_pais                             object
paciente_unidade_federativa               object
paciente_cep                             float64
paciente_nacionalidade                    object
estabelecimento_codigo_cnes                int64
estabelecimento_razao_social              object
estabelecimento                           object
estabelecimento_codigo_ibge_municipio    float64
estabelecimento_municipio                 object
estabelecimento_unidade_federativa        object
paciente_codigo_subgrupo                   int64
paciente_subgrupo   

In [37]:
data_microdados.shape

(2188463, 29)

## Olhando mais para os dados

Nesse tipo de dado, que é gerado a partir de informações coletadas no Brasil inteiro por diversos municípios, pode acontecer de ter algumas inconsistências. Muitas das vezes essas inconsistências se dar por conta de erros no processo de digitação e coleta destas informações. Mesmo sem ter como saber a origem do problema, vale a pena verificar algumas possíveis inconsistências para um eventual pré-processamento da base e utilização da mesma para construção de dashboards.

### Datas 

A primeira coisa que vou fazer é olhar a quantidade de registros de vacinação por dia. 

In [8]:
data_microdados.groupby(by=['data_aplicacao','numero_dose']).count()[['paciente_uuid']]

Unnamed: 0_level_0,Unnamed: 1_level_0,paciente_uuid
data_aplicacao,numero_dose,Unnamed: 2_level_1
2020-12-20,1,1
2020-12-28,1,2
2020-12-29,1,1
2021-01-01,1,2
2021-01-03,1,1
2021-01-04,1,1
2021-01-15,1,1
2021-01-16,1,1
2021-01-17,1,12
2021-01-18,1,467


Existem registros anteriores à data oficial de início da vacinação. Vamos ver quantos registros de vacinação antes do dia 17/01 quando a primeira dose da vacina foi aplicada: https://noticias.uol.com.br/saude/ultimas-noticias/redacao/2021/01/17/enfermeira-de-sp-negra-moradora-de-itaquera-e-1-vacinada-no-brasil.htm.

In [38]:
data_microdados[data_microdados['data_aplicacao'] < '2021-01-17'].groupby(by=['data_aplicacao','numero_dose']).count()[['paciente_uuid']]

Unnamed: 0_level_0,Unnamed: 1_level_0,paciente_uuid
data_aplicacao,numero_dose,Unnamed: 2_level_1
2020-12-20,1,1
2020-12-28,1,2
2020-12-29,1,1
2021-01-01,1,2
2021-01-03,1,1
2021-01-04,1,1
2021-01-15,1,1
2021-01-16,1,1


Observe que no total são apenas 11 registros com datas anteriores à 17/01.

### Idade

Uma outra verificação é em relação a idade de quem recebeu as doses. Para isso vamos olhar o quantitativo no campo `paciente_idade_grupo` que é criado a partir do campo original `paciente_idade`. O campo `paciente_idade_grupo` discretiza os dados em faixas faixas hetárias. Foi utilizada a seguinte classificação de idades: Criança (0-12 anos), adolescente (13-18 anos), adulto (19-59 anos) e idoso (acima de 60 anos).

In [39]:
data_microdados['paciente_idade_grupo'] = pd.cut(data_microdados['paciente_idade'],bins=[0,13,19,60,float("inf")],right=False,labels=['criança','adolescente','adulto','idoso'])
data_microdados[['paciente_idade_grupo']].value_counts()

paciente_idade_grupo
adulto                  1648916
idoso                    530916
adolescente                8494
criança                     136
dtype: int64

Somando o quantitativo de **crianças** e **adolescentes** tempos no total 8630 registros de pessoas menores que 17 anos que receberam a vacina. Sabendo que a aplicação da vacina está sendo em grupos prioritários que não incluem crianças e adolescentes, esses dados podem ser resultado de alguma inconsistência. Vamos ver esse quantitativo por idade. 

In [40]:
data_microdados[data_microdados['paciente_idade'] < 18].groupby(by='paciente_idade').count()[['paciente_uuid']]

Unnamed: 0_level_0,paciente_uuid
paciente_idade,Unnamed: 1_level_1
0.0,16
1.0,9
2.0,7
3.0,8
4.0,12
5.0,6
6.0,8
7.0,11
8.0,9
9.0,10


Vamos relacionar esses dados com o campo `paciente_subgrupo`:

In [41]:
temp_data = data_microdados[data_microdados['paciente_idade'] < 18].groupby(by=['paciente_idade','paciente_subgrupo']).count()[['paciente_uuid']]
initial_age = 0
print('Idade 0')
for index, row in temp_data.iterrows():
        if index[0] != initial_age:
            print()
            print('Idade %i' % index[0])
            initial_age = index[0]
        print(' %i %s' % (row['paciente_uuid'], index[1]))

Idade 0
 2 Assistente Social
 5 Outros
 1 Pessoal da Limpeza
 1 Pessoas de 80 anos ou mais
 6 Povos indígenas em terras indígenas
 1 Técnico de Enfermagem

Idade 1
 2 Enfermeiro(a)
 1 Outros
 1 Pessoas de 60 nos ou mais Institucionalizadas
 1 Pessoas de 80 anos ou mais
 3 Povos indígenas em terras indígenas
 1 Técnico de Enfermagem

Idade 2
 1 Cuidador de Idosos
 2 Enfermeiro(a)
 1 Outros
 1 Pessoas de 80 anos ou mais
 1 Povos indígenas em terras indígenas
 1 Recepcionista

Idade 3
 1 Médico
 2 Outros
 1 Pessoas de 75 a 79 anos
 3 Povos indígenas em terras indígenas
 1 Segurança

Idade 4
 1 Enfermeiro(a)
 1 Fisioterapeutas
 1 Fonoaudiólogo
 2 Médico
 2 Outros
 1 Pessoas de 80 anos ou mais
 1 Povos indígenas em terras indígenas
 1 Profissionais de Educação Física
 1 Recepcionista
 1 Técnico de Enfermagem

Idade 5
 1 Motorista de Ambulância
 1 Pessoal da Limpeza
 3 Povos indígenas em terras indígenas
 1 Técnico de Enfermagem

Idade 6
 1 Enfermeiro(a)
 3 Outros
 3 Povos indígenas em terra

Veja que pelos dados temos médicos, enfermeiros, motoristas com idades inferiores à 18 anos. 

### Recebimento das doses

O campo `paciente_id` identifica unicamente cada uma das pessoas que receberam a vacina. Com essa informação é possível fazer algumas verificações a respeito da duplicidade de informação. Vamos dar uma olhada nisso em vários aspectos. 

Primeiro vamos ver se existe dados duplicados entre os pacientes que receberam a primeira dose. 

In [42]:
all_dose1 = data_microdados[data_microdados['numero_dose'] == 1]

Rodando o código a seguir, é possível ver que existem pouco mais de 21000 registros duplicados.

In [43]:
all_dose1[all_dose1[['paciente_uuid']].duplicated()]

Unnamed: 0,documento_uuid,paciente_uuid,paciente_idade,paciente_sexo_biologico,paciente_codigo_etnia,paciente_etnia,paciente_codigo_ibge_municipio,paciente_codigo_pais,paciente_municipio,paciente_pais,...,paciente_subgrupo,paciente_codigo_grupo,paciente_grupo,vacina_lote,data_aplicacao,numero_dose,codigo_vacina,vacina,sistema_origem,paciente_idade_grupo
5664,be831f50-4953-527b-bdbd-6a1472843562,1ab44d11-df4a-5751-b7e0-6bf897cc6a14,37.0,F,1.0,Branca,1300102.0,10.0,Anori,Brasil,...,Pessoas de 75 a 79 anos,2.0,Faixa Etária,4120Z005,2021-02-01,1,85,Vacina Covid-19 - Covishield,Novo PNI,adulto
10900,a5b58595-4c9a-5f8c-a004-36701cfd40dc,f592871c-5654-5271-aabb-95f9cb246afb,34.0,F,3.0,Parda,1502301.0,10.0,Capitão Poço,Brasil,...,Outros,9.0,Trabalhadores de Saúde,4120Z005,2021-01-29,1,85,Vacina Covid-19 - Covishield,Novo PNI,adulto
20824,092077d0-19c5-589f-89da-429e88111bd2,93a55089-8271-5f60-93cc-99d850609f6e,39.0,M,99.0,,2110039.0,10.0,Santa Luzia do Paruá,Brasil,...,Povos indígenas em terras indígenas,7.0,Povos Indígenas,202010028,2021-01-22,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
21360,36cd25fb-dea0-5442-8f7e-dcc37482ee3d,b542e3fd-43ea-539b-8c08-45fcc6e0631b,24.0,F,1.0,Branca,3148004.0,10.0,Patos de Minas,Brasil,...,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010038,2021-01-21,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
22086,a24bce1d-e89b-5db2-9907-a277d36f3caf,c5ae0cc2-8ac6-54a1-b704-751f869b3fea,55.0,F,1.0,Branca,4307500.0,10.0,Espumoso,Brasil,...,Pessoas de 80 anos ou mais,2.0,Faixa Etária,210010,2021-02-10,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2188117,d3f79941-0e0e-544d-a902-d83a7e512268,f0a2e3fa-c201-543d-8c30-f192b67d5d39,50.0,F,3.0,Parda,3169208.0,10.0,Tombos,Brasil,...,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010038,2021-01-19,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
2188147,7b5a753f-8095-5614-96fa-9d832acc4182,919cba6c-311b-573f-ac66-f2162bcf6cd4,88.0,M,4.0,Amarela,2909901.0,10.0,Curaçá,Brasil,...,Pessoas de 60 nos ou mais Institucionalizadas,3.0,Pessoas de 60 anos ou mais institucionalizadas,202010041,2021-01-20,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,idoso
2188217,0238508f-851f-539c-aaff-571cfcb6484b,285deaa8-1a72-5202-b588-847f7bfd2340,25.0,M,3.0,Parda,2310902.0,10.0,Piquet Carneiro,Brasil,...,Enfermeiro(a),9.0,Trabalhadores de Saúde,202010034,2021-01-19,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
2188365,66612a9f-7098-58da-b530-0d033176ba35,cf4a305e-1f66-544a-8373-4822ec47b491,22.0,M,4.0,Amarela,2913200.0,10.0,Ibotirama,Brasil,...,Outros,9.0,Trabalhadores de Saúde,202010027,2021-01-28,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto


O código acima exibe somente as linhas duplicadas. Podemos ver os registros duplicados um seguido do outro com o código a seguir. 

In [44]:
all_dose1[all_dose1[['paciente_uuid']].duplicated(keep=False)].sort_values(by='paciente_uuid')

Unnamed: 0,documento_uuid,paciente_uuid,paciente_idade,paciente_sexo_biologico,paciente_codigo_etnia,paciente_etnia,paciente_codigo_ibge_municipio,paciente_codigo_pais,paciente_municipio,paciente_pais,...,paciente_subgrupo,paciente_codigo_grupo,paciente_grupo,vacina_lote,data_aplicacao,numero_dose,codigo_vacina,vacina,sistema_origem,paciente_idade_grupo
147810,39c87f38-9fa5-5525-9809-269859091a0b,0002eb7c-a885-5e0f-bb83-04da393d9748,94.0,M,2.0,Preta,3165560.0,10.0,Sem-Peixe,Brasil,...,Pessoas de 60 nos ou mais Institucionalizadas,3.0,Pessoas de 60 anos ou mais institucionalizadas,202010038,2021-01-22,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,idoso
1529500,63515f1a-52e1-5bb2-9ec5-0108697703d0,0002eb7c-a885-5e0f-bb83-04da393d9748,94.0,M,2.0,Preta,3165560.0,10.0,Sem-Peixe,Brasil,...,Pessoas de 60 nos ou mais Institucionalizadas,3.0,Pessoas de 60 anos ou mais institucionalizadas,202010038,2021-01-22,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,idoso
1224679,a5ab4518-7c63-5b80-9e50-4a84844b50a3,0005ef75-adb3-5e6a-892e-04d8fd32ab55,44.0,F,99.0,,2611606.0,10.0,Recife,Brasil,...,Outros,9.0,Trabalhadores de Saúde,202009014,2021-01-25,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
917013,a62ae5ed-01ec-5f56-92b9-b234c1a321f0,0005ef75-adb3-5e6a-892e-04d8fd32ab55,44.0,F,99.0,,2611606.0,10.0,Recife,Brasil,...,Outros,9.0,Trabalhadores de Saúde,202009014,2021-01-25,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
915696,5a142d51-45ad-59c1-9027-ba2682a5d77d,00067d53-d14c-50c3-80ff-d8bbf8f9fb16,44.0,F,1.0,Branca,4310207.0,10.0,Ijuí,Brasil,...,Outros,9.0,Trabalhadores de Saúde,4120Z005,2021-02-02,1,85,Vacina Covid-19 - Covishield,Novo PNI,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1857391,a8d5d0b8-6f37-5eb2-bb3c-30563d516737,ffeb4260-fe62-5464-85d5-50b57e00459d,59.0,F,1.0,Branca,4109609.0,10.0,Guaratuba,Brasil,...,Outros,9.0,Trabalhadores de Saúde,4120Z005,2021-01-26,1,85,Vacina Covid-19 - Covishield,Novo PNI,adulto
1121573,24c28acd-ef76-580d-a9a0-aeaaabfd4e7d,ffed5971-90bc-538a-bc7a-c4b30b6a8165,62.0,M,99.0,,3139607.0,10.0,Mantena,Brasil,...,Outros,9.0,Trabalhadores de Saúde,202010018,2021-02-08,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,idoso
471249,c1ce2ad2-ba25-50d1-a4d0-aa03c5af612c,ffed5971-90bc-538a-bc7a-c4b30b6a8165,62.0,M,99.0,,3139607.0,10.0,Mantena,Brasil,...,Outros,9.0,Trabalhadores de Saúde,202010018,2021-02-05,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,idoso
1549015,25a18309-ef3e-50f2-8a99-2947e9a81713,fff45d96-3cdb-5262-b19c-abeb4162c1bc,85.0,F,99.0,,5201108.0,10.0,Anápolis,Brasil,...,Pessoas de 80 anos ou mais,2.0,Faixa Etária,202010031,2021-01-29,1,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,idoso


Vamos fazer a mesma coisa com a segunda dose:

In [45]:
all_dose2 = data_microdados[data_microdados['numero_dose'] == 2]
all_dose2[all_dose2[['paciente_uuid']].duplicated()]

Unnamed: 0,documento_uuid,paciente_uuid,paciente_idade,paciente_sexo_biologico,paciente_codigo_etnia,paciente_etnia,paciente_codigo_ibge_municipio,paciente_codigo_pais,paciente_municipio,paciente_pais,...,paciente_subgrupo,paciente_codigo_grupo,paciente_grupo,vacina_lote,data_aplicacao,numero_dose,codigo_vacina,vacina,sistema_origem,paciente_idade_grupo
27689,a401a49e-4758-575b-90ba-8663ee0ac9f4,85061703-ecd1-5712-b692-2d5da62ab1b7,42.0,F,3.0,Parda,3127800.0,10.0,Grão Mogol,Brasil,...,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010031,2021-02-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
51553,cb95b52d-6f28-5310-b1a5-dff936cffeb8,85061703-ecd1-5712-b692-2d5da62ab1b7,42.0,F,3.0,Parda,3127800.0,10.0,Grão Mogol,Brasil,...,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010031,2021-02-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
71013,151148fc-5f83-53f6-b238-5f182937b700,f63e4747-01d0-5f7a-9ae5-70eae2ebf1ae,52.0,F,1.0,Branca,3115508.0,10.0,Caxambu,Brasil,...,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010038,2021-02-09,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
77039,d737e1da-243b-5a48-b24e-4dad062df5c3,5abf8430-c34c-5b73-9631-bafad71bba93,41.0,M,99.0,,3106200.0,10.0,Belo Horizonte,Brasil,...,Médico,9.0,Trabalhadores de Saúde,202009013,2021-02-08,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
91841,1c0017aa-0b0d-53c2-a46e-7399ec954c64,c522df36-d60f-5635-b83e-17e33e7cb19f,28.0,F,3.0,Parda,3170404.0,10.0,Unaí,Brasil,...,Outros,9.0,Trabalhadores de Saúde,202010038,2021-01-22,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2180545,c58c6ae4-248e-545f-835d-d9e1f769b5bb,941e2a2d-516f-57b1-a230-ac95f62d0441,41.0,F,3.0,Parda,3109006.0,10.0,Brumadinho,Brasil,...,Biomédico,9.0,Trabalhadores de Saúde,202010038,2021-02-08,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
2181787,b7adcc73-698d-513e-b629-4ac1e7aba5a6,6f6a0f52-734f-5c49-a131-b0edf4a6a985,27.0,F,3.0,Parda,3141405.0,10.0,Medina,Brasil,...,Pessoal da Limpeza,9.0,Trabalhadores de Saúde,202010038,2021-02-03,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
2183732,91443ef9-3a4b-593d-b5a6-3c70df09c4ec,954f820d-068c-50ba-94e2-d5c0af6dd3a8,29.0,F,1.0,Branca,3120805.0,10.0,Cruzília,Brasil,...,Cuidador de Idosos,9.0,Trabalhadores de Saúde,202010038,2021-02-04,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
2185549,9a7d9973-4cc3-5fa2-99f3-cdc9dbb1399f,85061703-ecd1-5712-b692-2d5da62ab1b7,42.0,F,3.0,Parda,3127800.0,10.0,Grão Mogol,Brasil,...,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010031,2021-02-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto


Um pouco mais de 800 linhas duplicas. Exibindo os registros duplicados no mesmo dataframe, temos:

In [46]:
all_dose2[all_dose2[['paciente_uuid']].duplicated(keep=False)].sort_values(by='paciente_uuid')

Unnamed: 0,documento_uuid,paciente_uuid,paciente_idade,paciente_sexo_biologico,paciente_codigo_etnia,paciente_etnia,paciente_codigo_ibge_municipio,paciente_codigo_pais,paciente_municipio,paciente_pais,...,paciente_subgrupo,paciente_codigo_grupo,paciente_grupo,vacina_lote,data_aplicacao,numero_dose,codigo_vacina,vacina,sistema_origem,paciente_idade_grupo
1241082,88cd7021-121c-537e-8279-3ae975429e5a,0010a75d-3bfc-51c6-b71a-e897fe366fe9,41.0,F,5.0,Indígena,1300607.0,10.0,Benjamin Constant,Brasil,...,Povos indígenas em terras indígenas,7.0,Povos Indígenas,202010025,2021-02-10,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
458320,076e8fb6-6e93-500e-b9cb-e8167f868a26,0010a75d-3bfc-51c6-b71a-e897fe366fe9,41.0,F,5.0,Indígena,1300607.0,10.0,Benjamin Constant,Brasil,...,Povos indígenas em terras indígenas,7.0,Povos Indígenas,202010025,2021-02-10,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
526111,e046232c-5e31-565d-9cc1-d50c220f83af,002566c9-3d82-5ce4-910d-0c1d8c03ff31,56.0,F,3.0,Parda,3161908.0,10.0,São Gonçalo do Rio Abaixo,Brasil,...,Cozinheiro e Auxiliares,9.0,Trabalhadores de Saúde,202010031,2021-02-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
56733,c7a418ac-955a-5302-bb14-2105ede0233f,002566c9-3d82-5ce4-910d-0c1d8c03ff31,56.0,F,3.0,Parda,3161908.0,10.0,São Gonçalo do Rio Abaixo,Brasil,...,Cozinheiro e Auxiliares,9.0,Trabalhadores de Saúde,202010031,2021-02-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
120783,b154f5b9-6f37-5085-b35e-70328ff99780,00e112ae-b9af-56f2-b9ee-7de5498c1262,48.0,M,1.0,Branca,2613602.0,10.0,São José do Egito,Brasil,...,Outros,9.0,Trabalhadores de Saúde,200280,2021-02-04,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
323511,7dbdc938-c2b7-5f23-a6d8-4612881b3223,ff5a4806-7cdf-51ff-8b0d-e4459e21945d,43.0,M,99.0,,3106200.0,10.0,Belo Horizonte,Brasil,...,Médico,9.0,Trabalhadores de Saúde,202010038,2021-02-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
1962006,b7382330-33c9-5a69-897f-811cd01ade04,ff6df4d2-f57c-5438-82ad-3b9fc0b6b566,41.0,F,1.0,Branca,3104908.0,10.0,Baependi,Brasil,...,Assistente Social,9.0,Trabalhadores de Saúde,202010038,2021-02-04,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
1458398,137046a6-8f43-5e33-bb41-bac45ab67851,ff6df4d2-f57c-5438-82ad-3b9fc0b6b566,41.0,F,1.0,Branca,3104908.0,10.0,Baependi,Brasil,...,Assistente Social,9.0,Trabalhadores de Saúde,202010038,2021-02-04,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto
979863,2981ec6b-85ad-5fbb-af12-5bbdd04b0de0,ffbc05e9-cc94-5944-b98d-6bdabd1c6a28,31.0,F,99.0,,2602308.0,10.0,Bonito,Brasil,...,Outros,9.0,Trabalhadores de Saúde,202010041,2021-02-04,2,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,adulto


Uma outra verificação é se existem registros de segunda dose sem a primeira. Vamos utilizar o merge dos dois dataframes `all_dose1` e `all_dose2`. Para simplificar, a visualização, vamos usar somente as informações `paciente_id` e `numero_dose`. Vou fazer um merge das duas bases utilizando a base da dose2 para o join. Vou usar um Right Join, ou seja, vou selecionar os registros da dose 2 e fazer um merge com os registros da dose 1. Em seguida selecionar aqueles nos quais a a dose 1 está nula. 

In [47]:
selected_dose1 = all_dose1[['paciente_uuid','numero_dose']]
selected_dose2 = all_dose2[['paciente_uuid','numero_dose']]
selected_merge = pd.merge(selected_dose1, selected_dose2, how ='right', suffixes=['1','2'], on =['paciente_uuid']) 
selected_merge

Unnamed: 0,paciente_uuid,numero_dose1,numero_dose2
0,4df552e5-0897-55b6-a1e5-5724aa0f05fe,1.0,2
1,a8e78208-974a-5964-b362-8755762d9aef,1.0,2
2,fe95852a-7de8-597a-96de-9b5a07e79df2,1.0,2
3,4889ec9c-6f3b-58ca-a2a9-6af88fc8c9a5,1.0,2
4,787778c5-2180-55f6-a6e6-8fd01a6912df,1.0,2
...,...,...,...
101906,83b3217c-cc03-5fcb-b39e-04142ced0521,1.0,2
101907,09534177-9088-5046-b815-148364236425,1.0,2
101908,09534177-9088-5046-b815-148364236425,1.0,2
101909,2e529d42-a388-558c-bd41-3079f9403068,1.0,2


In [48]:
selected_merge[selected_merge['numero_dose1'].isnull()]

Unnamed: 0,paciente_uuid,numero_dose1,numero_dose2
15,8e1426b1-5eae-591b-8924-636439a1bd51,,2
17,a9e1b6c1-b0d5-5857-873e-c652ac89e997,,2
26,a18ee347-98e6-5e15-923c-30a64584b3ec,,2
34,6b7be027-677c-5757-80b8-91ff67e8b64b,,2
38,88750816-0f58-5adb-99f8-6b54b05d210b,,2
...,...,...,...
101880,6bc52e7b-d9af-5624-a4fa-1720d08d0c81,,2
101883,7d2947eb-ca33-5a99-bbb0-244ae3081848,,2
101885,fc16794e-5121-5b9d-9db9-f5993057940c,,2
101894,de6c2369-503e-571b-bc05-0eb72b7cb7d7,,2


Foram encontrados 8230 registros que estão marcados como segunda dose mas  não tem a primeira dose correspondente. 

## Extraindo os totais de cada variável categórica 

Uma outra coisa que ajuda a enxergar um pouco como esses dados estão distribuídos é verificar o quantitativo por raça, sexto, idade, grupos. Vamos exibir essas informações utilizando o `value_counts` que será aplicado às variáveis categóricas. Vou fazer isso apenas para a primeira dose. Para isso, vou usar o campo `numero_dose`. A informação de UF será utilizada a do estabelecimento para garantir o quantitativo por estado, já que a UF do paciente não é necessariamente a de onde ele tomou a vacina. Essa informação está no campo `estabelecimento_unidade_federativa`.

In [49]:
data_microdados.columns

Index(['documento_uuid', 'paciente_uuid', 'paciente_idade',
       'paciente_sexo_biologico', 'paciente_codigo_etnia', 'paciente_etnia',
       'paciente_codigo_ibge_municipio', 'paciente_codigo_pais',
       'paciente_municipio', 'paciente_pais', 'paciente_unidade_federativa',
       'paciente_cep', 'paciente_nacionalidade', 'estabelecimento_codigo_cnes',
       'estabelecimento_razao_social', 'estabelecimento',
       'estabelecimento_codigo_ibge_municipio', 'estabelecimento_municipio',
       'estabelecimento_unidade_federativa', 'paciente_codigo_subgrupo',
       'paciente_subgrupo', 'paciente_codigo_grupo', 'paciente_grupo',
       'vacina_lote', 'data_aplicacao', 'numero_dose', 'codigo_vacina',
       'vacina', 'sistema_origem', 'paciente_idade_grupo'],
      dtype='object')

In [50]:
cat_columns = ['paciente_idade_grupo','paciente_etnia','estabelecimento_unidade_federativa','paciente_sexo_biologico','paciente_grupo','paciente_subgrupo']
data_selected = data_microdados[data_microdados['numero_dose'] == 1]
dt_ = {}

for c in cat_columns:
    dt_[c] = pd.DataFrame(data_selected[c].value_counts())
    dt_[c].reset_index(inplace=True)
    dt_[c].columns = ['info','total']
    


In [51]:
dt_['paciente_sexo_biologico']

Unnamed: 0,info,total
0,F,1404728
1,M,682886


In [52]:
dt_['paciente_grupo']

Unnamed: 0,info,total
0,Trabalhadores de Saúde,1535494
1,Faixa Etária,320758
2,Povos Indígenas,128442
3,Pessoas de 60 anos ou mais institucionalizadas,83734
4,Comorbidades,7804
5,Pessoas com Deficiência,6106
6,Forças de Segurança e Salvamento,2692
7,Povos e Comunidades Tradicionais,1411
8,Trabalhadores da Educação,526
9,Forças Armadas (membros ativos),289


In [53]:
for index, row in dt_['paciente_subgrupo'].iterrows():
    print("%s: %i" % (row['info'], row['total']))

Outros: 548687
Pessoas de 80 anos ou mais: 283724
Técnico de Enfermagem: 271415
Enfermeiro(a): 131580
Povos indígenas em terras indígenas: 128442
Médico: 120517
Pessoas de 60 nos ou mais Institucionalizadas: 83734
Pessoal da Limpeza: 78949
Recepcionista: 66543
Motorista de Ambulância: 49621
Odontologista: 45964
Fisioterapeutas: 28973
Farmacêutico: 26331
Pessoas de 75 a 79 anos: 21675
Auxiliar de Enfermagem: 21283
Cozinheiro e Auxiliares: 19666
Psicólogo: 18796
Cuidador de Idosos: 17575
Técnico de Odontologia: 16050
Segurança: 14400
Assistente Social: 12463
Nutricionista: 10971
Pessoas de 70 a 74 anos: 7193
Biomédico: 6737
Estudante: 6303
Fonoaudiólogo: 5140
Profissionais de Educação Física: 5033
Funcionário do Sistema Funerário c/ cadáveres potencialmente contaminados: 4979
Pessoas com Deficiência Institucionalizadas: 4963
Pessoas de 60 a 64 anos: 4761
Hipertensão de difícil controle ou com complicações/lesão de órgão alvo: 3775
Pessoas de 65 a 69 anos: 3405
Médico Veterinário: 3391
Te

In [54]:
dt_['paciente_idade_grupo']

Unnamed: 0,info,total
0,adulto,1560496
1,idoso,518628
2,adolescente,8356
3,criança,134


In [55]:
dt_['paciente_etnia']

Unnamed: 0,info,total
0,Branca,720810
1,Parda,453532
2,Amarela,292341
3,Indígena,91490
4,Preta,83260


In [56]:
dt_['estabelecimento_unidade_federativa']

Unnamed: 0,info,total
0,MG,222594
1,RS,186792
2,RJ,160311
3,BA,153133
4,PE,122725
5,PR,120253
6,GO,97488
7,MA,89433
8,PB,84156
9,CE,80854


## Pré-processamento e Visualizando os dados

_Em breve_