# Analysis of Recife Vaccination Data

In [1]:
import pandas as pd

In [2]:
raw_data = pd.read_csv("vacinados.csv", sep = ";", encoding = "ISO-8859-1")

In [3]:
raw_data.head()

Unnamed: 0,cpf,nome,sexo,grupo,vacina,lote,dose,data_vacinacao,local_vacinacao
0,***.574.544-**,AABAN VASCONCELOS ZYZZYAG,MASCULINO,TRABALHADORES INDUSTRIAIS E BANCÃRIOS,2 - CHADOX1NCOV-19 - OXFORD/ASTRAZENECA (FIOCRUZ),216VCD206Z,1,26/07/2021,DRIVE THRU PARQUE DE EXPOSIÃÃO
1,***.886.964-**,AAMANDA MARIA FREIRE DA SILVA,FEMININO,TRABALHADORES DA SAÃDE,1 - CORONAVAC - SINOVAC (BUTANTAN),210016,1,11/02/2021,CENTRO DE VACINAÃÃO COMPAZ MIGUEL ARRAES
2,***.886.964-**,AAMANDA MARIA FREIRE DA SILVA,FEMININO,TRABALHADORES DA SAÃDE,1 - CORONAVAC - SINOVAC (BUTANTAN),210043,2,04/03/2021,CENTRO DE VACINAÃÃO PARQUE DE EXPOSIÃÃO
3,***.405.524-**,AANA MAYARA DA SILVA DE OLIVEIRA,FEMININO,PÃBLICO EM GERAL (18 a 59 anos),3 - COMIRNATY (PFIZER),FD7209,1,21/08/2021,CENTRO DE VACINAÃÃO PORTO DIGITAL
4,***.695.200-**,AANTONIO DE MELO LIMA,MASCULINO,IDOSOS,1 - CORONAVAC - SINOVAC (BUTANTAN),202009014,1,10/03/2021,CENTRO DE VACINAÃÃO COMPAZ ARIANO SUASSUNA


## I noticed a new class named "sexo".

# data handling

### filtering data:

In [4]:
raw_data.columns

Index(['cpf', 'nome', 'sexo', 'grupo', 'vacina', 'lote', 'dose',
       'data_vacinacao', 'local_vacinacao'],
      dtype='object')

In [5]:
data = raw_data.loc[:, ["cpf", "grupo", "vacina", "dose", "data_vacinacao", "sexo"]]
data.head()

Unnamed: 0,cpf,grupo,vacina,dose,data_vacinacao,sexo
0,***.574.544-**,TRABALHADORES INDUSTRIAIS E BANCÃRIOS,2 - CHADOX1NCOV-19 - OXFORD/ASTRAZENECA (FIOCRUZ),1,26/07/2021,MASCULINO
1,***.886.964-**,TRABALHADORES DA SAÃDE,1 - CORONAVAC - SINOVAC (BUTANTAN),1,11/02/2021,FEMININO
2,***.886.964-**,TRABALHADORES DA SAÃDE,1 - CORONAVAC - SINOVAC (BUTANTAN),2,04/03/2021,FEMININO
3,***.405.524-**,PÃBLICO EM GERAL (18 a 59 anos),3 - COMIRNATY (PFIZER),1,21/08/2021,FEMININO
4,***.695.200-**,IDOSOS,1 - CORONAVAC - SINOVAC (BUTANTAN),1,10/03/2021,MASCULINO


### renaming vaccines:

In [6]:
data["vacina"].unique()

array(['2 - CHADOX1NCOV-19 - OXFORD/ASTRAZENECA (FIOCRUZ)',
       '1 - CORONAVAC - SINOVAC (BUTANTAN)', '3 - COMIRNATY (PFIZER)',
       '4 - JANSSEN COVID-19 VACCINE (JOHNSON & JOHNSON)',
       '1- CORONAVAC - SINOVAC (BUTANTAN)'], dtype=object)

In [7]:
data["vacina"] = data["vacina"].replace(["1- CORONAVAC - SINOVAC (BUTANTAN)", "1 - CORONAVAC - SINOVAC (BUTANTAN)"], "CORONAVAC")

In [8]:
data["vacina"] = data["vacina"].replace(["2 - CHADOX1NCOV-19 - OXFORD/ASTRAZENECA (FIOCRUZ)",
                                         "3 - COMIRNATY (PFIZER)", "4 - JANSSEN COVID-19 VACCINE (JOHNSON & JOHNSON)"],
                                       
                                       ["CHADOX1NCOV-19", "COMIRNATY", "JANSSEN"])

In [9]:
data["vacina"].unique()

array(['CHADOX1NCOV-19', 'CORONAVAC', 'COMIRNATY', 'JANSSEN'],
      dtype=object)

### renaming groups:

In [10]:
data["grupo"].unique()

array(['TRABALHADORES INDUSTRIAIS E BANCÃ\x81RIOS',
       'TRABALHADORES DA SAÃ\x9aDE',
       'PÃ\x9aBLICO EM GERAL (18 a 59 anos)', 'IDOSOS',
       'TRABALHADORES DA EDUCAÃ\x87Ã\x83O', 'PESSOAS COM COMORBIDADES',
       'OUTRAS PRIORIDADES', 'CAMINHONEIROS',
       ' PÃ\x9aBLICO EM GERAL - MENOR DE 18 ANOS',
       'TRABALHADORES DE TRANSPORTE COLETIVO RODOVIÃ\x81RIO',
       'TRABALHADORES DE TRANSPORTE AÃ\x89REO',
       'TRABALHADORES DA LIMPEZA URBANA',
       'PESSOAS EM SITUAÃ\x87Ã\x83O DE RUA', 'GESTANTES E PUÃ\x89RPERAS',
       'TRABALHADORES DE TRANSPORTE METROVIÃ\x81RIO E FERROVIÃ\x81RIO',
       'TRABALHADORES PORTUÃ\x81RIOS',
       'TRABALHADORES DA ASSISTÃ\x8aNCIA SOCIAL',
       'GESTANTES E PUÃ\x89RPERAS NÃ\x83O RESIDENTES EM RECIFE',
       'PESSOAS COM DEFICIÃ\x8aNCIA - 12 A 17 ANOS',
       'PESSOAS COM VIAGEM PARA EXTERIOR (ESTUDO/PESQUISA/TRABALHO/TRATAMENTO DE SAÃ\x9aDE)',
       'GESTANTES E PUÃ\x89RPERAS - 12 A 17 ANOS',
       'PESSOAS COM COMORBIDADES - 1

In [11]:
data["grupo"] = data["grupo"].replace(["TRABALHADORES INDUSTRIAIS E BANCÃ\x81RIOS", "TRABALHADORES DA SAÃ\x9aDE",
                                       "PÃ\x9aBLICO EM GERAL (18 a 59 anos)", "IDOSOS",
                                       "TRABALHADORES DA EDUCAÃ\x87Ã\x83O", "PESSOAS COM COMORBIDADES",
                                       "OUTRAS PRIORIDADES", "CAMINHONEIROS",
                                       " PÃ\x9aBLICO EM GERAL - MENOR DE 18 ANOS",
                                       "TRABALHADORES DE TRANSPORTE COLETIVO RODOVIÃ\x81RIO",
                                       "TRABALHADORES DE TRANSPORTE AÃ\x89REO",
                                       "TRABALHADORES DA LIMPEZA URBANA",
                                       "PESSOAS EM SITUAÃ\x87Ã\x83O DE RUA", "GESTANTES E PUÃ\x89RPERAS",
                                       "TRABALHADORES DE TRANSPORTE METROVIÃ\x81RIO E FERROVIÃ\x81RIO",
                                       "TRABALHADORES PORTUÃ\x81RIOS", "TRABALHADORES DA ASSISTÃ\x8aNCIA SOCIAL",
                                       "GESTANTES E PUÃ\x89RPERAS NÃ\x83O RESIDENTES EM RECIFE",
                                       "PESSOAS COM DEFICIÃ\x8aNCIA - 12 A 17 ANOS",
                                       "PESSOAS COM VIAGEM PARA EXTERIOR (ESTUDO/PESQUISA/TRABALHO/TRATAMENTO DE SAÃ\x9aDE)",
                                       "GESTANTES E PUÃ\x89RPERAS - 12 A 17 ANOS", "PESSOAS COM COMORBIDADES - 12 A 17 ANOS",
                                       "TRABALHADORES DE TRANSPORTE AQUAVIÃ\x81RIO"],
                                      
                                      ["TRABALHADORES INDUSTRIAIS E BANCARIOS", "TRABALHADORES DA SAUDE",
                                       "PUBLICO EM GERAL (18 a 59 anos)", "IDOSOS",
                                       "TRABALHADORES DA EDUCACAO", "PESSOAS COM COMORBIDADES",
                                       "OUTRAS PRIORIDADES", "CAMINHONEIROS",
                                       " PUBLICO EM GERAL - MENOR DE 18 ANOS",
                                       "TRABALHADORES DE TRANSPORTE COLETIVO RODOVIARIA",
                                       "TRABALHADORES DE TRANSPORTE AREO",
                                       "TRABALHADORES DA LIMPEZA URBANA",
                                       "PESSOAS EM SITUACAO DE RUA", "GESTANTES E PUERPERAS",
                                       "TRABALHADORES DE TRANSPORTE METROVIARIO E FERROVIARIO",
                                       "TRABALHADORES PORTUARIOS", "TRABALHADORES DA ASSISTENCIA SOCIAL",
                                       "GESTANTES E PUERPERAS NAO RESIDENTES EM RECIFE",
                                       "PESSOAS COM DEFICIENCIA - 12 A 17 ANOS",
                                       "PESSOAS COM VIAGEM PARA EXTERIOR (ESTUDO/PESQUISA/TRABALHO/TRATAMENTO DE SAUDE)",
                                       "GESTANTES E PUERPERAS - 12 A 17 ANOS", "PESSOAS COM COMORBIDADES - 12 A 17 ANOS",
                                       "TRABALHADORES DE TRANSPORTE AQUAVIARIO"]
                                     )


In [12]:
data["grupo"].unique()

array(['TRABALHADORES INDUSTRIAIS E BANCARIOS', 'TRABALHADORES DA SAUDE',
       'PUBLICO EM GERAL (18 a 59 anos)', 'IDOSOS',
       'TRABALHADORES DA EDUCACAO', 'PESSOAS COM COMORBIDADES',
       'OUTRAS PRIORIDADES', 'CAMINHONEIROS',
       ' PUBLICO EM GERAL - MENOR DE 18 ANOS',
       'TRABALHADORES DE TRANSPORTE COLETIVO RODOVIARIA',
       'TRABALHADORES DE TRANSPORTE AREO',
       'TRABALHADORES DA LIMPEZA URBANA', 'PESSOAS EM SITUACAO DE RUA',
       'GESTANTES E PUERPERAS',
       'TRABALHADORES DE TRANSPORTE METROVIARIO E FERROVIARIO',
       'TRABALHADORES PORTUARIOS', 'TRABALHADORES DA ASSISTENCIA SOCIAL',
       'GESTANTES E PUERPERAS NAO RESIDENTES EM RECIFE',
       'PESSOAS COM DEFICIENCIA - 12 A 17 ANOS',
       'PESSOAS COM VIAGEM PARA EXTERIOR (ESTUDO/PESQUISA/TRABALHO/TRATAMENTO DE SAUDE)',
       'GESTANTES E PUERPERAS - 12 A 17 ANOS',
       'PESSOAS COM COMORBIDADES - 12 A 17 ANOS',
       'TRABALHADORES DE TRANSPORTE AQUAVIARIO'], dtype=object)

In [14]:
data.head(10)

Unnamed: 0,cpf,grupo,vacina,dose,data_vacinacao,sexo
0,***.574.544-**,TRABALHADORES INDUSTRIAIS E BANCARIOS,CHADOX1NCOV-19,1,26/07/2021,MASCULINO
1,***.886.964-**,TRABALHADORES DA SAUDE,CORONAVAC,1,11/02/2021,FEMININO
2,***.886.964-**,TRABALHADORES DA SAUDE,CORONAVAC,2,04/03/2021,FEMININO
3,***.405.524-**,PUBLICO EM GERAL (18 a 59 anos),COMIRNATY,1,21/08/2021,FEMININO
4,***.695.200-**,IDOSOS,CORONAVAC,1,10/03/2021,MASCULINO
5,***.695.200-**,IDOSOS,CORONAVAC,2,31/03/2021,MASCULINO
6,***.091.004-**,PUBLICO EM GERAL (18 a 59 anos),CHADOX1NCOV-19,1,30/07/2021,MASCULINO
7,***.284.114-**,PUBLICO EM GERAL (18 a 59 anos),CHADOX1NCOV-19,1,15/06/2021,MASCULINO
8,***.599.494-**,PUBLICO EM GERAL (18 a 59 anos),CHADOX1NCOV-19,1,01/06/2021,MASCULINO
9,***.599.494-**,PUBLICO EM GERAL (18 a 59 anos),CHADOX1NCOV-19,2,01/08/2021,MASCULINO


# query analysis