# Análise Vacinação Covid-19 Minas Gerais

Neste script, farei um pré-processamento da base de dados para diminuir a dimensão do dataset e melhorar o procesamento no Power BI, visto que é um conjunto de dados muito grande, mais de 9GB e fica inviável fazer o tratamento dos dados dentro do Power BI. O Python é mais eficiente neste pré-processamento.

A base de dados se encontra em https://opendatasus.saude.gov.br/dataset/covid-19-vacinacao

In [1]:
# Importando biblioteca
import pandas as pd

In [16]:
# Importando base de dados
df = pd.read_csv('part-00000-95a60bde-2b39-4964-a66b-0ec671243fac.c000.csv', sep = ';')

In [17]:
# Visualizando o conjunto de dados
df.head()

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_datanascimento,paciente_enumsexobiologico,paciente_racacor_codigo,paciente_racacor_valor,paciente_endereco_coibgemunicipio,paciente_endereco_copais,paciente_endereco_nmmunicipio,...,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataaplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem,data_importacao_rnds,id_sistema_origem
0,e1c5e523-6f94-4ae8-8cf6-b7a8b380ce94-i0b0,22dae2bb5f906534c9f8ca7efef5e53088ac68f803e50b...,69.0,1951-04-04,M,1.0,BRANCA,310620.0,10.0,BELO HORIZONTE,...,210072,FUNDACAO BUTANTAN,Organization/61189445000156,2021-04-01,1ª Dose,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,2021-04-01T15:17:06.000Z,16341
1,bb2a5d56-bb83-4f87-8c02-f68e8619b6b0-i0b0,cfb9eb5a765e2160adff875d0dd276e30a1a4e3cc71529...,50.0,1970-08-10,F,4.0,AMARELA,310730.0,10.0,BOCAIUVA,...,EY0579,MINISTERIO DA SAUDE,Organization/00394544000851,2021-06-23,1ª Dose,87,Vacina covid-19 - BNT162b2 - BioNTech/Fosun Ph...,Novo PNI,2021-07-12T19:27:16.000Z,16341
2,a729697f-a293-4cd0-aa11-13ef05cb303a-i0b0,9bc02b4e729a48316ac090f1fbe50a8ddd3400de31bbf8...,20.0,2001-05-04,F,99.0,SEM INFORMACAO,355030.0,10.0,SAO PAULO,...,EX2405,PFIZER MANUFACTURING BELGIUM NV BELGIVA,,2021-05-26,1ª Dose,87,Vacina covid-19 - BNT162b2 - BioNTech/Fosun Ph...,SIGRAH,2021-05-26T13:38:58.000Z,19788
3,2b3aa8ef-5e1b-44cd-827b-b940c69d622e-i0b0,f3f290319b6988f1efe9dd0055109b97edda1682a8d78e...,38.0,1982-09-07,M,1.0,BRANCA,311060.0,10.0,CAMBUI,...,215VCD158W,FUNDACAO OSWALDO CRUZ,Organization/33781055000135,2021-07-21,1ª Dose,85,Vacina Covid-19 - Covishield,Novo PNI,2021-07-21T17:57:52.000Z,16341
4,3850d058-5f37-4270-9565-417848bd840a-i0b0,b22537ea2d44cf023d14593e345f2dbe7937a946f4bc94...,70.0,1950-04-20,F,3.0,PARDA,314110.0,10.0,MATOZINHOS,...,210096,FUNDACAO BUTANTAN,Organization/61189445000156,2021-04-06,1ª Dose,86,Covid-19-Coronavac-Sinovac/Butantan,Novo PNI,2021-04-10T17:18:12.000Z,16341


In [18]:
# Dimensão da tabela
df.shape

(18628888, 34)

In [19]:
# Removendo as colunas que não serão utilizadas no dashboard
df1 = df.drop(columns =  ['document_id', 'paciente_racacor_codigo', 'paciente_endereco_coibgemunicipio', 
                         'paciente_endereco_copais', 'id_sistema_origem', 'paciente_endereco_cep', 'vacina_codigo',
                         'vacina_lote', 'vacina_fabricante_nome', 'vacina_fabricante_referencia', 'sistema_origem',
                         'data_importacao_rnds', 'paciente_racacor_codigo', 'paciente_datanascimento',
                         'paciente_endereco_nmmunicipio', 'paciente_endereco_nmpais', 'paciente_endereco_uf',
                         'paciente_nacionalidade_enumnacionalidade', 'estabelecimento_valor', 'estalecimento_nofantasia',
                         'estabelecimento_razaosocial', 'estabelecimento_municipio_codigo', 'vacina_grupoatendimento_codigo',
                         'vacina_categoria_codigo', 'estabelecimento_uf'])

In [20]:
# Dimensão da tabela reduzida
df1.shape

(18628888, 10)

In [21]:
df1.head()

Unnamed: 0,paciente_id,paciente_idade,paciente_enumsexobiologico,paciente_racacor_valor,estabelecimento_municipio_nome,vacina_grupoatendimento_nome,vacina_categoria_nome,vacina_dataaplicacao,vacina_descricao_dose,vacina_nome
0,22dae2bb5f906534c9f8ca7efef5e53088ac68f803e50b...,69.0,M,BRANCA,BELO HORIZONTE,Pessoas de 65 a 69 anos,Faixa Etária,2021-04-01,1ª Dose,Covid-19-Coronavac-Sinovac/Butantan
1,cfb9eb5a765e2160adff875d0dd276e30a1a4e3cc71529...,50.0,F,AMARELA,BOCAIUVA,Pessoas de 18 a 64 anos,Faixa Etária,2021-06-23,1ª Dose,Vacina covid-19 - BNT162b2 - BioNTech/Fosun Ph...
2,9bc02b4e729a48316ac090f1fbe50a8ddd3400de31bbf8...,20.0,F,SEM INFORMACAO,BELO HORIZONTE,Diabetes Mellitus,Comorbidades,2021-05-26,1ª Dose,Vacina covid-19 - BNT162b2 - BioNTech/Fosun Ph...
3,f3f290319b6988f1efe9dd0055109b97edda1682a8d78e...,38.0,M,BRANCA,CAMBUI,Pneumopatias Crônicas Graves,Comorbidades,2021-07-21,1ª Dose,Vacina Covid-19 - Covishield
4,b22537ea2d44cf023d14593e345f2dbe7937a946f4bc94...,70.0,F,PARDA,MATOZINHOS,Pessoas de 70 a 74 anos,Faixa Etária,2021-04-06,1ª Dose,Covid-19-Coronavac-Sinovac/Butantan


In [22]:
# Verificando valores ausentes
df1.isnull().sum()

paciente_id                            4
paciente_idade                         4
paciente_enumsexobiologico             4
paciente_racacor_valor                 4
estabelecimento_municipio_nome         0
vacina_grupoatendimento_nome      698100
vacina_categoria_nome             701803
vacina_dataaplicacao                   0
vacina_descricao_dose                  0
vacina_nome                            0
dtype: int64

In [23]:
# Verificando inconsistência nos dados
df1['vacina_descricao_dose'].value_counts()

1ª Dose                 12811941
2ª Dose                  5364617
Dose                      422256
Única                      29864
3ª Dose                      191
2ª Dose Revacinação           18
1ª Dose Revacinação            1
Name: vacina_descricao_dose, dtype: int64

In [24]:
# Trantando inconsistência nos dados
df1['vacina_descricao_dose'] = df1['vacina_descricao_dose'].replace('1ª\xa0Dose', '1ª Dose')
df1['vacina_descricao_dose'] = df1['vacina_descricao_dose'].replace('2ª\xa0Dose', '2ª Dose')
df1['vacina_descricao_dose'] = df1['vacina_descricao_dose'].replace('Dose\xa0', 'Dose Única')
df1['vacina_descricao_dose'] = df1['vacina_descricao_dose'].replace('Única\xa0', 'Dose Única')
df1['vacina_descricao_dose'] = df1['vacina_descricao_dose'].replace('2ª\xa0Dose\xa0Revacinação\xa0', '2ª Dose')
df1['vacina_descricao_dose'] = df1['vacina_descricao_dose'].replace('3ª\xa0Dose', '2ª Dose')
df1['vacina_descricao_dose'] = df1['vacina_descricao_dose'].replace('1ª\xa0Dose\xa0Revacinação\xa0', '1ª Dose')

In [25]:
# Verificando se está tudo certo
df1['vacina_descricao_dose'].value_counts()

1ª Dose       12811942
2ª Dose        5364826
Dose Única      452120
Name: vacina_descricao_dose, dtype: int64

In [26]:
# Alterando coluna de sexo, M-> Masculino e F-> Feminino
df1['paciente_enumsexobiologico'] = df1['paciente_enumsexobiologico'].replace('M', 'Masculino')
df1['paciente_enumsexobiologico'] = df1['paciente_enumsexobiologico'].replace('F', 'Feminino')

In [27]:
df1['paciente_enumsexobiologico'].value_counts()

Feminino     10043045
Masculino     8585827
I                  12
Name: paciente_enumsexobiologico, dtype: int64

In [28]:
# Trantando inconsistência nos dados
df1['vacina_nome'] = df1['vacina_nome'].replace('Vacina Covid-19 - Covishield', 'AstraZeneca')
df1['vacina_nome'] = df1['vacina_nome'].replace('Covid-19-AstraZeneca', 'AstraZeneca')
df1['vacina_nome'] = df1['vacina_nome'].replace('Covid-19-Coronavac-Sinovac/Butantan', 'Coronavac')
df1['vacina_nome'] = df1['vacina_nome'].replace('Vacina covid-19 - BNT162b2 - BioNTech/Fosun Pharma/Pfizer', 'Pfizer')
df1['vacina_nome'] = df1['vacina_nome'].replace('Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag', 'Janssen')

In [29]:
df1['vacina_nome'].value_counts()

AstraZeneca    8569910
Coronavac      6025742
Pfizer         3580854
Janssen         452382
Name: vacina_nome, dtype: int64

In [30]:
df1.head()

Unnamed: 0,paciente_id,paciente_idade,paciente_enumsexobiologico,paciente_racacor_valor,estabelecimento_municipio_nome,vacina_grupoatendimento_nome,vacina_categoria_nome,vacina_dataaplicacao,vacina_descricao_dose,vacina_nome
0,22dae2bb5f906534c9f8ca7efef5e53088ac68f803e50b...,69.0,Masculino,BRANCA,BELO HORIZONTE,Pessoas de 65 a 69 anos,Faixa Etária,2021-04-01,1ª Dose,Coronavac
1,cfb9eb5a765e2160adff875d0dd276e30a1a4e3cc71529...,50.0,Feminino,AMARELA,BOCAIUVA,Pessoas de 18 a 64 anos,Faixa Etária,2021-06-23,1ª Dose,Pfizer
2,9bc02b4e729a48316ac090f1fbe50a8ddd3400de31bbf8...,20.0,Feminino,SEM INFORMACAO,BELO HORIZONTE,Diabetes Mellitus,Comorbidades,2021-05-26,1ª Dose,Pfizer
3,f3f290319b6988f1efe9dd0055109b97edda1682a8d78e...,38.0,Masculino,BRANCA,CAMBUI,Pneumopatias Crônicas Graves,Comorbidades,2021-07-21,1ª Dose,AstraZeneca
4,b22537ea2d44cf023d14593e345f2dbe7937a946f4bc94...,70.0,Feminino,PARDA,MATOZINHOS,Pessoas de 70 a 74 anos,Faixa Etária,2021-04-06,1ª Dose,Coronavac


In [31]:
# Salvando a base em disco
df1.to_csv('base_simplificada.csv')

Foi possível reduzir a dimensão do dataset de 9GB para 3,2GB, mantendo as informações que serão utilizadas o que vai ajudar bastante o Power BI a processar os dados.

In [50]:
# Importando Base simplificada
df = pd.read_csv('base_simplificada.csv', sep = ';')