##### Bibliotecas


In [373]:
import os
import numpy as np
import pandas as pd
import openpyxl
#import plotly.io as pio

##### Globais

In [374]:
diretorio  = 'Dataset'

In [375]:
#pio.renderers.default = 'notebook'  # Configura o renderizador para notebook

___
##### Conjunto de Dados - openDataSus

*Registros de Vacinação COVID19 no Distrito Federal:*   
https://opendatasus.saude.gov.br/dataset/covid-19-vacinacao/resource/5093679f-12c3-4d6b-b7bd-07694de54173

A análise será realizada no **Conjunto de Dados de Vacinação COVID19 (Primeira dose a 30/09/2023)**, considerando somente os **Dados do DF**, totalizando 5 arquivos *csv*.
<br><br>
___

##### Análise da Estrutura dos Dados (antes da limpeza)



In [376]:
df_dados          = pd.DataFrame()    
df_estrutra_dados = pd.DataFrame()
lista_arquivos    = []

# Lista os arquivos do diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith('.csv'):
       lista_arquivos.append(arquivo) 
       
# Carrega o DataFrame 
for dataset in lista_arquivos:
    caminho_arquivo   = os.path.join(diretorio, dataset)
    df_dados          = pd.read_csv(caminho_arquivo, sep=';', low_memory=False)
    df_estrutra_dados = pd.concat([df_estrutra_dados, df_dados], ignore_index=True)

##### Estrutura da Base de Dados

In [377]:
df_estrutra_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7903355 entries, 0 to 7903354
Data columns (total 32 columns):
 #   Column                                    Dtype  
---  ------                                    -----  
 0   document_id                               object 
 1   paciente_id                               object 
 2   paciente_idade                            float64
 3   paciente_dataNascimento                   object 
 4   paciente_enumSexoBiologico                object 
 5   paciente_racaCor_codigo                   float64
 6   paciente_racaCor_valor                    object 
 7   paciente_endereco_coIbgeMunicipio         float64
 8   paciente_endereco_coPais                  float64
 9   paciente_endereco_nmMunicipio             object 
 10  paciente_endereco_nmPais                  object 
 11  paciente_endereco_uf                      object 
 12  paciente_endereco_cep                     float64
 13  paciente_nacionalidade_enumNacionalidade  object 
 14  es

##### Campos nulos

In [378]:
df_estrutra_dados.isnull().sum()

document_id                                       0
paciente_id                                      34
paciente_idade                                   34
paciente_dataNascimento                          34
paciente_enumSexoBiologico                       34
paciente_racaCor_codigo                          38
paciente_racaCor_valor                           38
paciente_endereco_coIbgeMunicipio             65517
paciente_endereco_coPais                      65302
paciente_endereco_nmMunicipio                 65437
paciente_endereco_nmPais                      65302
paciente_endereco_uf                          65517
paciente_endereco_cep                       1217387
paciente_nacionalidade_enumNacionalidade       3744
estabelecimento_valor                             0
estabelecimento_razaoSocial                       0
estalecimento_noFantasia                          0
estabelecimento_municipio_codigo                  0
estabelecimento_municipio_nome                    0
estabelecime

##### Verificação da UF do vacinado

In [379]:
df_estrutra_dados['paciente_endereco_uf'].unique()

array(['DF', 'GO', 'PA', 'SP', 'MA', 'MG', 'RJ', 'BA', 'PR', 'PI', 'PE',
       'CE', 'AL', 'TO', 'RS', nan, 'RN', 'AM', 'PB', 'MS', 'AP', 'MT',
       'SC', 'XX', 'ES', 'RO', 'SE', 'AC', 'RR'], dtype=object)

##### Visualização do DataFrame (Head e Tail)

In [380]:
print(display(df_estrutra_dados)) 

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_codigo,paciente_racaCor_valor,paciente_endereco_coIbgeMunicipio,paciente_endereco_coPais,paciente_endereco_nmMunicipio,...,vacina_categoria_codigo,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem
0,56bcfea3-9436-4678-9a41-596c91357b61-i0b0,5b62f49735c2d6379c99a78d3e84e7dfddad41c5bf4a50...,5.0,2017-01-07,F,3.0,PARDA,530010.0,10.0,BRASILIA,...,,,FP8290,Pendente Identificação,Organization/28290,2022-03-25,2ª Dose,99,COVID-19 PEDIÁTRICA - PFIZER COMIRNATY,Novo PNI
1,408a40d6-d82a-4649-92d1-9efc80558bb4-i0b0,930ed98a1c35319474dcd0c81a0624068dd5571242b940...,49.0,1971-07-22,F,99.0,SEM INFORMACAO,530010.0,10.0,BRASILIA,...,9.0,Trabalhadores de Saúde,202010021,SINOVAC/BUTANTAN,Organization/61189445000156,2021-01-27,1ª Dose,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI
2,56c01666-2538-401c-9471-55ab37268a07-i0b0,015eef18137eb5a9833ff47e14c66e731478c70e974ddd...,16.0,2005-10-14,F,1.0,BRANCA,530010.0,10.0,BRASILIA,...,114.0,Outros,FH8025,PFIZER,Organization/00394544000851,2021-10-27,2ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
3,409285c9-118f-442f-9ce5-71f8c051d137-i0b0,a8e9d6a5d1813394c5e446588a222d7df2625ca058c142...,69.0,1952-07-23,M,3.0,PARDA,530010.0,10.0,BRASILIA,...,2.0,Faixa Etária,FL1940,PFIZER,Organization/00394544000851,2021-11-26,Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
4,56cc156b-6554-4c0e-9448-636869ff33ac-i0b0,a2857c4631631b5000b41d574ff8d3daa30a2e2386a5f2...,49.0,1972-08-06,M,99.0,SEM INFORMACAO,521308.0,10.0,MINACU,...,2.0,Faixa Etária,217VCD236W,ASTRAZENECA/FIOCRUZ,Organization/33781055000135,2021-08-24,2ª Dose,85,COVID-19 ASTRAZENECA/FIOCRUZ - COVISHIELD,Novo PNI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7903350,850ec6df-70be-4177-8170-214b92471b7c-i0b0,5125de1087b3e1ae176928530db97b21cc2cacf68d8e10...,28.0,1995-06-14,F,1.0,BRANCA,530010.0,10.0,BRASILIA,...,2.0,Faixa Etária,GJ9239,PFIZER,28290,2023-06-27,Reforço,103,COVID-19 PFIZER - COMIRNATY BIVALENTE,Novo PNI
7903351,850f8b13-1ac1-4ca8-8557-b93cb961f488-i0b0,78efe1bbfca7f7abc28356961b60638bf465d0f85a562a...,47.0,1973-12-09,M,3.0,PARDA,520180.0,10.0,ARAGOIANIA,...,2.0,Faixa Etária,FJ2594,PFIZER,Organization/00394544000851,2021-11-18,2ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
7903352,85139415-e12e-4fa2-818d-6c8c1ff2e788-i0b0,eb55d047d43fc31ef2551c8cf1f1f483195630711db4b7...,54.0,1968-05-13,M,4.0,AMARELA,530010.0,10.0,BRASILIA,...,2.0,Faixa Etária,213J21A,JANSSEN,30587,2022-06-25,2º Reforço,88,COVID-19 JANSSEN - Ad26.COV2.S,Novo PNI
7903353,8516b6f9-77f8-41fe-9ba2-f508b6cb3611-i0b0,3248bc382b05f9904fcc359cc2c6f790d0803cb352b505...,35.0,1987-01-20,F,99.0,SEM INFORMACAO,,,,...,2.0,Faixa Etária,B202106076,SINOVAC/BUTANTAN,Organization/152,2022-02-22,Reforço,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI


None


___
##### Análise da Estrutura dos Dados (processo de limpeza)

##### Alteração de tipos

In [381]:
df_estrutra_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7903355 entries, 0 to 7903354
Data columns (total 32 columns):
 #   Column                                    Dtype  
---  ------                                    -----  
 0   document_id                               object 
 1   paciente_id                               object 
 2   paciente_idade                            float64
 3   paciente_dataNascimento                   object 
 4   paciente_enumSexoBiologico                object 
 5   paciente_racaCor_codigo                   float64
 6   paciente_racaCor_valor                    object 
 7   paciente_endereco_coIbgeMunicipio         float64
 8   paciente_endereco_coPais                  float64
 9   paciente_endereco_nmMunicipio             object 
 10  paciente_endereco_nmPais                  object 
 11  paciente_endereco_uf                      object 
 12  paciente_endereco_cep                     float64
 13  paciente_nacionalidade_enumNacionalidade  object 
 14  es

In [382]:
df_dados          = pd.DataFrame()
df_estrutra_dados = pd.DataFrame()
lista_arquivos    = []

# Lista os arquivos do diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith('.csv'):
       lista_arquivos.append(arquivo) 

# Carrega o DataFrame 
for dataset in lista_arquivos:
    caminho_arquivo = os.path.join(diretorio, dataset)
    df_dados        = pd.read_csv(caminho_arquivo,
                                  sep=';', thousands = '.', decimal = ',',
                                  dtype = {'paciente_enumSexoBiologico': 'category',
                                           'estabelecimento_uf': 'category'})
    df_estrutra_dados = pd.concat([df_estrutra_dados, df_dados], ignore_index=True)

df_estrutra_dados.info()    

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7903355 entries, 0 to 7903354
Data columns (total 32 columns):
 #   Column                                    Dtype   
---  ------                                    -----   
 0   document_id                               object  
 1   paciente_id                               object  
 2   paciente_idade                            float64 
 3   paciente_dataNascimento                   object  
 4   paciente_enumSexoBiologico                category
 5   paciente_racaCor_codigo                   float64 
 6   paciente_racaCor_valor                    object  
 7   paciente_endereco_coIbgeMunicipio         float64 
 8   paciente_endereco_coPais                  float64 
 9   paciente_endereco_nmMunicipio             object  
 10  paciente_endereco_nmPais                  object  
 11  paciente_endereco_uf                      object  
 12  paciente_endereco_cep                     float64 
 13  paciente_nacionalidade_enumNacionalidade  

##### Exclusão de registros

Registros sem identificação do vacinado

In [383]:
df_estrutra_dados.dropna(subset=['paciente_id'], inplace = True)

df_estrutra_dados.isnull().sum()

document_id                                       0
paciente_id                                       0
paciente_idade                                    0
paciente_dataNascimento                           0
paciente_enumSexoBiologico                        0
paciente_racaCor_codigo                           4
paciente_racaCor_valor                            4
paciente_endereco_coIbgeMunicipio             65483
paciente_endereco_coPais                      65268
paciente_endereco_nmMunicipio                 65403
paciente_endereco_nmPais                      65268
paciente_endereco_uf                          65483
paciente_endereco_cep                       1217353
paciente_nacionalidade_enumNacionalidade       3710
estabelecimento_valor                             0
estabelecimento_razaoSocial                       0
estalecimento_noFantasia                          0
estabelecimento_municipio_codigo                  0
estabelecimento_municipio_nome                    0
estabelecime

Exclusão dos registros de vacinados de fora do Distrito Federal

In [384]:
df_pacientes_fora_do_DF = df_estrutra_dados[df_estrutra_dados['paciente_endereco_uf'] != 'DF'].index
df_estrutra_dados       = df_estrutra_dados.drop(df_pacientes_fora_do_DF)

df_estrutra_dados['paciente_endereco_uf'].unique()

array(['DF'], dtype=object)

Exclusão de colunas não relevantes para a análise

In [385]:
df_estrutra_dados.drop(columns=['paciente_racaCor_codigo',
                                'paciente_endereco_coIbgeMunicipio',
                                'paciente_endereco_coPais',
                                'paciente_endereco_nmMunicipio',
                                'paciente_endereco_nmPais',
                                'paciente_endereco_cep',
                                'paciente_nacionalidade_enumNacionalidade',
                                'vacina_grupoAtendimento_codigo',
                                'vacina_categoria_codigo',
                                'vacina_fabricante_referencia',
                                'sistema_origem'], inplace=True)

df_estrutra_dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6729203 entries, 0 to 7903354
Data columns (total 21 columns):
 #   Column                            Dtype   
---  ------                            -----   
 0   document_id                       object  
 1   paciente_id                       object  
 2   paciente_idade                    float64 
 3   paciente_dataNascimento           object  
 4   paciente_enumSexoBiologico        category
 5   paciente_racaCor_valor            object  
 6   paciente_endereco_uf              object  
 7   estabelecimento_valor             int64   
 8   estabelecimento_razaoSocial       object  
 9   estalecimento_noFantasia          object  
 10  estabelecimento_municipio_codigo  int64   
 11  estabelecimento_municipio_nome    object  
 12  estabelecimento_uf                category
 13  vacina_grupoAtendimento_nome      object  
 14  vacina_categoria_nome             object  
 15  vacina_lote                       object  
 16  vacina_fabricante_nome 

##### Atualização de Vacinas sem nome

Busca

In [386]:
df_vacina_sem_nome = df_estrutra_dados[df_estrutra_dados['vacina_nome'].isnull()]
df_vacina_sem_nome

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_valor,paciente_endereco_uf,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,...,estabelecimento_municipio_nome,estabelecimento_uf,vacina_grupoAtendimento_nome,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome
40203,967a03db-ed90-4099-bb49-5408d067fc87-i0b0,9d9f4941f7941bce58d58a84444e4a72a53cc4c4225e48...,0.0,2021-12-09,F,PARDA,DF,9056963,UNIDADE BASICA DE SAUDE N 01 DE VICENTE PIRES,UBS 01 VICENTE PIRES,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-29,1ª Dose,102,
193899,af737bd4-9d72-4c3e-b480-589cd5528d6e-i0b0,9d5e556651121592b84d5a14cbfae36beb178df7eafd53...,1.0,2021-03-13,M,BRANCA,DF,10731,UNIDADE BASICA DE SAUDE N 1 CRUZEIRO,UBS 1 CRUZEIRO,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-23,1ª Dose,102,
324434,9f97304e-bab3-4293-adce-f5592d791a96-i0b0,18174ff1e8457eec34be1c7769f87e7e43c39dc0389ade...,0.0,2022-04-30,M,SEM INFORMACAO,DF,10790,UNIDADE BASICA DE SAUDE N 1 SAO SEBASTIAO,UBS 1 SAO SEBASTIAO,...,BRASILIA,DF,Pessoas de 5 a 11 anos,,GC9016,Pendente Identificação,2022-11-21,1ª Dose,102,
420539,956a589c-a77f-4064-9fe6-24fdcabe8c92-i0b0,26cc1d08bb48327fa36e22e159517c80f61f0dc647e872...,0.0,2022-01-18,M,BRANCA,DF,10707,UNIDADE BASICA DE SAUDE N 1 ASA NORTE,UBS 1 ASA NORTE,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-23,1ª Dose,102,
423941,6598a083-8cbb-406d-a953-8928a074d3bb-i0b0,2c541b7dbecf4385ce1e575ac5d40d90b8bca46271c31b...,1.0,2021-03-07,M,SEM INFORMACAO,DF,10731,UNIDADE BASICA DE SAUDE N 1 CRUZEIRO,UBS 1 CRUZEIRO,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-23,1ª Dose,102,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7466612,1c0abd7f-6490-4dd1-9b87-539b7edb83b2-i0b0,19d41c7b29b2d8de2902f865e057c629006e7d6a358890...,2.0,2020-09-01,M,BRANCA,DF,10995,UNIDADE BASICA DE SAUDE N 3 DA CEILANDIA,UBS 3 CEILANDIA,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-25,1ª Dose,102,
7506798,577fc4b3-093d-46c5-a23e-3f9a2ea3db48-i0b0,0a4b2335f9dfdaa91288221f12fb64b42b97201ad11fe6...,2.0,2020-08-20,F,PARDA,DF,10995,UNIDADE BASICA DE SAUDE N 3 DA CEILANDIA,UBS 3 CEILANDIA,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-29,1ª Dose,102,
7610908,e69153b4-ac96-46e7-b065-cbf2927ee56b-i0b0,d79b369b80cae9fcb78f2ba059a98ee157a78946a87fe5...,2.0,2020-06-30,M,BRANCA,DF,10995,UNIDADE BASICA DE SAUDE N 3 DA CEILANDIA,UBS 3 CEILANDIA,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-29,1ª Dose,102,
7710629,5a52b529-d9b9-450b-a59b-ea1aa4e9d054-i0b0,a9ecfb6c5499b45735db20ad2f3d2161abb423d10a76e0...,2.0,2020-10-10,F,BRANCA,DF,11118,UNIDADE BASICA DE SAUDE N 1 DO GUARA,UBS 01 GUARA,...,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-25,1ª Dose,102,


Busca por ['vacina_codigo'] == 102

In [387]:
df_vacina_102 = df_estrutra_dados[df_estrutra_dados['vacina_codigo'] == 102]
df_vacina_102['vacina_nome']

265        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
506        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
869        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
876        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
1105       COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
                                 ...                        
7903099    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7903144    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7903153    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7903240    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7903293    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
Name: vacina_nome, Length: 53827, dtype: object

In [388]:
df_vacina_102['vacina_nome'].unique()

array(['COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR DE 5 ANOS', nan],
      dtype=object)

Atualização do nome da Vacina

In [389]:
indice = df_estrutra_dados.loc[df_vacina_sem_nome.index]
df_estrutra_dados.loc[indice.index, 'vacina_nome'] = 'COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR DE 5 ANOS'
df_estrutra_dados.loc[indice.index]['vacina_nome']

40203      COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
193899     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
324434     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
420539     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
423941     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
                                 ...                        
7466612    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7506798    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7610908    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7710629    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7790710    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
Name: vacina_nome, Length: 119, dtype: object

In [390]:
df_vacina_sem_nome = df_estrutra_dados[df_estrutra_dados['vacina_nome'].isnull()]
df_vacina_sem_nome

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_valor,paciente_endereco_uf,estabelecimento_valor,estabelecimento_razaoSocial,estalecimento_noFantasia,...,estabelecimento_municipio_nome,estabelecimento_uf,vacina_grupoAtendimento_nome,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome


In [391]:
df_estrutra_dados.info()
df_estrutra_dados.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
Index: 6729203 entries, 0 to 7903354
Data columns (total 21 columns):
 #   Column                            Dtype   
---  ------                            -----   
 0   document_id                       object  
 1   paciente_id                       object  
 2   paciente_idade                    float64 
 3   paciente_dataNascimento           object  
 4   paciente_enumSexoBiologico        category
 5   paciente_racaCor_valor            object  
 6   paciente_endereco_uf              object  
 7   estabelecimento_valor             int64   
 8   estabelecimento_razaoSocial       object  
 9   estalecimento_noFantasia          object  
 10  estabelecimento_municipio_codigo  int64   
 11  estabelecimento_municipio_nome    object  
 12  estabelecimento_uf                category
 13  vacina_grupoAtendimento_nome      object  
 14  vacina_categoria_nome             object  
 15  vacina_lote                       object  
 16  vacina_fabricante_nome 

document_id                              0
paciente_id                              0
paciente_idade                           0
paciente_dataNascimento                  0
paciente_enumSexoBiologico               0
paciente_racaCor_valor                   3
paciente_endereco_uf                     0
estabelecimento_valor                    0
estabelecimento_razaoSocial              0
estalecimento_noFantasia                 0
estabelecimento_municipio_codigo         0
estabelecimento_municipio_nome           0
estabelecimento_uf                       0
vacina_grupoAtendimento_nome         43191
vacina_categoria_nome               330867
vacina_lote                              0
vacina_fabricante_nome                   0
vacina_dataAplicacao                     0
vacina_descricao_dose                   11
vacina_codigo                            0
vacina_nome                              0
dtype: int64

___