##### Bibliotecas


In [1]:
import os
import numpy as np
import pandas as pd
import openpyxl
#import plotly.io as pio

##### Globais

In [2]:
diretorio  = 'Dataset'

In [3]:
#pio.renderers.default = 'notebook'  # Configura o renderizador para notebook

___
##### Conjunto de Dados - openDataSus

*Registros de Vacinação COVID19 no Distrito Federal:*   
https://opendatasus.saude.gov.br/dataset/covid-19-vacinacao/resource/5093679f-12c3-4d6b-b7bd-07694de54173

A análise será realizada no **Conjunto de Dados de Vacinação COVID19 (Primeira dose a 30/09/2023)**, considerando somente os **Dados do DF**, totalizando 5 arquivos *csv*.
<br><br>
___

##### Análise da Estrutura dos Dados (antes da limpeza)



In [5]:
df_dados          = pd.DataFrame()    
df_estrutra_dados = pd.DataFrame()
lista_arquivos    = []

# Lista os arquivos do diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith('.csv'):
       lista_arquivos.append(arquivo) 
       
# Carrega o DataFrame 
for dataset in lista_arquivos:
    caminho_arquivo   = os.path.join(diretorio, dataset)
    df_dados          = pd.read_csv(caminho_arquivo, sep=';', low_memory=False)
    df_estrutra_dados = pd.concat([df_estrutra_dados, df_dados], ignore_index=True)

##### Estrutura da Base de Dados

In [6]:
df_estrutra_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7904380 entries, 0 to 7904379
Data columns (total 32 columns):
 #   Column                                    Dtype  
---  ------                                    -----  
 0   document_id                               object 
 1   paciente_id                               object 
 2   paciente_idade                            float64
 3   paciente_dataNascimento                   object 
 4   paciente_enumSexoBiologico                object 
 5   paciente_racaCor_codigo                   float64
 6   paciente_racaCor_valor                    object 
 7   paciente_endereco_coIbgeMunicipio         float64
 8   paciente_endereco_coPais                  float64
 9   paciente_endereco_nmMunicipio             object 
 10  paciente_endereco_nmPais                  object 
 11  paciente_endereco_uf                      object 
 12  paciente_endereco_cep                     float64
 13  paciente_nacionalidade_enumNacionalidade  object 
 14  es

##### Campos nulos

In [7]:
df_estrutra_dados.isnull().sum()

document_id                                       0
paciente_id                                      34
paciente_idade                                   34
paciente_dataNascimento                          34
paciente_enumSexoBiologico                       34
paciente_racaCor_codigo                          38
paciente_racaCor_valor                           38
paciente_endereco_coIbgeMunicipio             65529
paciente_endereco_coPais                      65314
paciente_endereco_nmMunicipio                 65449
paciente_endereco_nmPais                      65314
paciente_endereco_uf                          65529
paciente_endereco_cep                       1217509
paciente_nacionalidade_enumNacionalidade       3744
estabelecimento_valor                             0
estabelecimento_razaoSocial                       0
estalecimento_noFantasia                          0
estabelecimento_municipio_codigo                  0
estabelecimento_municipio_nome                    0
estabelecime

##### Verificação da UF do vacinado

In [8]:
df_estrutra_dados['paciente_endereco_uf'].unique()

array(['RO', 'DF', 'GO', 'MG', 'PI', 'BA', 'CE', 'AM', 'PR', nan, 'RJ',
       'SP', 'MT', 'XX', 'PB', 'MA', 'SC', 'RN', 'TO', 'AL', 'PE', 'AP',
       'SE', 'AC', 'MS', 'ES', 'PA', 'RS', 'RR'], dtype=object)

##### Visualização do DataFrame (Head e Tail)

In [9]:
print(display(df_estrutra_dados)) 

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_codigo,paciente_racaCor_valor,paciente_endereco_coIbgeMunicipio,paciente_endereco_coPais,paciente_endereco_nmMunicipio,...,vacina_categoria_codigo,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_fabricante_referencia,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome,sistema_origem
0,aec7f88e-ef4e-481c-b265-0a8ba1639de7-i0b0,58bc4d098b215c17c966526798b5a7f02ac3050a26d5c3...,52.0,1969-11-17,F,99.0,SEM INFORMACAO,110001.0,10.0,ALTA FLORESTA D'OESTE,...,1.0,Comorbidades,FL4222,PFIZER,Organization/28290,2022-01-06,Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
1,99c8a0bb-07d0-4b85-a7ac-92acc7b75b7f-i0b0,d6cd3e4813ab76a63d15c2fa883e7af74f22aef90bef14...,34.0,1986-10-06,M,99.0,SEM INFORMACAO,530010.0,10.0,BRASILIA,...,114.0,Outros,213VCD040W,ASTRAZENECA/FIOCRUZ,Organization/33781055000135,2021-05-04,1ª Dose,85,COVID-19 ASTRAZENECA/FIOCRUZ - COVISHIELD,Novo PNI
2,aec86458-91a8-4425-9e9b-604cfd5bc2ad-i0b0,cb0a9a99d9a5e181b420538d8275d2d79decb5d669050e...,9.0,2013-01-09,F,3.0,PARDA,530010.0,10.0,BRASILIA,...,,,B202106076,SINOVAC/BUTANTAN,152,2022-03-14,2ª Dose,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI
3,99d64e63-0704-43b6-beb3-e0a5f0d4f561-i0b0,e9051eb19563c03b7e939facb43fe09a78989a6bd45325...,63.0,1958-09-25,F,3.0,PARDA,530010.0,10.0,BRASILIA,...,9.0,Trabalhadores de Saúde,FG3528,PFIZER,Organization/00394544000851,2021-10-13,Reforço,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
4,aed1e2e4-c35b-4c11-938c-72c15b8a9535-i0b0,1cf8c94eb76e0e4017c12947d314c04ad068b149d73b3e...,62.0,1959-12-15,F,4.0,AMARELA,530010.0,10.0,BRASILIA,...,2.0,Faixa Etária,FP7082,PFIZER,Organization/28290,2022-06-15,Dose Adicional,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7904375,38d830e2-0fb9-43f0-818b-a6ffa8e28c9c-i0b0,41acff15e7bdbae7205212a00a270febb8d9d374652f65...,56.0,1965-10-20,M,99.0,SEM INFORMACAO,530010.0,10.0,BRASILIA,...,2.0,Faixa Etária,213J21A,JANSSEN,30587,2022-06-22,2º Reforço,88,COVID-19 JANSSEN - Ad26.COV2.S,Novo PNI
7904376,38de0e41-059e-489d-acac-2bf83ddee114-i0b0,ae1c0ed68330f693b36fd05c0ad57867564a86cee2f9d8...,19.0,2002-03-08,M,4.0,AMARELA,320520.0,10.0,VILA VELHA,...,2.0,Faixa Etária,210281,SINOVAC/BUTANTAN,Organization/61189445000156,2021-08-18,1ª Dose,86,COVID-19 SINOVAC/BUTANTAN - CORONAVAC,Novo PNI
7904377,38df0db0-4167-47a2-af1b-56f414cebade-i0b0,0d7edf4ab945a25bd7965f444ba7fca92ddcae30485b84...,41.0,1980-04-20,F,2.0,PRETA,352940.0,10.0,MAUA,...,9.0,Trabalhadores de Saúde,EW0195,PFIZER,Organization/00394544000851,2021-05-27,1ª Dose,87,COVID-19 PFIZER - COMIRNATY,Novo PNI
7904378,38f54b36-fffa-4507-9f00-a1b6c4f2f5aa-i0b0,7b9582f6ae66a4f9db6a478e35e188e6c45b0f45ea1e47...,27.0,1995-06-16,M,3.0,PARDA,530010.0,10.0,BRASILIA,...,2.0,Faixa Etária,FP7498,PFIZER,28290,2022-08-02,Dose Adicional,87,COVID-19 PFIZER - COMIRNATY,Novo PNI


None


___
##### Análise da Estrutura dos Dados (processo de limpeza)

##### Alteração de tipos

In [17]:
df_estrutra_dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6730055 entries, 1 to 7904379
Data columns (total 21 columns):
 #   Column                            Dtype   
---  ------                            -----   
 0   document_id                       object  
 1   paciente_id                       object  
 2   paciente_idade                    int32   
 3   paciente_dataNascimento           object  
 4   paciente_enumSexoBiologico        category
 5   paciente_racaCor_valor            object  
 6   paciente_endereco_uf              object  
 7   estabelecimento_valor             int64   
 8   estabelecimento_razaoSocial       object  
 9   estalecimento_noFantasia          object  
 10  estabelecimento_municipio_codigo  int64   
 11  estabelecimento_municipio_nome    object  
 12  estabelecimento_uf                category
 13  vacina_grupoAtendimento_nome      object  
 14  vacina_categoria_nome             object  
 15  vacina_lote                       object  
 16  vacina_fabricante_nome 

In [18]:
df_dados          = pd.DataFrame()
df_estrutra_dados = pd.DataFrame()
lista_arquivos    = []

# Lista os arquivos do diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith('.csv'):
       lista_arquivos.append(arquivo) 

# Carrega o DataFrame 
for dataset in lista_arquivos:
    caminho_arquivo = os.path.join(diretorio, dataset)
    df_dados        = pd.read_csv(caminho_arquivo,
                                  sep=';', thousands = '.', decimal = ',',
                                  dtype = {'paciente_enumSexoBiologico': 'category',
                                           'estabelecimento_uf': 'category'})
    df_estrutra_dados = pd.concat([df_estrutra_dados, df_dados], ignore_index=True)

df_estrutra_dados.info()    

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7904380 entries, 0 to 7904379
Data columns (total 32 columns):
 #   Column                                    Dtype   
---  ------                                    -----   
 0   document_id                               object  
 1   paciente_id                               object  
 2   paciente_idade                            float64 
 3   paciente_dataNascimento                   object  
 4   paciente_enumSexoBiologico                category
 5   paciente_racaCor_codigo                   float64 
 6   paciente_racaCor_valor                    object  
 7   paciente_endereco_coIbgeMunicipio         float64 
 8   paciente_endereco_coPais                  float64 
 9   paciente_endereco_nmMunicipio             object  
 10  paciente_endereco_nmPais                  object  
 11  paciente_endereco_uf                      object  
 12  paciente_endereco_cep                     float64 
 13  paciente_nacionalidade_enumNacionalidade  

##### Exclusão de registros

Registros sem identificação do vacinado

In [19]:
df_estrutra_dados.dropna(subset=['paciente_id'], inplace = True)

df_estrutra_dados.isnull().sum()

document_id                                       0
paciente_id                                       0
paciente_idade                                    0
paciente_dataNascimento                           0
paciente_enumSexoBiologico                        0
paciente_racaCor_codigo                           4
paciente_racaCor_valor                            4
paciente_endereco_coIbgeMunicipio             65495
paciente_endereco_coPais                      65280
paciente_endereco_nmMunicipio                 65415
paciente_endereco_nmPais                      65280
paciente_endereco_uf                          65495
paciente_endereco_cep                       1217475
paciente_nacionalidade_enumNacionalidade       3710
estabelecimento_valor                             0
estabelecimento_razaoSocial                       0
estalecimento_noFantasia                          0
estabelecimento_municipio_codigo                  0
estabelecimento_municipio_nome                    0
estabelecime

Exclusão dos registros de vacinados de fora do Distrito Federal

In [20]:
df_pacientes_fora_do_DF = df_estrutra_dados[df_estrutra_dados['paciente_endereco_uf'] != 'DF'].index
df_estrutra_dados       = df_estrutra_dados.drop(df_pacientes_fora_do_DF)

df_estrutra_dados['paciente_endereco_uf'].unique()

array(['DF'], dtype=object)

Exclusão de colunas não relevantes para a análise

In [21]:
df_estrutra_dados.drop(columns=['paciente_racaCor_codigo',
                                'paciente_endereco_coIbgeMunicipio',
                                'paciente_endereco_coPais',
                                'paciente_endereco_nmPais',
                                'paciente_endereco_cep',
                                'paciente_nacionalidade_enumNacionalidade',
                                'estabelecimento_valor',
                                'estabelecimento_municipio_codigo',                                
                                'vacina_grupoAtendimento_codigo',
                                'vacina_categoria_codigo',
                                'vacina_fabricante_referencia',
                                'sistema_origem'], inplace=True)

df_estrutra_dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6730055 entries, 1 to 7904379
Data columns (total 20 columns):
 #   Column                          Dtype   
---  ------                          -----   
 0   document_id                     object  
 1   paciente_id                     object  
 2   paciente_idade                  float64 
 3   paciente_dataNascimento         object  
 4   paciente_enumSexoBiologico      category
 5   paciente_racaCor_valor          object  
 6   paciente_endereco_nmMunicipio   object  
 7   paciente_endereco_uf            object  
 8   estabelecimento_razaoSocial     object  
 9   estalecimento_noFantasia        object  
 10  estabelecimento_municipio_nome  object  
 11  estabelecimento_uf              category
 12  vacina_grupoAtendimento_nome    object  
 13  vacina_categoria_nome           object  
 14  vacina_lote                     object  
 15  vacina_fabricante_nome          object  
 16  vacina_dataAplicacao            object  
 17  vacina_descri

##### Atualização de Vacinas sem nome

Busca

In [22]:
df_vacina_sem_nome = df_estrutra_dados[df_estrutra_dados['vacina_nome'].isnull()]
df_vacina_sem_nome

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_valor,paciente_endereco_nmMunicipio,paciente_endereco_uf,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_nome,estabelecimento_uf,vacina_grupoAtendimento_nome,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome
73380,e3160347-b266-4756-914f-3f090a84916a-i0b0,32571437bdd52f3c25b93788b44d1162dea10021974582...,2.0,2020-10-29,F,SEM INFORMACAO,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 1 ASA NORTE,UBS 1 ASA NORTE,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-24,1ª Dose,102,
132770,97b370ee-af3c-401b-a077-3f0f56f2b64b-i0b0,0640e8f6b5e5539c5f09ea315674a9fd9cdc166397f2ca...,2.0,2020-03-24,M,PARDA,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 01 DE VICENTE PIRES,UBS 01 VICENTE PIRES,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-29,1ª Dose,102,
139422,cfbc9170-2c51-40c0-963b-a150f4237da8-i0b0,ec35f02fe96812e208b139ebc88022df8635d3550dc0ab...,0.0,2022-04-27,F,PARDA,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 3 DA CEILANDIA,UBS 3 CEILANDIA,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-25,1ª Dose,102,
144628,0f9b5f6b-eb92-460c-a650-9112a67214fb-i0b0,c539e17f4a6bd63c1102996c01c6cdcd46a3f713c9fa27...,2.0,2020-07-04,M,SEM INFORMACAO,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 1 ASA SUL,UBS 01 ASA SUL,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-26,1ª Dose,102,
254117,02860cfa-0709-475c-b7f7-06acf38cb2de-i0b0,f3edc0e23d0133eb1c7c98e6f9741d105c59ec662079cd...,0.0,2022-05-02,F,PARDA,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 1 DO RIACHO FUNDO I,UBS 01 RIACHO FUNDO I,BRASILIA,DF,Síndrome de Down,Comorbidades,GC9016,Pendente Identificação,2022-11-25,1ª Dose,102,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7535362,51ef9451-90f2-4a13-b91e-793aa665c50f-i0b0,e6809e058f8f6c9cd18b255b2202b47ae97388f4657b50...,2.0,2020-09-20,F,PARDA,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 1 DE BRAZLANDIA,UBS 1 BRAZLANDIA,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-25,1ª Dose,102,
7594208,de182cbb-dd99-43e1-a06a-d254835cdd42-i0b0,461609be67fe6fdd4a213e88c2eb3560a7f2085b781198...,0.0,2022-03-27,M,SEM INFORMACAO,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 1 DO GUARA,UBS 01 GUARA,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-25,1ª Dose,102,
7647402,7eb459c0-a69c-4bd9-b9ba-74b239c6dc7c-i0b0,0f456717128ec1d0f8b96ad3c417b8d259067b1161089b...,2.0,2020-01-07,M,PARDA,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 2 SOBRADINHO II,UBS 2 SOBRADINHO II,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-22,1ª Dose,102,
7743242,293e69dd-e191-410d-8276-9d4310c7f027-i0b0,58e8dcc33017288ea5a4ef275d24172799046c0785da11...,0.0,2022-04-25,F,PARDA,BRASILIA,DF,UNIDADE BASICA DE SAUDE N 3 DA CEILANDIA,UBS 3 CEILANDIA,BRASILIA,DF,,,GC9016,Pendente Identificação,2022-11-25,1ª Dose,102,


Busca por ['vacina_codigo'] == 102

In [23]:
df_vacina_102 = df_estrutra_dados[df_estrutra_dados['vacina_codigo'] == 102]
df_vacina_102['vacina_nome']

179        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
389        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
392        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
395        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
410        COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
                                 ...                        
7903291    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7903446    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7903731    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7904236    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7904368    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
Name: vacina_nome, Length: 53951, dtype: object

In [24]:
df_vacina_102['vacina_nome'].unique()

array(['COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR DE 5 ANOS', nan],
      dtype=object)

Atualização do nome da Vacina

In [25]:
indice = df_estrutra_dados.loc[df_vacina_sem_nome.index]
df_estrutra_dados.loc[indice.index, 'vacina_nome'] = 'COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR DE 5 ANOS'
df_estrutra_dados.loc[indice.index]['vacina_nome']

73380      COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
132770     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
139422     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
144628     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
254117     COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
                                 ...                        
7535362    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7594208    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7647402    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7743242    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
7888775    COVID-19 PFIZER - COMIRNATY PEDIÁTRICA MENOR D...
Name: vacina_nome, Length: 119, dtype: object

In [26]:
df_vacina_sem_nome = df_estrutra_dados[df_estrutra_dados['vacina_nome'].isnull()]
df_vacina_sem_nome

Unnamed: 0,document_id,paciente_id,paciente_idade,paciente_dataNascimento,paciente_enumSexoBiologico,paciente_racaCor_valor,paciente_endereco_nmMunicipio,paciente_endereco_uf,estabelecimento_razaoSocial,estalecimento_noFantasia,estabelecimento_municipio_nome,estabelecimento_uf,vacina_grupoAtendimento_nome,vacina_categoria_nome,vacina_lote,vacina_fabricante_nome,vacina_dataAplicacao,vacina_descricao_dose,vacina_codigo,vacina_nome


In [27]:
df_estrutra_dados.info()
df_estrutra_dados.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
Index: 6730055 entries, 1 to 7904379
Data columns (total 20 columns):
 #   Column                          Dtype   
---  ------                          -----   
 0   document_id                     object  
 1   paciente_id                     object  
 2   paciente_idade                  float64 
 3   paciente_dataNascimento         object  
 4   paciente_enumSexoBiologico      category
 5   paciente_racaCor_valor          object  
 6   paciente_endereco_nmMunicipio   object  
 7   paciente_endereco_uf            object  
 8   estabelecimento_razaoSocial     object  
 9   estalecimento_noFantasia        object  
 10  estabelecimento_municipio_nome  object  
 11  estabelecimento_uf              category
 12  vacina_grupoAtendimento_nome    object  
 13  vacina_categoria_nome           object  
 14  vacina_lote                     object  
 15  vacina_fabricante_nome          object  
 16  vacina_dataAplicacao            object  
 17  vacina_descri

document_id                            0
paciente_id                            0
paciente_idade                         0
paciente_dataNascimento                0
paciente_enumSexoBiologico             0
paciente_racaCor_valor                 3
paciente_endereco_nmMunicipio          0
paciente_endereco_uf                   0
estabelecimento_razaoSocial            0
estalecimento_noFantasia               0
estabelecimento_municipio_nome         0
estabelecimento_uf                     0
vacina_grupoAtendimento_nome       43191
vacina_categoria_nome             330867
vacina_lote                            0
vacina_fabricante_nome                 0
vacina_dataAplicacao                   0
vacina_descricao_dose                 11
vacina_codigo                          0
vacina_nome                            0
dtype: int64

___

In [16]:
df_estrutra_dados.to_csv('Vacinacao_DF.csv', index=False)