# **ANÁLISE: Limpeza dos dados sobre a vacinação contra a COVID-19**

## **Aluno:** Rafhael de Oliveira Martins

### **Ferramentas Utilizadas**
* Google Colab
* Google Drive

### **Base de Dados**
* 5Gb

## **1 - Carregando a base de dados**

### Devido a capacidade de SSD de 240Gb e Memória RAM de 4Gb do notebook e estes estarem abaixo do suficiente para download e carregamento das bases de dados respectivamente, utilizei o Google Colab por ser uma ferramenta online que possibilita a utilização de um ambiente de execução do projeto em nuvem da Google com recurso de máquina da mesma, o que contribuiu para a realização desta atividade. Tendo como recurso da nuvem do Google, Disco de 107.77 Gb e Memória RAM de 12.69Gb em Máquina Virtual e com Python 3 em ambiente de execução.

### Por estar em ambiente de nuvem e os arquivos serem grandes em espaço de armazenamento para upload, optei por utilizar a leitura da base de dados através do Google Drive com a biblioteca `from google.colab import drive` com o parâmetro `drive.mount('/content/drive')` em que este monta uma conexão com o Google Drive da conta a ser escolhida e fornece acesso aos arquivos desta conta que foi fornecida autorização.

```python
# Tentativas de leitura das bases de dados de 7Gb, 10Gb e 23Gb. Mas não obtive muito sucesso.

# Dask
# import dask.dataframe as dd
# dados = dd.read_csv('/content/drive/MyDrive/ArquivosPA/Cópia de part-00000-faa9a037-82c0-44e2-b427-59becd57944f-c000.csv', sep=';', assume_missing=True)

# Pyarrow
# import pyarrow
# dados.to_parquet('vacina_covid_19_5Gb.parquet', engine = 'pyarrow', compression = 'gzip')
# dados = dados.read_parquet('/content/drive/MyDrive/ArquivosPA/vacina_covid_19_5Gb.parquet', engine = 'pyarrow')
```

### Com isso fiz uma cópia da base de dados de 5Gb para o Google Drive de utilização e realizei a conexão do ambiente junto a está pasta com o arquivo no Google Drive, evitando assim o download para logo após o upload no ambiente de desenvolvimento. 

- **Documentação:** [Google Drive para Google Colab](https://colab.research.google.com/notebooks/io.ipynb)
- **Procurar por:** Google Drive -> Montar Google Drive localmente.

In [2]:
# Importando Bibliotecas
import pandas as pd
import numpy as np
import pickle

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## **1.1 - Seleção de colunas**
### Devido a dimensão do dataset (base de dados), realizei uma seleção de colunas, criando assim uma lista com nome das colunas a serem utilizadas no DataFrame e neste ambiente de execução.

In [2]:
# Lista com colunas a serem utilizadas.
colunas = ['document_id', 'paciente_id', 'paciente_dataNascimento', 
           'paciente_enumSexoBiologico', 'paciente_racaCor_codigo',
           'paciente_racaCor_valor', 'paciente_endereco_nmMunicipio',
           'paciente_endereco_uf', 'paciente_endereco_cep',
           'estabelecimento_valor', 'estabelecimento_municipio_nome',
           'estabelecimento_uf', 'vacina_grupoAtendimento_codigo',
           'vacina_grupoAtendimento_nome', 'vacina_categoria_codigo',
           'vacina_categoria_nome', 'vacina_lote',
           'vacina_fabricante_nome', 'vacina_fabricante_referencia',
           'vacina_dataAplicacao', 'vacina_descricao_dose', 
           'vacina_codigo', 'vacina_nome']

# Veirificando a quantidade de colunas.
print(len(colunas))

23


In [3]:
# Lendo os dados.
dados = pd.read_csv('/content/drive/MyDrive/ArquivosPA/Cópia de part-00000-faa9a037-82c0-44e2-b427-59becd57944f-c000.csv', engine = 'c', usecols=colunas)

Utilizei os parâmetros `engine = 'c'`, onde foi possível trabalhar mais rápido com a biblioteca pandas e o `usecols=colunas` em que recebe as colunas a serem carregadas. Após estes foi possível carregar uma base de dados menor em questão de dimensionalidade, como também contribuiu para um carregamento mais rápido e preciso apenas do que foi utilizado nesta atividade.


In [4]:
# Verificando informações do dataset.
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9051193 entries, 0 to 9051192
Data columns (total 23 columns):
 #   Column                          Dtype  
---  ------                          -----  
 0   document_id                     object 
 1   paciente_id                     object 
 2   paciente_dataNascimento         object 
 3   paciente_enumSexoBiologico      object 
 4   paciente_racaCor_codigo         float64
 5   paciente_racaCor_valor          object 
 6   paciente_endereco_nmMunicipio   object 
 7   paciente_endereco_uf            object 
 8   paciente_endereco_cep           float64
 9   estabelecimento_valor           int64  
 10  estabelecimento_municipio_nome  object 
 11  estabelecimento_uf              object 
 12  vacina_grupoAtendimento_codigo  int64  
 13  vacina_grupoAtendimento_nome    object 
 14  vacina_categoria_codigo         float64
 15  vacina_categoria_nome           object 
 16  vacina_lote                     object 
 17  vacina_fabricante_nome     

## **2 - Renomeando Colunas**
### Nesta etapa foi realizada a renomeação de colunas do dataset, montei uma nova lista com as colunas renomeadas e as demais não renomeadas.


In [5]:
# Lista com colunas renomeadas a serem utilizadas.
colunas_renomeadas = ['vacinacao', 'paciente', 'dataNascimento', 
           'sexoBiologico', 'rcID',
           'paciente_racaCor_valor', 'municipioResidencia',
           'ufResidencia', 'cepResidencia',
           'codigoEstabelecimento', 'municipioVacinacao',
           'ufVacinacao', 'subgrupoAtendimento',
           'vacina_grupoAtendimento_nome', 'vacina_categoria_codigo',
           'vacina_categoria_nome', 'loteVacina',
           'vacina_fabricante_nome', 'vacina_fabricante_referencia',
           'dataAplicacao', 'doseDeclarada', 
           'codigoVacina', 'vacina_nome']

In [6]:
# Alterando colunas 
dados.set_axis(colunas_renomeadas, axis='columns', inplace=True)

In [7]:
# Verificando colunas
dados.columns

Index(['vacinacao', 'paciente', 'dataNascimento', 'sexoBiologico', 'rcID',
       'paciente_racaCor_valor', 'municipioResidencia', 'ufResidencia',
       'cepResidencia', 'codigoEstabelecimento', 'municipioVacinacao',
       'ufVacinacao', 'subgrupoAtendimento', 'vacina_grupoAtendimento_nome',
       'vacina_categoria_codigo', 'vacina_categoria_nome', 'loteVacina',
       'vacina_fabricante_nome', 'vacina_fabricante_referencia',
       'dataAplicacao', 'doseDeclarada', 'codigoVacina', 'vacina_nome'],
      dtype='object')

In [8]:
# Criando uma base com as alterações até o momento.
dados.to_csv('vacina_covid_19_5Gb_renomeada.csv', index=False)

## **3 - Casting (Convertendo tipos de dados em colunas)**
### Nesta etapa será feita a conversão no tipo de dados em algumas colunas.
* Float -> Int.
* Object -> Datetime.
* Object -> Int

In [9]:
# Convertendo para datetime.
dados['dataNascimento'] = pd.to_datetime(dados['dataNascimento'], format='%Y-%m-%d')
dados['dataAplicacao'] = pd.to_datetime(dados['dataAplicacao']).dt.tz_localize(None)

In [10]:
# Convertendo para Inteiro.
dados = dados.astype({'rcID': 'Int64', 
                      'cepResidencia': 'Int64',
                      'codigoEstabelecimento': 'Int64',
                      'subgrupoAtendimento': 'Int64',
                      'codigoVacina': 'Int64'})

In [11]:
# Verificando os valores unicos da coluna doseDeclara.
print(dados['doseDeclarada'].unique())

['\xa0\xa0\xa0\xa01ª\xa0Dose' '\xa0\xa0\xa0\xa02ª\xa0Dose'
 '\xa0\xa0\xa0\xa0Dose\xa0' '\xa0\xa0\xa0\xa0Única\xa0']


### Com a informação dos valores únicos da coluna 'doseDeclarada', pode-se alterar o conteúdo conforme planejamento. Mas antes da alteração, pode-se verificar que os campos são representados com `\xa0\xa0\xa0\xa0` esse `\xa0`, é na verdade, um espaço sem quebra em Latin1 (ISO 8859-1).
### Outro ponto pode-se verificar que tem tipo de 'doseDeclarada' como 'Dose' e como 'Única', verificaremos quais são as vacinas com essas características.

In [12]:
# Verificando 'quais' são as doses doseDeclarada como 'Dose'.
dados.loc[dados['doseDeclarada'] == '\xa0\xa0\xa0\xa0Dose\xa0']

Unnamed: 0,vacinacao,paciente,dataNascimento,sexoBiologico,rcID,paciente_racaCor_valor,municipioResidencia,ufResidencia,cepResidencia,codigoEstabelecimento,municipioVacinacao,ufVacinacao,subgrupoAtendimento,vacina_grupoAtendimento_nome,vacina_categoria_codigo,vacina_categoria_nome,loteVacina,vacina_fabricante_nome,vacina_fabricante_referencia,dataAplicacao,doseDeclarada,codigoVacina,vacina_nome
470635,e82d38fd-70e1-4d4f-8969-f10a9a6d445c-i0b0,551f856cb490c8dd0b25bd5c6fcf4eb76d65748f95e85f...,1935-12-26,M,4,AMARELA,PORTO ACRE,AC,69921.0,2001128,PORTO ACRE,AC,205,Pessoas de 80 anos ou mais,2.0,Faixa Etária,210012,Janssen-Cilag,,2021-02-22,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
884193,fa62b70c-4264-4f03-a0e5-e993f0770a58-i0b0,56cc8d10cbbaa89422cb9d5942f4157f3b263bd1db9bda...,1985-07-30,F,4,AMARELA,PORTO ACRE,AC,69921.0,2001128,PORTO ACRE,AC,923,Técnico de Enfermagem,9.0,Trabalhadores de Saúde,202010028,Janssen-Cilag,,2021-02-25,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
998579,b1f439d8-95e5-4d06-918f-2b6c65232b95-i0b0,960911e3bf3968f1bd7e8dae58c9ebc5c074bd40ec5de2...,1936-10-04,F,4,AMARELA,PORTO ACRE,AC,69921.0,2001128,PORTO ACRE,AC,205,Pessoas de 80 anos ou mais,2.0,Faixa Etária,210012,Janssen-Cilag,,2021-02-22,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
1004001,30c241a5-142f-4c47-8732-164e9d27cb15-i0b0,6391584ae501dd59439e244bc025713a3fae165167a172...,1938-06-09,F,3,PARDA,PORTO ACRE,AC,,2001128,PORTO ACRE,AC,205,Pessoas de 80 anos ou mais,2.0,Faixa Etária,210012,Janssen-Cilag,,2021-02-22,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
1095055,ddbc9d6d-e4fc-4e66-b9c7-f6a7ab815a7e-i0b0,51bb8436cb8ca78ca8a5e01ceda592b1ae98496d6241cd...,1966-09-17,F,3,PARDA,FARIAS BRITO,CE,63185.0,4011155,FARIAS BRITO,CE,0,,,,202010034,Janssen-Cilag,,2021-01-20,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
1382713,29d7093c-bc1b-4fdf-b9d7-e39b4de8b48b-i0b0,504ba91697d0ba2acfbf544b17411067610a3193a49879...,1978-09-26,M,1,BRANCA,FARIAS BRITO,CE,63185.0,4011155,FARIAS BRITO,CE,0,,,,202010034,Janssen-Cilag,,2021-01-20,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
1387486,2ea8643f-a237-43db-a8fd-4fb52bd3ee6c-i0b0,67ea60dd967c510814c2e34969a614665e3817cbfd2c80...,1933-09-09,F,3,PARDA,SAO JOAO DO TIGRE,PB,58520.0,2433737,JATAUBA,PE,0,,,,4120Z005,Janssen-Cilag,,2021-02-08,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
1406842,387ba0b5-d565-4ccd-a6cc-ed629a2ed701-i0b0,81c654a9e532526d202d5288728400957361697d77b353...,1938-05-11,F,3,PARDA,TEFE,AM,69550.0,3581675,TEFE,AM,0,,,,4120Z005,Janssen-Cilag,,2021-02-01,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
1478476,b027ed46-481b-437f-b533-fd56388f97a2-i0b0,e79e839075b6ccc80bcf5a1ead06b075e75edf817aeac2...,1982-11-15,F,3,PARDA,PORTO ACRE,AC,69927.0,2001128,PORTO ACRE,AC,917,Pessoal da Limpeza,9.0,Trabalhadores de Saúde,202010028,Janssen-Cilag,,2021-02-25,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag
1542402,50d27a2e-1f80-49c9-a8ad-6c92fbe7790c-i0b0,fe52b8ce51f4fe3fb95b04c7227f8cc67e6542b447f2ba...,1933-10-22,M,3,PARDA,JATAUBA,PE,55180.0,2433737,JATAUBA,PE,0,,,,4120Z005,Janssen-Cilag,,2021-02-08,Dose,88,Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag


### Encontra-se que só tem uma vacina declarada com Dose, a 'Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag'. Segundo a Anvisa por meio deste [documento](https://www.gov.br/anvisa/pt-br/assuntos/noticias-anvisa/2021/anvisa-aprova-uso-emergencial-da-vacina-da-janssen/VotodadiretorarelatoraJanssen.pdf) e informação disponibilizada pelo site da [PEBMED](https://pebmed.com.br/anvisa-aprova-uso-emergencial-da-vacina-contra-a-covid-19-da-janssen/), a vacina 'Vacina covid-19 - Ad26.COV2.S - Janssen-Cilag' é aplicada em dose única, ou seja, a vacina é administrada em dose única de 0,5mL apenas por injeção, sengundo informação da [Anvisa](https://www.gov.br/anvisa/pt-br/assuntos/noticias-anvisa/2021/anvisa-aprova-uso-emergencial-da-vacina-da-janssen/VotodadiretorarelatoraJanssen.pdf) e da [PEBMED](https://pebmed.com.br/anvisa-aprova-uso-emergencial-da-vacina-contra-a-covid-19-da-janssen/) por meio da Posologia proposta.


In [13]:
# Verificando 'quais' são as doses doseDeclarada como 'Única'.
dados.loc[dados['doseDeclarada'] == '\xa0\xa0\xa0\xa0Única\xa0']

Unnamed: 0,vacinacao,paciente,dataNascimento,sexoBiologico,rcID,paciente_racaCor_valor,municipioResidencia,ufResidencia,cepResidencia,codigoEstabelecimento,municipioVacinacao,ufVacinacao,subgrupoAtendimento,vacina_grupoAtendimento_nome,vacina_categoria_codigo,vacina_categoria_nome,loteVacina,vacina_fabricante_nome,vacina_fabricante_referencia,dataAplicacao,doseDeclarada,codigoVacina,vacina_nome
921637,5d3bc268-8777-48ce-a5a9-1c2021160d61-i0b0,fd42d955ca15aedac6aad5e193c4230a2a62703cbec532...,1957-08-21,M,1,BRANCA,CIANORTE,PR,87210,2735652,CIANORTE,PR,920,Recepcionista,9.0,Trabalhadores de Saúde,202010018,Covid-19 - Coronavac,,2021-02-12,Única,86,Covid-19-Coronavac-Sinovac/Butantan


### Encontra-se portanto só uma vacina declarada como 'Única' a vacina *'Covid-19-Coronavac-Sinovac/Butantan'*. De acordo com [documento](https://vacinacovid.butantan.gov.br/assets/arquivos/Bulas_Anvisa/Bula_PS_vacina%20adsorvida%20covid-19%20(inativada).pdf) do Instituo Butantan, laboratório responsável pela fabricação dessa vacina: *O esquema vacinal completo com duas doses é necessário para obter a resposta imune esperada para a prevenção de COVID-19. A proteção em indivíduos com esquemas incompletos não foi avaliada nos estudos clínicos.*

### Partindo deste pressuposto, a informação declarada como 'Única' pode ter sido inserida erroneamente ou alguma aplicação realizada que declararam nessa característica. Para preservar a integridade dos dados fornecidos e não inserir susposições a determinadas informação de declaração de doses, não será alterada essa informação de dose 'Única'.

### Já a informação declarada como 'Dose' será considerada como 'Única' por caracterísitca particular da vacina da Janssen encontrada em documento fornecido pela Anvisa.

### A partir desse ponto então será alterado:
* 1ª Dose -> 1
* 2ª Dose -> 2
* Dose -> 0
* Única -> 0

### Portanto, doseDeclarada como 'Dose' e como 'Única' seram consideradas como 'Única' -> 0 para efeito de estudos dessa base de dados. 

In [14]:
# Convertendo declaração de doses.
dados['doseDeclarada'] = dados['doseDeclarada'].replace('\xa0\xa0\xa0\xa01ª\xa0Dose', '1').replace('\xa0\xa0\xa0\xa02ª\xa0Dose', '2').replace('\xa0\xa0\xa0\xa0Dose\xa0', '0').replace('\xa0\xa0\xa0\xa0Única\xa0', '0')

In [15]:
# Verificando os valores únicos da coluna 'doseDeclarada' depois da conversão de declaração.
print(dados['doseDeclarada'].unique())

['1' '2' '0']


In [16]:
# Alterando object para int da coluna 'doseDeclarada'.
# Convertendo para Inteiro.
dados['doseDeclarada'] = dados['doseDeclarada'].astype(str).astype(int)

In [17]:
# Verificando as colunas depois das conversões.
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9051193 entries, 0 to 9051192
Data columns (total 23 columns):
 #   Column                        Dtype         
---  ------                        -----         
 0   vacinacao                     object        
 1   paciente                      object        
 2   dataNascimento                datetime64[ns]
 3   sexoBiologico                 object        
 4   rcID                          Int64         
 5   paciente_racaCor_valor        object        
 6   municipioResidencia           object        
 7   ufResidencia                  object        
 8   cepResidencia                 Int64         
 9   codigoEstabelecimento         Int64         
 10  municipioVacinacao            object        
 11  ufVacinacao                   object        
 12  subgrupoAtendimento           Int64         
 13  vacina_grupoAtendimento_nome  object        
 14  vacina_categoria_codigo       float64       
 15  vacina_categoria_nome         ob

In [18]:
# Criando uma base com as alterações até o momento.
dados.to_csv('vacina_covid_19_5Gb_limpa.csv', index=False)

## **4 - Balizamento (Salvando dados em bases separadas)**

### Nesta etapa será realizado separação na base de dados (balizamento), para tornar o dataset (base de dados) mais organizada. Sendo aplicados em colunas que contenham variáveis em que podem ser representadas por códigos, tendo assim um arquivo com extensão `.csv` na qual servirá como dicionário de dados para as colunas que contenham códigos.

In [3]:
# Lendo os dados limpos.
dadosLimpos = pd.read_csv('/content/drive/MyDrive/ArquivosPA/vacina_covid_19_5Gb_limpa.csv', engine = 'c')

In [4]:
# Verificando informações do dataset.
dadosLimpos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9051193 entries, 0 to 9051192
Data columns (total 23 columns):
 #   Column                        Dtype  
---  ------                        -----  
 0   vacinacao                     object 
 1   paciente                      object 
 2   dataNascimento                object 
 3   sexoBiologico                 object 
 4   rcID                          float64
 5   paciente_racaCor_valor        object 
 6   municipioResidencia           object 
 7   ufResidencia                  object 
 8   cepResidencia                 float64
 9   codigoEstabelecimento         int64  
 10  municipioVacinacao            object 
 11  ufVacinacao                   object 
 12  subgrupoAtendimento           int64  
 13  vacina_grupoAtendimento_nome  object 
 14  vacina_categoria_codigo       float64
 15  vacina_categoria_nome         object 
 16  loteVacina                    object 
 17  vacina_fabricante_nome        object 
 18  vacina_fabricante_refe

In [5]:
# Convertendo para datetime.
dadosLimpos['dataNascimento'] = pd.to_datetime(dadosLimpos['dataNascimento'], format='%Y-%m-%d')
dadosLimpos['dataAplicacao'] = pd.to_datetime(dadosLimpos['dataAplicacao']).dt.tz_localize(None)

In [6]:
# Verificando os valores únicos da coluna 'doseDeclarada' depois da conversão de declaração.
print(dadosLimpos['doseDeclarada'].unique())

[1 2 0]


In [7]:
# Convertendo para Inteiro.
dadosLimpos = dadosLimpos.astype({'rcID': 'Int64', 
                      'cepResidencia': 'Int64',
                      'codigoEstabelecimento': 'Int64',
                      'subgrupoAtendimento': 'Int64',
                      'codigoVacina': 'Int64',
                      'doseDeclarada': 'Int64',
                      'vacina_categoria_codigo': 'Int64'})

In [8]:
# Verificando as colunas depois das conversões.
dadosLimpos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9051193 entries, 0 to 9051192
Data columns (total 23 columns):
 #   Column                        Dtype         
---  ------                        -----         
 0   vacinacao                     object        
 1   paciente                      object        
 2   dataNascimento                datetime64[ns]
 3   sexoBiologico                 object        
 4   rcID                          Int64         
 5   paciente_racaCor_valor        object        
 6   municipioResidencia           object        
 7   ufResidencia                  object        
 8   cepResidencia                 Int64         
 9   codigoEstabelecimento         Int64         
 10  municipioVacinacao            object        
 11  ufVacinacao                   object        
 12  subgrupoAtendimento           Int64         
 13  vacina_grupoAtendimento_nome  object        
 14  vacina_categoria_codigo       Int64         
 15  vacina_categoria_nome         ob

In [9]:
# Separando coluna paciente_racaCor_valor e criando dicionário desta.
pacienteRacaCor = dadosLimpos[['rcID', 'paciente_racaCor_valor']]

# Verificando códigos de acordo com nomenclatura e quantidade respectivamente.
pacienteRacaCor.value_counts()

rcID  paciente_racaCor_valor
1     BRANCA                    3478121
99    SEM INFORMACAO            2497554
3     PARDA                     1496433
4     AMARELA                   1014033
2     PRETA                      332669
5     INDIGENA                   232382
dtype: int64

In [10]:
# Separando e ciando dicionário com as colunas rcID e paciente_racaCor_valor.
pacienteRacaCor = pacienteRacaCor.groupby(by=['rcID', 'paciente_racaCor_valor']).count().reset_index()
pacienteRacaCor = pacienteRacaCor.rename(columns={'rcID': 'codigoRacaCor', 'paciente_racaCor_valor': 'raca_cor'})

# Salvando em arquivo .csv
pacienteRacaCor.to_csv('raca_cor_paciente.csv', index=False)

In [11]:
# Criando coluna idade na base de dados principal.
dadosLimpos['idade'] = (dadosLimpos['dataAplicacao'] - dadosLimpos['dataNascimento']).astype('<m8[Y]') 
dadosLimpos = dadosLimpos.astype({'idade': 'Int64'})
dadosLimpos['idade'].head()

0    81
1    89
2    50
3    77
4    31
Name: idade, dtype: Int64

In [12]:
# Verificando os dados.
dadosLimpos.head(2)

Unnamed: 0,vacinacao,paciente,dataNascimento,sexoBiologico,rcID,paciente_racaCor_valor,municipioResidencia,ufResidencia,cepResidencia,codigoEstabelecimento,municipioVacinacao,ufVacinacao,subgrupoAtendimento,vacina_grupoAtendimento_nome,vacina_categoria_codigo,vacina_categoria_nome,loteVacina,vacina_fabricante_nome,vacina_fabricante_referencia,dataAplicacao,doseDeclarada,codigoVacina,vacina_nome,idade
0,06a07d3e-bb57-40b1-b9f1-2f8f9b3c7ff3-i0b0,0ff78ce564b2e85115b245f01b4cd3ac439c325025b7ed...,1939-08-22,F,99,SEM INFORMACAO,SAO PAULO,SP,3366,4049799,SAO PAULO,SP,205,Pessoas de 80 anos ou mais,2,Faixa Etária,4120Z026,AstraZeneca/Oxford,,2021-03-01,1,85,Vacina Covid-19 - Covishield,81
1,75e2b940-e1bc-4554-8843-e855dea3d236-i0b0,0ff4c0844decce6d18f489831105cbdd9f635119efdc9b...,1931-07-03,F,99,SEM INFORMACAO,SAO PAULO,SP,4608,2787156,SAO PAULO,SP,205,Pessoas de 80 anos ou mais,2,Faixa Etária,210015,Sinovac,,2021-03-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,89


In [13]:
# Verificando as colunas.
dadosLimpos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9051193 entries, 0 to 9051192
Data columns (total 24 columns):
 #   Column                        Dtype         
---  ------                        -----         
 0   vacinacao                     object        
 1   paciente                      object        
 2   dataNascimento                datetime64[ns]
 3   sexoBiologico                 object        
 4   rcID                          Int64         
 5   paciente_racaCor_valor        object        
 6   municipioResidencia           object        
 7   ufResidencia                  object        
 8   cepResidencia                 Int64         
 9   codigoEstabelecimento         Int64         
 10  municipioVacinacao            object        
 11  ufVacinacao                   object        
 12  subgrupoAtendimento           Int64         
 13  vacina_grupoAtendimento_nome  object        
 14  vacina_categoria_codigo       Int64         
 15  vacina_categoria_nome         ob

In [14]:
# Vericando a coluna vacina_categoria_codigo.
vacinaCategoriaCodigo2 = dadosLimpos.loc[dadosLimpos['vacina_categoria_codigo'] == 2]
vacinaCategoriaCodigo2.head(2)

Unnamed: 0,vacinacao,paciente,dataNascimento,sexoBiologico,rcID,paciente_racaCor_valor,municipioResidencia,ufResidencia,cepResidencia,codigoEstabelecimento,municipioVacinacao,ufVacinacao,subgrupoAtendimento,vacina_grupoAtendimento_nome,vacina_categoria_codigo,vacina_categoria_nome,loteVacina,vacina_fabricante_nome,vacina_fabricante_referencia,dataAplicacao,doseDeclarada,codigoVacina,vacina_nome,idade
0,06a07d3e-bb57-40b1-b9f1-2f8f9b3c7ff3-i0b0,0ff78ce564b2e85115b245f01b4cd3ac439c325025b7ed...,1939-08-22,F,99,SEM INFORMACAO,SAO PAULO,SP,3366,4049799,SAO PAULO,SP,205,Pessoas de 80 anos ou mais,2,Faixa Etária,4120Z026,AstraZeneca/Oxford,,2021-03-01,1,85,Vacina Covid-19 - Covishield,81
1,75e2b940-e1bc-4554-8843-e855dea3d236-i0b0,0ff4c0844decce6d18f489831105cbdd9f635119efdc9b...,1931-07-03,F,99,SEM INFORMACAO,SAO PAULO,SP,4608,2787156,SAO PAULO,SP,205,Pessoas de 80 anos ou mais,2,Faixa Etária,210015,Sinovac,,2021-03-05,2,86,Covid-19-Coronavac-Sinovac/Butantan,89


In [15]:
# Vericando a coluna vacina_categoria_codigo.
vacinaCategoriaCodigo205 = dadosLimpos.loc[dadosLimpos['vacina_categoria_codigo'] == 205]
vacinaCategoriaCodigo205

Unnamed: 0,vacinacao,paciente,dataNascimento,sexoBiologico,rcID,paciente_racaCor_valor,municipioResidencia,ufResidencia,cepResidencia,codigoEstabelecimento,municipioVacinacao,ufVacinacao,subgrupoAtendimento,vacina_grupoAtendimento_nome,vacina_categoria_codigo,vacina_categoria_nome,loteVacina,vacina_fabricante_nome,vacina_fabricante_referencia,dataAplicacao,doseDeclarada,codigoVacina,vacina_nome,idade


In [16]:
# Separando e ciando dicionário com as colunas subgrupoAtendimento e vacina_grupoAtendimento_nome.
grupoAtendimento = dadosLimpos[['subgrupoAtendimento', 'vacina_grupoAtendimento_nome']]
grupoAtendimento = grupoAtendimento.groupby(by=['subgrupoAtendimento', 'vacina_grupoAtendimento_nome']).count().reset_index()
grupoAtendimento = grupoAtendimento.rename(columns={'subgrupoAtendimento': 'codigo', 'vacina_grupoAtendimento_nome': 'grupo'})

# Salvando em arquivo .csv
grupoAtendimento.to_csv('grupo_atendimento.csv', index=False)

In [17]:
# Separando e ciando dicionário com as colunas vacina_fabricante_referencia, vacina_fabricante_nome, codigoVacina e vacina_nome.
vacinaFabricante = dadosLimpos[['vacina_fabricante_nome', 'vacina_fabricante_referencia', 'codigoVacina', 'vacina_nome']]
vacinaFabricante = vacinaFabricante.groupby(by=['vacina_fabricante_nome', 'vacina_fabricante_referencia', 'codigoVacina', 'vacina_nome']).count().reset_index()
vacinaFabricante = vacinaFabricante.rename(columns={'vacina_fabricante_nome': 'fabricante', 'vacina_fabricante_referencia': 'codigo', 'codigoVacina': 'codigo', 'vacina_nome': 'nome'})

# Salvando em arquivo .csv
vacinaFabricante.to_csv('fabricante_vacina.csv', index=False)

In [18]:
# Separando base com pessoas menos de 18 e acima de 116 anos de idade.
idadeInconsistente = dadosLimpos.loc[(dadosLimpos['idade'] < 18) & (dadosLimpos['idade'] > 116)]
idadeInconsistente

Unnamed: 0,vacinacao,paciente,dataNascimento,sexoBiologico,rcID,paciente_racaCor_valor,municipioResidencia,ufResidencia,cepResidencia,codigoEstabelecimento,municipioVacinacao,ufVacinacao,subgrupoAtendimento,vacina_grupoAtendimento_nome,vacina_categoria_codigo,vacina_categoria_nome,loteVacina,vacina_fabricante_nome,vacina_fabricante_referencia,dataAplicacao,doseDeclarada,codigoVacina,vacina_nome,idade


In [19]:
# Separando base com pessoas maiores de 18 e menores de 116 anos de idade.
idadeCorreta = dadosLimpos.loc[(dadosLimpos['idade'] > 18) & (dadosLimpos['idade'] < 116)]
idadeCorreta.head(3)

Unnamed: 0,vacinacao,paciente,dataNascimento,sexoBiologico,rcID,paciente_racaCor_valor,municipioResidencia,ufResidencia,cepResidencia,codigoEstabelecimento,municipioVacinacao,ufVacinacao,subgrupoAtendimento,vacina_grupoAtendimento_nome,vacina_categoria_codigo,vacina_categoria_nome,loteVacina,vacina_fabricante_nome,vacina_fabricante_referencia,dataAplicacao,doseDeclarada,codigoVacina,vacina_nome,idade
0,06a07d3e-bb57-40b1-b9f1-2f8f9b3c7ff3-i0b0,0ff78ce564b2e85115b245f01b4cd3ac439c325025b7ed...,1939-08-22,F,99,SEM INFORMACAO,SAO PAULO,SP,3366,4049799,SAO PAULO,SP,205,Pessoas de 80 anos ou mais,2,Faixa Etária,4120Z026,AstraZeneca/Oxford,,2021-03-01 00:00:00,1,85,Vacina Covid-19 - Covishield,81
1,75e2b940-e1bc-4554-8843-e855dea3d236-i0b0,0ff4c0844decce6d18f489831105cbdd9f635119efdc9b...,1931-07-03,F,99,SEM INFORMACAO,SAO PAULO,SP,4608,2787156,SAO PAULO,SP,205,Pessoas de 80 anos ou mais,2,Faixa Etária,210015,Sinovac,,2021-03-05 00:00:00,2,86,Covid-19-Coronavac-Sinovac/Butantan,89
2,08237b9a-2b08-4915-98b4-4ab63d73ea9e-i0b0,e744ad7f8471bd5bfc71f2f6553069b3226ffe379b8fc0...,1971-01-17,F,4,AMARELA,SANTANA DO IPANEMA,AL,57500,5616298,SANTANA DO IPANEMA,AL,917,Pessoal da Limpeza,9,Trabalhadores de Saúde,210013,FUNDACAO BUTANTAN,Organization/61189445000156,2021-03-04 03:00:00,1,86,Covid-19-Coronavac-Sinovac/Butantan,50


In [20]:
# Separando base com pessoas que tomaram mais de 2 doses.
dadosLimpos['vacinacao'].value_counts()

17010ccc-8d13-44f2-8906-2dd592e5794e-i0b0    1
66f52a6a-808a-4f47-ac02-e88fffc98c27-i0b0    1
8b4414e3-888c-4a10-9fc6-3378b15e962f-i0b0    1
1b0bf430-e64b-4543-bec7-7fd4acf48818-i0b0    1
555edb2d-6c31-42ff-b1e4-edeb7328b335-i0b0    1
                                            ..
0c2bd73d-7fe3-4224-94d2-1078a09c3e79-i0b0    1
3175f041-ddff-4585-a8ae-944098100574-i0b0    1
7455cf7f-beb6-4f70-b2f6-bd88b3b202ef-i0b0    1
28350a61-3f21-4cb1-bca8-bbe4600d3f03-i0b0    1
5806d233-fe58-4d08-b883-c757e8a7d6d6-i0b0    1
Name: vacinacao, Length: 9051193, dtype: int64

In [21]:
# Separando e ciando dicionário com as colunas codigoVacina e vacina_nome.
vacinaNome = dadosLimpos[['codigoVacina', 'vacina_nome', 'loteVacina']]
vacinaNome = vacinaNome.groupby(by=['codigoVacina', 'vacina_nome', 'loteVacina']).count().reset_index()
vacinaNome = vacinaNome.rename(columns={'codigoVacina': 'codigo', 'vacina_nome': 'nome'})

# Salando em arquivo .csv
vacinaNome.to_csv('nome_vacina.csv', index=False)

In [22]:
# Retirando coluna já balizada.
dadosLimpos.drop(columns=['paciente_racaCor_valor', 'vacina_grupoAtendimento_nome',
                          'vacina_fabricante_nome', 'vacina_fabricante_referencia', 
                          'vacina_nome', 'loteVacina'], axis=1, inplace=True)

In [23]:
# Verificando colunas após balizamento.
dadosLimpos.columns

Index(['vacinacao', 'paciente', 'dataNascimento', 'sexoBiologico', 'rcID',
       'municipioResidencia', 'ufResidencia', 'cepResidencia',
       'codigoEstabelecimento', 'municipioVacinacao', 'ufVacinacao',
       'subgrupoAtendimento', 'vacina_categoria_codigo',
       'vacina_categoria_nome', 'dataAplicacao', 'doseDeclarada',
       'codigoVacina', 'idade'],
      dtype='object')

### A partir deste ponto, será salvo os registros em um arquivo pickle. 

In [24]:
# Salando em arquivo .csv
dadosLimpos.to_csv('dados_limpos_covid19.csv')

In [3]:
# Lendo os dados limpos.
df = pd.read_csv('/content/drive/MyDrive/ArquivosPA/dados_limpos_covid19.csv', engine = 'c')

In [4]:
# Verificando os dados.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9051193 entries, 0 to 9051192
Data columns (total 19 columns):
 #   Column                   Dtype  
---  ------                   -----  
 0   Unnamed: 0               int64  
 1   vacinacao                object 
 2   paciente                 object 
 3   dataNascimento           object 
 4   sexoBiologico            object 
 5   rcID                     float64
 6   municipioResidencia      object 
 7   ufResidencia             object 
 8   cepResidencia            float64
 9   codigoEstabelecimento    int64  
 10  municipioVacinacao       object 
 11  ufVacinacao              object 
 12  subgrupoAtendimento      int64  
 13  vacina_categoria_codigo  float64
 14  vacina_categoria_nome    object 
 15  dataAplicacao            object 
 16  doseDeclarada            int64  
 17  codigoVacina             int64  
 18  idade                    float64
dtypes: float64(4), int64(5), object(10)
memory usage: 1.3+ GB


In [5]:
# Salando em arquivo .pkl
df.to_pickle('dados_limpos_covid19.pkl') 