Pipeline de Dados Sobre Vacinação de SARS-CoV-2 no Brasil

In [2]:
""" 
Importando bibliotecas que serão utilizadas no projeto
"""
from plyer import notification
import requests
import pandas as pd
import json
import sqlite3
from sqlalchemy import create_engine

In [3]:
def alerta_API(nome, response):
    """ 
    Função de alerta sobre a requisição do API. 

    A função deverá retornar se houve sucesso ou qual o tipo de alerta, segundo o valor do status do HTTP. 
    Parâmetros:
        nome (str): nome da API que será retornado no alerta.
        response(int): valor do status do HTTP que será retornado no alerta.

    Retorna:
        Alerta sobre qual API foi requisitado o acesso, se foi bem sucedida ou qual o grau do alerta, junto ao valor do status do HTTP.

    """
    
    titulo = f"Alerta sobre a requisição do API:{nome}"
    
    if response.status_code > 500:
       mensagem  = "Alerta crítico na requisição do API"
    elif 200 > response.status_code < 500:
        mensagem  = "Alerta moderado na requisição do API"
    elif response.status_code == 200:
        mensagem  = "Sucesso ao requisitar o API"
    
    status_HTTP = response.status_code
    
    notification.notify(
        title = titulo,
        message = f"{mensagem}\n o status do HTTP é {status_HTTP}" 
    )


In [4]:
def obter_dados_api(url, nome):
    """ 
    Requisitando os dados sobre a vacinação de COVID no Brasil - API OPENDATASUS.
    O objetivo da função é obter os dados da API. 
    Primeiramente, deve-se atentar para o usuário e senha fornecidos pelo governo federal para a autenticação.
    Foi utilizado o Postman durante o processo de autenticação para obtenção dos dados da API.
    
    Parâmetros:
        url (str): url do API.
        nome (str): nome do API que será exibido no alerta.

        Retorna:
        A função deve retornar um banco de dados JSON 'vacinas_brasil'.

    """
    payload = json.dumps({
        "size": 10000
    })

    headers = {
        'Content-Type': 'application/json',
        'Authorization': 'Basic aW11bml6YWNhb19wdWJsaWM6cWx0bzV0JjdyX0ArI1Rsc3RpZ2k='
    }

    response_brasil = requests.post(url, headers=headers, data=payload)
    response_brasil.json()
    vacinas_brasil = response_brasil.json()

    return nome, response_brasil, vacinas_brasil

url_api = "https://imunizacao-es.saude.gov.br/_search"
nome_api = "Vacinação Contra COVID-19"

brasil, response_brasil, vacinas_brasil = obter_dados_api(url_api, nome_api)
alerta_API(brasil,response_brasil)

In [5]:
vacinas_brasil["hits"]["hits"]

[{'_index': 'desc-imunizacao-v5',
  '_type': '_doc',
  '_id': '81c477a1-2351-4572-9940-77375786cd7d-i0b0',
  '_score': 1.0,
  '_source': {'sistema_origem': 'SMV',
   'dt_deleted': None,
   'paciente_nacionalidade_enumNacionalidade': 'B',
   'paciente_idade': 6,
   'vacina_categoria_nome': 'Faixa Etária',
   'vacina_fabricante_nome': 'PFIZER - PEDIÁTRICA',
   'paciente_endereco_nmMunicipio': 'MANAUS',
   'paciente_endereco_coPais': '10',
   'estabelecimento_uf': 'AM',
   'estabelecimento_razaoSocial': 'MANAUS SECRETARIA MUNICIPAL DE SAUDE',
   'estabelecimento_valor': '7740905',
   'vacina_lote': 'GN0764',
   'vacina_dataAplicacao': '2024-01-04T00:00:00.000Z',
   'paciente_endereco_uf': 'AM',
   'paciente_endereco_coIbgeMunicipio': '130260',
   'data_importacao_datalake': '2024-01-07T18:06:20.000Z',
   'paciente_id': 'df525d0ad0f95b43f8e3762534f527d4fd6b3ba96eed5c66f08f36e78e6dfbdf',
   '@timestamp': '2024-01-07T21:15:02.727Z',
   'document_id': '81c477a1-2351-4572-9940-77375786cd7d-i0b

In [6]:
def df_vacinas(vacinas_brasil):
    """
    A função abaixo possui o objetivo de transformar os dados JSON normalizando-os através do json_normalize,
    abrindo o arquivo JSON através do ["hits"]["hits"] e por fim criando um DataFrame.

    Parâmetro:
        vacinas_brasil (dict): Dados em tipo JSON fornecido pelo API. 
    
        Retorna:
        A função deve retornar o DataFrame 'df_vacinas_brasil'.
    """
    return pd.json_normalize(vacinas_brasil["hits"]["hits"])
df_vacinas_brasil = df_vacinas(vacinas_brasil)

df_vacinas_brasil.head(10)

Unnamed: 0,_index,_type,_id,_score,_source.sistema_origem,_source.dt_deleted,_source.paciente_nacionalidade_enumNacionalidade,_source.paciente_idade,_source.vacina_categoria_nome,_source.vacina_fabricante_nome,...,_source.status,_source.paciente_enumSexoBiologico,_source.paciente_endereco_nmPais,_source.estabelecimento_municipio_nome,_source.vacina_grupoAtendimento_codigo,_source.paciente_racaCor_valor,_source.paciente_endereco_cep,_source.estabelecimento_municipio_codigo,_source.vacina_fabricante_referencia,_source.vacina_grupoAtendimento_nome
0,desc-imunizacao-v5,_doc,81c477a1-2351-4572-9940-77375786cd7d-i0b0,1.0,SMV,,B,6,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,F,BRASIL,MANAUS,210,SEM INFORMACAO,69028.0,130260,,Faixa Etária
1,desc-imunizacao-v5,_doc,90ddca11-7073-428b-ab39-872456479673-i0b0,1.0,Novo PNI,,B,29,Faixa Etária,PFIZER,...,final,F,BRASIL,GRANJA,210,PARDA,73850.0,230470,28290.0,Faixa Etária
2,desc-imunizacao-v5,_doc,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,1.0,SMV,,B,11,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,F,BRASIL,MANAUS,210,PARDA,,130260,,Faixa Etária
3,desc-imunizacao-v5,_doc,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,1.0,SMV,,B,6,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,M,BRASIL,MANAUS,210,PARDA,69088.0,130260,,Faixa Etária
4,desc-imunizacao-v5,_doc,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,1.0,SMV,,B,6,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,F,BRASIL,MANAUS,210,BRANCA,69067.0,130260,,Faixa Etária
5,desc-imunizacao-v5,_doc,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,1.0,VACIVIDA,,B,9,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,M,BRASIL,SAO PAULO,210,SEM INFORMACAO,4621.0,355030,,Faixa Etária
6,desc-imunizacao-v5,_doc,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,1.0,SMV,,E,5,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,M,BRASIL,MANAUS,210,SEM INFORMACAO,69097.0,130260,,Faixa Etária
7,desc-imunizacao-v5,_doc,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,1.0,SMV,,B,6,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,M,BRASIL,MANAUS,210,PARDA,69017.0,130260,,Faixa Etária
8,desc-imunizacao-v5,_doc,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,1.0,RP SAÚDE,,B,6,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,M,BRASIL,FOZ DO IGUACU,207,BRANCA,85869.0,410830,,Pessoas de 5 a 11 anos
9,desc-imunizacao-v5,_doc,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,1.0,SMV,,B,7,Faixa Etária,PFIZER - PEDIÁTRICA,...,final,M,BRASIL,MANAUS,210,PARDA,69088.0,130260,,Faixa Etária


In [7]:
df_vacinas_brasil.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 46 columns):
 #   Column                                            Non-Null Count  Dtype  
---  ------                                            --------------  -----  
 0   _index                                            10000 non-null  object 
 1   _type                                             10000 non-null  object 
 2   _id                                               10000 non-null  object 
 3   _score                                            10000 non-null  float64
 4   _source.sistema_origem                            10000 non-null  object 
 5   _source.dt_deleted                                220 non-null    object 
 6   _source.paciente_nacionalidade_enumNacionalidade  9998 non-null   object 
 7   _source.paciente_idade                            10000 non-null  int64  
 8   _source.vacina_categoria_nome                     9990 non-null   object 
 9   _source.vacina_fab

In [8]:
""" 
Verificando a possibilidade de que a coluna _id possa ser a chave de relacionamento entre as tabelas
o código abaixo conta a frequência da string desejada em cada registro da coluna '_id' do DataFrame df_vacinas_brasil e imprime a soma da frequência.
""" 
busca = '64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0'
frequencia = df_vacinas_brasil['_id'].apply(lambda x: x.count(busca))
print(frequencia.sum())

1


In [9]:
def colunas_df(df, colunas):
    """ 
    A função possui como objetivo criar um novo DataFrame à partir de uma seleção.

    Parâmetros:
        df (pandas.DataFrame): DataFrame desejado. 

        colunas (list): colunas desejadas para o novo DataFrame.
    
        Retorna:
        A função irá retornar o DataFrame com apenas as colunas selecionadas.
    """
    return df[colunas]

In [10]:
#Data Frame com as informações sobre os pacientes.

df_pacientes_selecao = ['_id','_source.paciente_dataNascimento','_source.paciente_idade',
                        '_source.paciente_racaCor_codigo', '_source.paciente_enumSexoBiologico','_source.paciente_endereco_uf','_source.paciente_endereco_coIbgeMunicipio'] 
df_pacientes = colunas_df(df_vacinas_brasil, df_pacientes_selecao)
df_pacientes.head(10)

Unnamed: 0,_id,_source.paciente_dataNascimento,_source.paciente_idade,_source.paciente_racaCor_codigo,_source.paciente_enumSexoBiologico,_source.paciente_endereco_uf,_source.paciente_endereco_coIbgeMunicipio
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,2017-08-13,6,99,F,AM,130260
1,90ddca11-7073-428b-ab39-872456479673-i0b0,1993-08-08,29,3,F,GO,520620
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,2012-05-12,11,3,F,AM,130260
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,2017-09-18,6,3,M,AM,130260
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,2017-09-15,6,1,F,AM,130260
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,2014-01-23,9,99,M,SP,355030
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,2018-08-20,5,99,M,AM,130260
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,2017-02-10,6,3,M,AM,130260
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,2017-04-15,6,1,M,PR,410830
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,2016-05-19,7,3,M,AM,130260


In [11]:
#Data Frame com as informações sobre as vacinas.

df_info_vacinas_selecao = ['_id', '_source.vacina_nome','_source.vacina_fabricante_nome', '_source.vacina_lote', '_source.vacina_codigo',
                            '_source.vacina_categoria_codigo', '_source.vacina_grupoAtendimento_nome', '_source.status' ]
df_info_vacinas = colunas_df(df_vacinas_brasil, df_info_vacinas_selecao)
df_info_vacinas.head(10)

Unnamed: 0,_id,_source.vacina_nome,_source.vacina_fabricante_nome,_source.vacina_lote,_source.vacina_codigo,_source.vacina_categoria_codigo,_source.vacina_grupoAtendimento_nome,_source.status
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
1,90ddca11-7073-428b-ab39-872456479673-i0b0,COVID-19 PFIZER - COMIRNATY,PFIZER,FL4222,87,2,Faixa Etária,final
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Pessoas de 5 a 11 anos,final
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final


In [12]:
#Data Frame com as informações sobre as aplicações.

df_aplicacao_selecao = ['_id','_source.vacina_nome','_source.vacina_categoria_nome', '_source.estabelecimento_uf', '_source.estabelecimento_municipio_nome'
                        ,'_source.estabelecimento_razaoSocial','_source.vacina_dataAplicacao', '_source.vacina_descricao_dose','_source.vacina_numDose' ]
df_aplicacao = colunas_df(df_vacinas_brasil, df_aplicacao_selecao)
df_aplicacao.head(10)

Unnamed: 0,_id,_source.vacina_nome,_source.vacina_categoria_nome,_source.estabelecimento_uf,_source.estabelecimento_municipio_nome,_source.estabelecimento_razaoSocial,_source.vacina_dataAplicacao,_source.vacina_descricao_dose,_source.vacina_numDose
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
1,90ddca11-7073-428b-ab39-872456479673-i0b0,COVID-19 PFIZER - COMIRNATY,Faixa Etária,CE,GRANJA,PREF M DE GRANJA,2023-07-19T00:00:00.000Z,3ª Dose,3
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1º Reforço,6
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1º Reforço,6
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,SP,SAO PAULO,PREFEITURA DO MUNICIPIO DE SAO PAULO,2024-01-06T00:00:00.000Z,1º Reforço,6
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,PR,FOZ DO IGUACU,PREFEITURA MUNICIPAL DE FOZ DO IGUACU,2023-12-22T00:00:00.000Z,1º Reforço,6
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1º Reforço,6


In [13]:
def renomear_colunas(df, mapeamento):
    """ 
    Renomeando as colunas dos DataFrames através do mapeamento usando a função 'rename'.

    Parâmetros:
        df (pandas.DataFrame): DataFrame desejado. 

        mapeamento (dict): dicionário para renomear as colunas do DataFrame.
    
        Retorna:
        A função irá retornar o DataFrame com as colunas renomeadas.
    """
    return df.rename(columns=mapeamento)

In [14]:
#Renomeando as colunas do DataFrame com as informações dos pacientes.

renomeadas_pacientes = {
    '_id': 'id_paciente','_source.paciente_dataNascimento': 'data_nascimento','_source.paciente_idade': 'idade',
    '_source.paciente_racaCor_codigo': 'codigo_raca','_source.paciente_enumSexoBiologico': 'sexo','_source.paciente_endereco_uf': 'UF',
    '_source.paciente_endereco_coIbgeMunicipio': 'codigo_municipio'}

df_pacientes = renomear_colunas(df_pacientes, renomeadas_pacientes)
df_pacientes.head(10)

Unnamed: 0,id_paciente,data_nascimento,idade,codigo_raca,sexo,UF,codigo_municipio
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,2017-08-13,6,99,F,AM,130260
1,90ddca11-7073-428b-ab39-872456479673-i0b0,1993-08-08,29,3,F,GO,520620
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,2012-05-12,11,3,F,AM,130260
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,2017-09-18,6,3,M,AM,130260
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,2017-09-15,6,1,F,AM,130260
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,2014-01-23,9,99,M,SP,355030
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,2018-08-20,5,99,M,AM,130260
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,2017-02-10,6,3,M,AM,130260
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,2017-04-15,6,1,M,PR,410830
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,2016-05-19,7,3,M,AM,130260


In [15]:
#Renomeando as colunas do DataFrame com as informações das vacinas.

renomeadas_info_vacinas = {
    '_id':'id_paciente', '_source.vacina_nome':'nome_vacina','_source.vacina_fabricante_nome':'fabricante', '_source.vacina_lote':'lote',
    '_source.vacina_codigo':'lote_vacina', '_source.vacina_categoria_codigo':'codigo_categoria', '_source.vacina_grupoAtendimento_nome':'grupo_atendimento', '_source.status': 'status'}

df_info_vacinas = renomear_colunas(df_info_vacinas, renomeadas_info_vacinas)
df_info_vacinas.head(10)

Unnamed: 0,id_paciente,nome_vacina,fabricante,lote,lote_vacina,codigo_categoria,grupo_atendimento,status
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
1,90ddca11-7073-428b-ab39-872456479673-i0b0,COVID-19 PFIZER - COMIRNATY,PFIZER,FL4222,87,2,Faixa Etária,final
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Pessoas de 5 a 11 anos,final
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final


In [16]:
#Renomeando as colunas do DataFrame com as informações das aplicações.

renomeadas_aplicacao = {
    '_id':'id_paciente','_source.vacina_nome':'nome_vacina','_source.vacina_categoria_nome':'categoria_aplicacao', '_source.estabelecimento_uf': 'UF_estabelecimento',
    '_source.estabelecimento_municipio_nome':'nome_municipio','_source.estabelecimento_razaoSocial':'razao_social','_source.vacina_dataAplicacao':'data_aplicacao', 
    '_source.vacina_descricao_dose':'descricao_dose','_source.vacina_numDose':'numero_dose'}

df_aplicacao = renomear_colunas(df_aplicacao, renomeadas_aplicacao)
df_aplicacao.head(10)

Unnamed: 0,id_paciente,nome_vacina,categoria_aplicacao,UF_estabelecimento,nome_municipio,razao_social,data_aplicacao,descricao_dose,numero_dose
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
1,90ddca11-7073-428b-ab39-872456479673-i0b0,COVID-19 PFIZER - COMIRNATY,Faixa Etária,CE,GRANJA,PREF M DE GRANJA,2023-07-19T00:00:00.000Z,3ª Dose,3
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1º Reforço,6
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1º Reforço,6
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,SP,SAO PAULO,PREFEITURA DO MUNICIPIO DE SAO PAULO,2024-01-06T00:00:00.000Z,1º Reforço,6
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1ª Dose,1
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,PR,FOZ DO IGUACU,PREFEITURA MUNICIPAL DE FOZ DO IGUACU,2023-12-22T00:00:00.000Z,1º Reforço,6
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04T00:00:00.000Z,1º Reforço,6


In [17]:
"""
Verificando o tipo das variáveis das colunas e ajustando o seu tipo de variável.
"""

# Verificando o DataFrame de pacientes.
df_pacientes.dtypes

id_paciente         object
data_nascimento     object
idade                int64
codigo_raca         object
sexo                object
UF                  object
codigo_municipio    object
dtype: object

In [18]:
df_pacientes['data_nascimento'] = pd.to_datetime(df_pacientes['data_nascimento'])
df_pacientes.dtypes

id_paciente                 object
data_nascimento     datetime64[ns]
idade                        int64
codigo_raca                 object
sexo                        object
UF                          object
codigo_municipio            object
dtype: object

In [19]:
converter_int = ['codigo_raca']

df_pacientes[converter_int] = df_pacientes[converter_int].astype(int)
df_pacientes.dtypes

id_paciente                 object
data_nascimento     datetime64[ns]
idade                        int64
codigo_raca                  int32
sexo                        object
UF                          object
codigo_municipio            object
dtype: object

In [20]:
# Verificando o DataFrame das vacinas.
df_info_vacinas.dtypes

id_paciente          object
nome_vacina          object
fabricante           object
lote                 object
lote_vacina          object
codigo_categoria     object
grupo_atendimento    object
status               object
dtype: object

In [21]:
# Verificando o DataFrame de aplicação.

df_aplicacao.dtypes
converter_int = ['numero_dose']

df_aplicacao[converter_int] = df_aplicacao[converter_int].astype(int)
df_aplicacao.dtypes

id_paciente            object
nome_vacina            object
categoria_aplicacao    object
UF_estabelecimento     object
nome_municipio         object
razao_social           object
data_aplicacao         object
descricao_dose         object
numero_dose             int32
dtype: object

In [22]:
df_aplicacao['data_aplicacao'] = pd.to_datetime(df_aplicacao['data_aplicacao'])
df_aplicacao['data_aplicacao'] = df_aplicacao['data_aplicacao'].dt.strftime('%Y-%m-%d')
df_aplicacao['data_aplicacao'] = pd.to_datetime(df_aplicacao['data_aplicacao'])

df_aplicacao.dtypes

id_paciente                    object
nome_vacina                    object
categoria_aplicacao            object
UF_estabelecimento             object
nome_municipio                 object
razao_social                   object
data_aplicacao         datetime64[ns]
descricao_dose                 object
numero_dose                     int32
dtype: object

In [23]:
""" 
Verificando a existência de nulos nos DataFrames e lidando com a ausência de dados.
"""

#Verificando dados nulos no df de pacientes
df_pacientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   id_paciente       10000 non-null  object        
 1   data_nascimento   10000 non-null  datetime64[ns]
 2   idade             10000 non-null  int64         
 3   codigo_raca       10000 non-null  int32         
 4   sexo              10000 non-null  object        
 5   UF                9999 non-null   object        
 6   codigo_municipio  9999 non-null   object        
dtypes: datetime64[ns](1), int32(1), int64(1), object(4)
memory usage: 507.9+ KB


In [24]:
#Verificando dados nulos no df de informações sobre vacinas
df_info_vacinas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   id_paciente        10000 non-null  object
 1   nome_vacina        10000 non-null  object
 2   fabricante         10000 non-null  object
 3   lote               10000 non-null  object
 4   lote_vacina        10000 non-null  object
 5   codigo_categoria   9990 non-null   object
 6   grupo_atendimento  9994 non-null   object
 7   status             10000 non-null  object
dtypes: object(8)
memory usage: 625.1+ KB


In [25]:
df_info_vacinas = df_info_vacinas.dropna(subset=['codigo_categoria'])
df_info_vacinas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9990 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   id_paciente        9990 non-null   object
 1   nome_vacina        9990 non-null   object
 2   fabricante         9990 non-null   object
 3   lote               9990 non-null   object
 4   lote_vacina        9990 non-null   object
 5   codigo_categoria   9990 non-null   object
 6   grupo_atendimento  9984 non-null   object
 7   status             9990 non-null   object
dtypes: object(8)
memory usage: 702.4+ KB


In [26]:
#Verificando dados nulos no df sobre aplicações.

df_aplicacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_paciente          10000 non-null  object        
 1   nome_vacina          10000 non-null  object        
 2   categoria_aplicacao  9990 non-null   object        
 3   UF_estabelecimento   10000 non-null  object        
 4   nome_municipio       10000 non-null  object        
 5   razao_social         10000 non-null  object        
 6   data_aplicacao       10000 non-null  datetime64[ns]
 7   descricao_dose       10000 non-null  object        
 8   numero_dose          10000 non-null  int32         
dtypes: datetime64[ns](1), int32(1), object(7)
memory usage: 664.2+ KB


In [27]:
# Removendo as linhas em que não há registros na coluna 'codigo_categoria' do df.

df_aplicacao = df_aplicacao.dropna(subset=['categoria_aplicacao'])
df_aplicacao.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9990 entries, 0 to 9999
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   id_paciente          9990 non-null   object        
 1   nome_vacina          9990 non-null   object        
 2   categoria_aplicacao  9990 non-null   object        
 3   UF_estabelecimento   9990 non-null   object        
 4   nome_municipio       9990 non-null   object        
 5   razao_social         9990 non-null   object        
 6   data_aplicacao       9990 non-null   datetime64[ns]
 7   descricao_dose       9990 non-null   object        
 8   numero_dose          9990 non-null   int32         
dtypes: datetime64[ns](1), int32(1), object(7)
memory usage: 741.4+ KB


In [28]:
""" 
Realizando o relacionamento entre os DataFrames.
A coluna que fará o relacionamento será a 'id_paciente'
"""

# DataFrame de informações de vacina por paciente.

df_pacientes_info_vacinas = pd.merge(df_info_vacinas, df_pacientes, on='id_paciente', how='left')
df_pacientes_info_vacinas.head(10)

Unnamed: 0,id_paciente,nome_vacina,fabricante,lote,lote_vacina,codigo_categoria,grupo_atendimento,status,data_nascimento,idade,codigo_raca,sexo,UF,codigo_municipio
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2017-08-13,6,99,F,AM,130260
1,90ddca11-7073-428b-ab39-872456479673-i0b0,COVID-19 PFIZER - COMIRNATY,PFIZER,FL4222,87,2,Faixa Etária,final,1993-08-08,29,3,F,GO,520620
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2012-05-12,11,3,F,AM,130260
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2017-09-18,6,3,M,AM,130260
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2017-09-15,6,1,F,AM,130260
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2014-01-23,9,99,M,SP,355030
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2018-08-20,5,99,M,AM,130260
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2017-02-10,6,3,M,AM,130260
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Pessoas de 5 a 11 anos,final,2017-04-15,6,1,M,PR,410830
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,PFIZER - PEDIÁTRICA,GN0764,99,2,Faixa Etária,final,2016-05-19,7,3,M,AM,130260


In [29]:
# DataFrame de informações de aplicação por paciente.

df_pacientes_aplicacao = pd.merge(df_aplicacao, df_pacientes, on='id_paciente', how='left')
df_pacientes_aplicacao.head(10)

Unnamed: 0,id_paciente,nome_vacina,categoria_aplicacao,UF_estabelecimento,nome_municipio,razao_social,data_aplicacao,descricao_dose,numero_dose,data_nascimento,idade,codigo_raca,sexo,UF,codigo_municipio
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2017-08-13,6,99,F,AM,130260
1,90ddca11-7073-428b-ab39-872456479673-i0b0,COVID-19 PFIZER - COMIRNATY,Faixa Etária,CE,GRANJA,PREF M DE GRANJA,2023-07-19,3ª Dose,3,1993-08-08,29,3,F,GO,520620
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1º Reforço,6,2012-05-12,11,3,F,AM,130260
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1º Reforço,6,2017-09-18,6,3,M,AM,130260
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2017-09-15,6,1,F,AM,130260
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,SP,SAO PAULO,PREFEITURA DO MUNICIPIO DE SAO PAULO,2024-01-06,1º Reforço,6,2014-01-23,9,99,M,SP,355030
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2018-08-20,5,99,M,AM,130260
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2017-02-10,6,3,M,AM,130260
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,PR,FOZ DO IGUACU,PREFEITURA MUNICIPAL DE FOZ DO IGUACU,2023-12-22,1º Reforço,6,2017-04-15,6,1,M,PR,410830
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1º Reforço,6,2016-05-19,7,3,M,AM,130260


In [30]:
# DataFrame de informações de vacina por aplicação.

df_vacinas_aplicacao = pd.merge(df_info_vacinas, df_aplicacao, on='id_paciente', how='left')
df_pacientes_aplicacao.head(10)

Unnamed: 0,id_paciente,nome_vacina,categoria_aplicacao,UF_estabelecimento,nome_municipio,razao_social,data_aplicacao,descricao_dose,numero_dose,data_nascimento,idade,codigo_raca,sexo,UF,codigo_municipio
0,81c477a1-2351-4572-9940-77375786cd7d-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2017-08-13,6,99,F,AM,130260
1,90ddca11-7073-428b-ab39-872456479673-i0b0,COVID-19 PFIZER - COMIRNATY,Faixa Etária,CE,GRANJA,PREF M DE GRANJA,2023-07-19,3ª Dose,3,1993-08-08,29,3,F,GO,520620
2,4d6c1786-282c-42c1-927b-3e323c9a9d41-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1º Reforço,6,2012-05-12,11,3,F,AM,130260
3,2d527e1c-c4d9-4994-928d-64a719f8ea56-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1º Reforço,6,2017-09-18,6,3,M,AM,130260
4,d7ab3c6d-54bc-4421-8e08-d4ad05445c87-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2017-09-15,6,1,F,AM,130260
5,84be7ce7-f808-43dc-8c18-e3a83ed2d5fb-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,SP,SAO PAULO,PREFEITURA DO MUNICIPIO DE SAO PAULO,2024-01-06,1º Reforço,6,2014-01-23,9,99,M,SP,355030
6,a8bf9539-519c-41d0-97a0-d8dea85b8b53-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2018-08-20,5,99,M,AM,130260
7,ca1d6b59-3085-4292-bafe-5b4ec1eb1798-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1ª Dose,1,2017-02-10,6,3,M,AM,130260
8,3d607839-0175-46f5-a161-8b767ed9b4b9-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,PR,FOZ DO IGUACU,PREFEITURA MUNICIPAL DE FOZ DO IGUACU,2023-12-22,1º Reforço,6,2017-04-15,6,1,M,PR,410830
9,64814087-bef8-4b3f-ad68-a83c4341ae14-i0b0,COVID-19 PFIZER - COMIRNATY PEDIÁTRICA,Faixa Etária,AM,MANAUS,MANAUS SECRETARIA MUNICIPAL DE SAUDE,2024-01-04,1º Reforço,6,2016-05-19,7,3,M,AM,130260


In [31]:
"""
Criando o banco de dados e subindo os DataFrames para o banco de dados
"""

conexao = sqlite3.connect('vacinas_covid_brasil_tratadas.db')
engine = create_engine('sqlite:///vacinas_covid_brasil_tratadas.db')

In [35]:
df_pacientes.to_sql('tabela1', con=engine, index=False, if_exists='replace')
df_info_vacinas.to_sql('tabela2', con=engine, index=False, if_exists='replace')
df_aplicacao.to_sql('tabela3', con=engine, index=False, if_exists='replace')


9990