In [1]:
!pip install requests



In [3]:
# Importando as bibliotecas
import pandas as pd
import requests
import json

In [4]:
# Consumindo a API de vacinação. Como inicialmente foi utilizado o Postman para verificar o consumo, o programa disponibiliza
# o código para consumo da API com várias linguagens de programação.
url = "https://imunizacao-es.saude.gov.br/_search?scroll=1m"

payload = json.dumps({
  "size": 10000
})
headers = {
  'Authorization': 'Basic aW11bml6YWNhb19wdWJsaWM6cWx0bzV0JjdyX0ArI1Rsc3RpZ2k=',
  'Content-Type': 'application/json'
}

vaccination_data = requests.request("GET", url, headers=headers, data=payload)

In [5]:
# Verificando o estado da solicitação da requisição.
vaccination_data.status_code

200

In [6]:
# Transformando os dados consumidos em um arquivo json, que possui a mesma configuração de um dicionário do python
vaccination_data_dic = vaccination_data.json()

In [7]:
# Como o consumo é resultado de uma API do elastic, temos algumas outras informações no arquivo json que precisamos fazer uma
# limpeza para deixar apenas as informações necessários para gerar um dataframe.
vaccination_data_dic.keys()

dict_keys(['_scroll_id', 'took', 'timed_out', '_shards', 'hits'])

In [8]:
# Fazendo uma filtragem do arquivo json.
vaccination_data_keys = vaccination_data_dic["hits"]["hits"]

In [9]:
# Deixando os dados com apenas as informações para gerar o dataframe.
vaccination_data_source = []
for data in vaccination_data_keys:
    add=data["_source"]
    vaccination_data_source.append(add)

In [10]:
# Transformando os dados em um dataframe.
covid_vaccination_data=pd.DataFrame().from_dict(vaccination_data_source)

In [12]:
# Trnasformando o dataframe pandas em um dataframe spark
df_covid_vaccination_data = spark.createDataFrame(covid_vaccination_data)

In [76]:
# Filtrando o dataframe com apenas as informações importantes para realizar algumas visualizações.
df_covid_vaccination_data_colums=df_covid_vaccination_data['estalecimento_noFantasia','estabelecimento_uf',\
'vacina_nome','paciente_idade','paciente_enumSexoBiologico','paciente_endereco_nmMunicipio','vacina_numDose',\
'vacina_fabricante_nome','paciente_endereco_nmPais','vacina_grupoAtendimento_nome','vacina_dataAplicacao','paciente_endereco_uf']

In [108]:
df_covid_vaccination_data_colums.show(2)

+------------------------+------------------+--------------------+--------------+--------------------------+-----------------------------+--------------+----------------------+------------------------+----------------------------+--------------------+--------------------+
|estalecimento_noFantasia|estabelecimento_uf|         vacina_nome|paciente_idade|paciente_enumSexoBiologico|paciente_endereco_nmMunicipio|vacina_numDose|vacina_fabricante_nome|paciente_endereco_nmPais|vacina_grupoAtendimento_nome|vacina_dataAplicacao|paciente_endereco_uf|
+------------------------+------------------+--------------------+--------------+--------------------------+-----------------------------+--------------+----------------------+------------------------+----------------------------+--------------------+--------------------+
|    CENTRAL DE REDE D...|                AL|COVID-19 PFIZER -...|            54|                         F|                    ARAPIRACA|            38|                PFIZER|     

In [80]:
df_covid_vaccination_data_colums.printSchema

<bound method DataFrame.printSchema of DataFrame[estalecimento_noFantasia: string, estabelecimento_uf: string, vacina_nome: string, paciente_idade: bigint, paciente_enumSexoBiologico: string, paciente_endereco_nmMunicipio: string, vacina_numDose: string, vacina_fabricante_nome: string, paciente_endereco_nmPais: string, vacina_grupoAtendimento_nome: string, vacina_dataAplicacao: string, paciente_endereco_uf: string]>

### 1. Visualização de quantidade de vacinados por sexo

In [40]:
from pyspark.sql.functions import *

In [41]:
from pyspark.sql.types import *

In [83]:
df_covid_vaccination_data_colums_qtt=df_covid_vaccination_data_colums.select('*', lit(1).alias("Quantidade_Vacinados"))

In [82]:
df_covid_vaccination_data_colums_1=df_covid_vaccination_data_colums_qtt['paciente_enumSexoBiologico','Quantidade_Vacinados']

In [70]:
df_covid_vaccination_data_colums_1.show(3)

+--------------------------+--------------------+
|paciente_enumSexoBiologico|Quantidade_Vacinados|
+--------------------------+--------------------+
|                         F|                   1|
|                         M|                   1|
|                         M|                   1|
+--------------------------+--------------------+
only showing top 3 rows



In [72]:
df_covid_vaccination_data_sexo=df_covid_vaccination_data_colums_1.groupBy('paciente_enumSexoBiologico')\
.sum('Quantidade_Vacinados')

In [74]:
df_covid_vaccination_data_sexo=df_covid_vaccination_data_sexo.withColumnRenamed('paciente_enumSexoBiologico','Sexo')\
.withColumnRenamed('sum(Quantidade_Vacinados)','Quantidade_Vacinados')

In [75]:
df_covid_vaccination_data_sexo.show()

+----+--------------------+
|Sexo|Quantidade_Vacinados|
+----+--------------------+
|   F|                5564|
|   M|                4436|
+----+--------------------+



### 2. Visualização quantidade de vacinados por UF

In [110]:
# Filtrando o dataframe com as colunas necessárias.
df_covid_vaccination_data_uf=df_covid_vaccination_data_colums_qtt['paciente_endereco_uf','Quantidade_Vacinados']

In [111]:
# Fazendo o agrupamento do dataframe pelo estado e realizando a soma da quantidade de vacinados.
df_covid_vaccination_data_uf=df_covid_vaccination_data_uf.groupBy('paciente_endereco_uf').sum('Quantidade_Vacinados')

In [112]:
# Visualização do dataframe.
df_covid_vaccination_data_uf.show(40)

+--------------------+-------------------------+
|paciente_endereco_uf|sum(Quantidade_Vacinados)|
+--------------------+-------------------------+
|                  SC|                      234|
|                  RO|                       58|
|                  PI|                      151|
|                  AM|                      149|
|                None|                        2|
|                  RR|                       37|
|                  GO|                      265|
|                  TO|                       76|
|                  MT|                      107|
|                  SP|                     2159|
|                  PB|                      213|
|                  ES|                      199|
|                  RS|                      447|
|                  XX|                        1|
|                  MS|                      113|
|                  AL|                      113|
|                  MG|                      759|
|                  P

In [113]:
# Retirando os dados da coluna estado que estão como vazios e none.
df_covid_vaccination_data_uf = df_covid_vaccination_data_uf.filter(df_covid_vaccination_data_uf.paciente_endereco_uf != "")\
.filter(df_covid_vaccination_data_uf.paciente_endereco_uf!='None').filter(df_covid_vaccination_data_uf.paciente_endereco_uf!='XX')\
.withColumnRenamed('paciente_endereco_uf','Estado').withColumnRenamed('sum(Quantidade_Vacinados)','Quantidade_Vacinados')

In [114]:
# Apresentando o número de vaciados por estado.
df_covid_vaccination_data_uf.show(40)

+------+--------------------+
|Estado|Quantidade_Vacinados|
+------+--------------------+
|    SC|                 234|
|    RO|                  58|
|    PI|                 151|
|    AM|                 149|
|    RR|                  37|
|    GO|                 265|
|    TO|                  76|
|    MT|                 107|
|    SP|                2159|
|    PB|                 213|
|    ES|                 199|
|    RS|                 447|
|    MS|                 113|
|    AL|                 113|
|    MG|                 759|
|    PA|                 316|
|    BA|                1476|
|    SE|                 143|
|    PE|                 327|
|    CE|                 421|
|    RN|                 271|
|    RJ|                 740|
|    MA|                 328|
|    AC|                  33|
|    DF|                 128|
|    PR|                 633|
|    AP|                  41|
+------+--------------------+

