# Data Analytics Tech Challenge - Fase 3 Big Data

## Grupo 95

- [Letícia Maia de Oliveira](https://www.linkedin.com/in/lemaia/)

## O Problema

Imagine agora que você foi contratado(a) como Expert em Data Anaytics por um grande hospital para entender como foi o comportamento da população na época da pandemia da COVID-19 e quais indicadores seriam importantes para o planejamento, caso haja um novo surto da doença.

Apesar de ser contratato(a) agora, sua área observou que a utilização do estudo do PNAD-COVID 19 d0 IBGE seria uma ótima base para termos boas respostas ao problema proposto, pois são dados confiáveis.

Porém não será necessário utilizar todas as perguntas realizadas na pesquisa para extergar todas as oportunidades ali posta.
É sempre bom ressaltar que há dados triviais que precisam estar no projeto, pois auxiliam muito na análise dos dados:

*   Característica clínica dos sintomas;

*   Cartacterística da população;

*   Característica econômica da sociedade.


## A Base de dados: PNA-COVID-19 DO IBGE

O Head de dados pediu para que você entrasse na base de dados do PNAD-COVID-19 do IBGE e organizasse esta base para análise utilizando Banco de dados em Nuvem e trazendo as seguintes características:

a. Utilização de no maximo 20 questionamentos na pequisa;
b. Utilização 3 meses para construção da solução;
c. Caracterização dos sintomas clínics da população;
d. Comportamento da população na época da COVID-19
e. Características economicas da Sociedade;

# Objetivo
Seu objetivo será trazer uma breve analise dessas informações, como foi organização do banco, as perguntas selecionadas para a resposta do problema e quais seriam as principais ações que hospital deverá tomar em caso de um novo surto de COVID-19.

## Dicionário de dados

- Indicador: descrição da pergunta que foi realizada na pesquisa
- Nível territorial: divisão territorial podendo ser composto pelo valor "País" ou "Grande Região"
- Abertura territorial: descrição do npivel territorial
- Variável de abertura: descrição do grupo de variaveis para abertura territorial.
-Categoria de abertura:  descrição da categoria  de variaveis de abertura

###Importação de bibliotecas
Inicialmente iremos importar as bibliotecas necessárias para realização do projeto

In [94]:
import pandas as pd
import pandas_gbq

##Importação dos Dados

Agora iremos importar os dados disponibilizados no site do [PNDA-COVID DO IBGE](https://colab.research.google.com/corgiredirector?site=https%3A%2F%2Fcovid19.ibge.gov.br%2Fpnad-covid%2F). Convenientemente os dados foram disponilizados no github para rodarmos o código no colab sem a necessidade de upload de arquivos.
Com objetivo de atender os requisitos deste projetos as bases foram divididas da seguinte forma:



#### **Caracterização dos sintomas clinicos da população COVID-19**

1.   **df_stm_br**: contém dados referentes a sintomas do COVID -19 agrupados por país ou regiões específicas
2.   **df_stm_uf**: contém dados referentes a sintomas do COVID -19 agrupados por estados ou unidades federativas

####  **Comportamento da população na época do COVID-19**

1.   **df_cpt_br**: contém dados referentes ao comportamento da população durante a pandemia, agrupados por país ou regiões específicas
2.   **df_cpt_uf**: contém dados referentes ao comportamento da população durante a pandemia, agrupados por ou unidades federativas


#### **Característica econômica da sociedade na época do COVID-19**

1.   **df_ecm_br**: contém dados referentes as  características econômicas da sociedade durante a pandemia, agrupados por país ou regiões específicas
2.   **df_ecm_uf**: contém dados referentes as  características econômicas da sociedade durante a pandemia, agrupados por estados ou unidades federativas







In [95]:
# @title Criação de dataset de sintomas clínicos do COVID-19-BR
path= 'https://github.com/LeticiaMoliveira/FIAP/raw/main/Fase%203/dados/pnad_covid19_2020_saude.xlsx'
df_stm_br = pd.read_excel(path,sheet_name="Saúde BR e GR")
df_stm_br.head()


Unnamed: 0,Indicador,Nível Territorial,Abertura Territorial,Variável de abertura 1,Categoria de abertura 1,Variável de abertura 2,Categoria de abertura 2,Julho,Agosto,Setembro
0,Pessoas que apresentaram algum dos sintoma(s) ...,País,Brasil,Sexo,Total,-,-,13793.338769,12135.650022,9237.127768
1,Pessoas que apresentaram algum dos sintoma(s) ...,País,Brasil,Sexo,Homem,-,-,5888.352772,5198.160462,3995.949215
2,Pessoas que apresentaram algum dos sintoma(s) ...,País,Brasil,Sexo,Mulher,-,-,7904.985997,6937.489559,5241.178553
3,Pessoas que apresentaram algum dos sintoma(s) ...,País,Brasil,Grupos de Idade,Total,-,-,13793.338769,12135.650022,9237.127768
4,Pessoas que apresentaram algum dos sintoma(s) ...,País,Brasil,Grupos de Idade,0 a 9 anos,-,-,1076.65231,1208.191614,840.352628


In [96]:
# @title Criação de dataset de sintomas clínicos DO COVID-19- UF
path= 'https://github.com/LeticiaMoliveira/FIAP/raw/main/Fase%203/dados/pnad_covid19_2020_saude.xlsx'
df_stm_uf = pd.read_excel(path,sheet_name="Saúde UF")
df_stm_uf.head()

Unnamed: 0,Indicador,Nível Territorial,Abertura Territorial,Variável de abertura 1,Categoria de abertura 1,Variável de abertura 2,Categoria de abertura 2,Julho,Agosto,Setembro
0,Pessoas que apresentaram algum dos sintoma(s) ...,Unidade da Federação,Rondônia,-,-,-,-,91.120006,96.641585,77.548385
1,CV - Pessoas que apresentaram algum dos sintom...,Unidade da Federação,Rondônia,-,-,-,-,8.937854,10.752584,11.760041
2,Percentual de pessoas que apresentaram algum d...,Unidade da Federação,Rondônia,-,-,-,-,5.100973,5.405325,4.333607
3,CV - Percentual de pessoas que apresentaram al...,Unidade da Federação,Rondônia,-,-,-,-,8.937854,10.752584,11.760041
4,Pessoas que apresentaram sintomas referenciado...,Unidade da Federação,Rondônia,-,-,-,-,15.52157,24.03021,11.51233


In [97]:
# @title Criação de dataset de comportamento da sociedade durante pandemia COVID-19-BR
path= 'https://github.com/LeticiaMoliveira/FIAP/raw/main/Fase%203/dados/pnad_covid19_2020_trabalho.xlsx'
df_cpt_br = pd.read_excel(path,sheet_name="Trabalho")
df_cpt_br.head()

Unnamed: 0,Indicador,Nível Territorial,Abertura Territorial,Variável de abertura 1,Categoria de abertura 1,Variável de abertura 2,Categoria de abertura 2,Julho,Agosto,Setembro
0,População Residente (mil pessoas),País,Brasil,Sexo,Total,-,-,211131.421,211262.055,211392.451
1,População Residente (mil pessoas),País,Brasil,Sexo,Homem,-,-,103215.343,103277.548,103339.616
2,População Residente (mil pessoas),País,Brasil,Sexo,Mulher,-,-,107916.078,107984.507,108052.835
3,População Residente (mil pessoas),País,Brasil,Cor ou raça,Total1,-,-,211131.421,211262.055,211392.451
4,População Residente (mil pessoas),País,Brasil,Cor ou raça,Branca,-,-,92839.968989,93249.235638,93347.795064


In [98]:
# @title Criação de dataset de comportamento da sociedade durante pandemia COVID-19-UF
path= 'https://github.com/LeticiaMoliveira/FIAP/raw/main/Fase%203/dados/pnad_covid19_2020_trabalho.xlsx'
df_cpt_uf = pd.read_excel(path,sheet_name="Trabalho UF")
df_cpt_uf.head()

Unnamed: 0,Indicador,Nível Territorial,Abertura Territorial,Variável de abertura 1,Categoria de abertura 1,Variável de abertura 2,Categoria de abertura 2,Julho,Agosto,Setembro
0,População Residente (mil pessoas),Unidade da Federação,Rondônia,-,-,-,-,1786.326,1787.896,1789.465
1,CV - População Residente (%),Unidade da Federação,Rondônia,-,-,-,-,0.0,0.0,0.0
2,Pessoas de 14 anos ou mais de idade (mil pessoas),Unidade da Federação,Rondônia,-,-,-,-,1402.187864,1402.010782,1403.457753
3,CV - Pessoas de 14 anos ou mais de idade (%),Unidade da Federação,Rondônia,-,-,-,-,0.460385,0.517479,0.451794
4,Pessoas ocupadas (mil pessoas),Unidade da Federação,Rondônia,-,-,-,-,737.387514,745.379703,725.301308


In [99]:
#@title Criação de dataset das características economica da sociedade durante pandemia COVID-19-BR
path= 'https://github.com/LeticiaMoliveira/FIAP/raw/main/Fase%203/dados/pnad_covid19_2020_escola_emprestimos_itens_de_limpeza.xlsx'
df_ecm_br = pd.read_excel(path,sheet_name="Escola, empréstimos, itens limp")
df_ecm_br.head()

Unnamed: 0,Indicador,Nível Territorial,Abertura Territorial,Variável de abertura 1,Categoria de abertura 1,Variável de abertura 2,Categoria de abertura 2,Julho,Agosto,Setembro
0,Pessoas que frequentam escola (mil pessoas),País,Brasil,Sexo,Total,-,-,45257.174925,45759.706636,46143.030856
1,Pessoas que frequentam escola (mil pessoas),País,Brasil,Sexo,Homem,-,-,22658.627102,22972.720474,23117.78799
2,Pessoas que frequentam escola (mil pessoas),País,Brasil,Sexo,Mulher,-,-,22598.547823,22786.986162,23025.242865
3,Pessoas que frequentam escola (mil pessoas),Grande Região,Norte,Sexo,Total,-,-,4773.232957,4836.377046,4878.531955
4,Pessoas que frequentam escola (mil pessoas),Grande Região,Norte,Sexo,Homem,-,-,2380.020363,2425.453561,2438.487993


In [100]:
#@title Criação de dataset das características economica da sociedade durante pandemia COVID-19-UF
path= 'https://github.com/LeticiaMoliveira/FIAP/raw/main/Fase%203/dados/pnad_covid19_2020_escola_emprestimos_itens_de_limpeza.xlsx'
df_ecm_uf = pd.read_excel(path,sheet_name="Esc, emprestimos, itens limp UF")


##Limpeza e tratamento de dados

In [101]:
#@title Renomear coluna para os dados de sintomas clínicos do COVID-19 (df_stm_br)
df_stm_br.columns=['indicador', 'nivel_territorial','abertura_territorial','variavel_abertura_1', 'categoria_abertura_1','variavel_abertura_2', 'categoria_abertura_2','julho','agosto','setembro']

In [102]:
#@title Renomear coluna para os dados de sintomas clínicos DO COVID-19 (df_stm_uf)
df_stm_uf.columns=['indicador', 'nivel_territorial','abertura_territorial','variavel_abertura_1', 'categoria_abertura_1','variavel_abertura_2', 'categoria_abertura_2','julho','agosto','setembro']

In [103]:
#@title Renomear coluna para os dados de comportamento da sociedade durante pandemia COVID-19 (df_cpt_br)
df_cpt_br.columns=['indicador', 'nivel_territorial','abertura_territorial','variavel_abertura_1', 'categoria_abertura_1','variavel_abertura_2', 'categoria_abertura_2','julho','agosto','setembro']

In [104]:
#@title Renomear coluna para os dados de comportamento da sociedade durante pandemia COVID-19 (df_cpt_uf)
df_cpt_uf.columns=['indicador', 'nivel_territorial','abertura_territorial','variavel_abertura_1', 'categoria_abertura_1','variavel_abertura_2', 'categoria_abertura_2','julho','agosto','setembro']

In [105]:
#@title Importação dados das características economica da sociedade durante pandemia COVID-19 (df_ecm_br)
df_ecm_br.columns=['indicador', 'nivel_territorial','abertura_territorial','variavel_abertura_1', 'categoria_abertura_1','variavel_abertura_2', 'categoria_abertura_2','julho','agosto','setembro']

In [106]:
#@title Importação dados das características economica da sociedade durante pandemia COVID-19 (df_ecm_uf)
df_ecm_uf.columns=['indicador', 'nivel_territorial','abertura_territorial','variavel_abertura_1', 'categoria_abertura_1','variavel_abertura_2', 'categoria_abertura_2','julho','agosto','setembro']

##Verificar dados faltantes
Nesta etapa, os dados faltantes serão encontrados e tratados caso necessário.


In [107]:
#@title Dataset (df_stm_br)
df_stm_br.isnull().sum()

indicador               0
nivel_territorial       0
abertura_territorial    0
variavel_abertura_1     0
categoria_abertura_1    0
variavel_abertura_2     0
categoria_abertura_2    0
julho                   0
agosto                  0
setembro                0
dtype: int64

In [108]:
#@title Dataset (df_stm_uf)

df_stm_uf.isnull().sum()

indicador               0
nivel_territorial       0
abertura_territorial    0
variavel_abertura_1     0
categoria_abertura_1    0
variavel_abertura_2     0
categoria_abertura_2    0
julho                   0
agosto                  0
setembro                0
dtype: int64

In [109]:
#@title Dataset (df_cpt_br)

df_cpt_br.isnull().sum()

indicador               0
nivel_territorial       0
abertura_territorial    0
variavel_abertura_1     0
categoria_abertura_1    0
variavel_abertura_2     0
categoria_abertura_2    0
julho                   0
agosto                  0
setembro                0
dtype: int64

In [110]:
#@title Dataset (df_cpt_uf)
df_cpt_uf.isnull().sum()

indicador               0
nivel_territorial       0
abertura_territorial    0
variavel_abertura_1     0
categoria_abertura_1    0
variavel_abertura_2     0
categoria_abertura_2    0
julho                   0
agosto                  0
setembro                0
dtype: int64

In [111]:
#@title Dataset (df_ecm_br)

df_ecm_br.isnull().sum()

indicador               0
nivel_territorial       0
abertura_territorial    0
variavel_abertura_1     0
categoria_abertura_1    0
variavel_abertura_2     0
categoria_abertura_2    0
julho                   0
agosto                  0
setembro                0
dtype: int64

In [112]:
#@title Dataset (df_ecm_uf)

df_ecm_br.isnull().sum()

indicador               0
nivel_territorial       0
abertura_territorial    0
variavel_abertura_1     0
categoria_abertura_1    0
variavel_abertura_2     0
categoria_abertura_2    0
julho                   0
agosto                  0
setembro                0
dtype: int64

In [113]:
## Não há dados faltantes em nenhum dos dataframes

##Análise exploratória de dados

Nesta fase os datasets criados foram exportados como tabela para BigQuery. O que possibilitará uma análise exploratória detalhada dos dados através da integração com o Looker.

Apesar do foco de analise explorátoria deste trabalho ser desenvolvida no Looker, também optadomos por exportar uma consulta do BigQuery para analise de performance e resultados.

### Importação para BigQuery



Nesta fase os datasets criados foram exportados como tabela para BigQuery. O que possibilitará uma análise exploratória detalhada dos dados através da integração com o Looker.


In [114]:
#@title Importação de dataset (df_stm_br)
# TODO: Set project_id to your Google Cloud Platform project ID.
project_id = "fiap-400421"

# TODO: Set table_id to the full destination table ID (including the
#       dataset ID).
table_id = 'fiap-400421.covid19.df_stm_br'

#Criar tabelas no Google BigQuery
pandas_gbq.to_gbq(df_stm_br, table_id, project_id=project_id)

100%|██████████| 1/1 [00:00<00:00, 1619.42it/s]


In [115]:
#@title Importação de dataset (df_stm_uf)

# TODO: Set table_id to the full destination table ID (including the
#       dataset ID).
table_id = 'fiap-400421.covid19.df_stm_uf'

pandas_gbq.to_gbq(df_stm_uf, table_id, project_id=project_id)

100%|██████████| 1/1 [00:00<00:00, 8289.14it/s]


In [116]:
#@title Importação de dataset (df_cpt_br)
# TODO: Set table_id to the full destination table ID (including the
#       dataset ID).
table_id = 'fiap-400421.covid19.df_cpt_br'

pandas_gbq.to_gbq(df_cpt_br, table_id, project_id=project_id)

100%|██████████| 1/1 [00:00<00:00, 2700.78it/s]


In [117]:
#@title Importação de dataset (df_cpt_uf)

# TODO: Set table_id to the full destination table ID (including the
#       dataset ID).
table_id = 'fiap-400421.covid19.df_cpt_uf'

pandas_gbq.to_gbq(df_cpt_uf, table_id, project_id=project_id)

100%|██████████| 1/1 [00:00<00:00, 2732.45it/s]


In [118]:
#@title Importação de dataset (df_ecm_br)

# TODO: Set table_id to the full destination table ID (including the
#       dataset ID).
table_id = 'fiap-400421.covid19.df_ecm_br'

pandas_gbq.to_gbq(df_ecm_br, table_id, project_id=project_id)

100%|██████████| 1/1 [00:00<00:00, 2853.27it/s]


In [119]:
#@title Importação de dataset (df_ecm_uf)

# TODO: Set table_id to the full destination table ID (including the
#       dataset ID).
table_id = 'fiap-400421.covid19.df_ecm_uf'

pandas_gbq.to_gbq(df_ecm_uf, table_id, project_id=project_id)


100%|██████████| 1/1 [00:00<00:00, 927.94it/s]


### Exportação de Consultas BigQuery para Colab

Apesar do nosso trabalho está focado em realizar a analise de dados através do Looker, também existe a possiblidade de trazer os resultados das consultas para serem trabalhados no Colab.

In [120]:
# @title Setup

from google.colab import auth
from google.cloud import bigquery
from google.colab import data_table

project = 'fiap-400421' # Project ID inserted based on the query results selected to explore
location = 'US' # Location inserted based on the query results selected to explore
client = bigquery.Client(project=project, location=location)
data_table.enable_dataframe_formatter()
auth.authenticate_user()

In [123]:
# @title Criar dataframe com a consulta BigQuery

# Running this code will read results from your previous job

job = client.get_job('bquxjob_2a5c18e1_18baa96335f') # Job ID inserted based on the query results selected to explore
results = job.to_dataframe()
results

Unnamed: 0,indicador,nivel_territorial,abertura_territorial,variavel_abertura_1,categoria_abertura_1,variavel_abertura_2,categoria_abertura_2,julho,agosto,setembro
0,Pessoas que apresentaram algum dos sintoma(s) ...,País,Brasil,Sexo,Homem,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,1330.313886,1196.525236,955.908713
1,CV - Pessoas que apresentaram algum dos sintom...,País,Brasil,Sexo,Homem,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,2.913002,3.241447,3.745374
2,Distribuição das pessoas que apresentaram algu...,País,Brasil,Sexo,Homem,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,22.609484,23.029202,23.921943
3,CV - Distribuição das pessoas que apresentaram...,País,Brasil,Sexo,Homem,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,2.569038,2.859918,3.190465
4,Pessoas que apresentaram sintomas referenciado...,País,Brasil,Sexo,Homem,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,457.595219,362.819317,248.627311
...,...,...,...,...,...,...,...,...,...,...
427,CV - Distribuição das pessoas que apresentaram...,Grande Região,Centro-Oeste,Grupos de Idade 2,60 anos ou mais,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,15.940677,16.115963,13.983609
428,Pessoas que apresentaram sintomas referenciado...,Grande Região,Centro-Oeste,Grupos de Idade 2,60 anos ou mais,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,15.536398,10.856781,16.267410
429,CV - Pessoas que apresentaram sintomas referen...,Grande Região,Centro-Oeste,Grupos de Idade 2,60 anos ou mais,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,21.559962,18.787920,16.852397
430,Distribuição das pessoas que apresentaram sint...,Grande Região,Centro-Oeste,Grupos de Idade 2,60 anos ou mais,Procura a estabelecimento de saúde,Foi a estabelecimento de saúde,72.275444,79.137847,75.790712
