# Tech Challenge - Fase 3

## 📌 Descrição do Desafio

Este projeto tem como objetivo analisar o comportamento da população durante a pandemia da COVID-19, utilizando os microdados da **PNAD-COVID19** do IBGE. O foco é identificar indicadores relevantes que possam auxiliar um grande hospital no planejamento de ações em caso de novos surtos da doença.

## 📊 Estruturação do Banco de Dados

Os dados foram organizados no **Google BigQuery**, permitindo análises eficientes e escaláveis. A modelagem do banco seguiu os seguintes princípios:
- Seleção de **20 perguntas** da pesquisa PNAD-COVID19, conforme os requisitos do desafio.
- **Limitação de 3 meses de dados** para manter a análise focada e gerenciável.
    > Maio, Junho e Julho

- Criação de tabelas otimizadas para facilitar consultas e agregações.

## ❓ Perguntas Selecionadas

Foram escolhidas 20 perguntas, divididas em três categorias principais:

### **1️⃣ Caracterização dos sintomas clínicos da população**
- **B1** – Sintomas apresentados na semana anterior.
- **B2** – Busca por atendimento médico. (Por causa disso, foi a algum estabelecimento de saude?)
- **B3** – Medidas tomadas para recuperação.
- **B4** – Locais de atendimento procurados.
- **B5** – Necessidade de internação.
- **B6** – Necessidade de ventilação mecânica/intubação.
- **B7** – Possui plano de saúde?

### **2️⃣ Comportamento da população na época da COVID-19**
- **C1** – Trabalhou na semana passada?
- **C2** – Estava afastado do trabalho?
- **C3** – Motivo do afastamento.
- **C12** – Trabalhou no local habitual?
- **C13** – Trabalhou em home office?

### **3️⃣ Características econômicas da sociedade**
- **C7** – Tipo de ocupação (empregado, autônomo, empresário etc.).
- **C8** – Carga horária semanal.
- **C01012** – Rendimento normal do trabalho.
- **C14** – Contribuição para o INSS.
- **C15** – Procurou trabalho na semana passada?
- **D1e** – Recebeu auxílio emergencial?

## 📌 Próximos Passos

- **Ingestão de Dados:** Configuração e importação dos microdados no **Google BigQuery**.
- **Limpeza e Preparação:** Tratamento de dados ausentes e estruturação das tabelas.
- **Análises Exploratórias:** Geração de estatísticas descritivas e gráficos.
- **Geração de Insights:** Identificação de padrões e recomendações para o hospital.

---
🚀 **Vamos ao desenvolvimento!**


# Importando Bibliotecas

In [2]:
import pandas as pd

  from pandas.core import (


# Dicionário de Dados

In [None]:
df_dicionario = pd.read_csv('../data/raw/dicionario.csv')

In [None]:
df_dicionario.query('nome_coluna.str.startswith("b")', engine='python').nome_coluna.unique()

array(['b011', 'b005', 'b00111', 'b0013', 'b0034', 'b0015', 'b0011',
       'b0031', 'b0041', 'b0042', 'b0046', 'b0014', 'b0043', 'b0012',
       'b009e', 'b0017', 'b0018', 'b0101', 'b0102', 'b009c', 'b00112',
       'b0105', 'b0035', 'b006', 'b0106', 'b00110', 'b007', 'b0016',
       'b002', 'b0104', 'b0032', 'b009a', 'b00113', 'b0033', 'b0037',
       'b0103', 'b008', 'b0019', 'b0036', 'b0044', 'b0045', 'b009f',
       'b009d', 'b009b'], dtype=object)

In [None]:
df_dicionario.query('nome_coluna.str.startswith("c")', engine='python').nome_coluna.unique()

array(['c016', 'c007', 'c005', 'c007e', 'c007a', 'c007d', 'c003', 'c007c',
       'c007b', 'c0103', 'c004', 'c0104', 'capital', 'c006', 'c015',
       'c002', 'c001', 'c014', 'c007f', 'c009a', 'c012', 'c017a', 'c013',
       'c01011', 'c01021', 'c011a11', 'c011a21', 'c0101', 'c011a1',
       'c011a', 'c010', 'c0102', 'c011a2'], dtype=object)

In [None]:
df_dicionario.query('nome_coluna.str.startswith("d")', engine='python').nome_coluna.unique()

array(['d0011', 'd0031', 'd0061', 'd0071', 'd0021', 'd0051', 'd0041'],
      dtype=object)

In [None]:
df_dicionario.query('nome_coluna == "c002"')

Unnamed: 0,id_tabela,nome_coluna,chave,cobertura_temporal,valor
239,microdados,c002,1.0,2020-05(1)2020-11,Sim
334,microdados,c002,2.0,2020-05(1)2020-11,Não
521,microdados,c002,,2020-05(1)2020-11,Não aplicável


## Importando bases

In [None]:
df_comportamento = pd.read_csv('../data/processed/comportamento.csv')
df_economicos = pd.read_csv('../data/processed/economicos.csv')
df_sintomas = pd.read_csv('../data/processed/sintomas.csv')

In [18]:
df = df_comportamento.drop(columns='qtd_populacao_entrevistada')\
    .merge(df_economicos,  on = ['ANO', 'MES'] )\
    .merge(df_sintomas,  on = ['ANO', 'MES'] )

In [23]:
df.to_csv('../data/processed/df_merge.csv', index = False)