# Tech Challenge - Fase 3

## üìå Descri√ß√£o do Desafio

Este projeto tem como objetivo analisar o comportamento da popula√ß√£o durante a pandemia da COVID-19, utilizando os microdados da **PNAD-COVID19** do IBGE. O foco √© identificar indicadores relevantes que possam auxiliar um grande hospital no planejamento de a√ß√µes em caso de novos surtos da doen√ßa.

## üìä Estrutura√ß√£o do Banco de Dados

Os dados foram organizados no **Google BigQuery**, permitindo an√°lises eficientes e escal√°veis. A modelagem do banco seguiu os seguintes princ√≠pios:
- Sele√ß√£o de **20 perguntas** da pesquisa PNAD-COVID19, conforme os requisitos do desafio.
- **Limita√ß√£o de 3 meses de dados** para manter a an√°lise focada e gerenci√°vel.
    > Maio, Junho e Julho

- Cria√ß√£o de tabelas otimizadas para facilitar consultas e agrega√ß√µes.

## ‚ùì Perguntas Selecionadas

Foram escolhidas 20 perguntas, divididas em tr√™s categorias principais:

### **1Ô∏è‚É£ Caracteriza√ß√£o dos sintomas cl√≠nicos da popula√ß√£o**
- **B1** ‚Äì Sintomas apresentados na semana anterior.
- **B2** ‚Äì Busca por atendimento m√©dico. (Por causa disso, foi a algum estabelecimento de saude?)
- **B3** ‚Äì Medidas tomadas para recupera√ß√£o.
- **B4** ‚Äì Locais de atendimento procurados.
- **B5** ‚Äì Necessidade de interna√ß√£o.
- **B6** ‚Äì Necessidade de ventila√ß√£o mec√¢nica/intuba√ß√£o.
- **B7** ‚Äì Possui plano de sa√∫de?

### **2Ô∏è‚É£ Comportamento da popula√ß√£o na √©poca da COVID-19**
- **C1** ‚Äì Trabalhou na semana passada?
- **C2** ‚Äì Estava afastado do trabalho?
- **C3** ‚Äì Motivo do afastamento.
- **C12** ‚Äì Trabalhou no local habitual?
- **C13** ‚Äì Trabalhou em home office?

### **3Ô∏è‚É£ Caracter√≠sticas econ√¥micas da sociedade**
- **C7** ‚Äì Tipo de ocupa√ß√£o (empregado, aut√¥nomo, empres√°rio etc.).
- **C8** ‚Äì Carga hor√°ria semanal.
- **C01012** ‚Äì Rendimento normal do trabalho.
- **C14** ‚Äì Contribui√ß√£o para o INSS.
- **C15** ‚Äì Procurou trabalho na semana passada?
- **D1e** ‚Äì Recebeu aux√≠lio emergencial?

## üìå Pr√≥ximos Passos

- **Ingest√£o de Dados:** Configura√ß√£o e importa√ß√£o dos microdados no **Google BigQuery**.
- **Limpeza e Prepara√ß√£o:** Tratamento de dados ausentes e estrutura√ß√£o das tabelas.
- **An√°lises Explorat√≥rias:** Gera√ß√£o de estat√≠sticas descritivas e gr√°ficos.
- **Gera√ß√£o de Insights:** Identifica√ß√£o de padr√µes e recomenda√ß√µes para o hospital.

---
üöÄ **Vamos ao desenvolvimento!**


# Importando Bibliotecas

In [2]:
import pandas as pd

  from pandas.core import (


# Dicion√°rio de Dados

In [None]:
df_dicionario = pd.read_csv('../data/raw/dicionario.csv')

In [None]:
df_dicionario.query('nome_coluna.str.startswith("b")', engine='python').nome_coluna.unique()

array(['b011', 'b005', 'b00111', 'b0013', 'b0034', 'b0015', 'b0011',
       'b0031', 'b0041', 'b0042', 'b0046', 'b0014', 'b0043', 'b0012',
       'b009e', 'b0017', 'b0018', 'b0101', 'b0102', 'b009c', 'b00112',
       'b0105', 'b0035', 'b006', 'b0106', 'b00110', 'b007', 'b0016',
       'b002', 'b0104', 'b0032', 'b009a', 'b00113', 'b0033', 'b0037',
       'b0103', 'b008', 'b0019', 'b0036', 'b0044', 'b0045', 'b009f',
       'b009d', 'b009b'], dtype=object)

In [None]:
df_dicionario.query('nome_coluna.str.startswith("c")', engine='python').nome_coluna.unique()

array(['c016', 'c007', 'c005', 'c007e', 'c007a', 'c007d', 'c003', 'c007c',
       'c007b', 'c0103', 'c004', 'c0104', 'capital', 'c006', 'c015',
       'c002', 'c001', 'c014', 'c007f', 'c009a', 'c012', 'c017a', 'c013',
       'c01011', 'c01021', 'c011a11', 'c011a21', 'c0101', 'c011a1',
       'c011a', 'c010', 'c0102', 'c011a2'], dtype=object)

In [None]:
df_dicionario.query('nome_coluna.str.startswith("d")', engine='python').nome_coluna.unique()

array(['d0011', 'd0031', 'd0061', 'd0071', 'd0021', 'd0051', 'd0041'],
      dtype=object)

In [None]:
df_dicionario.query('nome_coluna == "c002"')

Unnamed: 0,id_tabela,nome_coluna,chave,cobertura_temporal,valor
239,microdados,c002,1.0,2020-05(1)2020-11,Sim
334,microdados,c002,2.0,2020-05(1)2020-11,N√£o
521,microdados,c002,,2020-05(1)2020-11,N√£o aplic√°vel


## Importando bases

In [None]:
df_comportamento = pd.read_csv('../data/processed/comportamento.csv')
df_economicos = pd.read_csv('../data/processed/economicos.csv')
df_sintomas = pd.read_csv('../data/processed/sintomas.csv')

In [18]:
df = df_comportamento.drop(columns='qtd_populacao_entrevistada')\
    .merge(df_economicos,  on = ['ANO', 'MES'] )\
    .merge(df_sintomas,  on = ['ANO', 'MES'] )

In [23]:
df.to_csv('../data/processed/df_merge.csv', index = False)