# Extração e Filtregem dos Dados
Notebook para importar, mesclar e tratar de maneira geral os dados

Colunas que usaremos no projeto:
|Cod|Pergunta|
|--|--|
|A002| Idade do morador|
|A003| Sexo
|A004| Cor ou raça|
|A005| Escolaridade
|C001| Na semana passada, por pelo menos uma hora, trabalhou ou fez algum bico?|
|C006| Tem mais de um trabalho|
|C007| No trabalho (único ou principal) que tinha nessa semana, era:|
|C008| Quantas horas, por semana, normalmente trabalhava?|
|C009| Quantas horas, na semana passada, de fato trabalhou?|
|C013| Na semana passada, o(a) Sr(a) estava em trabalho remoto (home office ou teletrabalho)?|
|V1022|Situação do domicílio|
|F001| Este domicílio é:|
|B0011| Na semana passada teve febre?|
|B0012| Na semana passada teve tosse?|
|B0013| Na semana passada teve dor de garganta?|
|B0014| Na semana passada teve dificuldade para respirar?|
|B0015| Na semana passada teve dor de cabeça?|
|B0016| Na semana passada teve dor no peito?|
|B0017| Na semana passada teve náusea?|
|B0018| Na semana passada teve nariz entupido ou escorrendo?|
|B0019| Na semana passada teve fadiga?|
|B00110| Na semana passada teve dor nos olhos?|
|B00111| Na semana passada teve perda de cheiro ou sabor?|
|B00112| Na semana passada teve dor muscular?|
|B00113| Na semana passada teve diarreia?|
|B0101| Algum médico já lhe deu o diagnóstico de diabetes?|
|B0102| Algum médico já lhe deu o diagnóstico de hipertensão?|
|B0103| Algum médico já lhe deu o diagnóstico de asma/bronquite/enfisema/doenças respiratória crônica ou doença de pulmão? |
|B0104| Algum médico já lhe deu o diagnóstico de doenças do coração (infarto, angina, insuficiência cardíaca, arritmia)?|
|B0105| Algum médico já lhe deu o diagnóstico de depressão?|
|B0106| Algum médico já lhe deu o diagnóstico de câncer?|
|B011| Na semana passada, devido à pandemia do Coronavírus, em que medida o(a) Sr(a) restringiu o contato com as pessoas?|
|B002| Por causa disso, foi a algum estabelecimento de saúde?|
|B0041| Local que buscou atendimento foi posto de saúde/Unidade básica de saúde /Equipe de Saúde daFamília (médico, enfermeiro, técnico de enfermagem ou agente comunitário de saúde)|
|B0042| Local que buscou atendimento foi pronto socorro do SUS/UPA|
|B0043| Local que buscou atendimento foi hospital do SUS|
|B0044| Local que buscou atendimento foi ambulatório ou consultório privado ou ligado às forças armadas|
|B0045| Local que buscou atendimento foi pronto socorro privado ou ligado às forças armadas|
|B0046| Local que buscou atendimento foi hospital privado ou ligado às forças armadas|
|B008| O(A) Sr(a) fez algum teste para saber se estava infectado(a) pelo coronavírus?|
|B009A| Fez o exame coletado com cotonete na boca e/ou nariz (SWAB)?|
|B009B| Qual o resultado?|
|B009C| Fez o exame de coleta de sangue através de furo no dedo?|
|B009D| Qual o resultado?|
|B009E| Fez o exame de coleta de sangue através da veia da braço?|
|B009F| Qual o resultado?|


In [22]:
import polars as pl

Importando os dataframes

In [23]:
df09 = pl.read_csv("../data/bronze/PNAD_COVID_092020.csv")
df10 = pl.read_csv("../data/bronze/PNAD_COVID_102020.csv")
df11 = pl.read_csv("../data/bronze/PNAD_COVID_112020.csv")

FileNotFoundError: No such file or directory (os error 2): ../data/bronze/PNAD_COVID_092020.csv

Verificando se existem colunas diferentes entre eles

In [None]:
def compare_columns(df, df2):
   for col in df.columns:
      if col not in df2.columns:
         print(f"Column '{col}' not found")

In [None]:
compare_columns(df09, df10)

In [None]:
compare_columns(df09, df11)

In [None]:
compare_columns(df10, df09)

In [None]:
compare_columns(df10, df11)

In [None]:
compare_columns(df11, df09)

In [None]:
compare_columns(df11, df10)

Selecionando apenas colunas que serão usadas no projeto

In [None]:
selected_cols = [ 
   "UF", "V1022", "A002", "A003", "A004", "A005", "C001", "F001", "B0011", 
   "B0012", "B0013", "B0014", "B0015", "B0016", "B0017", "B0018", 
   "B0019", "B00110", "B00111", "B00112", "B00113", "B002", "B0041", 
   "B0042", "B0043", "B0044", "B0045", "B0046", "B008", "B009A", "B009B", 
   "B009C", "B009D", "B009E", "B009F","B0101", "B0102", "B0103", "B0104", 
   "B0105", "B0106", "B011", "C006", "C007", "C008", "C009", "C013"
]

Filtrando as colunas dos dataframes

In [None]:
df09 = df09.select(
   pl.col(selected_cols).cast(pl.Int64)
)
df10 = df10.select(
   pl.col(selected_cols).cast(pl.Int64)
)
df11 = df11.select(
   pl.col(selected_cols).cast(pl.Int64)
)

Agrupando dataframes em um único

In [None]:
df_concat = pl.concat([df09, df10, df11])

Verificando forma final do dataframe

In [None]:
df_concat.shape

Salvando em parquet na pasta silver

In [None]:
df_concat.write_parquet("../data/silver/PNAD_COVID_092020_112020.parquet")

# Tratamento dos Dados

In [None]:
df = pl.read_parquet('../data/silver/PNAD_COVID_092020_112020.parquet')

In [None]:
df.describe()

In [None]:
df = df.rename({
   "UF": "uf",
   "A002": "idade",
   "A003": "sexo",
   "A004": "cor",
   "A005": "escolaridade",
   "C001": "trabalhou_semana_passada",
   "F001": "tipo_domicilio",
   "V1022":	"situacao_domicilio",
   "B0011": "febre",
   "B0012": "tosse",
   "B0013": "dor_garganta",
   "B0014": "dificuldade_respirar",
   "B0015": "dor_cabeça",
   "B0016": "dor_peito",
   "B0017": "nausea",
   "B0018": "nariz_entupido",
   "B0019": "fadiga",
   "B00110": "dor_olhos",
   "B00111": "perda_olfato_paladar",
   "B00112": "dor_muscular",
   "B00113": "diarreia",
   "B002": "ida_unidade_saude",
   "B0041": "posto_publico",
   "B0042": "pronto_socorro_publico",
   "B0043": "hospital_publico",
   "B0044": "ambulatorio_privado",
   "B0045": "pronto_socorro_privado",
   "B0046": "hospital_privado",
   "B008": "fez_teste",
   "B009A": "teste_swab",
   "B009B": "resultado_swab",
   "B009C": "teste_sangue_dedo",
   "B009D": "resultado_sangue_dedo",
   "B009E": "teste_sangue_coleta",
   "B009F": "resultado_sangue_coleta",
   "B0101": "diagnostico_diabetes",
   "B0102": "diagnostico_hipertensao",
   "B0103": "diagnostico_doenca_pulmao",
   "B0104": "diagnostico_doenca_cardiaca",
   "B0105": "diagnostico_depressao",
   "B0106": "diagnostico_cancer",
   "B011": "restricao_contato",
   "C006": "mais_um_trabalho",
   "C007": "tipo_trabalho",
   "C008": "horas_trabalho_normal",
   "C009": "horas_trabalho_semana_passada",
   "C013": "trabalho_remoto_semana_passada"
})

In [None]:
df.describe()

Criando variáveis de ida ao hospital publico ou privado

In [None]:
df = df.with_columns(
   pl.when(
      (pl.col("posto_publico") == 1) |
      (pl.col("pronto_socorro_publico") == 1) |
      (pl.col("hospital_publico") == 1))
    .then(1)
    .when(
      (pl.col("ambulatorio_privado") == 1) |
      (pl.col("pronto_socorro_privado") == 1) |
      (pl.col("hospital_privado") == 1))
    .then(0)
    .otherwise(9).alias("atendimento_publico")
)

Criando variável resultado do teste

In [24]:
df = df.with_columns(
   pl.when(
      (pl.col("resultado_swab") == 1) |
      (pl.col("resultado_sangue_dedo") == 1) |
      (pl.col("resultado_sangue_coleta") == 1)
   ).then(1)
    .when(
      (pl.col("resultado_swab") == 2) |
      (pl.col("resultado_sangue_dedo") == 2) |
      (pl.col("resultado_sangue_coleta") == 2))
    .then(0)
    .otherwise(9).alias("resultado_positivo")
)

Traduzindo Código UF

In [25]:
map_uf ={
   11: 'Rondônia',
   12: 'Acre',
   13: 'Amazonas',
   14: 'Roraima',
   15: 'Pará',
   16: 'Amapá',
   17: 'Tocantins',
   21: 'Maranhão',
   22: 'Piauí',
   23: 'Ceará',
   24: 'Rio Grande do Norte',
   25: 'Paraíba',
   26: 'Pernambuco',
   27: 'Alagoas',
   28: 'Sergipe',
   29: 'Bahia',
   31: 'Minas Gerais',
   32: 'Espírito Santo',
   33: 'Rio de Janeiro',
   35: 'São Paulo',
   41: 'Paraná',
   42: 'Santa Catarina',
   43: 'Rio Grande do Sul',
   50: 'Mato Grosso do Sul',
   51: 'Mato Grosso',
   52: 'Goiás',
   53: 'Distrito Federal'
}

df = df.with_columns(
   pl.col("uf").replace(map_uf).alias("uf_nome")
)


Criando variável para região

In [26]:
def classificar_regiao(estado):
    if estado in ['São Paulo', 'Rio de Janeiro', 'Minas Gerais', 'Espírito Santo']:
        return 'Sudeste'
    elif estado in ['Paraná', 'Santa Catarina', 'Rio Grande do Sul']:
        return 'Sul'
    elif estado in ['Mato Grosso do Sul', 'Mato Grosso', 'Goiás', 'Distrito Federal']:
        return 'Centro-Oeste'
    elif estado in ['Rondônia', 'Acre', 'Amazonas', 'Roraima', 'Pará', 'Amapá', 'Tocantins']:
        return 'Norte'
    elif estado in ['Maranhão', 'Piauí', 'Ceará', 'Rio Grande do Norte', 'Paraíba', 'Pernambuco', 'Alagoas', 'Sergipe', 'Bahia']:
        return 'Nordeste'
    else:
        return estado

df = df.with_columns(pl.col('uf_nome').map_elements(classificar_regiao).alias('regiao'))

Salvando na camada gold

In [27]:
df.write_parquet("../data/gold/PNAD_COVID_092020_112020.parquet")