In [58]:
import pandas as pd
import json

In [59]:
colunas_localizacao = [
    # Localização
    'SG_UF_PROVA',
    'SG_REGIAO',
]

colunas_geral = [
    'SG_UF_PROVA',
    'SG_REGIAO',

    # Presença
    'TP_PRESENCA_CN', 
    'TP_PRESENCA_CH', 
    'TP_PRESENCA_LC', 
    'TP_PRESENCA_MT',
    'TP_PRESENCA_GERAL',
    'TP_PRESENCA_REDACAO',

    # Notas
    'NU_NOTA_CN', 
    'NU_NOTA_CH', 
    'NU_NOTA_LC', 
    'NU_NOTA_MT',
    'NU_NOTA_REDACAO'
    ]

colunas_aspectos_sociais = [
    'SG_UF_PROVA',
    'SG_REGIAO',

    # Variáveis sociais
    'TP_SEXO',
    'TP_COR_RACA',
    'TP_ESTADO_CIVIL',
    'TP_FAIXA_ETARIA',
    'TP_ST_CONCLUSAO',
    'TP_DEPENDENCIA_ADM_ESC',
    'TP_ESCOLA',
    'TP_ENSINO',
    'TP_LOCALIZACAO_ESC',
    'TP_NACIONALIDADE',
    
    
    # Questões socioeconômicas
    'Q001', 
    'Q002', 
    'Q005', 
    'TP_FAIXA_SALARIAL', 
    'Q025',
    
    # Infraestrutura
    'NU_INFRAESTRUTURA'
    ]

colunas_desempenho = [
    'SG_UF_PROVA',
    'SG_REGIAO',
    
    # Características do candidato
    'TP_SEXO',
    'TP_COR_RACA',
    'TP_DEPENDENCIA_ADM_ESC',
    'TP_ST_CONCLUSAO',
    'TP_FAIXA_ETARIA',
    'TP_ESTADO_CIVIL',
    'TP_ESCOLA',
    'TP_ENSINO',
    'TP_LOCALIZACAO_ESC',
    'TP_NACIONALIDADE',
    'NU_INFRAESTRUTURA',
    
    # Notas
    'NU_NOTA_CN', 
    'NU_NOTA_CH', 
    'NU_NOTA_LC', 
    'NU_NOTA_MT',
    'NU_NOTA_REDACAO',
    
    # Categorias de desempenho
    'NU_DESEMPENHO',

    # Questões socioeconômicas
    'Q001',
    'Q002',
    'Q005',
    'TP_FAIXA_SALARIAL',
    'Q025'
    ]

In [60]:
# Carregar microdados completos
arquivo = '../../Iniciação Científica/Códigos/microdados_tratado.parquet'
arquivo_dtypes = '../../Iniciação Científica/Códigos/dtypes.json'

# Especificar explicitamente o engine
microdados = pd.read_parquet(arquivo, engine='pyarrow')

dtypes = pd.read_json(arquivo_dtypes, orient='index', typ='series')

microdados = microdados.astype(dtypes)


In [61]:
microdados = microdados[microdados['SG_REGIAO'].isin(['Sul', 'Sudeste', 'Centro-Oeste'])]

In [62]:
# Colunas desempenho sem notas zeros
microdados_desempenho = microdados.copy()

microdados_desempenho = microdados_desempenho[(microdados_desempenho['TP_PRESENCA_GERAL'] == 3) & (microdados_desempenho['NU_MEDIA_GERAL'] != -1)]

microdados_desempenho = microdados_desempenho[microdados_desempenho['NU_MEDIA_GERAL'] != -1]

In [63]:

# Criar arquivos separados para cada aba
microdados[colunas_localizacao].to_parquet('sample_localizacao.parquet', index=False, engine='pyarrow')
microdados[colunas_geral].to_parquet('sample_geral.parquet', index=False, engine='pyarrow')
microdados[colunas_aspectos_sociais].to_parquet('sample_aspectos_sociais.parquet', index=False, engine='pyarrow')
microdados_desempenho[colunas_desempenho].to_parquet('sample_desempenho.parquet', index=False, engine='pyarrow')

# Criar arquivos dtypes separados
dtypes_localizacao = {col: str(microdados[col].dtype) for col in colunas_localizacao if col in microdados.columns}
dtypes_geral = {col: str(microdados[col].dtype) for col in colunas_geral if col in microdados.columns}
dtypes_aspectos = {col: str(microdados[col].dtype) for col in colunas_aspectos_sociais if col in microdados.columns}
dtypes_desempenho = {col: str(microdados[col].dtype) for col in colunas_desempenho if col in microdados.columns}

# Usar json module em vez do pandas to_json para evitar problemas de serialização
# Salva o mapeamento em um arquivo JSON

with open('dtypes_localizacao.json', 'w') as f:
    json.dump(dtypes_localizacao, f)
with open('dtypes_geral.json', 'w') as f:
    json.dump(dtypes_geral, f)
with open('dtypes_aspectos_sociais.json', 'w') as f:
    json.dump(dtypes_aspectos, f)
with open('dtypes_desempenho.json', 'w') as f:
    json.dump(dtypes_desempenho, f)
with open('dtypes.json', 'w') as f:
    json.dump(dtypes.to_dict(), f)

In [64]:
microdados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2056502 entries, 0 to 3933954
Data columns (total 31 columns):
 #   Column                  Dtype   
---  ------                  -----   
 0   TP_FAIXA_ETARIA         category
 1   TP_SEXO                 category
 2   TP_ESTADO_CIVIL         category
 3   TP_COR_RACA             category
 4   TP_NACIONALIDADE        category
 5   TP_ST_CONCLUSAO         category
 6   TP_ESCOLA               category
 7   TP_ENSINO               category
 8   TP_DEPENDENCIA_ADM_ESC  category
 9   TP_LOCALIZACAO_ESC      category
 10  SG_UF_PROVA             category
 11  TP_PRESENCA_CN          category
 12  TP_PRESENCA_CH          category
 13  TP_PRESENCA_LC          category
 14  TP_PRESENCA_MT          category
 15  NU_NOTA_CN              int16   
 16  NU_NOTA_CH              int16   
 17  NU_NOTA_LC              int16   
 18  NU_NOTA_MT              int16   
 19  NU_NOTA_REDACAO         int16   
 20  Q001                    category
 21  Q002         