In [109]:
import pandas as pd
from datetime import datetime
import json

In [131]:
df = pd.read_csv('../data/2021/dados/microdados_ed_basica_2021.csv', delimiter=";", encoding="latin1", low_memory=False)

In [132]:
{column[:3] for column in df.columns}

{'CO_', 'DS_', 'DT_', 'IN_', 'NO_', 'NU_', 'QT_', 'SG_', 'TP_'}

In [173]:
columns_to_drop = ["CO_REGIAO", "CO_UF", 'CO_MUNICIPIO', 'CO_MESORREGIAO', 'CO_MICRORREGIAO']

In [175]:
df.drop(columns=columns_to_drop, inplace=True)

In [186]:
boolean_columns = [column for column in df.columns if column.startswith("IN")]
integer_columns = [column for column in df.columns
                       if column.startswith("QT")]
date_columns = [column for column in df.columns if column.startswith("DT")]
categorical_columns = [column for column in df.columns if column.startswith("TP")]
identifier_columns = ['NU_DDD', 'NU_TELEFONE', 'NU_CNPJ_ESCOLA_PRIVADA',
       'NU_CNPJ_MANTENEDORA', 'CO_ESCOLA_SEDE_VINCULADA', 'CO_IES_OFERTANTE', 
                      'CO_DISTRITO', 'CO_ENTIDADE', 'CO_CEP']

In [134]:
df[boolean_columns] = df[boolean_columns].replace(to_replace=9.0, value=None).astype("bool")

In [135]:
df[integer_columns] = df[integer_columns].astype("Int32")

In [136]:
for column in date_columns:
    df[column] = df[column].apply(
        lambda date: 
            datetime.strptime(date, "%d%b%Y:%H:%M:%S") 
               if isinstance(date, str) 
            else None
    )

In [137]:
for value in df["DT_ANO_LETIVO_INICIO"].values:
    try:
        if isinstance(value, str):
            datetime.strptime(value, "%d%b%Y:%H:%M:%S")
    except Exception as e:
        print(value)
        raise e

In [166]:
with open("map_categorical_columns.json") as file:
    map_categorical_columns = json.load(file)

In [167]:
set(map_categorical_columns.keys()).difference(categorical_columns)

{'CO_AREA_COMPL_PEDAGOGICA_1',
 'CO_AREA_COMPL_PEDAGOGICA_2',
 'CO_AREA_COMPL_PEDAGOGICA_3',
 'CO_AREA_CURSO_1',
 'CO_AREA_CURSO_2',
 'CO_AREA_CURSO_3',
 'CO_CURSO_1',
 'CO_CURSO_2',
 'CO_CURSO_3',
 'CO_CURSO_EDUC_PROFISSIONAL',
 'CO_IES_1',
 'CO_IES_2',
 'CO_IES_3',
 'CO_IES_OFERTANTE',
 'CO_LINGUA_INDIGENA_1',
 'CO_LINGUA_INDIGENA_2',
 'CO_LINGUA_INDIGENA_3',
 'CO_MESORREGIAO',
 'CO_MICRORREGIAO',
 'CO_MUNICIPIO',
 'CO_MUNICIPIO_END',
 'CO_MUNICIPIO_NASC',
 'CO_ORGAO_REGIONAL',
 'CO_PAIS_ORIGEM',
 'CO_PAIS_RESIDENCIA',
 'CO_REGIAO',
 'CO_TIPO_ATIVIDADE_1',
 'CO_TIPO_ATIVIDADE_2',
 'CO_TIPO_ATIVIDADE_3',
 'CO_TIPO_ATIVIDADE_4',
 'CO_TIPO_ATIVIDADE_5',
 'CO_TIPO_ATIVIDADE_6',
 'CO_TIPO_ATIVIDADE_7',
 'CO_UF',
 'CO_UF_END',
 'CO_UF_NASC',
 'TP_CARGO_GESTOR',
 'TP_COR_RACA',
 'TP_ENSINO_MEDIO',
 'TP_ESCOLARIDADE',
 'TP_ETAPA_ENSINO',
 'TP_LOCAL_RESID_DIFERENCIADA',
 'TP_MEDIACAO_DIDATICO_PEDAGO',
 'TP_NACIONALIDADE',
 'TP_OUTRO_LOCAL_AULA',
 'TP_RESPONSAVEL_TRANSPORTE',
 'TP_SEXO',
 'TP_

In [168]:
df[categorical_columns] = df[categorical_columns].astype("str")
for column in map_categorical_columns:
    if column in df.columns:
        df[column] = df[column].replace(map_categorical_columns[column])
    else:
        print(f"{column} not in df")

TP_MEDIACAO_DIDATICO_PEDAGO not in df
TP_TIPO_ATENDIMENTO_TURMA not in df
TP_TIPO_LOCAL_TURMA not in df
TP_UNIFICADA not in df
TP_ETAPA_ENSINO not in df
TP_SEXO not in df
TP_COR_RACA not in df
TP_NACIONALIDADE not in df
TP_ZONA_RESIDENCIAL not in df
TP_LOCAL_RESID_DIFERENCIADA not in df
TP_OUTRO_LOCAL_AULA not in df
TP_RESPONSAVEL_TRANSPORTE not in df
TP_SITUACAO_CURSO_1 not in df
TP_SITUACAO_CURSO_3 not in df
TP_SITUACAO_CURSO_2 not in df
TP_TIPO_IES_1 not in df
TP_TIPO_IES_3 not in df
TP_TIPO_IES_2 not in df
TP_ENSINO_MEDIO not in df
TP_ESCOLARIDADE not in df
TP_CARGO_GESTOR not in df
TP_TIPO_ACESSO_CARGO not in df
TP_TIPO_CONTRATACAO not in df
CO_UF_NASC not in df
CO_MUNICIPIO_NASC not in df
CO_UF_END not in df
CO_MUNICIPIO_END not in df
CO_AREA_COMPL_PEDAGOGICA_2 not in df
CO_AREA_COMPL_PEDAGOGICA_3 not in df
CO_AREA_COMPL_PEDAGOGICA_1 not in df
CO_AREA_CURSO_2 not in df
CO_AREA_CURSO_3 not in df
CO_AREA_CURSO_1 not in df
CO_CURSO_2 not in df
CO_CURSO_3 not in df
CO_CURSO_1 not in 

In [187]:
df[identifier_columns] = df[identifier_columns].astype("str")

In [191]:
df["NU_ANO_CENSO"] = df["NU_ANO_CENSO"].astype("int16")

In [193]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221140 entries, 0 to 221139
Columns: 365 entries, NU_ANO_CENSO to QT_TUR_ESP_CE
dtypes: Int32(113), bool(210), datetime64[ns](2), int16(1), object(39)
memory usage: 233.0+ MB


In [194]:
df.select_dtypes("int32").columns

Index(['QT_SALAS_EXISTENTES', 'QT_SALAS_UTILIZADAS_DENTRO',
       'QT_SALAS_UTILIZADAS_FORA', 'QT_SALAS_UTILIZADAS',
       'QT_SALAS_UTILIZA_CLIMATIZADAS', 'QT_SALAS_UTILIZADAS_ACESSIVEIS',
       'QT_EQUIP_DVD', 'QT_EQUIP_SOM', 'QT_EQUIP_TV', 'QT_EQUIP_LOUSA_DIGITAL',
       ...
       'QT_TUR_FUND_AF', 'QT_TUR_MED', 'QT_TUR_PROF', 'QT_TUR_PROF_TEC',
       'QT_TUR_EJA', 'QT_TUR_EJA_FUND', 'QT_TUR_EJA_MED', 'QT_TUR_ESP',
       'QT_TUR_ESP_CC', 'QT_TUR_ESP_CE'],
      dtype='object', length=113)

In [195]:
df.select_dtypes("bool").columns

Index(['IN_VINCULO_SECRETARIA_EDUCACAO', 'IN_VINCULO_SEGURANCA_PUBLICA',
       'IN_VINCULO_SECRETARIA_SAUDE', 'IN_VINCULO_OUTRO_ORGAO',
       'IN_CONVENIADA_PP', 'IN_MANT_ESCOLA_PRIVADA_EMP',
       'IN_MANT_ESCOLA_PRIVADA_ONG', 'IN_MANT_ESCOLA_PRIVADA_OSCIP',
       'IN_MANT_ESCOLA_PRIV_ONG_OSCIP', 'IN_MANT_ESCOLA_PRIVADA_SIND',
       ...
       'IN_FUND_AF', 'IN_MED', 'IN_PROF', 'IN_PROF_TEC', 'IN_EJA',
       'IN_EJA_FUND', 'IN_EJA_MED', 'IN_ESP', 'IN_ESP_CC', 'IN_ESP_CE'],
      dtype='object', length=210)

In [197]:
df.select_dtypes("object").columns

Index(['NO_REGIAO', 'NO_UF', 'SG_UF', 'NO_MUNICIPIO', 'NO_MESORREGIAO',
       'NO_MICRORREGIAO', 'CO_DISTRITO', 'CO_ENTIDADE', 'NO_ENTIDADE',
       'TP_DEPENDENCIA', 'TP_CATEGORIA_ESCOLA_PRIVADA', 'TP_LOCALIZACAO',
       'TP_LOCALIZACAO_DIFERENCIADA', 'DS_ENDERECO', 'NU_ENDERECO',
       'DS_COMPLEMENTO', 'NO_BAIRRO', 'CO_CEP', 'NU_DDD', 'NU_TELEFONE',
       'TP_SITUACAO_FUNCIONAMENTO', 'CO_ORGAO_REGIONAL',
       'TP_CONVENIO_PODER_PUBLICO', 'NU_CNPJ_ESCOLA_PRIVADA',
       'NU_CNPJ_MANTENEDORA', 'TP_REGULAMENTACAO',
       'TP_RESPONSAVEL_REGULAMENTACAO', 'CO_ESCOLA_SEDE_VINCULADA',
       'CO_IES_OFERTANTE', 'TP_OCUPACAO_PREDIO_ESCOLAR', 'TP_OCUPACAO_GALPAO',
       'TP_REDE_LOCAL', 'TP_INDIGENA_LINGUA', 'CO_LINGUA_INDIGENA_1',
       'CO_LINGUA_INDIGENA_2', 'CO_LINGUA_INDIGENA_3',
       'TP_PROPOSTA_PEDAGOGICA', 'TP_AEE', 'TP_ATIVIDADE_COMPLEMENTAR'],
      dtype='object')

In [198]:
df.to_parquet("../data/transformed", engine='auto', compression='snappy', index=None, partition_cols=["NU_ANO_CENSO"])