In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import zipfile
import os

In [6]:
columns = ["NU_ANO","TP_NACIONALIDADE","TP_SEXO","TP_FAIXA_ETARIA","TP_COR_RACA","TP_ESTADO_CIVIL",
           "TP_ST_CONCLUSAO","TP_ESCOLA","IN_TREINEIRO","NO_MUNICIPIO_ESC","SG_UF_PROVA","TP_PRESENCA_CN",
           "TP_PRESENCA_CH","TP_PRESENCA_LC","TP_PRESENCA_MT","NU_NOTA_CN","NU_NOTA_CH","NU_NOTA_LC",
           "NU_NOTA_MT","TP_STATUS_REDACAO","NU_NOTA_COMP1","NU_NOTA_COMP2","NU_NOTA_COMP3","NU_NOTA_COMP4",
           "NU_NOTA_COMP5","NU_NOTA_REDACAO"]

renamed_columns = ["Ano","Nacionalidade","Sexo","Idade","Cor","Estado_civil","Situacao_EM","Tipo_Escola",
                   "Treineiro","Municipio","Estado","Presenca_CN","Presenca_CH","Presenca_LC","Presenca_MT",
                   "Ciencias_Natureza","Ciencias_Humanas","Linguaguens_Codigos","Matematica","Status_Redacao",
                   "Ortografia","Desenvolvimento","Informacoes","Organizacao","Proposta","Redacao"]


# Pegar o arquivo .csv dos microdados de dentro de todos os zips
zip_files = []
information_data = os.listdir("information")

for zippedArch in information_data:
    with zipfile.ZipFile(f"information\{zippedArch}") as zippedData:
        for file in zippedData.namelist():
            if "MICRODADOS" in file and file.endswith(".csv"):
                zip_files.append(file)

In [None]:
# Lambda pra ordenar os arquivos do mais antigo para o mais novo 1998 - 2022
zip_files.sort(key = lambda x: x[22:-4])
information_data.sort(key = lambda x: x[16:-4])

In [None]:

with zipfile.ZipFile("information\microdados_enem_2021.zip") as microdata:
    with microdata.open("DADOS/MICRODADOS_ENEM_2021.csv") as csv:
        data = pd.read_csv(csv,encoding="ISO-8859-1",sep=";",usecols=columns)

In [3]:
# Conseguindo a relação das categorias das colunas

faixa_etaria = {
    1: "Menor de 17 anos",
    2: "17 anos",
    3: "18 anos",
    4: "19 anos",
    5: "20 anos",
    6: "21 anos",
    7: "22 anos",
    8: "23 anos",
    9: "24 anos",
    10: "25 anos",
    11: "Entre 26 e 30 anos",
    12: "Entre 31 e 35 anos",
    13: "Entre 36 e 40 anos",
    14: "Entre 41 e 45 anos",
    15: "Entre 46 e 50 anos",
    16: "Entre 51 e 55 anos",
    17: "Entre 56 e 60 anos",
    18: "Entre 61 e 65 anos",
    19: "Entre 66 e 70 anos",
    20: "Maior de 70 anos"
}

estado_civil = {
    0: "Não informado",
    1: "Solteiro(a)",
    2: "Casado(a)/Mora com companheiro(a)",
    3: "Divorciado(a)/Desquitado(a)/Separado(a)",
    4: "Viúvo(a)"
}

etnia = {
    0: "Não declarado",
    1: "Branca",
    2: "Preta",
    3: "Parda",
    4: "Amarela",
    5: "Indígena",
    6: "Não dispõe da informação"
}

nacionalidade = {
    0: "Não informado",
    1: "Brasileiro(a)",
    2: "Brasileiro(a) Naturalizado(a)",
    3: "Estrangeiro(a)",
    4: "Brasileiro(a) Nato(a), nascido(a) no exterior"
}

situacao_ensino_medio = {
    1: "Já concluí o Ensino Médio",
    2: "Estou cursando e concluirei o Ensino Médio em 2022",
    3: "Estou cursando e concluirei o Ensino Médio após 2022",
    4: "Não concluí e não estou cursando o Ensino Médio"
}

tipo_instituicao = {
    1: "Não Respondeu",
    2: "Pública",
    3: "Privada"
}

treineiro = {
    1: "Sim",
    0: "Não"
}

situacao_redacao = {
    1: "Sem problemas",
    2: "Anulada",
    3: "Cópia Texto Motivador",
    4: "Em Branco",
    6: "Fuga ao tema",
    7: "Não atendimento ao tipo textual",
    8: "Texto insuficiente",
    9: "Parte desconectada"
}

In [34]:
data = pd.read_csv(r'lab/MICRODADOS_ENEM_2022.csv',encoding="ISO-8859-1",sep=";",usecols=columns)

1200322914

In [35]:
# Renomeando as colunas
data.columns = renamed_columns

In [36]:
# Removendo as linhas onde não temos notas
data.dropna(subset=["Ciencias_Natureza",'Ciencias_Humanas',"Ciencias_Humanas","Matematica","Redacao"],inplace=True)
data.reset_index(inplace=True,drop=True)

In [37]:
data

Unnamed: 0,Ano,Nacionalidade,Sexo,Idade,Cor,Estado_civil,Situacao_EM,Tipo_Escola,Treineiro,Municipio,...,Ciencias_Humanas,Linguaguens_Codigos,Matematica,Status_Redacao,Ortografia,Desenvolvimento,Informacoes,Organizacao,Proposta,Redacao
0,2022,5,F,1,2,1,1,1,0,,...,546.0,498.8,565.3,1.0,140.0,200.0,120.0,140.0,160.0,760.0
1,2022,6,M,1,3,1,1,1,0,,...,388.6,357.8,416.0,1.0,120.0,40.0,40.0,100.0,20.0,320.0
2,2022,6,F,1,2,1,1,1,0,,...,427.3,400.2,404.9,1.0,100.0,120.0,80.0,100.0,40.0,440.0
3,2022,4,F,1,3,1,1,1,0,,...,461.0,466.7,435.3,1.0,80.0,80.0,80.0,80.0,40.0,360.0
4,2022,2,F,1,1,1,2,3,0,,...,539.8,488.2,456.8,1.0,160.0,200.0,180.0,200.0,200.0,940.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2344818,2022,12,M,2,1,1,1,1,0,,...,504.4,489.5,423.6,1.0,120.0,120.0,120.0,120.0,100.0,580.0
2344819,2022,11,F,1,2,1,1,1,0,,...,633.2,584.0,596.3,1.0,140.0,200.0,160.0,120.0,120.0,740.0
2344820,2022,2,M,0,3,1,2,2,0,Ipatinga,...,495.6,545.5,597.4,1.0,120.0,140.0,120.0,120.0,80.0,580.0
2344821,2022,11,F,1,1,1,1,1,0,,...,524.8,546.8,432.0,1.0,120.0,160.0,100.0,100.0,40.0,520.0
