**COMEÇO DO PROJETO**


In [1]:
import pandas as pd

**INTRODUÇÃO**

O objetivo do nosso projeto é comparar o perfil dos participantes do ENEM de 2019 a 2023 e construir uma análise exploratória de dados que permita entender (prever) a Média Ponderada via ENEM (MPE) para candidatos interessados em ADM/ECO.

Assim, para compreender a importância dessa análise é muito importante recorrer ao nosso contexto: O ENEM é muito
importante como ferramenta de acesso ao ensino superior, ainda mais quando se pensa em regiões afastadas das
capitais, onde realizar um vestibular para uma faculdade renomada é um processo muito difícil, não assistido por
essas instituições. Além do mais, realizar um vestibular que permite o ingresso para dezenas de federais diminui em
muito a burocracia num cenário onde é necessário fazer vários vestibulares, além dos possíveis custos envolvidos,
como transporte ou taxas de inscrições. Desse modo, percebe-se que esses, e muitos outros motivos, demonstram como
o ENEM a ajuda todos os estudantes.

Ademais, é relevante abordar brevemente a estrutura da base de microdados do ENEM, a qual será utilizada como base
para nossa ADE (Análise Exploratória de Dados). Assim, contida nela nós temos informações importantes que podem ser divididas em grupos para facilitar a sua compreensão, podendo ser, pelo mesmo motivo enumeradas:
        
- **1: Informações pessoais do vestibulando**: neste grupo, constam todo tipo de informações sobre o estudante, desde número de inscrição e tipo de ensino médio, até faixa etária e cor ou raça.
- **2: Informações sobre tipo e local de realização da prova**: aqui, estão contidos todos os dados relativos à realização da prova, principalmente de
localização.
- **3: Informações de desempenho do vestibulando**: dados relativos ao desempenho do vestibulando em diferentes áreas, incluindo diferentes abordagens para além do número de acertos, como, por exemplo, taxas de acertos.
- **4: Informações adicionais:** informações adicionais identificadas por um código, onde se obtém informações como, por exemplo, escolaridade dos pais.

Nesse momento, faz-se relevante introduzir a pergunta central do nosso estudo:
        
“O perfil do candidato e seu desempenho nas provas do ENEM mudaram entre 2019 e 2023? Essas mudanças impactam a previsão da média ponderada para uma determinada escolha de curso?”

**MINERANDO DADOS E CARACTERÍSTICAS DO DATASET**

Como já abordado, as bases utilizadas serão os Microdados do ENEM de 2019 a 2023, obtidos no site do INEP.

Para facilitar a compreensão da análise, cabe destacar a estrutura dos arquivos utilizados. Os arquivos utilizados 
estão no formato .csv, possuindo tamanho de 3933955 linhas por 76 colunas e seguem uma disposição de informações onde
há títulos no topo das colunas e as respectivas informações nas linhas abaixo. A organização, realizada acima, das colunas por tipo de informações, ajuda na compreensão dos dados fornecidos pelo INEP.

Por fim, é de grande importância deixar claro a seleção das features do grupo, assim como os filtros de linhas e
colunas adotados:
        
O objetivo principal desse trabalho é comparar os resultados e verificar qual foi o perfil de estudante mais prejudicado pela pandemia. Assim, para isso será necessário correlacionar a escolaridade dos pais com a nota dos filhos na prova, utilizando-se das colunas Q001, Q002, Q003, Q004, Q022, Q025 e todas as colunas de nota, além da região em que o aluno estudou e seus resultados na prova, valendo-se da coluna TP_LOCALIZACAO_ESC, e o desempenho de alunos de escola pública e particular.
Sendo assim, para o filtro de colunas de 2019 e 2023 foram selecionados as seguintes colunas:
        
'TP_SEXO','TP_COR_RACA','TP_ST_CONCLUSAO','TP_DEPENDENCIA_ADM_ESC','TP_ESCOLA','TP_LOCALIZACAO_ESC','Q001','Q002', 'Q003', 'Q004', 'Q006', 'Q022', 'Q025',
        
assim como para o de linhas foram selecionadas tais linhas:
        
'TP_ST_CONCLUSAO', 'TP_STATUS_REDACAO', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_MT', 'TP_PRESENCA_LC', 'IN_TREINEIRO'.

In [2]:
#Importando e filtrando os dados contidos na planilha dos microdados ENEM
# df23 = pd.read_csv('MICRODADOS_ENEM_2023.csv', sep=';', encoding='ISO-8859-1')

# df19 = pd.read_csv('MICRODADOS_ENEM_2019.csv', sep=';', encoding='ISO-8859-1')


In [3]:
# df23['MPE'] = 0.75 * (0.25 * df23['NU_NOTA_LC'] + 0.4 * df23['NU_NOTA_MT'] + 0.25 * df23['NU_NOTA_CH'] + 0.1 * df23['NU_NOTA_CN']) + 0.25*df23['NU_NOTA_REDACAO']

# df19['MPE'] = 0.75 * (0.25 * df19['NU_NOTA_LC'] + 0.4 * df19['NU_NOTA_MT'] + 0.25 * df19['NU_NOTA_CH'] + 0.1 * df19['NU_NOTA_CN']) + 0.25*df19['NU_NOTA_REDACAO']

In [4]:


# filtro = (
#     (df23['IN_TREINEIRO'] == 0) &
#     (df23['TP_PRESENCA_LC'] == 1) &
#     (df23['TP_PRESENCA_MT'] == 1) &
#     (df23['TP_PRESENCA_CH'] == 1) &
#     (df23['TP_PRESENCA_CN'] == 1) &
#     (df23['TP_STATUS_REDACAO'] == 1) &
#     (df23['TP_ST_CONCLUSAO'] == 2)
    
# )

# colunas23 = ['MPE','TP_SEXO','TP_COR_RACA','TP_ST_CONCLUSAO','TP_DEPENDENCIA_ADM_ESC','TP_ESCOLA','TP_LOCALIZACAO_ESC','Q001','Q002', 'Q003', 'Q004', 'Q006', 'Q022', 'Q025']
# df23 = df23.loc[filtro, colunas23].copy()



In [5]:


# filtro = (
#     (df19['IN_TREINEIRO'] == 0) &
#     (df19['TP_PRESENCA_LC'] == 1) &
#     (df19['TP_PRESENCA_MT'] == 1) &
#     (df19['TP_PRESENCA_CH'] == 1) &
#     (df19['TP_PRESENCA_CN'] == 1) &
#     (df19['TP_STATUS_REDACAO'] == 1) &
#     (df19['TP_ST_CONCLUSAO'] == 2)
    
# )

# colunas19 = ['MPE','TP_SEXO','TP_COR_RACA','TP_ST_CONCLUSAO','TP_DEPENDENCIA_ADM_ESC','TP_ESCOLA','TP_LOCALIZACAO_ESC','Q001','Q002', 'Q003', 'Q004', 'Q006', 'Q022', 'Q025']
# df19 = df19.loc[filtro, colunas19].copy()


In [6]:
# df23.head(5)

# Criando novo arquivo filtrado 

In [7]:
# #Arquivo de 2019 
# df19.to_csv('enem_19.csv') 

# #Arquivo de 2023 
# df23.to_csv('enem_23.csv')

In [8]:
df19 = pd.read_csv('enem_19.csv')
df23 = pd.read_csv('enem_23.csv')

In [9]:
df19.head(5)

Unnamed: 0.1,Unnamed: 0,MPE,TP_SEXO,TP_COR_RACA,TP_ST_CONCLUSAO,TP_DEPENDENCIA_ADM_ESC,TP_ESCOLA,TP_LOCALIZACAO_ESC,Q001,Q002,Q003,Q004,Q006,Q022,Q025
0,9,481.99,M,1,2,,2,,E,E,B,B,F,C,B
1,26,744.4125,F,1,2,4.0,3,1.0,E,E,B,B,E,C,B
2,28,479.76625,F,1,2,2.0,2,1.0,E,B,B,B,A,D,A
3,31,516.735,F,2,2,2.0,2,1.0,E,F,B,D,B,D,B
4,34,630.12875,M,2,2,2.0,2,1.0,E,C,B,B,B,C,B


# Renomeando as features

Nessa sessão vamos renomear para uma qualitativa



In [10]:
#Primeiramente, transformando em category váriaveis qualitativas

#Para 2019 
df19['TP_SEXO'] = df19.TP_SEXO.astype('category')
df19['TP_COR_RACA'] = df19.TP_COR_RACA.astype('category')
df19['TP_ST_CONCLUSAO'] = df19.TP_ST_CONCLUSAO.astype('category')
df19['TP_ESCOLA'] = df19.TP_ESCOLA.astype('category')
df19['TP_DEPENDENCIA_ADM_ESC'] = df19.TP_DEPENDENCIA_ADM_ESC.astype('category')
df19['TP_LOCALIZACAO_ESC'] = df19.TP_LOCALIZACAO_ESC.astype('category')


#Para 2023 
df23['TP_SEXO'] = df23.TP_SEXO.astype('category')
df23['TP_COR_RACA'] = df23.TP_COR_RACA.astype('category')
df23['TP_ST_CONCLUSAO'] = df23.TP_ST_CONCLUSAO.astype('category')
df23['TP_ESCOLA'] = df23.TP_ESCOLA.astype('category')
df23['TP_DEPENDENCIA_ADM_ESC'] = df23.TP_DEPENDENCIA_ADM_ESC.astype('category')
df23['TP_LOCALIZACAO_ESC'] = df23.TP_LOCALIZACAO_ESC.astype('category')


#Agora renomeando 2019

df19["TP_DEPENDENCIA_ADM_ESC"] = df19["TP_DEPENDENCIA_ADM_ESC"].cat.rename_categories({
    1: "Federal",
    2: "Estadual",
    3: "Municipal",
    4: "Privada"
})


# Q001 – Escolaridade do pai
df19["Q001"] = df19["Q001"].astype("category")
df19["Q001"] = df19["Q001"].cat.rename_categories({
    "A": "Nunca estudou.",
    "B": "Não completou a 4ª série/5º ano do Ensino Fundamental.",
    "C": "Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.",
    "D": "Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.",
    "E": "Completou o Ensino Médio, mas não completou a Faculdade.",
    "F": "Completou a Faculdade, mas não completou a Pós-graduação.",
    "G": "Completou a Pós-graduação.",
    "H": "Não sei."
})

# Q002 – Escolaridade da mãe
df19["Q002"] = df19["Q002"].astype("category")
df19["Q002"] = df19["Q002"].cat.rename_categories({
    "A": "Nunca estudou.",
    "B": "Não completou a 4ª série/5º ano do Ensino Fundamental.",
    "C": "Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.",
    "D": "Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.",
    "E": "Completou o Ensino Médio, mas não completou a Faculdade.",
    "F": "Completou a Faculdade, mas não completou a Pós-graduação.",
    "G": "Completou a Pós-graduação.",
    "H": "Não sei."
})

# Q003 – Ocupação do pai
df19["Q003"] = df19["Q003"].astype("category")
df19["Q003"] = df19["Q003"].cat.rename_categories({
    "A": "Grupo 1: Lavrador, agricultor sem empregados, bóia-fria, criador de animais, pescador, lenhador, extrativista.",
    "B": "Grupo 2: Diarista, empregada doméstica, jardineiro, motorista particular, porteiro, atendente, vendedor, auxiliar de escritório.",
    "C": "Grupo 3: Padeiro, cozinheiro, mecânico, soldador, operador de máquina, eletricista, cabeleireiro, policial, técnico, pequeno comerciante.",
    "D": "Grupo 4: Professor, técnico de enfermagem, contador, militar de baixa patente, policial militar, mestre de obras, proprietário de pequeno negócio.",
    "E": "Grupo 5: Médico, engenheiro, dentista, advogado, professor universitário, empresário, diretor, proprietário de empresa de médio ou grande porte."
})

# Q004 – Ocupação da mãe
df19["Q004"] = df19["Q004"].astype("category")
df19["Q004"] = df19["Q004"].cat.rename_categories({
    "A": "Grupo 1: Lavradora, agricultora sem empregados, bóia-fria, criadora de animais, pescadora, lenhadora, extrativista.",
    "B": "Grupo 2: Diarista, empregada doméstica, babá, cozinheira, costureira, manicure, atendente, balconista, auxiliar de escritório.",
    "C": "Grupo 3: Padeira, cozinheira industrial, cabeleireira, operadora de máquina, técnica, enfermeira, professora de ensino fundamental, pequena comerciante.",
    "D": "Grupo 4: Professora de ensino médio, técnica de laboratório, policial, militar, proprietária de pequeno negócio.",
    "E": "Grupo 5: Médica, engenheira, dentista, advogada, professora universitária, empresária, diretora, proprietária de empresa de médio ou grande porte."
})

# Q006 – Renda familiar mensal
df19["Q006"] = df19["Q006"].astype("category")
df19["Q006"] = df19["Q006"].cat.rename_categories({
    "A": "Nenhuma renda.",
    "B": "Até R$ 1.320,00.",
    "C": "De R$ 1.320,01 até R$ 1.980,00.",
    "D": "De R$ 1.980,01 até R$ 2.640,00.",
    "E": "De R$ 2.640,01 até R$ 3.300,00.",
    "F": "De R$ 3.300,01 até R$ 3.960,00.",
    "G": "De R$ 3.960,01 até R$ 5.280,00.",
    "H": "De R$ 5.280,01 até R$ 6.600,00.",
    "I": "De R$ 6.600,01 até R$ 7.920,00.",
    "J": "De R$ 7.920,01 até R$ 9.240,00.",
    "K": "De R$ 9.240,01 até R$ 10.560,00.",
    "L": "De R$ 10.560,01 até R$ 11.880,00.",
    "M": "De R$ 11.880,01 até R$ 13.200,00.",
    "N": "De R$ 13.200,01 até R$ 15.840,00.",
    "O": "De R$ 15.840,01 até R$ 19.800,00.",
    "P": "De R$ 19.800,01 até R$ 26.400,00.",
    "Q": "Acima de R$ 26.400,00."
})

# Q022 – Acesso à internet
df19["Q025"] = df19["Q025"].astype("category")
df19["Q025"] = df19["Q025"].cat.rename_categories({
    "A": "Não.",
    "B": "Sim"
})

# Q025 – Acesso à água encanada
df19["Q022"] = df19["Q022"].astype("category")
df19["Q022"] = df19["Q022"].cat.rename_categories({
    "A": "Não.",
    "B": "Sim, um.",
    "C": "Sim, dois.",
    "D": "Sim, três.",
    "E": "Sim, quatro ou mais."
})


df19.TP_SEXO = df19.TP_SEXO.cat.rename_categories({'M': 'Masculino', 'F': 'Feminino'})


df19.TP_COR_RACA = df19.TP_COR_RACA.cat.rename_categories({0: 'Não declarado', 1: 'Branca', 2: 'Preta', 3: 'Parda', 4: 'Amarela', 5: 'Indígena'})

df19["TP_ST_CONCLUSAO"] = df19["TP_ST_CONCLUSAO"].cat.rename_categories({
    1: "Já concluiu o Ensino Médio",
    2: "Estou cursando e concluirei o Ensino Médio em 2019",
    3: "Estou cursando e concluirei o Ensino Médio após 2019",
    4: "Não concluiu e não está cursando o Ensino Médio"
})

df19["TP_ST_CONCLUSAO"] = df19["TP_ST_CONCLUSAO"].cat.rename_categories({
    1: "Já concluiu o Ensino Médio",
    2: "Estou cursando e concluirei o Ensino Médio em 2019",
    3: "Estou cursando e concluirei o Ensino Médio após 2019",
    4: "Não concluiu e não está cursando o Ensino Médio"
})

df19["TP_ESCOLA"] = df19["TP_ESCOLA"].cat.rename_categories({
    1: "Não respondeu",
    2: "Pública",
    3: "Privada",
    4: "Exterior"
})


df19['TP_LOCALIZACAO_ESC'] = df19['TP_LOCALIZACAO_ESC'].cat.rename_categories({ 1: 'Urbana', 2: 'Rural'}) 

#Agora renomeando 2023 

df23["TP_DEPENDENCIA_ADM_ESC"] = df23["TP_DEPENDENCIA_ADM_ESC"].cat.rename_categories({
    1: "Federal",
    2: "Estadual",
    3: "Municipal",
    4: "Privada"
})


# Q001 – Escolaridade do pai
df23["Q001"] = df23["Q001"].astype("category")
df23["Q001"] = df23["Q001"].cat.rename_categories({
    "A": "Nunca estudou.",
    "B": "Não completou a 4ª série/5º ano do Ensino Fundamental.",
    "C": "Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.",
    "D": "Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.",
    "E": "Completou o Ensino Médio, mas não completou a Faculdade.",
    "F": "Completou a Faculdade, mas não completou a Pós-graduação.",
    "G": "Completou a Pós-graduação.",
    "H": "Não sei."
})

# Q002 – Escolaridade da mãe
df23["Q002"] = df23["Q002"].astype("category")
df23["Q002"] = df23["Q002"].cat.rename_categories({
    "A": "Nunca estudou.",
    "B": "Não completou a 4ª série/5º ano do Ensino Fundamental.",
    "C": "Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.",
    "D": "Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.",
    "E": "Completou o Ensino Médio, mas não completou a Faculdade.",
    "F": "Completou a Faculdade, mas não completou a Pós-graduação.",
    "G": "Completou a Pós-graduação.",
    "H": "Não sei."
})

# Q003 – Ocupação do pai
df23["Q003"] = df23["Q003"].astype("category")
df23["Q003"] = df23["Q003"].cat.rename_categories({
    "A": "Grupo 1: Lavrador, agricultor sem empregados, bóia-fria, criador de animais, pescador, lenhador, extrativista.",
    "B": "Grupo 2: Diarista, empregada doméstica, jardineiro, motorista particular, porteiro, atendente, vendedor, auxiliar de escritório.",
    "C": "Grupo 3: Padeiro, cozinheiro, mecânico, soldador, operador de máquina, eletricista, cabeleireiro, policial, técnico, pequeno comerciante.",
    "D": "Grupo 4: Professor, técnico de enfermagem, contador, militar de baixa patente, policial militar, mestre de obras, proprietário de pequeno negócio.",
    "E": "Grupo 5: Médico, engenheiro, dentista, advogado, professor universitário, empresário, diretor, proprietário de empresa de médio ou grande porte."
})

# Q004 – Ocupação da mãe
df23["Q004"] = df23["Q004"].astype("category")
df23["Q004"] = df23["Q004"].cat.rename_categories({
    "A": "Grupo 1: Lavradora, agricultora sem empregados, bóia-fria, criadora de animais, pescadora, lenhadora, extrativista.",
    "B": "Grupo 2: Diarista, empregada doméstica, babá, cozinheira, costureira, manicure, atendente, balconista, auxiliar de escritório.",
    "C": "Grupo 3: Padeira, cozinheira industrial, cabeleireira, operadora de máquina, técnica, enfermeira, professora de ensino fundamental, pequena comerciante.",
    "D": "Grupo 4: Professora de ensino médio, técnica de laboratório, policial, militar, proprietária de pequeno negócio.",
    "E": "Grupo 5: Médica, engenheira, dentista, advogada, professora universitária, empresária, diretora, proprietária de empresa de médio ou grande porte."
})

# Q006 – Renda familiar mensal
df23["Q006"] = df23["Q006"].astype("category")
df23["Q006"] = df23["Q006"].cat.rename_categories({
    "A": "Nenhuma renda.",
    "B": "Até R$ 1.320,00.",
    "C": "De R$ 1.320,01 até R$ 1.980,00.",
    "D": "De R$ 1.980,01 até R$ 2.640,00.",
    "E": "De R$ 2.640,01 até R$ 3.300,00.",
    "F": "De R$ 3.300,01 até R$ 3.960,00.",
    "G": "De R$ 3.960,01 até R$ 5.280,00.",
    "H": "De R$ 5.280,01 até R$ 6.600,00.",
    "I": "De R$ 6.600,01 até R$ 7.920,00.",
    "J": "De R$ 7.920,01 até R$ 9.240,00.",
    "K": "De R$ 9.240,01 até R$ 10.560,00.",
    "L": "De R$ 10.560,01 até R$ 11.880,00.",
    "M": "De R$ 11.880,01 até R$ 13.200,00.",
    "N": "De R$ 13.200,01 até R$ 15.840,00.",
    "O": "De R$ 15.840,01 até R$ 19.800,00.",
    "P": "De R$ 19.800,01 até R$ 26.400,00.",
    "Q": "Acima de R$ 26.400,00."
})

# Q022 – Acesso à internet
df23["Q025"] = df23["Q025"].astype("category")
df23["Q025"] = df23["Q025"].cat.rename_categories({
    "A": "Não.",
    "B": "Sim"
})

# Q025 – telefone celular
df23["Q022"] = df23["Q022"].astype("category")
df23["Q022"] = df23["Q022"].cat.rename_categories({
    "A": "Não.",
    "B": "Sim, um.",
    "C": "Sim, dois.",
    "D": "Sim, três.",
    "E": "Sim, quatro ou mais."
})


df23.TP_SEXO = df23.TP_SEXO.cat.rename_categories({'M': 'Masculino', 'F': 'Feminino'})

df23.TP_COR_RACA = df23.TP_COR_RACA.cat.rename_categories({0: 'Não declarado', 1: 'Branca', 2: 'Preta', 3: 'Parda', 4: 'Amarela', 5: 'Indígena'})

df23["TP_ST_CONCLUSAO"] = df23["TP_ST_CONCLUSAO"].cat.rename_categories({
    1: "Já concluiu o Ensino Médio",
    2: "Estou cursando e concluirei o Ensino Médio em 2019",
    3: "Estou cursando e concluirei o Ensino Médio após 2019",
    4: "Não concluiu e não está cursando o Ensino Médio"
})

df23["TP_ST_CONCLUSAO"] = df23["TP_ST_CONCLUSAO"].cat.rename_categories({
    1: "Já concluiu o Ensino Médio",
    2: "Estou cursando e concluirei o Ensino Médio em 2019",
    3: "Estou cursando e concluirei o Ensino Médio após 2019",
    4: "Não concluiu e não está cursando o Ensino Médio"
})

df23["TP_ESCOLA"] = df23["TP_ESCOLA"].cat.rename_categories({
    1: "Não respondeu",
    2: "Pública",
    3: "Privada",
    4: "Exterior"
})

df23['TP_LOCALIZACAO_ESC'] = df23['TP_LOCALIZACAO_ESC'].cat.rename_categories({ 1: 'Urbana', 2: 'Rural'}) 


In [11]:
df19.head(5)

Unnamed: 0.1,Unnamed: 0,MPE,TP_SEXO,TP_COR_RACA,TP_ST_CONCLUSAO,TP_DEPENDENCIA_ADM_ESC,TP_ESCOLA,TP_LOCALIZACAO_ESC,Q001,Q002,Q003,Q004,Q006,Q022,Q025
0,9,481.99,Masculino,Branca,Estou cursando e concluirei o Ensino Médio em ...,,Pública,,"Completou o Ensino Médio, mas não completou a ...","Completou o Ensino Médio, mas não completou a ...","Grupo 2: Diarista, empregada doméstica, jardin...","Grupo 2: Diarista, empregada doméstica, babá, ...","De R$ 3.300,01 até R$ 3.960,00.","Sim, dois.",Sim
1,26,744.4125,Feminino,Branca,Estou cursando e concluirei o Ensino Médio em ...,Privada,Privada,Urbana,"Completou o Ensino Médio, mas não completou a ...","Completou o Ensino Médio, mas não completou a ...","Grupo 2: Diarista, empregada doméstica, jardin...","Grupo 2: Diarista, empregada doméstica, babá, ...","De R$ 2.640,01 até R$ 3.300,00.","Sim, dois.",Sim
2,28,479.76625,Feminino,Branca,Estou cursando e concluirei o Ensino Médio em ...,Estadual,Pública,Urbana,"Completou o Ensino Médio, mas não completou a ...",Não completou a 4ª série/5º ano do Ensino Fund...,"Grupo 2: Diarista, empregada doméstica, jardin...","Grupo 2: Diarista, empregada doméstica, babá, ...",Nenhuma renda.,"Sim, três.",Não.
3,31,516.735,Feminino,Preta,Estou cursando e concluirei o Ensino Médio em ...,Estadual,Pública,Urbana,"Completou o Ensino Médio, mas não completou a ...","Completou a Faculdade, mas não completou a Pós...","Grupo 2: Diarista, empregada doméstica, jardin...","Grupo 4: Professora de ensino médio, técnica d...","Até R$ 1.320,00.","Sim, três.",Sim
4,34,630.12875,Masculino,Preta,Estou cursando e concluirei o Ensino Médio em ...,Estadual,Pública,Urbana,"Completou o Ensino Médio, mas não completou a ...","Completou a 4ª série/5º ano, mas não completou...","Grupo 2: Diarista, empregada doméstica, jardin...","Grupo 2: Diarista, empregada doméstica, babá, ...","Até R$ 1.320,00.","Sim, dois.",Sim


**REFERÊNCIAS::**
        
Microdados. Disponível em: <https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados>.
        
Enem. Disponível em: <https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem>.
        
SILVA, V. A. A. DA et al. Identificação de Desigualdades Sociais a partir do desempenho dos alunos do Ensino Médio no ENEM 2019 utilizando Mineração de Dados. Anais do XXXI Simpósio Brasileiro de Informática na Educação (SBIE 2020), 24 nov. 2020.
        
WEBER NETO, N. et al. A Pandemia da COVID-19 impactou o ENEM? Uma Análise Comparativa de Dados dos Anos de 2019 e 2020. RENOTE, v. 20, n. 1, p. 223–232, 31 ago. 2022.

In [14]:
df19.groupby('TP_SEXO').MPE.describe()

  df19.groupby('TP_SEXO').MPE.describe()


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
TP_SEXO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Feminino,687259.0,532.410311,85.112787,75.0,470.2975,520.71875,586.563125,862.6775
Masculino,489513.0,545.144316,91.139249,115.0,476.995,536.70625,606.77875,882.7325


In [15]:
df23.groupby('TP_SEXO').MPE.describe()

  df23.groupby('TP_SEXO').MPE.describe()


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
TP_SEXO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Feminino,601593.0,554.203887,95.079791,55.0,483.38125,549.87875,623.06,860.41625
Masculino,406469.0,561.040776,99.486737,115.0,488.11125,558.67625,632.52625,890.25875
