# Enem Analytics - Análise Exploratória dos Dados
- Ubiratan da Motta Filho R.A 20.00928-3
- Joao Paulo M Socio 20.00704-3
- Luan Teixeira R.A: 20.01681-6
- Bruno Davidovitch Bertanha 20.01521-6

## Resumo

Esse notebook tem como objetivo analisar os dados sócio-demográficos do Enem de 2023, com o intuito de identificar a importância de condições sociais e econômicas na nota dos candidatos.

## Introdução

O Exame Nacional do Ensino Médio (ENEM) é sem dúvidas um dos vestibulares mais importantes do país, por ser uma das principais formas de ingresso em universidades públicas, e alternativa para muitas privadas. Entretanto, vivemos em um dos países mais desiguais do mundo, e a desigualdade social e econômica pode ser um fator determinante para o desempenho dos candidatos. O estudo presente nesse notebook tem o intuito de investigar esses impactos sócio-demográficos, e entender como eles influenciam a nota dos candidatos.

## Descrição dos Dados

Os dados principais utilizados nesse notebook foram extraídos do site do INEP, na seção de microdados do ENEM 2023: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem

Ao baixar os microdados, utilizamos apenas a base MICRODADOS_ENEM_2023, que contém informações sobre os candidatos, suas notas, e suas condições sócio-demográficas. A base as seguintes colunas:

- NU_INSCRICAO: Número de inscrição

- NU_ANO: Ano do Enem
- TP_FAIXA_ETARIA: Faixa etária
- TP_SEXO: Sexo
- TP_ESTADO_CIVIL: Estado Civil
- TP_COR_RACA: Cor/raça
- TP_NACIONALIDADE: Nacionalidade
- TP_ST_CONCLUSAO: Situação de conclusão do Ensino Médio
- TP_ANO_CONCLUIU: Ano de Conclusão do Ensino Médio
- TP_ESCOLA: Tipo de escola do Ensino Médio
- TP_ENSINO: Tipo de instituição que concluiu ou concluirá o Ensino Médio
- IN_TREINEIRO: Indica se o inscrito fez a prova com intuito de apenas treinar seus conhecimentos
- CO_MUNICIPIO_ESC: Código do município da escola
- NO_MUNICIPIO_ESC: Nome do município da escola
- CO_UF_ESC: Código da Unidade da Federação da escola
- SG_UF_ESC: Sigla da Unidade da Federação da escola
- TP_DEPENDENCIA_ADM_ESC: Dependência administrativa (Escola)
- TP_LOCALIZACAO_ESC: Localização (Escola)
- TP_SIT_FUNC_ESC: Situação de funcionamento (Escola)
- CO_MUNICIPIO_PROVA: Código do município da aplicação da prova
- NO_MUNICIPIO_PROVA: Nome do município da aplicação da prova
- CO_UF_PROVA: Código da Unidade da Federação da aplicação da prova
- SG_UF_PROVA: Sigla da Unidade da Federação da aplicação da prova
- TP_PRESENCA_CN: Presença na prova objetiva de Ciências da Natureza
- TP_PRESENCA_CH: Presença na prova objetiva de Ciências Humanas
- TP_PRESENCA_LC: Presença na prova objetiva de Linguagens e Códigos
- TP_PRESENCA_MT: Presença na prova objetiva de Matemática
- CO_PROVA_CN: Código do tipo de prova de Ciências da Natureza
- CO_PROVA_CH: Código do tipo de prova de Ciências Humanas
- CO_PROVA_LC: Código do tipo de prova de Linguagens e Códigos
- CO_PROVA_MT: Código do tipo de prova de Matemática
- NU_NOTA_CN: Nota da prova de Ciências da Natureza
- NU_NOTA_CH: Nota da prova de Ciências Humanas
- NU_NOTA_LC: Nota da prova de Linguagens e Códigos
- NU_NOTA_MT: Nota da prova de Matemática
- TX_RESPOSTAS_CN: Vetor com as respostas da parte objetiva da prova de Ciências da Natureza
- TX_RESPOSTAS_CH: Vetor com as respostas da parte objetiva da prova de Ciências Humanas
- TX_RESPOSTAS_LC: Vetor com as respostas da parte objetiva da prova de Linguagens e Códigos
- TX_RESPOSTAS_MT: Vetor com as respostas da parte objetiva da prova de Matemática
- TP_LINGUA: Língua Estrangeira
- TP_STATUS_REDACAO: Situação da redação do participante
- NU_NOTA_COMP1: Nota da competência 1 da redação
- NU_NOTA_COMP2: Nota da competência 2 da redação
- NU_NOTA_COMP3: Nota da competência 3 da redação
- NU_NOTA_COMP4: Nota da competência 4 da redação
- NU_NOTA_COMP5: Nota da competência 5 da redação
- NU_NOTA_REDACAO: Nota da prova de redação
- Q001: Até que série seu pai, ou o homem responsável por você, estudou?
- Q002: Até que série sua mãe, ou a mulher responsável por você, estudou?
- Q003: A partir da apresentação de algumas ocupações divididas em grupos ordenados, indique o grupo que contempla a ocupação mais próxima da ocupação do seu pai ou do homem responsável por você. (Se ele não estiver trabalhando, escolha uma ocupação pensando no último trabalho dele).
- Q004: A partir da apresentação de algumas ocupações divididas em grupos ordenados, indique o grupo que contempla a ocupação mais próxima da ocupação da sua mãe ou da mulher responsável por você. (Se ela não estiver trabalhando, escolha uma ocupação pensando no último trabalho dela).
- Q005: Incluindo você, quantas pessoas moram atualmente em sua residência?
- Q006: Qual é a renda mensal de sua família? (Some a sua renda com a dos seus familiares.)
- Q007: Em sua residência trabalha empregado(a) doméstico(a)?
- Q008: Na sua residência tem banheiro?
- Q009: Na sua residência tem quartos para dormir?
- Q010: Na sua residência tem carro?
- Q011: Na sua residência tem motocicleta?
- Q012: Na sua residência tem geladeira?
- Q013: Na sua residência tem freezer (independente ou segunda porta da geladeira)?
- Q014: Na sua residência tem máquina de lavar roupa? (o tanquinho NÃO deve ser considerado)
- Q015: Na sua residência tem máquina de secar roupa (independente ou em conjunto com a máquina de lavar roupa)?
- Q016: Na sua residência tem forno micro-ondas?
- Q017: Na sua residência tem máquina de lavar louça?
- Q018: Na sua residência tem aspirador de pó?
- Q019: Na sua residência tem televisão em cores?
- Q020: Na sua residência tem aparelho de DVD?
- Q021: Na sua residência tem TV por assinatura?
- Q022: Na sua residência tem telefone celular?
- Q023: Na sua residência tem telefone fixo?
- Q024: Na sua residência tem computador?
- Q025: Na sua residência tem acesso à Internet?

Além da base de microdados do ENEM, será utilizada uma base complementar com informações sobre o IDH dos municípios brasileiros, que foi extraída do site do Atlas Brasil: http://www.atlasbrasil.org.br/consulta/planilha

## Aquisição e Preparação dos Dados

### Dependências

In [2]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import plotly.subplots as sp

### Lendo Dados

In [3]:
df = pd.read_csv('../data/microdados_enem_2023/DADOS/MICRODADOS_ENEM_2023.csv', encoding='latin1', sep=';')

df.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210059085136,2023,14,M,2,1,1,1,17,1,...,C,C,B,B,A,B,B,A,A,B
1,210059527735,2023,12,M,2,1,0,1,16,1,...,B,A,B,B,A,A,C,A,D,B
2,210061103945,2023,6,F,1,1,1,1,0,1,...,B,A,A,B,A,A,A,A,A,B
3,210060214087,2023,2,F,1,3,1,2,0,2,...,A,A,A,B,A,A,D,A,A,B
4,210059980948,2023,3,F,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,A,A


## Análise
1. O quanto a renda familiar influencia na nota dos candidatos?
2. Qual a relação entre renda familiar e os pais terem estudado?
3. Como as curvas de probabilidade de notas se relacionam com a faixa etária?
4. Quais áreas do conhecimento mais estão relacionadas entre si?
5. Qual a relação entre a nota dos candidatos e o IDH do município onde moram?
6. Qual a relação entre a renda familiar e o IDH do município onde moram?

### 1. O quanto a renda familiar influencia na nota dos candidatos?

In [4]:
income_mapping = {
    'A': '00 - Nenhuma renda',
    'B': '01 - Até R$ 998,00',
    'C': '02 - De R$ 998,01 até R$ 1.497,00',
    'D': '03 - De R$ 1.497,01 até R$ 1.996,00',
    'E': '04 - De R$ 1.996,01 até R$ 2.495,00',
    'F': '05 - De R$ 2.495,01 até R$ 2.994,00',
    'G': '06 - De R$ 2.994,01 até R$ 3.992,00',
    'H': '07 - De R$ 3.992,01 até R$ 4.990,00',
    'I': '08 - De R$ 4.990,01 até R$ 5.988,00',
    'J': '09 - De R$ 5.988,01 até R$ 6.986,00',
    'K': '10 - De R$ 6.986,01 até R$ 7.984,00',
    'L': '11 - De R$ 7.984,01 até R$ 8.982,00',
    'M': '12 - De R$ 8.982,01 até R$ 9.980,00',
    'N': '13 - De R$ 9.980,01 até R$ 11.976,00',
    'O': '14 - De R$ 11.976,01 até R$ 14.970,00',
    'P': '15 - De R$ 14.970,01 até R$ 19.960,00',
    'Q': '16 - Mais de R$ 19.960,00'
}

df['range_receita'] = df['Q006'].map(income_mapping)

avg_score_by_income = df.groupby('range_receita')[['NU_NOTA_REDACAO', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT']].mean().reset_index()

Antes de analisar a relação entre renda familiar e nota dos candidatos, vamos analisar a distribuição da renda familiar dos candidatos.

In [5]:
plot_data = df.value_counts('range_receita')
plot_data = plot_data.reset_index()
plot_data.columns = ['range_receita', 'Quantidade']

fig = px.bar(plot_data, x='range_receita', y='Quantidade', title='Distribuição de Renda Familiar dos Participantes do ENEM 2023', labels={'range_receita': 'Faixa de Renda Familiar', 'Quantidade': 'Número de Participantes'})

fig.update_layout(title={'x':0.5, 'xanchor': 'center'},
                    xaxis_title='Faixa de Renda Familiar',
                    yaxis_title='Número de Participantes',
                    xaxis={'categoryorder':'category ascending'},
                    height=500, width=800)

fig.show()

É evidente a assimetria negativa da distribuição de renda familiar dos candidatos. É importante considerar essa assimetria nas análises posteriores.

In [6]:

# Create a DataFrame for plotting
plot_data = avg_score_by_income.melt(id_vars='range_receita', 
                                                    value_vars=['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO'], 
                                                    var_name='Disciplina', 
                                                    value_name='Nota Média')

# Rename columns for better readability
plot_data['Disciplina'] = plot_data['Disciplina'].map({
    'NU_NOTA_CN': 'Ciências da Natureza',
    'NU_NOTA_CH': 'Ciências Humanas',
    'NU_NOTA_LC': 'Linguagens e Códigos',
    'NU_NOTA_MT': 'Matemática',
    'NU_NOTA_REDACAO': 'Redação'
})

# Create a line plot using plotly
fig = px.line(plot_data, 
              x='range_receita', 
              y='Nota Média', 
              color='Disciplina', 
              title='Relação entre Renda Familiar e Notas do ENEM 2023',
              labels={'range_receita': 'Faixa de Renda Familiar', 'Nota Média': 'Nota Média'},
              markers=True)

# Update the layout for better readability
fig.update_layout(xaxis_title='Faixa de Renda Familiar', 
                  yaxis_title='Nota Média', 
                  xaxis={'categoryorder':'category ascending'},
                  title={'x':0.5, 'xanchor': 'center'},
                  height=700, width=800)

# Define the average income value for annotation
average_income_label = "03 - De R$ 1.497,01 até R$ 1.996,00"
# adicione uma linha vertical para a renda média, e um texto para explicar o que ela significa
fig.add_vline(x=average_income_label, line_dash="dash", line_color="black")
fig.add_annotation(x=average_income_label, y=750, text="Renda média (IBGE 2023)", showarrow=False, font=dict(size=12), xshift=85)

# formate o eixo y para exibir as notas como inteiros
fig.update_yaxes(tick0=0, dtick=100, tickformat='d')
fig.show()


Há uma clara tendência de aumento nas notas conforme a renda familiar aumenta. Isso é visível em todas as disciplinas, indicando uma correlação positiva entre renda familiar e desempenho no ENEM. A maior disparidade é observada em Redação e Matemática, onde candidatos de famílias com renda mais alta apresentam uma melhora significativa nas notas de redação em comparação com aqueles de renda mais baixa.

### 2. Qual a relação entre renda familiar e os pais terem estudado?

In [7]:
# Define the mapping for the parental education levels
escolaridade_mapping = {
    'A': '00 - Não estudou',
    'B': '01 - 5º ano incompleto',
    'C': '02 - 9º ano incompleto',
    'D': '03 - EM incompleto',
    'E': '04 - Faculdade incompleta',
    'F': '05 - Pós-graduação incompleta',
    'G': '06 - Completou a Pós-graduação'
}

# Map the educational levels
df['Escolaridade_Pai'] = df['Q001'].map(escolaridade_mapping)
df['Escolaridade_Mae'] = df['Q002'].map(escolaridade_mapping)

# Clean the data to include only relevant columns and drop rows with missing values
parent_education_data = df[['range_receita', 'Escolaridade_Pai', 'Escolaridade_Mae']].dropna()

# Calculate the distribution of educational levels within each income range
pai_distribution = parent_education_data.groupby(['range_receita', 'Escolaridade_Pai']).size().unstack(fill_value=0)
mae_distribution = parent_education_data.groupby(['range_receita', 'Escolaridade_Mae']).size().unstack(fill_value=0)

In [8]:
# Create subplots
fig = sp.make_subplots(
    rows=1, cols=2,
    subplot_titles=(
        'Pais',
        'Mães'
    ),
    shared_yaxes=True
)

# Add the heatmap for Escolaridade do Pai
heatmap_pai = go.Heatmap(
    z=pai_distribution.values,
    x=pai_distribution.columns,
    y=pai_distribution.index,
    showscale=False
)
fig.add_trace(heatmap_pai, row=1, col=1)

# Add the heatmap for Escolaridade da Mãe
heatmap_mae = go.Heatmap(
    z=mae_distribution.values,
    x=mae_distribution.columns,
    y=mae_distribution.index,
    colorbar=dict(title="Quantidade", x=1.05)
)
fig.add_trace(heatmap_mae, row=1, col=2)

# Update layout
fig.update_layout(
    title='Distribuição da Escolaridade dos Pais por Faixa de Renda Familiar',
    height=800,
    width=800,
    showlegend=False
)

A partir dos mapas de calor, é possível observar que:

- Ambas escolaridades dos pais possuem uma correlação positiva com a renda familiar.
    
- Pelo fato da renda familiar ser assimetricamente negativa, é mais difícil observar a relação entre escolaridade dos pais e renda familiar para rendas mais altas. Entretanto, um número interessante é para famílias com renda superior à R$19.960,00, 28 mil candidatos seus pais concluíram a pós-graduação, contra 18 mil pais que concluíram a faculdade (graduação completa + pós-graduação incompleta). Isso demonstra o quão a alta renda familiar está relacionada com a escolaridade dos pais.
- No geral, a escolaridade de pais e mães são bastante semelhantes, exceto nas faixas de renda mais baixas (01 e 02). É interessante observar que há mais mães proporcionalmente entre cada faixa que concluíram a faculdade, do que pais, onde é mais distribuído entre as faixas de escolaridade para essas faixas de renda.

### 3. Como as curvas de probabilidade de notas se relacionam com a faixa etária?

### 4. Quais áreas do conhecimento mais estão relacionadas entre si?

In [16]:
notas_data = df[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']].dropna()
# rename the columns
notas_data.columns = ['Ciências da Natureza', 'Ciências Humanas', 'Linguagens e Códigos', 'Matemática', 'Redação']

# Calculate the correlation matrix
correlation_matrix = notas_data.corr()

# Format the correlation values to two decimal places
formatted_correlation_matrix = correlation_matrix.round(2)

# Visualize the formatted correlation matrix using plotly express
fig = px.imshow(formatted_correlation_matrix, 
                text_auto=True, 
                title='Matriz de Correlação das Notas',
                labels=dict(color="Correlação"))

fig.update_layout(title={'x':0.5, 'xanchor': 'center'},
                  xaxis_title="Áreas do Conhecimento",
                  yaxis_title="Áreas do Conhecimento")

# Show the figure
fig.show()



É interessante observar que Matemática e Ciências da Natureza possuem uma alta correlação, assim como Ciências Humanas e Linguagens e Códigos. Outro ponto que chama a atenção é como a nota de Redação não possui uma correlação tão alta com as outras disciplinas, indicando que a nota de Redação é a mais independente das disciplinas.

Além disso, não há nenhuma correlação negativa entre as disciplinas, o que indica que candidatos que se saem bem em uma disciplina tendem a se sair bem nas outras.

### 5. Qual a relação entre a nota dos candidatos e o IDH do município onde moram?

### 6. Qual a relação entre a renda familiar e o IDH do município onde moram?

## Conclusão

## Referências

## Avaliação