In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Carregar os dados
df_aluno = pd.read_csv("data/DIM_ALUNO.csv")
df_escola = pd.read_csv("data/DIM_ESCOLA.csv")
df_fato = pd.read_csv("data/FATO_NOTAS_ENEM.csv")

# Criar coluna de nota total (sem redação) para análises
df_fato['NOTA_TOTAL_OBJ'] = df_fato['NU_NOTA_CN'] + df_fato['NU_NOTA_CH'] + df_fato['NU_NOTA_LC'] + df_fato['NU_NOTA_MT']
# Outra coluna com todas as 5 provas (incluindo redação)
df_fato['NOTA_TOTAL'] = df_fato['NOTA_TOTAL_OBJ'] + df_fato['NU_NOTA_REDACAO']

# Fazer merges para análises:
df_fato_aluno = df_fato.merge(df_aluno, left_on='FK_ALUNO', right_on='ID_ALUNO', how='left')
df_fato_aluno_escola = df_fato_aluno.merge(df_escola, left_on='FK_ESCOLA', right_on='ID_ESCOLA', how='left')


In [None]:
#Distribuição da NOTA_TOTAL

plt.figure(figsize=(10,6))
sns.histplot(df_fato_aluno_escola['NOTA_TOTAL'], kde=True)
plt.title("Distribuição da Nota Total (4 objetivas + Redação)")
plt.xlabel("Nota Total")
plt.ylabel("Frequência")
plt.show()


In [None]:
Boxplot por Sexo

plt.figure(figsize=(8,6))
sns.boxplot(x='TP_SEXO', y='NOTA_TOTAL', data=df_fato_aluno_escola)
plt.title("Distribuição da Nota Total por Sexo")
plt.xlabel("Sexo")
plt.ylabel("Nota Total")
plt.show()


In [None]:
Média por Etnia

media_por_etnia = df_fato_aluno_escola.groupby('TP_COR_RACA')['NOTA_TOTAL'].mean().reset_index()
sns.barplot(x='TP_COR_RACA', y='NOTA_TOTAL', data=media_por_etnia)
plt.title("Média da Nota Total por Etnia")
plt.xlabel("Etnia (Cód)")
plt.ylabel("Média da Nota Total")
plt.show()


In [None]:
Correlação entre notas objetivas e redação

cols_notas = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']
corr = df_fato_aluno_escola[cols_notas].corr()
plt.figure(figsize=(8,6))
sns.heatmap(corr, annot=True, cmap='Blues')
plt.title("Mapa de Correlação entre Notas das Provas")
plt.show()


In [None]:
Comparação por Dependência Administrativa da Escola

cols_notas = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']
corr = df_fato_aluno_escola[cols_notas].corr()
plt.figure(figsize=(8,6))
sns.heatmap(corr, annot=True, cmap='Blues')
plt.title("Mapa de Correlação entre Notas das Provas")
plt.show()


In [None]:
plt.figure(figsize=(10,6))
sns.barplot(x='TP_DEPENDENCIA_ADM_ESC', y='NOTA_TOTAL', data=df_fato_aluno_escola)
plt.title("Média da Nota Total por Tipo de Dependência Administrativa da Escola")
plt.xlabel("Tipo de Dependência (1=Federal, 2=Estadual, 3=Municipal, 4=Privada)")
plt.ylabel("Média da Nota Total")
plt.show()
