# An√°lise do ENADE 2023
Este notebook realiza uma an√°lise explorat√≥ria dos dados do ENADE com foco em: leitura de dados, data wrangling, estat√≠sticas descritivas, agrega√ß√µes e visualiza√ß√µes para posterior exporta√ß√£o ao Power BI.

In [None]:
# Bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('pastel')


In [None]:
# Leitura do arquivo
df = pd.read_excel("conceito_enade_2023.xlsx")
print(" Dados carregados com sucesso!")

In [None]:
# Informa√ß√µes gerais
print("Info:")
print(df.info())
print("\n Estat√≠sticas descritivas:")
print(df.describe(include='all'))

In [None]:
# Renomeando e limpando colunas
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_').str.replace('*', '', regex=False).str.replace('**', '', regex=False)
print("Colunas normalizadas:")
print(df.columns.tolist())

In [None]:
# Sele√ß√£o de colunas relevantes
colunas_relevantes = [
    'ano', '√°rea_de_avalia√ß√£o', 'grau_acad√™mico', 'nome_da_ies', 'organiza√ß√£o_acad√™mica',
    'categoria_administrativa', 'munic√≠pio_do_curso', 'sigla_da_uf',
    'n¬∫__de_concluintes_participantes', 'nota_padronizada_-_fg', 'nota_padronizada_-_ce',
    'conceito_enade_(cont√≠nuo)', 'conceito_enade_(faixa)'
]
df = df[colunas_relevantes]

In [None]:
# üîç Verificando e tratando valores faltantes
print("üîç Valores nulos antes do tratamento:")
print(df.isnull().sum())

# Remover linhas sem nota
df = df.dropna(subset=['nota_padronizada_-_fg', 'nota_padronizada_-_ce'])

# Preenchendo faltantes com m√©dia
df['conceito_enade_(cont√≠nuo)'].fillna(df['conceito_enade_(cont√≠nuo)'].mean(), inplace=True)

# Drop em demais faltantes
df.dropna(inplace=True)
print(" Ap√≥s tratamento:")
print(df.isnull().sum())

In [None]:
# Agrega√ß√µes
# M√©dia de notas por ano
media_por_ano = df.groupby('ano')[['nota_padronizada_-_fg', 'nota_padronizada_-_ce']].mean()
print(" M√©dia por ano:")
print(media_por_ano)

# M√©dia por UF
media_por_estado = df.groupby('sigla_da_uf')['conceito_enade_(cont√≠nuo)'].mean().sort_values(ascending=False)

# M√©dia por √°rea
media_por_area = df.groupby('√°rea_de_avalia√ß√£o')['nota_padronizada_-_fg'].mean().sort_values(ascending=False)


In [None]:
# Visualiza√ß√£o 1: Evolu√ß√£o das notas por ano
media_por_ano.plot(kind='line', marker='o', figsize=(10, 6))
plt.title('Evolu√ß√£o das Notas Padronizadas - FG e CE')
plt.ylabel('Nota Padronizada')
plt.grid(True)
plt.show()

In [None]:
# Visualiza√ß√£o 2: Conceito Enade m√©dio por estado
plt.figure(figsize=(12, 6))
sns.barplot(x=media_por_estado.index, y=media_por_estado.values)
plt.xticks(rotation=90)
plt.title('Conceito Enade M√©dio por Estado (UF)')
plt.ylabel('Conceito M√©dio')
plt.show()

In [None]:
# Visualiza√ß√£o 3: Boxplot por grau acad√™mico
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='grau_acad√™mico', y='nota_padronizada_-_fg')
plt.title('Distribui√ß√£o da Nota Padronizada - FG por Grau Acad√™mico')
plt.show()

In [None]:
# Visualiza√ß√£o 4: Heatmap de notas por UF e Grau Acad√™mico
pivot_heatmap = df.pivot_table(values='nota_padronizada_-_fg', index='sigla_da_uf', columns='grau_acad√™mico', aggfunc='mean')
plt.figure(figsize=(10, 6))
sns.heatmap(pivot_heatmap, annot=True, fmt=".1f", cmap="YlGnBu")
plt.title('M√©dia da Nota Padronizada - FG por UF e Grau Acad√™mico')
plt.show()

In [None]:
# Exporta√ß√£o para Power BI
df.to_csv('enade_tratado.csv', index=False)
print(" Dados exportados para 'enade_tratado.csv'. Pronto para Power BI.")