In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- Lê o arquivo Parquet ---
try:
    df_sisu = pd.read_parquet("Microdados_enem_2016.parquet", engine='fastparquet')  # Corrigido: leitura Parquet
except FileNotFoundError:
    print("Erro: Arquivo 'Microdados_enem_2016.parquet' não encontrado.")
    exit()
except Exception as e:
    print(f"Erro ao ler o arquivo Parquet: {e}")
    exit()


def analisar_curso(df, nome_curso):
    """Analisa as informações de um curso específico."""
    df_curso = df[df['NO_CURSO'] == nome_curso].copy()

    media_nota_corte = df_curso['NU_NOTACORTE'].mean()
    max_nota_corte = df_curso['NU_NOTACORTE'].max()
    min_nota_corte = df_curso['NU_NOTACORTE'].min()
    qtd_vagas = df_curso['QT_VAGAS'].sum()
    qtd_inscritos = df_curso['QT_INSCRITOS'].sum()

    tabela_curso = pd.DataFrame({
        "Média Nota de Corte": [media_nota_corte],
        "Máxima Nota de Corte": [max_nota_corte],
        "Mínima Nota de Corte": [min_nota_corte],
        "Quantidade de Vagas": [qtd_vagas],
        "Quantidade de Inscritos": [qtd_inscritos]
    })
    print(f"\n--- Análise do curso: {nome_curso} ---")
    print(tabela_curso)

    plt.figure(figsize=(8, 5))
    plt.hist(df_curso['NU_NOTACORTE'], bins=20)
    plt.title(f'Histograma da Nota de Corte para {nome_curso}')
    plt.xlabel('Nota de Corte')
    plt.ylabel('Frequência')
    plt.savefig(f'histograma_nota_corte_{nome_curso.replace(" ", "_")}.png')
    plt.show()


def analisar_regiao(df, codigo_regiao):
    """Analisa as informações de uma região específica."""
    df_regiao = df[df['CO_REGIAO'] == codigo_regiao].copy()

    media_nota_corte = df_regiao['NU_NOTACORTE'].mean()
    max_nota_corte = df_regiao['NU_NOTACORTE'].max()
    min_nota_corte = df_regiao['NU_NOTACORTE'].min()
    qtd_vagas = df_regiao['QT_VAGAS'].sum()
    qtd_inscritos = df_regiao['QT_INSCRITOS'].sum()

    tabela_regiao = pd.DataFrame({
        "Média Nota de Corte": [media_nota_corte],
        "Máxima Nota de Corte": [max_nota_corte],
        "Mínima Nota de Corte": [min_nota_corte],
        "Quantidade de Vagas": [qtd_vagas],
        "Quantidade de Inscritos": [qtd_inscritos]
    })
    print(f"\n--- Análise da região: {codigo_regiao} ---")
    print(tabela_regiao)

    plt.figure(figsize=(8, 5))
    plt.hist(df_regiao['NU_NOTACORTE'], bins=20)
    plt.title(f'Histograma da Nota de Corte para a região {codigo_regiao}')
    plt.xlabel('Nota de Corte')
    plt.ylabel('Frequência')
    plt.savefig(f'histograma_nota_corte_regiao_{codigo_regiao}.png')
    plt.show()


# --- Análises ---

print("\n--- Análise por Curso ---")
for curso in df_sisu['NO_CURSO'].unique():
    analisar_curso(df_sisu, curso)

print("\n--- Análise por Região ---")
for regiao in df_sisu['CO_REGIAO'].unique():
    analisar_regiao(df_sisu, regiao)

print("\n--- Análise por Modalidade de Concorrência ---")
for modalidade in df_sisu['DS_MODALIDADE_CONCORRENCIA'].unique():
    df_modalidade = df_sisu[df_sisu['DS_MODALIDADE_CONCORRENCIA'] == modalidade]
    media_nota_corte = df_modalidade['NU_NOTACORTE'].mean()
    max_nota_corte = df_modalidade['NU_NOTACORTE'].max()
    min_nota_corte = df_modalidade['NU_NOTACORTE'].min()
    qtd_vagas = df_modalidade['QT_VAGAS'].sum()
    qtd_inscritos = df_modalidade['QT_INSCRITOS'].sum()

    tabela_modalidade = pd.DataFrame({
        "Média Nota de Corte": [media_nota_corte],
        "Máxima Nota de Corte": [max_nota_corte],
        "Mínima Nota de Corte": [min_nota_corte],
        "Quantidade de Vagas": [qtd_vagas],
        "Quantidade de Inscritos": [qtd_inscritos]
    })
    print(f"\n--- Análise da modalidade: {modalidade} ---")
    print(tabela_modalidade)

    plt.figure(figsize=(8, 5))
    plt.hist(df_modalidade['NU_NOTACORTE'], bins=20)
    plt.title(f'Histograma da Nota de Corte para a modalidade {modalidade}')
    plt.xlabel('Nota de Corte')
    plt.ylabel('Frequência')
    plt.savefig(f'histograma_nota_corte_modalidade_{modalidade.replace(" ", "_")}.png')
    plt.show()


print("\n--- Análise por Área de Conhecimento ---")
for area in df_sisu['NO_AREA_CONHECIMENTO'].unique():
    df_area = df_sisu[df_sisu['NO_AREA_CONHECIMENTO'] == area]
    media_nota_corte = df_area['NU_NOTACORTE'].mean()
    max_nota_corte = df_area['NU_NOTACORTE'].max()
    min_nota_corte = df_area['NU_NOTACORTE'].min()
    qtd_vagas = df_area['QT_VAGAS'].sum()
    qtd_inscritos = df_area['QT_INSCRITOS'].sum()

    tabela_area = pd.DataFrame({
        "Média Nota de Corte": [media_nota_corte],
        "Máxima Nota de Corte": [max_nota_corte],
        "Mínima Nota de Corte": [min_nota_corte],
        "Quantidade de Vagas": [qtd_vagas],
        "Quantidade de Inscritos": [qtd_inscritos]
    })

    print(f"\n--- Análise da área: {area} ---")
    print(tabela_area)

    plt.figure(figsize=(8, 5))
    plt.hist(df_area['NU_NOTACORTE'], bins=20)
    plt.title(f'Histograma da Nota de Corte para a área {area}')
    plt.xlabel('Nota de Corte')
    plt.ylabel('Frequência')
    plt.savefig(f'histograma_nota_corte_area_{area.replace(" ", "_")}.png')
    plt.show()




# --- Relação entre Nota de corte e Quantidade de Inscritos ---
plt.figure(figsize=(8, 5))
sns.scatterplot(data=df_sisu, x='NU_NOTACORTE', y='QT_INSCRITOS')
plt.title("Relação entre Nota de Corte e Quantidade de Inscritos")
plt.xlabel("Nota de Corte")
plt.ylabel("Quantidade de Inscritos")
plt.savefig("relacao_nota_corte_inscritos.png")
plt.show()

# --- Relação entre Nota de corte e Quantidade de Vagas ---
plt.figure(figsize=(8, 5))
sns.scatterplot(data=df_sisu, x='NU_NOTACORTE', y='QT_VAGAS')
plt.title("Relação entre Nota de Corte e Quantidade de Vagas")
plt.xlabel("Nota de Corte")
plt.ylabel("Quantidade de Vagas")
plt.savefig("relacao_nota_corte_vagas.png")
plt.show()