Este código realiza uma série de análises com base nos dados dos participantes do **ENEM 2021**. Ele carrega o arquivo CSV contendo os microdados do exame e realiza várias operações, desde o carregamento eficiente dos dados até a análise de desempenho por gênero, estado, tipo de escola, e outras variáveis.

Importação de Módulos e Inicialização

- O código começa importando os módulos pandas (para manipulação de dados) e os (para operações relacionadas ao sistema de arquivos). Em seguida, imprime uma mensagem indicando que o script foi iniciado.

In [None]:
import pandas as pd
import os

print("Script iniciado")

Definição de Colunas e Verificação de Arquivo

- As colunas necessárias são definidas para serem carregadas do arquivo do ENEM.
- 'caminho_arquivo' guarda o caminho do arquivo CSV.
- 'os.path.exists' verifica se o arquivo existe. Caso não exista, exibe uma mensagem de erro; caso contrário, o script segue.

In [None]:
colunas_necessarias = ['TP_SEXO', 'NU_NOTA_REDACAO', 'SG_UF_PROVA', 'TP_ESCOLA', 
                       'TP_ST_CONCLUSAO', 'NU_NOTA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 
                       'NU_NOTA_LC', 'TP_FAIXA_ETARIA']

caminho_arquivo = os.path.join('MICRODADOS_ENEM_2021.csv')

if not os.path.exists(caminho_arquivo):
    print(f"O arquivo não foi encontrado em: {caminho_arquivo}")
else:

Carregamento do Arquivo CSV

- O CSV é carregado em pedaços (chunks) de 100.000 linhas por vez para economizar memória.
- 'pd.concat' combina esses pedaços em um único dataframe.
- Em caso de erro, como arquivo não encontrado ou erro de leitura, são exibidas mensagens de erro adequadas.

In [None]:
try:
    chunksize = 100000
    df_chunks = pd.read_csv(caminho_arquivo, sep=';', encoding='ISO-8859-1', 
                            usecols=colunas_necessarias, chunksize=chunksize)

    df = pd.concat(df_chunks)

    print("Arquivo carregado com sucesso")
except ...:
    # Tratamento de erros

Contagem e Percentual de Participantes por Gênero

- Conta quantos participantes existem para cada gênero usando 'value_counts()'.
- Calcula o percentual de participantes de cada gênero em relação ao total.

In [None]:
conteo_sexo = df['TP_SEXO'].value_counts()
total_participantes = len(df)
percentual_sexo = (conteo_sexo / total_participantes) * 100

Média das Notas de Redação por Gênero

- Agrupa os participantes por gênero (TP_SEXO) e calcula a média da nota de redação de cada grupo.

In [None]:
media_redacao_por_genero = df.groupby('TP_SEXO')['NU_NOTA_REDACAO'].mean()

Estado com a Maior Nota de Redação

- Agrupa os dados por estado (SG_UF_PROVA) e calcula a nota de redação mais alta em cada estado.
- Depois identifica qual estado teve a nota mais alta.

In [None]:
estado_mais_alta_nota = df.groupby('SG_UF_PROVA')['NU_NOTA_REDACAO'].max()
estado_max_nota = estado_mais_alta_nota.idxmax()
nota_max = estado_mais_alta_nota.max()

Desempenho Médio de Redação por Tipo de Escola

- Calcula a média das notas de redação por tipo de escola (TP_ESCOLA), como pública ou privada.

In [None]:
desempenho_escola = df.groupby('TP_ESCOLA')['NU_NOTA_REDACAO'].mean()

Estatísticas das Notas por Estado

- Calcula a média, desvio padrão e mediana das notas de redação, matemática, ciências, etc., agrupando por estado.

In [None]:
colunas_notas = ['NU_NOTA_REDACAO', 'NU_NOTA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC']
estatisticas_estado = df.groupby('SG_UF_PROVA').agg({col: ['mean', 'std', 'median'] for col in colunas_notas})

Desempenho Médio por Status de Conclusão do Ensino Médio

- Mapeia os códigos de status de conclusão (TP_ST_CONCLUSAO) para descrições mais legíveis.
- Calcula a média de notas de redação para cada grupo de status.

In [None]:
dict_conclusao = {1: 'Já concluí o Ensino Médio', 2: ..., 4: ...}
df['TP_ST_CONCLUSAO'] = df['TP_ST_CONCLUSAO'].map(dict_conclusao)

desempenho_conclusao = df.groupby('TP_ST_CONCLUSAO')['NU_NOTA_REDACAO'].mean()

Diferença Percentual de Desempenho

- Calcula a diferença percentual entre a média de quem já concluiu o ensino médio e quem ainda não concluiu.

In [None]:
if media_nao_concluido == 0:
    percentual_diferenca = float('inf')
else:
    percentual_diferenca = ((media_concluido - media_nao_concluido) / media_nao_concluido) * 100

Desempenho por Faixa Etária

- Mapeia as faixas etárias para descrições amigáveis e agrupa as faixas em intervalos de 10 anos.
- Calcula a média das notas de redação para cada faixa etária.

In [None]:
df['TP_FAIXA_ETARIA'] = df['TP_FAIXA_ETARIA'].map(dicionario_faixas)
desempenho_faixa_etaria_agrupada = df.groupby('FAIXA_ETARIA_AGRUPADA')['NU_NOTA_REDACAO'].mean()

Finalização

- O script exibe uma mensagem indicando que o processamento foi concluído.

In [None]:
print("Script finalizado")