# Projeto Estatistica
## Grupo 6 - Turma 1007 - ADA Santader Coders 2023 Data Science
---
## Membros
### Clara Ferreira Batista
### Laura Muglia
### Luana Ferraz
### Rafael Couto de Oliveira
---

Nosso repositório :
https://github.com/claraferreirabatista/analise_estatistica_microdados_do_enem

---
## *Introdução*

* Motivo do trabalho: Analise dos Microdados do Enem;
* Contexto da analise do trabalho: Analise do impacto da COVID-19 nos números da região Centro-oeste referente aos anos de 2018 a 2022;
* Onde encontrar os dados : https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem.

### Divisão de tarefas

* Escolha do tópico: Laura Muglia
* Carregamento, limpeza e tratativa dos dados: Rafael Couto
* Elaboração das perguntas: Luana Ferraz e Laura Muglia
* Análise exploratória: Rafael Couto
* Elaboração de gráficos: Luana Ferraz
* BugFix, reprodutibilidade e repositório: Clara Ferreira Batista
* Conclusões: Todos
---


# Carregamento dos dados e bibliotecas
Importando as bibliotecas necessárias e carregando os dados que já foram tratados previamente.
Nosso conjunto de dados caracteriza uma população pois contem todos os participantes do ENEM da região CO.

In [None]:
#Montar o drive para acessar os arquivos.
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install gitpython

Collecting gitpython
  Downloading GitPython-3.1.37-py3-none-any.whl (190 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/190.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━[0m [32m184.3/190.0 kB[0m [31m5.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.0/190.0 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting gitdb<5,>=4.0.1 (from gitpython)
  Downloading gitdb-4.0.10-py3-none-any.whl (62 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/62.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.7/62.7 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting smmap<6,>=3.0.1 (from gitdb<5,>=4.0.1->gitpython)
  Downloading smmap-5.0.1-py3-none-any.whl (24 kB)
Installing collected packages: smmap, gitdb, gitpython
Successfully installed gitdb-4.0.10 gi

In [None]:
import git
import shutil

# Defina o caminho do diretório existente
existing_dir = "/content/drive/MyDrive/analise_dos_microdados_do_enem"

# Exclua o diretório existente (escolhemos isso se precisar de reteste)
shutil.rmtree(existing_dir)

# Clone o repositório novamente
repo_url = "https://github.com/claraferreirabatista/analise_dos_microdados_do_enem.git"
repo_dir = "/content/drive/MyDrive/analise_dos_microdados_do_enem"
git.Repo.clone_from(repo_url, repo_dir)

FileNotFoundError: ignored

In [None]:
# Importar bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import re
import numpy as np
import scipy.stats as stats

import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px

#Carregando direto os Dados Tratados:
dados_tratados = pd.read_parquet('/content/drive/MyDrive/analise_dos_microdados_do_enem/ENEM_CO_TRATADO.parquet')

FileNotFoundError: ignored

Após limpeza e tratamento dos dados, a base tem 1760255 elementos e 25 colunas.

## Tabelas "De-para"

Elaboração das tabelas "de-para" para valores que estão como "flag" ou valores numéricos, porém representam variaveis categóricas. Usado para variáveis de alta variabilidade.

In [None]:
#Tabela de/para: Faixa etária

# Dados para a coluna #TP_FAIXA_ETARIA
dp_idades = {
    'TP_FAIXA_ETARIA': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
                         11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    'Faixa Etária': ['Menor de 17 anos', '17 anos', '18 anos', '19 anos', '20 anos',
                     '21 anos', '22 anos', '23 anos', '24 anos', '25 anos',
                     'Entre 26 e 30 anos', 'Entre 31 e 35 anos', 'Entre 36 e 40 anos', 'Entre 41 e 45 anos',
                     'Entre 46 e 50 anos', 'Entre 51 e 55 anos', 'Entre 56 e 60 anos',
                     'Entre 61 e 65 anos', 'Entre 66 e 70 anos', 'Maior de 70 anos'],
    'Média idade': [16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 28, 33, 38, 43, 48, 53, 58, 63, 68, 72]
}

dp_idades = pd.DataFrame(dp_idades).set_index('TP_FAIXA_ETARIA')

In [None]:
#Tabela de/para: Cor/Raça

#Dados para a coluna #TP_COR_RACA
dp_raca = {
    'TP_COR_RACA': [0, 1, 2, 3, 4, 5, 6],
    'Cor/Raça': ['Não declarado', 'Branca', 'Preta', 'Parda', 'Amarela', 'Indígena', 'Não dispõe da informação']
}
dp_raca = pd.DataFrame(dp_raca).set_index('TP_COR_RACA')

In [None]:
#Tabela de/para: Nacionalidade

#Dados para a coluna TP_NACIONALIDADE
dp_nacionalidade = {
    'TP_NACIONALIDADE': [0, 1, 2, 3, 4],
    'Nacionalidade_info': ['Não informado', 'Brasileiro(a)', 'Brasileiro(a) Naturalizado(a)',
                      'Estrangeiro(a)', 'Brasileiro(a) Nato(a), nascido(a) no exterior']
}

dp_nacionalidade = pd.DataFrame(dp_nacionalidade).set_index('TP_NACIONALIDADE')

In [None]:
#Tabela de/para: Situação conclusão

#Dados para a coluna TP_ST_CONCLUSAO
dp_conclusao = {
    'TP_ST_CONCLUSAO': [1, 2, 3, 4],
    'Situação do Ensino Médio': ['Já concluí o Ensino Médio',
                                 'Estou cursando e concluirei o Ensino Médio no Ano da Prova',
                                 'Estou cursando e concluirei o Ensino Médio após o Ano da Prova',
                                 'Não concluí e não estou cursando o Ensino Médio']
}

dp_conclusao = pd.DataFrame(dp_conclusao).set_index('TP_ST_CONCLUSAO')

In [None]:
#Tabela de/para: Ano Conclusão

# Dados para a coluna #TP_ANO_CONCLUIU
dp_ano_conclusao = {
    'TP_ANO_CONCLUIU': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
                         11, 12, 13, 14, 15, 16],
    'Ano Concluiu': ['Não informado', '2021', '2020', '2019', '2018', '2017', '2016',
                     '2015', '2014', '2013', '2012', '2011', '2010', '2009', '2008',
                     '2007', 'Antes de 2007']
}

dp_ano_conclusao = pd.DataFrame(dp_ano_conclusao).set_index('TP_ANO_CONCLUIU')

In [None]:
#Tabela de/para: Status Redação

# Dados para a coluna TP_STATUS_REDACAO

dp_redacao = {
    'TP_STATUS_REDACAO': [1, 2, 3, 4, 6, 7, 8, 9],
    'Status Redacao': ['Sem problemas', 'Anulada', 'Cópia Texto Motivador', 'Em Branco',
                       'Fuga ao tema', 'Não atendimento ao tipo textual', 'Texto insuficiente', 'Parte desconectada']
}

dp_redacao = pd.DataFrame(dp_redacao).set_index('TP_STATUS_REDACAO')

---
# 1. Análise Exploratória das variáveis
Visualizações de algumas variáveis para possíveis insights.


In [None]:
#Informações estatisticas

#Forçar o pandas a mostras as informações como float, 2 casas decimais
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# MOSTRAR APENAS DADOS QUANTITATIVOS E fORMATAR
dados_numericos =  dados_tratados[['NU_NOTA_REDACAO', 'NU_NOTA_GERAL','NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT']]
display(dados_numericos.describe())

Como a população éconsiderada grande (1760255 entradas) vamos calcular uma amostra da mesma. Para isso vamos consideram margem de erro de 2% e nível de confiança de 99% (Z = 2,575). Como não conhecemos a distribuição da população, vamos utilizar um valor conservados de 0.5.

$$
n = \frac{{Z^2 \cdot P \cdot (1 - P)}}{{E^2}}
$$

In [None]:
#Calculo da quantidade amostra
z=2.575  #99%
p=0.5    #valor conservador
e=0.02   #erro de 2%

tamanho_amostra = (((z**2)*p*(1-p))/(e**2))//1 +1
print(tamanho_amostra)

Assim, definimos que nossa amostra deve ser composta de pelo menos 4145 elementos.

In [None]:
#Definindo a amostra (utilizando random state como 123 para garantir a reprodutibilidade)

dados_amostra = dados_tratados.sample(n=int(tamanho_amostra), random_state=123)

## 2.1 Análise dos inscritos
Visualização da relação de inscritos e presentes ao longo dos anos.

#### 2.1.1 Qual a faixa etária dos inscritos no ENEM entre 2018 e 2022?

O código analisa dados de faixa etária de alunos. Ele cria um DataFrame com contagem de alunos por faixa etária. Em seguida, combina esse DataFrame com um de-para das descrições das faixas etárias.

In [None]:
#Plotar quantidades x faixas etarias dos Inscritos

Faixa_Etaria = pd.DataFrame(dados_tratados['TP_FAIXA_ETARIA'].value_counts())
faixa = pd.concat([Faixa_Etaria.rename(columns = {'TP_FAIXA_ETARIA':'Inscritos'}),dp_idades], axis = 1 )
faixa.sort_values(by='Inscritos' ).plot.barh(x = 'Faixa Etária', y = 'Inscritos')

#printando
plt.title('Quantidade de alunos por faixa etária')
plt.xlabel('Quantidade')
plt.tight_layout()
plt.show()

Pelo gráfico acima conseguimos ver que a maior concentração dos participantes está em idade de terceiro ano do ensino médio e cursinho (de 17 a 19 anos).

In [None]:
#Hipotese: diferença entre duas faixas etarias é estatisticamente significativa?
#aplciar teste de hipotese das diferenças

#### 2.1.2 Como a faixa etária dos inscritos mudou ao longo da pandemia?

O código realiza uma análise da distribuição da quantidade de alunos por faixa etária ao longo dos anos. Inicialmente, ele mescla dados da faixa etária dos alunos com informações relacionadas a idades, usando um método de junção (merge) por correspondência na coluna 'TP_FAIXA_ETARIA'. Em seguida, calcula as contagens dessa combinação de faixa etária e ano. Esses valores são organizados em um heatmap (mapa de calor) utilizando a biblioteca Seaborn, onde as cores representam a quantidade de alunos. O

In [None]:
#Plotar quantidades x faixas etarias por ano

Faixa_Etaria_Ano = dados_tratados.merge(dp_idades.reindex(), on = 'TP_FAIXA_ETARIA', how = 'left')
Faixa_Etaria_Ano = Faixa_Etaria_Ano[['Faixa Etária', 'NU_ANO']].value_counts()
Faixa_Etaria_Ano = Faixa_Etaria_Ano.unstack()
cmap = sns.cm.rocket_r
sns.heatmap(Faixa_Etaria_Ano, cmap = cmap)
#Faixa_Etaria_Ano.sort_index().plot.barh( stacked = True)

#printando
plt.title('Heatmap da quantidade de alunos por faixa etária por ano')
plt.xlabel('Ano')
plt.tight_layout()
plt.show()

O gráfico acima confirma que as faixas de idade de maior concentração de participantes sempre se manteve entre os participantes entre 17 e 19 anos ao longo dos anos de nossa análise. Aqui também conseguimos notar que a participação de pessoas acima de 20 anos diminuiu bastante entre 2020 e 2022, principalmente na faixa de 26 a 30 anos.

#### 2.1.3 Qual o perfil escolar dos estudantes inscritos no ENEM nos últimos 5 anos?

O código analisa dados sobre o tipo de escola em diferentes anos. Ele realiza uma contagem da frequência de tipos de escola para cada ano e organiza esses dados em um gráfico simples de barras horizontais de barras duplas.

In [None]:
#plotar tipo de escola x anos (barras duplas)
tipo_escola = dados_tratados[['NU_ANO', 'TP_ESCOLA']].value_counts()
tipo_escola = tipo_escola.unstack()
tipo_escola.plot.barh()

#printando
plt.title('Tipo de escola por ano')
plt.xlabel('Quantidade')
plt.ylabel('Ano')
plt.tight_layout()
plt.show()

Aqui conseguimos perceber que o volume de participantes de escolas particulares e públicas não mudou muito ao longo desses 5 anos. Já os participantes que não responderam a essa pergunta diminuiu bastante, principalmente entre 2020 e 2022.

#### 2.1.4 - Como a quantidade de ausentes mudou ao longo do tempo?

O código analisa dados de presença de alunos ao longo dos anos. Ele seleciona as colunas de "ano" e "tipo de presença" de um conjunto de dados tratados. Depois, filtra os registros em que a presença é "falsa" (ausente) e agrupa esses dados por ano, contando a quantidade de ausências em cada ano.

In [None]:
ausentes = dados_tratados[['NU_ANO','TP_PRESENCA']]
ausentes = ausentes[ausentes['TP_PRESENCA'] == False].groupby('NU_ANO').count()

ausentes.plot.barh(legend=False)

#printando
plt.title('Quantidade de ausentes por ano')
plt.xlabel('Quantidade')
plt.ylabel('Ano')


Baseado no gráfico vemos que não existe uma tendencia clara de ausência mas que no ano de 2020 (primeiro ano da pandemia COVID-19) houve um aumento expressivo.

#### 2.1.5 - Como a pandemia impactou na evasao à prova do enem e na quantidade de inscritos no ENEM?


O código analisa dados de participação de estudantes em anos diferentes. Dois DataFrames são criados: um com contagem de inscritos por ano e outro com contagem de presentes por ano. Esses DataFrames são combinados e um gráfico de barras é gerado para comparar inscritos e presentes ao longo dos anos.

In [None]:
#Plotar QUANTIDADE_INSCRITOS X ANO NU_ANO
inscritos = pd.DataFrame(dados_tratados['NU_ANO'].value_counts())
presente = pd.DataFrame(dados_tratados[dados_tratados['TP_PRESENCA'] == True]['NU_ANO'].value_counts())
alunos = pd.concat([inscritos.rename(columns = {'NU_ANO':'Inscritos'}),presente.rename(columns = {'NU_ANO':'Presentes'})],axis = 1)
alunos.sort_index().plot(kind='bar')
#alunos.sort_index()

#printando
plt.title('Alunos Inscritos x Alunos Presentes')
plt.xlabel('Ano')
plt.ylabel('Quantidade')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()



Nesse gráfico acima conseguimos ver que o ano que estourou a pandemia (2020) tivemos o maior número de inscritos desde período da nossa amostra, porém também tivemos a menor conversão desses inscritos para presentes na prova, podendo isso ter sido motivado pela preocupação das pessoas em se deslocar até o local da prova pela pandemia em andamento entre outros motivos.

## 2.3 Língua

### 2.3.1 Qual foi a  preferência dos inscritos para a prova de lígua estrangeira nos últimos 5 anos?




O código examina dados sobre o tipo de língua escolhido pelos alunos em diferentes anos. Ele cria um DataFrame que conta a quantidade de escolhas de cada tipo de língua por ano. Os dados são reformulados para facilitar a visualização, gerando um gráfico de barras horizontais.

In [None]:
#plotar quantidades linguas x anos (barras duplas)
tipo_lingua = dados_tratados[['NU_ANO', 'TP_LINGUA']].value_counts()
tipo_lingua = tipo_lingua.unstack()
tipo_lingua.plot.barh()

#printando
plt.title('Relação das linguas por ano')
plt.xlabel('Quantidade')
plt.ylabel('Ano')
plt.tight_layout()
plt.show()

Assim como observamos nos gráficos anteriores, tivemos uma redução no número de participantes do Enem nos últimos anos. Mas em relação à lingua que escolheram para fazer a prova de língua estrageira, tivemos uma queda mais significativa na escolha pela prova de espanhol do que de inglês de 2020 até 2022.

### 2.3.2 Estados que fazem divisa com países que falam espanhol tiveram maior preferêcia pela linha espanhola?





O código compara a preferência de idioma (inglês ou espanhol) em provas por estado. Ele calcula a diferença percentual entre o número de provas realizadas em espanhol e inglês em cada estado. Em seguida, cria um gráfico de barras horizontais que exibe essas diferenças. Valores de diferença percentual são adicionados ao gráfico para cada estado. O gráfico ilustra as discrepâncias na escolha de idioma entre os estados nas provas.

In [None]:
tipo_lingua = dados_tratados[['SG_UF_PROVA','TP_LINGUA' ]].value_counts()
tipo_lingua = tipo_lingua.unstack().reset_index().set_index('SG_UF_PROVA')

#Calcular a diferença percentual
tipo_lingua['diferenca'] = 100 * (tipo_lingua['Espanhol'] - tipo_lingua['Inglês']) / tipo_lingua['Espanhol']

# Plotar o gráfico de barras horizontais
plt.figure(figsize=(10, 6))
graf34 = tipo_lingua.plot.barh()

# Adicionar os valores da coluna 'diferenca' no gráfico
for i, v in enumerate(tipo_lingua['diferenca']):
    graf34.text(v+200_000, i+0.17, f'Diferença: {v:.2f}%', color='black', fontsize=10, va='center')

#printando
plt.title('Diferença entre lingua inglesa e espanhola nos estados')
plt.xlabel('Quantidade')
plt.ylabel('Estado')

Todos os estados da região centro-oeste apresentam uma preferencia de escolha de lingua estrangeira pela língua espanhola, porém os estados onde a diferença é maior são MT (divisa com país que fala a língua espanhola) e GO (não faz dívisa com país que fala língua espanhola).

In [None]:
import numpy as np
from scipy.stats import chi2_contingency

# # Tabela de frequência observada
observada = np.array([[tipo_lingua['Inglês']['DF'], tipo_lingua['Espanhol']['DF']],
                      [tipo_lingua['Inglês']['GO'], tipo_lingua['Espanhol']['GO']],
                      [tipo_lingua['Inglês']['MS'], tipo_lingua['Espanhol']['MS']],
                      [tipo_lingua['Inglês']['MT'], tipo_lingua['Espanhol']['MT']]])

# Executar o teste de qui-quadrado de independência
chi2, p, dof, expected = chi2_contingency(observada)

# Imprimir os resultados
print(f"Qui-quadrado observado: {chi2}")
print(f"Valor-p: {p}")
print("Tabela de frequência esperada:")
print(expected)
print()

# Defina o nível de significância (alfa)
alfa = 0.05

# Verifique se o valor p é menor que o nível de significância
if p < alfa:
    print("Há uma relação estatisticamente significativa entre a localização do estado e a escolha de idioma.")
else:
    print("Não há evidência estatística de relação entre a localização do estado e a escolha de idioma.")

Utilizando o teste qui-quadrado para verificar se o estado tem inflûencia na escolha da lingua no ENEM, podemos verificar se há ou não relevância estatística. O valor-p obtido é igual a 0.0, o que mostra que há influência do estado na escolha da língua.

## 2.4 Notas Gerais

### 2.4.1 Como foi a distribuição de notas nos últimos cinco anos?

*Não inclui nota de redação.


O código cria um conjunto de seis gráficos de histograma em uma matriz de 2x3 para visualizar as notas gerais dos alunos nos anos de 2018 a 2022. Ele itera através desses anos, filtrando os dados correspondentes a cada ano. Em seguida, cria um DataFrame com as notas gerais e plota um histograma para cada ano nos subplots da matriz.

In [None]:
#nota geral nao inclui a redacao

filtro_notageral = dados_tratados['NU_NOTA_GERAL'] > 0
anos = [2018,2019,2020,2021,2022]
fig, axes = plt.subplots(nrows=2, ncols=3,figsize=(20, 10))
i = 0
j = 0

for ano in anos:
    filtro2 = dados_tratados['NU_ANO'] == ano
    amostra = pd.DataFrame(dados_tratados.loc[filtro_notageral & filtro2]['NU_NOTA_GERAL'])

    amostra.rename(columns={'NU_NOTA_GERAL':ano}).plot(kind = 'hist', ax=axes[i,j],bins=100,range=(0,1000))
    axes[i, j].set_xlabel('Notas')

    if j <= 1 :
        j = j+1
    else:
        j = 0
        i = i+1
  #printando

Pelos gráficos acima conseguimos ver que tivemos uma mudança de patamar de notas gerais acima de 600 (sem incluir a nota de redação) de 2020 pra frente. O volume de notas boas caiu muito, o que dá uma primeira impressão de termos resultadores piores em períodos pandêmicos e pós-pandêmicos.

Vamos verificar se essas distribuições são normais ou não atravez do teste "Shapiro-wilk" de normalidade, porem a população é muito grande então para isso vamos usar a amostra definida anteriormente.

* H0: Os dados são normalmente distribuídos.
* H1: Os dados não são normalmente distribuídos.

Se o p-valor for menor que o nível de significancia determinado (0,05) rejeita-se H0.

In [None]:
filtro_notageral = dados_amostra['NU_NOTA_GERAL'] > 0
anos = [2018,2019,2020,2021,2022]
i = 0
j = 0

# Crie subplots em várias linhas e duas colunas
num_rows = len(anos)
num_cols = 2
fig, axes = plt.subplots(nrows=num_rows, ncols=num_cols, figsize=(15, 3 * num_rows))

# Aplicar o teste de normalidade de Shapiro-Wilk e plotar histogramas e Q-Q plots
for i, ano in enumerate(anos):
    filtro2 = dados_amostra['NU_ANO'] == ano
    amostra = pd.DataFrame(dados_amostra.loc[filtro_notageral & filtro2]['NU_NOTA_GERAL'])

    # Plotar histograma
    amostra.rename(columns={'NU_NOTA_GERAL': ano}).plot(kind='hist', ax=axes[i, 0], bins=100, range=(0,1000))
    axes[i, 0].set_xlabel('Notas')
    axes[i, 0].set_title(f'Histograma - Ano {ano}')

    # Aplicar o teste de normalidade de Shapiro-Wilk
    stat, p_valor = stats.shapiro(amostra['NU_NOTA_GERAL'])
    axes[i, 0].set_xlabel(f'SW p-valor: {p_valor:.10f}')

  # Plotar Q-Q plot
    stats.probplot(amostra['NU_NOTA_GERAL'], dist="norm", plot=axes[i, 1])
    axes[i, 1].set_title(f'Q-Q Plot - Ano {ano}')

plt.tight_layout()
plt.show()  # Para exibir os histogramas e Q-Q plots em várias linhas


A partir da analise dos gráficos e dos p-valores encontrados (todos abaixo de 0,05) atraves do teste "Shapiro-Wilk", podemos afirmar que as distribuições de notas não são normais em nenhum dos anos estudados.

### 2.4.2 Distribuição de notas dos últimos cinco anos no formato Box Plot.


O código processa dados de notas de alunos tratados. Ele seleciona as colunas de 'NU_NOTA_GERAL' e 'NU_ANO' para alunos que atendem a um certo critério. Em seguida, usando a biblioteca gráfica Plotly, ele cria um gráfico de caixa (box plot) em que os anos estão no eixo x e as notas gerais, normalizadas por 4, estão no eixo y. O gráfico exibe a distribuição das notas gerais ao longo dos anos.

In [None]:
# plotar grafico de linha da média das notas ao longo do tempo
filtro_notageral = dados_tratados['NU_NOTA_GERAL'] > 0
notas = dados_tratados.loc[filtro_notageral][['NU_NOTA_GERAL','NU_ANO']]
fig = go.Figure()
fig.add_trace(go.Box(
    x = notas['NU_ANO'],
    y = notas['NU_NOTA_GERAL']
))

#Adicionando elementos no grafico
fig.update_layout(
    title='Distribuição das Notas Gerais por Ano',
    xaxis_title='Ano',
    yaxis_title='Nota geral'

)

fig.update_traces(
    boxmean=True,  # Adiciona a linha de média dentro da caixa
    line_width=1.5,  # Espessura da linha dos box plots
)

Pelos bloxplots acima conseguimos ver que estamos com uma maior amplitude nas notas auferidas de 2020 para frente. As notas máximas e quartis superiores também se apresentam num valor acima do que vemos em 2019. A nota mínima também aumentou nesse período, contradizendo o que estavamos pensando ao ver o gráfico de cima.

Como as notas não parecem ter variado muito, vamos aplicar um teste estatistico de diferença de médias para comprovar. Como a distribuição das notas não é normal podemos fazer o teste de Mann-Whitney dois a dois (2018 x 2019, 2019 x 2020, etc) ou podemos fazer o teste Kruskall-Wallis que compara três ou mais grupos.
Vamos seguir com o teste Kruskall-Wallis:
* H0: Não há diferença entre as medianas dos grupos.
* Ha: Ao menos um dos grupos tem uma mediana diferente dos outros grupos.

Se o p-valor for menor que o nível de significancia determinado (0,05) rejeita-se H0.

In [None]:
#separando as notas por ano
notas2018 = notas[notas['NU_ANO']==2018]['NU_NOTA_GERAL']
notas2019 = notas[notas['NU_ANO']==2019]['NU_NOTA_GERAL']
notas2020 = notas[notas['NU_ANO']==2020]['NU_NOTA_GERAL']
notas2021 = notas[notas['NU_ANO']==2021]['NU_NOTA_GERAL']
notas2022 = notas[notas['NU_ANO']==2022]['NU_NOTA_GERAL']

# Realize o teste de Kruskal-Wallis
stat, p_valor = stats.kruskal(notas2018, notas2019, notas2020,notas2021,notas2022)
print(f"{p_valor:.{10}f}")


Como o p-valor encontrado foi menor que o nível de significancia, entendemos que ao menos uma das medias difere.


### 2.4.3 As notas médias dos alunos de escolas públicas e privadas foram afetadas de forma semelhante pela pandemia?

*Não inclui nota da redação.


O código seleciona informações relevantes de alunos, incluindo ano, tipo de escola, presença e nota geral. Ele calcula a média das notas gerais para alunos presentes em cada ano e tipo de escola. Em seguida, plota gráficos de linhas sobrepostas para mostrar a evolução da média das notas ao longo dos anos, separadas por tipos de escola.

In [None]:
presentes = dados_tratados[['NU_ANO','TP_ESCOLA','TP_PRESENCA','NU_NOTA_GERAL']]
presentes = presentes[presentes['TP_PRESENCA']==True].groupby(['NU_ANO','TP_ESCOLA']).agg({'NU_NOTA_GERAL': 'mean'})

presentes.reset_index(inplace=True)

In [None]:
#PARA CADA TIPO DE ESCOLA PLOTAR A MEDIA AO LONGO DOS ANOS, TRES LINHAS UMA EM CIMA DA OUTRA
# Criar uma lista de tipos de escola únicos
tipos_escola = presentes['TP_ESCOLA'].unique()

# Plotar os gráficos de linha sobrepostos para cada tipo de escola
for tipo_escola in tipos_escola:
    df_tipo_escola = presentes[presentes['TP_ESCOLA'] == tipo_escola]
    plt.plot(df_tipo_escola['NU_ANO'], df_tipo_escola['NU_NOTA_GERAL'], label=f'Tipo Escola {tipo_escola}')

plt.xticks(anos)
plt.title('Média das Notas por Ano para Cada Tipo de Escola')
plt.xlabel('Ano')
plt.ylabel('Média das Notas')
plt.legend(loc=0)
plt.show()

A partir do gráfico vemos que, exceto no ano de 2018, os alunos de escola privada tem uma média de notas mais altas.

## 2.5 Notas de redação

### 2.5.1 Houve mudança significativa nas notas de redação nos útimos 5 anos?

O código processa dados de notas de estudantes. Ele seleciona as colunas de 'NU_NOTA_REDACAO' e 'NU_ANO' de um DataFrame chamado 'dados_tratados' com base em um filtro. O código calcula a média e o desvio padrão das notas por ano e armazena esses cálculos em um novo DataFrame chamado 'media'. Em seguida, ele extrai a coluna de médias de notas ('NU_NOTA_REDACAO') desse DataFrame 'media' e a representa visualmente usando um gráfico de barras horizontais, onde cada barra representa um ano, a média das notas é o valor da barra, e a barra é acompanhada por barras de erro representando o desvio padrão das notas.

In [None]:
filtro_redacao = dados_tratados['NU_NOTA_REDACAO'] > 0
notas_redacao = dados_tratados.loc[filtro_redacao][['NU_NOTA_REDACAO','NU_ANO']]

media_redacao = notas_redacao.groupby('NU_ANO').agg([np.mean, np.std])

media_redacao2 = media_redacao['NU_NOTA_REDACAO']
media_redacao2.rename(columns={'mean':'Média Notas'}).plot(kind = 'barh', xerr = 'std',legend=False)

#printando
plt.title('Média e desvio padrão das notas da redação por ano')
plt.xlabel('Média das notas')
plt.ylabel('Ano')

###  2.5.2 Correlação entre as notas de redação e as notas nas provas de Linguagens, Códigos e suas Tecnologias

O código calcula a correção entre as notas da prova de linguagens e código e as notas da redação dos participantes. A correlação é retornada como um valor entre zero e um que expressao o nível de correlação.

In [None]:
#plotar scatterplot notas LC (linguagens e codigos) x notas redaçaão (hipotese, quem vai bem em portugues vai bem em redação)
notas_correlacao_LC = dados_tratados.loc[filtro_notageral & filtro_redacao][['NU_NOTA_LC','NU_NOTA_REDACAO']]
notas_correlacao_LC.corr()


In [None]:
import matplotlib.pyplot as plt

# Calcule a correlação entre as notas
correlacao = notas_correlacao_LC.corr().iloc[0, 1]

# Crie o scatterplot hexagonal
plt.figure(figsize=(8, 6))
plt.hexbin(
    x=notas_correlacao_LC['NU_NOTA_LC'],
    y=notas_correlacao_LC['NU_NOTA_REDACAO'],
    gridsize=20,  # Tamanho da grade hexagonal (ajuste conforme necessário)
    cmap='viridis',  # Escolha uma paleta de cores
    mincnt=1,  # Contagem mínima de pontos para colorir um hexágono (ajuste conforme necessário)
)
plt.colorbar(label='Contagem de Alunos')  # Adicione uma barra de cores com a etiqueta

# Defina os rótulos dos eixos e o título
plt.xlabel('Notas de LC (Linguagens e Códigos)')
plt.ylabel('Notas de Redação')
plt.title(f'Correlação: {correlacao:.2f}')

# Exibir o gráfico
plt.show()

### 2.5.3 Correlação entre as notas nas provas objetivas e as notas de redação


O código calcula a correção entre as notas gerais e as notas da redação dos participantes. A correlação é retornada como um valor entre zero e um que expressao o nível de correlação.

In [None]:
#plotar scatterplot notas gerais x notas redaçaão

notas_correlacao = dados_tratados.loc[filtro_notageral & filtro_redacao][['NU_NOTA_GERAL','NU_NOTA_REDACAO']]
notas_correlacao['NU_NOTA_GERAL'] = notas_correlacao['NU_NOTA_GERAL']

notas_correlacao.corr()


In [None]:
# Calcule a correlação entre as notas
correlacao_geral = notas_correlacao.corr().iloc[0, 1]

# Crie o scatterplot hexagonal
plt.figure(figsize=(8, 6))
plt.hexbin(
    x=notas_correlacao['NU_NOTA_GERAL'],
    y=notas_correlacao_LC['NU_NOTA_REDACAO'],
    gridsize=20,  # Tamanho da grade hexagonal (ajuste conforme necessário)
    cmap='viridis',  # Escolha uma paleta de cores
    mincnt=1,  # Contagem mínima de pontos para colorir um hexágono (ajuste conforme necessário)
)
plt.colorbar(label='Contagem de Alunos')  # Adicione uma barra de cores com a etiqueta

# Defina os rótulos dos eixos e o título
plt.xlabel('Notas gerais')
plt.ylabel('Notas de Redação')
plt.title(f'Correlação: {correlacao_geral:.2f}')

# Exibir o gráfico
plt.show()

### 2.5.4 Distribuição das notas de redação

O código processa dados de notas de alunos tratados. Ele seleciona as colunas de 'NU_NOTA_REDACAO' e 'NU_ANO' para alunos que atendem a um certo critério. Em seguida, usando a biblioteca gráfica Plotly, ele cria um gráfico de caixa (box plot) em que os anos estão no eixo x e as notas gerais, normalizadas por 4, estão no eixo y. O gráfico exibe a distribuição das notas gerais ao longo dos anos.

In [None]:
# plotar grafico de linha da média das notas ao longo do tempo

fig = go.Figure()
fig.add_trace(go.Box(
    x = notas_redacao['NU_ANO'],
    y = notas_redacao['NU_NOTA_REDACAO']
))

#Adicionando elementos no grafico
fig.update_layout(
    title='Distribuição das Notas das redações por Ano',
    xaxis_title='Ano',
    yaxis_title='Nota Redação'

)

fig.update_traces(
    boxmean=True,  # Adiciona a linha de média dentro da caixa
    line_width=1.5,  # Espessura da linha dos box plots
)

Teste de Hipótese:

Vamos executar o Teste de Wilcoxon ou Mann-Whitney, em que podemos comparar a média ou a mediana de duas amostras independentes, sem fazer suposições sobre a distribuição das amostras.

Fazendo a comparação das médias:

▪ H0: 𝑀𝐴 = 𝑀𝐵 ou (𝑀𝐴 - 𝑀𝐵) = 0

▪ H1: 𝑀𝐴 ≠ 𝑀𝐵 ou (𝑀𝐴 - 𝑀𝐵) ≠ 0

Se o p-value é < 0,05 rejeitamos a hipótese nula.

In [None]:
#filtrando os dataframes para ter apenas os dados dos respectivos anos
redacao_2019 = dados_tratados.loc[dados_tratados['NU_ANO'] == 2019]
redacao_2020 = dados_tratados.loc[dados_tratados['NU_ANO'] == 2020]

#filtrando para manter apenas a coluna de notas de redacao
redacao_2019 = redacao_2019['NU_NOTA_REDACAO']
redacao_2020 = redacao_2020['NU_NOTA_REDACAO']

#tirando o index
redacao_2019 = redacao_2019.reset_index(drop = True)
redacao_2020 = redacao_2020.reset_index(drop = True)

import scipy.stats as stats
stats.mannwhitneyu(redacao_2019,redacao_2020, alternative = 'two-sided')

 Resultado: p < 0,05.

 A hipótese H0 é rejeitada e portanto há evidências significativas de que a nota média entre os anos de 2019 e 2020 variou.

### 2.5.5 Houve mais dificuldade com redação durante a pandemia?

O código une dados de tipos de redação e seus status com dados tratados. Ele calcula a proporção de cada status de redação para cada ano, transforma os dados em um formato tabular e cria um gráfico de barras. O gráfico ilustra a relação entre os status das redações e os anos.

In [None]:
#Criando variável tipo de redaçao
#plotar status redação geral (sem ser por ano, apenas tipos)
tipo_redacao = dados_tratados.merge(dp_redacao.reindex(), on = 'TP_STATUS_REDACAO', how = 'left')
tipo_redacao = tipo_redacao[['NU_ANO' , 'Status Redacao' ]].value_counts(normalize=True) * 100
tipo_redacao = tipo_redacao.unstack()

In [None]:
# Plotar o gráfico de barras
ax = tipo_redacao.plot.bar()

# Personalizar a legenda
legend_labels = tipo_redacao.columns  # Labels da legenda (Status Redacao)

# Posicionar a legenda abaixo do gráfico, centralizado
ax.legend(legend_labels, loc='upper center', bbox_to_anchor=(0.5, -0.15), ncol=len(legend_labels))

# Resto do código de personalização
plt.title('Relação dos status das redações por ano')
plt.xlabel('Ano')
plt.ylabel('Proporção (%)')
plt.xticks(rotation=0)
plt.tight_layout()

# Mostrar o gráfico
plt.show()

## 2.6 Alunos do terceiro ano

### 2.6.1 Como as notas de redação dos terceiro anistas foi impactada pela pandemia?

O código realiza uma análise das notas de redação entre estudantes do terceiro ano do ensino médio. Ele filtra os dados para terceiro-anistas, calcula a média e o desvio padrão das notas de redação agrupadas por ano. Em seguida, renomeia colunas e compara essas médias com uma média geral de notas de redação. Um gráfico é gerado para exibir as médias das notas dos terceiro-anistas e a média geral ao longo dos anos. Intervalos de confiança são sombreados para indicar a variabilidade das médias. O objetivo é analisar como as notas de redação dos terceiro-anistas se comparam com a média geral em diferentes anos.

In [None]:
#Entre os Terceiro Anistas:
filtro_terceiroanista = dados_tratados['TP_ST_CONCLUSAO'] == 2
terc_sit_EM = dados_tratados.loc[filtro_terceiroanista & filtro_redacao][['NU_NOTA_REDACAO','NU_ANO']]
media_terceiroanista = terc_sit_EM.groupby('NU_ANO').agg([np.mean, np.std])
media_terceiroanista2 = media_terceiroanista['NU_NOTA_REDACAO']
#renomeando colunas
media_terceiroanista2 = media_terceiroanista2.rename(columns={'mean':'mean 3a','std':'std 3a'})
media_redacao_compara = media_redacao2.rename(columns={'mean':'mean geral','std':'std geral'})

grafico_redacao = pd.concat([media_terceiroanista2,media_redacao_compara], axis = 1).reset_index()
grafico_redacao.plot(x = 'NU_ANO',y=["mean 3a", "mean geral"],  style='.-' , figsize = (15,8), xticks =grafico_redacao['NU_ANO'])
y1 = np.array(grafico_redacao['mean 3a']) - np.array(grafico_redacao['std 3a'])
y2 = np.array(grafico_redacao['mean 3a']) + np.array(grafico_redacao['std 3a'])
plt.fill_between(grafico_redacao['NU_ANO'],y1,y2,alpha=.1)
y1 = np.array(grafico_redacao['mean geral']) - np.array(grafico_redacao['std geral'])
y2 = np.array(grafico_redacao['mean geral']) + np.array(grafico_redacao['std geral'])
plt.fill_between(grafico_redacao['NU_ANO'],y1,y2,alpha=.1)




### 2.6.2 Houve alguma mudança significativa na participação de terceiro anistas diante da pandemia?


O código combina dados de inscrição com informações de conclusão do Ensino Médio. Ele cria um gráfico de barras empilhadas para representar a distribuição das situações de conclusão do Ensino Médio ao longo dos anos de inscrição.

In [None]:
#Código
inscritos_sit_EM = dados_tratados.merge(dp_conclusao.reindex(), on = 'TP_ST_CONCLUSAO', how = 'left')
inscritos_sit_EM = inscritos_sit_EM[['NU_ANO','Situação do Ensino Médio']].value_counts()
inscritos_sit_EM.unstack().plot.bar(stacked=True, figsize = (15,8)).legend(loc=0)

#printando
plt.title('Situação do ensino médio por ano')
plt.xlabel('Ano')
plt.ylabel('Quantidade')
plt.xticks(rotation=0)


#presente = pd.DataFrame(dados_tratados[dados_tratados['TP_PRESENCA'] == True]['NU_ANO'].value_counts())
#alunos = pd.concat([inscritos.rename(columns = {'NU_ANO':'Inscritos'}),presente.rename(columns = {'NU_ANO':'Presentes'})],axis = 1)
#alunos.sort_index().plot(kind='bar')

A participação de pessoas que já concluíram o ensino médio no ENEM diminuiu significativamente após 2020.

---
# 3. Conclusão

## 3.1 Dificuldades e aprendizados


*   Pouco tempo para decisão do dataset
*   Dificuldade em trabalhar com dataset muito grande (garantir a reprodutibilidade)
* Dificuldade em trabalhar num ambiente colaborativo e versionado.
* Identificar os testes de hipíotese adequados para cada caso



## 3.2 Pontos Positivos


*   Equipe multidisciplinar
*   Troca de experiências

