# Projeto Estatistica
## Grupo 6 - Turma 1007 - ADA Santader Coders 2023 Data Science
---
## Membros
### Clara Ferreira Batista
### Laura Muglia
### Luana Ferraz
### Rafael Couto de Oliveira
---

Nosso reposit√≥rio :
https://github.com/claraferreirabatista/analise_estatistica_microdados_do_enem

---
## *Introdu√ß√£o*

* Motivo do trabalho: Analise dos Microdados do Enem;
* Contexto da analise do trabalho: Analise do impacto da COVID-19 nos n√∫meros da regi√£o Centro-oeste referente aos anos de 2018 a 2022;
* Onde encontrar os dados : https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem.

### Divis√£o de tarefas

* Escolha do t√≥pico: Laura Muglia
* Carregamento, limpeza e tratativa dos dados: Rafael Couto
* Elabora√ß√£o das perguntas: Luana Ferraz e Laura Muglia
* An√°lise explorat√≥ria: Rafael Couto
* Elabora√ß√£o de gr√°ficos: Luana Ferraz
* BugFix, reprodutibilidade e reposit√≥rio: Clara Ferreira Batista
* Conclus√µes: Todos
---


# Carregamento dos dados e bibliotecas
Importando as bibliotecas necess√°rias e carregando os dados que j√° foram tratados previamente.
Nosso conjunto de dados caracteriza uma popula√ß√£o pois contem todos os participantes do ENEM da regi√£o CO.

In [None]:
# Importar bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import re
import numpy as np
import scipy.stats as stats

import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px

#Carregando direto os Dados Tratados:
dados_tratados = pd.read_parquet('ENEM_CO_TRATADO.parquet')

Ap√≥s limpeza e tratamento dos dados, a base tem 1760255 elementos e 25 colunas.

## Tabelas "De-para"

Elabora√ß√£o das tabelas "de-para" para valores que est√£o como "flag" ou valores num√©ricos, por√©m representam variaveis categ√≥ricas. Usado para vari√°veis de alta variabilidade.

In [None]:
#Tabela de/para: Faixa et√°ria

# Dados para a coluna #TP_FAIXA_ETARIA
dp_idades = {
    'TP_FAIXA_ETARIA': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
                         11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    'Faixa Et√°ria': ['Menor de 17 anos', '17 anos', '18 anos', '19 anos', '20 anos',
                     '21 anos', '22 anos', '23 anos', '24 anos', '25 anos',
                     'Entre 26 e 30 anos', 'Entre 31 e 35 anos', 'Entre 36 e 40 anos', 'Entre 41 e 45 anos',
                     'Entre 46 e 50 anos', 'Entre 51 e 55 anos', 'Entre 56 e 60 anos',
                     'Entre 61 e 65 anos', 'Entre 66 e 70 anos', 'Maior de 70 anos'],
    'M√©dia idade': [16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 28, 33, 38, 43, 48, 53, 58, 63, 68, 72]
}

dp_idades = pd.DataFrame(dp_idades).set_index('TP_FAIXA_ETARIA')

In [None]:
#Tabela de/para: Cor/Ra√ßa

#Dados para a coluna #TP_COR_RACA
dp_raca = {
    'TP_COR_RACA': [0, 1, 2, 3, 4, 5, 6],
    'Cor/Ra√ßa': ['N√£o declarado', 'Branca', 'Preta', 'Parda', 'Amarela', 'Ind√≠gena', 'N√£o disp√µe da informa√ß√£o']
}
dp_raca = pd.DataFrame(dp_raca).set_index('TP_COR_RACA')

In [None]:
#Tabela de/para: Nacionalidade

#Dados para a coluna TP_NACIONALIDADE
dp_nacionalidade = {
    'TP_NACIONALIDADE': [0, 1, 2, 3, 4],
    'Nacionalidade_info': ['N√£o informado', 'Brasileiro(a)', 'Brasileiro(a) Naturalizado(a)',
                      'Estrangeiro(a)', 'Brasileiro(a) Nato(a), nascido(a) no exterior']
}

dp_nacionalidade = pd.DataFrame(dp_nacionalidade).set_index('TP_NACIONALIDADE')

In [None]:
#Tabela de/para: Situa√ß√£o conclus√£o

#Dados para a coluna TP_ST_CONCLUSAO
dp_conclusao = {
    'TP_ST_CONCLUSAO': [1, 2, 3, 4],
    'Situa√ß√£o do Ensino M√©dio': ['J√° conclu√≠ o Ensino M√©dio',
                                 'Estou cursando e concluirei o Ensino M√©dio no Ano da Prova',
                                 'Estou cursando e concluirei o Ensino M√©dio ap√≥s o Ano da Prova',
                                 'N√£o conclu√≠ e n√£o estou cursando o Ensino M√©dio']
}

dp_conclusao = pd.DataFrame(dp_conclusao).set_index('TP_ST_CONCLUSAO')

In [None]:
#Tabela de/para: Ano Conclus√£o

# Dados para a coluna #TP_ANO_CONCLUIU
dp_ano_conclusao = {
    'TP_ANO_CONCLUIU': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
                         11, 12, 13, 14, 15, 16],
    'Ano Concluiu': ['N√£o informado', '2021', '2020', '2019', '2018', '2017', '2016',
                     '2015', '2014', '2013', '2012', '2011', '2010', '2009', '2008',
                     '2007', 'Antes de 2007']
}

dp_ano_conclusao = pd.DataFrame(dp_ano_conclusao).set_index('TP_ANO_CONCLUIU')

In [None]:
#Tabela de/para: Status Reda√ß√£o

# Dados para a coluna TP_STATUS_REDACAO

dp_redacao = {
    'TP_STATUS_REDACAO': [1, 2, 3, 4, 6, 7, 8, 9],
    'Status Redacao': ['Sem problemas', 'Anulada', 'C√≥pia Texto Motivador', 'Em Branco',
                       'Fuga ao tema', 'N√£o atendimento ao tipo textual', 'Texto insuficiente', 'Parte desconectada']
}

dp_redacao = pd.DataFrame(dp_redacao).set_index('TP_STATUS_REDACAO')

---
# 1. An√°lise Explorat√≥ria das vari√°veis
Visualiza√ß√µes de algumas vari√°veis para poss√≠veis insights.


In [None]:
#Informa√ß√µes estatisticas

#For√ßar o pandas a mostras as informa√ß√µes como float, 2 casas decimais
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# MOSTRAR APENAS DADOS QUANTITATIVOS E fORMATAR
dados_numericos =  dados_tratados[['NU_NOTA_REDACAO', 'NU_NOTA_GERAL','NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT']]
display(dados_numericos.describe())

Como a popula√ß√£o √©considerada grande (1760255 entradas) vamos calcular uma amostra da mesma. Para isso vamos consideram margem de erro de 2% e n√≠vel de confian√ßa de 99% (Z = 2,575). Como n√£o conhecemos a distribui√ß√£o da popula√ß√£o, vamos utilizar um valor conservados de 0.5.

$$
n = \frac{{Z^2 \cdot P \cdot (1 - P)}}{{E^2}}
$$

In [None]:
#Calculo da quantidade amostra
z=2.575  #99%
p=0.5    #valor conservador
e=0.02   #erro de 2%

tamanho_amostra = (((z**2)*p*(1-p))/(e**2))//1 +1
print(tamanho_amostra)

Assim, definimos que nossa amostra deve ser composta de pelo menos 4145 elementos.

In [None]:
#Definindo a amostra (utilizando random state como 123 para garantir a reprodutibilidade)

dados_amostra = dados_tratados.sample(n=int(tamanho_amostra), random_state=123)

## 2.1 An√°lise dos inscritos
Visualiza√ß√£o da rela√ß√£o de inscritos e presentes ao longo dos anos.

#### 2.1.1 Qual a faixa et√°ria dos inscritos no ENEM entre 2018 e 2022?

O c√≥digo analisa dados de faixa et√°ria de alunos. Ele cria um DataFrame com contagem de alunos por faixa et√°ria. Em seguida, combina esse DataFrame com um de-para das descri√ß√µes das faixas et√°rias.

In [None]:
#Plotar QUANTIDADE_INSCRITOS X ANO NU_ANO
inscritos = pd.DataFrame(dados_tratados['NU_ANO'].value_counts())
presente = pd.DataFrame(dados_tratados[dados_tratados['TP_PRESENCA'] == True]['NU_ANO'].value_counts())
alunos = pd.concat([inscritos.rename(columns = {'NU_ANO':'Inscritos'}),presente.rename(columns = {'NU_ANO':'Presentes'})],axis = 1)
alunos.sort_index().plot(kind='bar')



In [None]:
#printando
plt.title('Quantidade de alunos por faixa et√°ria')
plt.xlabel('Quantidade')
plt.tight_layout()
plt.show()

Pelo gr√°fico acima conseguimos ver que a maior concentra√ß√£o dos participantes est√° em idade de terceiro ano do ensino m√©dio e cursinho (de 17 a 19 anos).

In [None]:
#Hipotese: diferen√ßa entre duas faixas etarias √© estatisticamente significativa?
#aplciar teste de hipotese das diferen√ßas

#### 2.1.2 Como a faixa et√°ria dos inscritos mudou ao longo da pandemia?

O c√≥digo realiza uma an√°lise da distribui√ß√£o da quantidade de alunos por faixa et√°ria ao longo dos anos. Inicialmente, ele mescla dados da faixa et√°ria dos alunos com informa√ß√µes relacionadas a idades, usando um m√©todo de jun√ß√£o (merge) por correspond√™ncia na coluna 'TP_FAIXA_ETARIA'. Em seguida, calcula as contagens dessa combina√ß√£o de faixa et√°ria e ano. Esses valores s√£o organizados em um heatmap (mapa de calor) utilizando a biblioteca Seaborn, onde as cores representam a quantidade de alunos. O

In [None]:
#Plotar quantidades x faixas etarias por ano

Faixa_Etaria_Ano = dados_tratados.merge(dp_idades.reindex(), on = 'TP_FAIXA_ETARIA', how = 'left')
Faixa_Etaria_Ano = Faixa_Etaria_Ano[['Faixa Et√°ria', 'NU_ANO']].value_counts()
Faixa_Etaria_Ano = Faixa_Etaria_Ano.unstack()
cmap = sns.cm.rocket_r
sns.heatmap(Faixa_Etaria_Ano, cmap = cmap)
#Faixa_Etaria_Ano.sort_index().plot.barh( stacked = True)

#printando
plt.title('Heatmap da quantidade de alunos por faixa et√°ria por ano')
plt.xlabel('Ano')
plt.tight_layout()
plt.show()

O gr√°fico acima confirma que as faixas de idade de maior concentra√ß√£o de participantes sempre se manteve entre os participantes entre 17 e 19 anos ao longo dos anos de nossa an√°lise. Aqui tamb√©m conseguimos notar que a participa√ß√£o de pessoas acima de 20 anos diminuiu bastante entre 2020 e 2022, principalmente na faixa de 26 a 30 anos.

#### 2.1.3 Qual o perfil escolar dos estudantes inscritos no ENEM nos √∫ltimos 5 anos?

O c√≥digo analisa dados sobre o tipo de escola em diferentes anos. Ele realiza uma contagem da frequ√™ncia de tipos de escola para cada ano e organiza esses dados em um gr√°fico simples de barras horizontais de barras duplas.

In [None]:
#plotar tipo de escola x anos (barras duplas)
tipo_escola = dados_tratados[['NU_ANO', 'TP_ESCOLA']].value_counts()
tipo_escola = tipo_escola.unstack()
tipo_escola.plot.barh()

#printando
plt.title('Tipo de escola por ano')
plt.xlabel('Quantidade')
plt.ylabel('Ano')
plt.tight_layout()
plt.show()

Aqui conseguimos perceber que o volume de participantes de escolas particulares e p√∫blicas n√£o mudou muito ao longo desses 5 anos. J√° os participantes que n√£o responderam a essa pergunta diminuiu bastante, principalmente entre 2020 e 2022.

#### 2.1.4 - Como a quantidade de ausentes mudou ao longo do tempo?

O c√≥digo analisa dados de presen√ßa de alunos ao longo dos anos. Ele seleciona as colunas de "ano" e "tipo de presen√ßa" de um conjunto de dados tratados. Depois, filtra os registros em que a presen√ßa √© "falsa" (ausente) e agrupa esses dados por ano, contando a quantidade de aus√™ncias em cada ano.

In [None]:
ausentes = dados_tratados[['NU_ANO','TP_PRESENCA']]
ausentes = ausentes[ausentes['TP_PRESENCA'] == False].groupby('NU_ANO').count()

ausentes.plot.barh(legend=False)

#printando
plt.title('Quantidade de ausentes por ano')
plt.xlabel('Quantidade')
plt.ylabel('Ano')


Baseado no gr√°fico vemos que n√£o existe uma tendencia clara de aus√™ncia mas que no ano de 2020 (primeiro ano da pandemia COVID-19) houve um aumento expressivo.

#### 2.1.5 - Como a pandemia impactou na evasao √† prova do enem e na quantidade de inscritos no ENEM?


O c√≥digo analisa dados de participa√ß√£o de estudantes em anos diferentes. Dois DataFrames s√£o criados: um com contagem de inscritos por ano e outro com contagem de presentes por ano. Esses DataFrames s√£o combinados e um gr√°fico de barras √© gerado para comparar inscritos e presentes ao longo dos anos.

In [None]:
#Plotar QUANTIDADE_INSCRITOS X ANO NU_ANO
inscritos = pd.DataFrame(dados_tratados['NU_ANO'].value_counts())
presente = pd.DataFrame(dados_tratados[dados_tratados['TP_PRESENCA'] == True]['NU_ANO'].value_counts())
alunos = pd.concat([inscritos.rename(columns = {'NU_ANO':'Inscritos'}),presente.rename(columns = {'NU_ANO':'Presentes'})],axis = 1)
alunos.sort_index().plot(kind='bar')
#alunos.sort_index()

#printando
plt.title('Alunos Inscritos x Alunos Presentes')
plt.xlabel('Ano')
plt.ylabel('Quantidade')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()



Nesse gr√°fico acima conseguimos ver que o ano que estourou a pandemia (2020) tivemos o maior n√∫mero de inscritos desde per√≠odo da nossa amostra, por√©m tamb√©m tivemos a menor convers√£o desses inscritos para presentes na prova, podendo isso ter sido motivado pela preocupa√ß√£o das pessoas em se deslocar at√© o local da prova pela pandemia em andamento entre outros motivos.

## 2.3 L√≠ngua

### 2.3.1 Qual foi a  prefer√™ncia dos inscritos para a prova de l√≠gua estrangeira nos √∫ltimos 5 anos?




O c√≥digo examina dados sobre o tipo de l√≠ngua escolhido pelos alunos em diferentes anos. Ele cria um DataFrame que conta a quantidade de escolhas de cada tipo de l√≠ngua por ano. Os dados s√£o reformulados para facilitar a visualiza√ß√£o, gerando um gr√°fico de barras horizontais.

In [None]:
#plotar quantidades linguas x anos (barras duplas)
tipo_lingua = dados_tratados[['NU_ANO', 'TP_LINGUA']].value_counts()
tipo_lingua = tipo_lingua.unstack()
tipo_lingua.plot.barh()

#printando
plt.title('Rela√ß√£o das linguas por ano')
plt.xlabel('Quantidade')
plt.ylabel('Ano')
plt.tight_layout()
plt.show()

Assim como observamos nos gr√°ficos anteriores, tivemos uma redu√ß√£o no n√∫mero de participantes do Enem nos √∫ltimos anos. Mas em rela√ß√£o √† lingua que escolheram para fazer a prova de l√≠ngua estrageira, tivemos uma queda mais significativa na escolha pela prova de espanhol do que de ingl√™s de 2020 at√© 2022.

### 2.3.2 Estados que fazem divisa com pa√≠ses que falam espanhol tiveram maior prefer√™cia pela linha espanhola?





O c√≥digo compara a prefer√™ncia de idioma (ingl√™s ou espanhol) em provas por estado. Ele calcula a diferen√ßa percentual entre o n√∫mero de provas realizadas em espanhol e ingl√™s em cada estado. Em seguida, cria um gr√°fico de barras horizontais que exibe essas diferen√ßas. Valores de diferen√ßa percentual s√£o adicionados ao gr√°fico para cada estado. O gr√°fico ilustra as discrep√¢ncias na escolha de idioma entre os estados nas provas.

In [None]:
tipo_lingua = dados_tratados[['SG_UF_PROVA','TP_LINGUA' ]].value_counts()
tipo_lingua = tipo_lingua.unstack().reset_index().set_index('SG_UF_PROVA')

#Calcular a diferen√ßa percentual
tipo_lingua['diferenca'] = 100 * (tipo_lingua['Espanhol'] - tipo_lingua['Ingl√™s']) / tipo_lingua['Espanhol']

# Plotar o gr√°fico de barras horizontais
plt.figure(figsize=(10, 6))
graf34 = tipo_lingua.plot.barh()

# Adicionar os valores da coluna 'diferenca' no gr√°fico
for i, v in enumerate(tipo_lingua['diferenca']):
    graf34.text(v+200_000, i+0.17, f'Diferen√ßa: {v:.2f}%', color='black', fontsize=10, va='center')

#printando
plt.title('Diferen√ßa entre lingua inglesa e espanhola nos estados')
plt.xlabel('Quantidade')
plt.ylabel('Estado')

Todos os estados da regi√£o centro-oeste apresentam uma preferencia de escolha de lingua estrangeira pela l√≠ngua espanhola, por√©m os estados onde a diferen√ßa √© maior s√£o MT (divisa com pa√≠s que fala a l√≠ngua espanhola) e GO (n√£o faz d√≠visa com pa√≠s que fala l√≠ngua espanhola).

In [None]:
import numpy as np
from scipy.stats import chi2_contingency

# # Tabela de frequ√™ncia observada
observada = np.array([[tipo_lingua['Ingl√™s']['DF'], tipo_lingua['Espanhol']['DF']],
                      [tipo_lingua['Ingl√™s']['GO'], tipo_lingua['Espanhol']['GO']],
                      [tipo_lingua['Ingl√™s']['MS'], tipo_lingua['Espanhol']['MS']],
                      [tipo_lingua['Ingl√™s']['MT'], tipo_lingua['Espanhol']['MT']]])

# Executar o teste de qui-quadrado de independ√™ncia
chi2, p, dof, expected = chi2_contingency(observada)

# Imprimir os resultados
print(f"Qui-quadrado observado: {chi2}")
print(f"Valor-p: {p}")
print("Tabela de frequ√™ncia esperada:")
print(expected)
print()

# Defina o n√≠vel de signific√¢ncia (alfa)
alfa = 0.05

# Verifique se o valor p √© menor que o n√≠vel de signific√¢ncia
if p < alfa:
    print("H√° uma rela√ß√£o estatisticamente significativa entre a localiza√ß√£o do estado e a escolha de idioma.")
else:
    print("N√£o h√° evid√™ncia estat√≠stica de rela√ß√£o entre a localiza√ß√£o do estado e a escolha de idioma.")

Utilizando o teste qui-quadrado para verificar se o estado tem infl√ªencia na escolha da lingua no ENEM, podemos verificar se h√° ou n√£o relev√¢ncia estat√≠stica. O valor-p obtido √© igual a 0.0, o que mostra que h√° influ√™ncia do estado na escolha da l√≠ngua.

## 2.4 Notas Gerais

### 2.4.1 Como foi a distribui√ß√£o de notas nos √∫ltimos cinco anos?

*N√£o inclui nota de reda√ß√£o.


O c√≥digo cria um conjunto de seis gr√°ficos de histograma em uma matriz de 2x3 para visualizar as notas gerais dos alunos nos anos de 2018 a 2022. Ele itera atrav√©s desses anos, filtrando os dados correspondentes a cada ano. Em seguida, cria um DataFrame com as notas gerais e plota um histograma para cada ano nos subplots da matriz.

In [None]:
#nota geral nao inclui a redacao

filtro_notageral = dados_tratados['NU_NOTA_GERAL'] > 0
anos = [2018,2019,2020,2021,2022]
fig, axes = plt.subplots(nrows=2, ncols=3,figsize=(20, 10))
i = 0
j = 0

for ano in anos:
    filtro2 = dados_tratados['NU_ANO'] == ano
    amostra = pd.DataFrame(dados_tratados.loc[filtro_notageral & filtro2]['NU_NOTA_GERAL'])

    amostra.rename(columns={'NU_NOTA_GERAL':ano}).plot(kind = 'hist', ax=axes[i,j],bins=100,range=(0,1000))
    axes[i, j].set_xlabel('Notas')

    if j <= 1 :
        j = j+1
    else:
        j = 0
        i = i+1
  #printando

Pelos gr√°ficos acima conseguimos ver que tivemos uma mudan√ßa de patamar de notas gerais acima de 600 (sem incluir a nota de reda√ß√£o) de 2020 pra frente. O volume de notas boas caiu muito, o que d√° uma primeira impress√£o de termos resultadores piores em per√≠odos pand√™micos e p√≥s-pand√™micos.

Vamos verificar se essas distribui√ß√µes s√£o normais ou n√£o atravez do teste "Shapiro-wilk" de normalidade, porem a popula√ß√£o √© muito grande ent√£o para isso vamos usar a amostra definida anteriormente.

* H0: Os dados s√£o normalmente distribu√≠dos.
* H1: Os dados n√£o s√£o normalmente distribu√≠dos.

Se o p-valor for menor que o n√≠vel de significancia determinado (0,05) rejeita-se H0.

In [None]:
filtro_notageral = dados_amostra['NU_NOTA_GERAL'] > 0
anos = [2018,2019,2020,2021,2022]
i = 0
j = 0

# Crie subplots em v√°rias linhas e duas colunas
num_rows = len(anos)
num_cols = 2
fig, axes = plt.subplots(nrows=num_rows, ncols=num_cols, figsize=(15, 3 * num_rows))

# Aplicar o teste de normalidade de Shapiro-Wilk e plotar histogramas e Q-Q plots
for i, ano in enumerate(anos):
    filtro2 = dados_amostra['NU_ANO'] == ano
    amostra = pd.DataFrame(dados_amostra.loc[filtro_notageral & filtro2]['NU_NOTA_GERAL'])

    # Plotar histograma
    amostra.rename(columns={'NU_NOTA_GERAL': ano}).plot(kind='hist', ax=axes[i, 0], bins=100, range=(0,1000))
    axes[i, 0].set_xlabel('Notas')
    axes[i, 0].set_title(f'Histograma - Ano {ano}')

    # Aplicar o teste de normalidade de Shapiro-Wilk
    stat, p_valor = stats.shapiro(amostra['NU_NOTA_GERAL'])
    axes[i, 0].set_xlabel(f'SW p-valor: {p_valor:.10f}')

  # Plotar Q-Q plot
    stats.probplot(amostra['NU_NOTA_GERAL'], dist="norm", plot=axes[i, 1])
    axes[i, 1].set_title(f'Q-Q Plot - Ano {ano}')

plt.tight_layout()
plt.show()  # Para exibir os histogramas e Q-Q plots em v√°rias linhas


A partir da analise dos gr√°ficos e dos p-valores encontrados (todos abaixo de 0,05) atraves do teste "Shapiro-Wilk", podemos afirmar que as distribui√ß√µes de notas n√£o s√£o normais em nenhum dos anos estudados.

### 2.4.2 Distribui√ß√£o de notas dos √∫ltimos cinco anos no formato Box Plot.


O c√≥digo processa dados de notas de alunos tratados. Ele seleciona as colunas de 'NU_NOTA_GERAL' e 'NU_ANO' para alunos que atendem a um certo crit√©rio. Em seguida, usando a biblioteca gr√°fica Plotly, ele cria um gr√°fico de caixa (box plot) em que os anos est√£o no eixo x e as notas gerais, normalizadas por 4, est√£o no eixo y. O gr√°fico exibe a distribui√ß√£o das notas gerais ao longo dos anos.

In [None]:
# plotar grafico de linha da m√©dia das notas ao longo do tempo
filtro_notageral = dados_tratados['NU_NOTA_GERAL'] > 0
notas = dados_tratados.loc[filtro_notageral][['NU_NOTA_GERAL','NU_ANO']]
fig = go.Figure()
fig.add_trace(go.Box(
    x = notas['NU_ANO'],
    y = notas['NU_NOTA_GERAL']
))

#Adicionando elementos no grafico
fig.update_layout(
    title='Distribui√ß√£o das Notas Gerais por Ano',
    xaxis_title='Ano',
    yaxis_title='Nota geral'

)

fig.update_traces(
    boxmean=True,  # Adiciona a linha de m√©dia dentro da caixa
    line_width=1.5,  # Espessura da linha dos box plots
)

Pelos bloxplots acima conseguimos ver que estamos com uma maior amplitude nas notas auferidas de 2020 para frente. As notas m√°ximas e quartis superiores tamb√©m se apresentam num valor acima do que vemos em 2019. A nota m√≠nima tamb√©m aumentou nesse per√≠odo, contradizendo o que estavamos pensando ao ver o gr√°fico de cima.

Como as notas n√£o parecem ter variado muito, vamos aplicar um teste estatistico de diferen√ßa de m√©dias para comprovar. Como a distribui√ß√£o das notas n√£o √© normal podemos fazer o teste de Mann-Whitney dois a dois (2018 x 2019, 2019 x 2020, etc) ou podemos fazer o teste Kruskall-Wallis que compara tr√™s ou mais grupos.
Vamos seguir com o teste Kruskall-Wallis:
* H0: N√£o h√° diferen√ßa entre as medianas dos grupos.
* Ha: Ao menos um dos grupos tem uma mediana diferente dos outros grupos.

Se o p-valor for menor que o n√≠vel de significancia determinado (0,05) rejeita-se H0.

In [None]:
#separando as notas por ano
notas2018 = notas[notas['NU_ANO']==2018]['NU_NOTA_GERAL']
notas2019 = notas[notas['NU_ANO']==2019]['NU_NOTA_GERAL']
notas2020 = notas[notas['NU_ANO']==2020]['NU_NOTA_GERAL']
notas2021 = notas[notas['NU_ANO']==2021]['NU_NOTA_GERAL']
notas2022 = notas[notas['NU_ANO']==2022]['NU_NOTA_GERAL']

# Realize o teste de Kruskal-Wallis
stat, p_valor = stats.kruskal(notas2018, notas2019, notas2020,notas2021,notas2022)
print(f"{p_valor:.{10}f}")


Como o p-valor encontrado foi menor que o n√≠vel de significancia, entendemos que ao menos uma das medias difere.


### 2.4.3 As notas m√©dias dos alunos de escolas p√∫blicas e privadas foram afetadas de forma semelhante pela pandemia?

*N√£o inclui nota da reda√ß√£o.


O c√≥digo seleciona informa√ß√µes relevantes de alunos, incluindo ano, tipo de escola, presen√ßa e nota geral. Ele calcula a m√©dia das notas gerais para alunos presentes em cada ano e tipo de escola. Em seguida, plota gr√°ficos de linhas sobrepostas para mostrar a evolu√ß√£o da m√©dia das notas ao longo dos anos, separadas por tipos de escola.

In [None]:
presentes = dados_tratados[['NU_ANO','TP_ESCOLA','TP_PRESENCA','NU_NOTA_GERAL']]
presentes = presentes[presentes['TP_PRESENCA']==True].groupby(['NU_ANO','TP_ESCOLA']).agg({'NU_NOTA_GERAL': 'mean'})

presentes.reset_index(inplace=True)

In [None]:
#PARA CADA TIPO DE ESCOLA PLOTAR A MEDIA AO LONGO DOS ANOS, TRES LINHAS UMA EM CIMA DA OUTRA
# Criar uma lista de tipos de escola √∫nicos
tipos_escola = presentes['TP_ESCOLA'].unique()

# Plotar os gr√°ficos de linha sobrepostos para cada tipo de escola
for tipo_escola in tipos_escola:
    df_tipo_escola = presentes[presentes['TP_ESCOLA'] == tipo_escola]
    plt.plot(df_tipo_escola['NU_ANO'], df_tipo_escola['NU_NOTA_GERAL'], label=f'Tipo Escola {tipo_escola}')

plt.xticks(anos)
plt.title('M√©dia das Notas por Ano para Cada Tipo de Escola')
plt.xlabel('Ano')
plt.ylabel('M√©dia das Notas')
plt.legend(loc=0)
plt.show()

A partir do gr√°fico vemos que, exceto no ano de 2018, os alunos de escola privada tem uma m√©dia de notas mais altas.

## 2.5 Notas de reda√ß√£o

### 2.5.1 Houve mudan√ßa significativa nas notas de reda√ß√£o nos √∫timos 5 anos?

O c√≥digo processa dados de notas de estudantes. Ele seleciona as colunas de 'NU_NOTA_REDACAO' e 'NU_ANO' de um DataFrame chamado 'dados_tratados' com base em um filtro. O c√≥digo calcula a m√©dia e o desvio padr√£o das notas por ano e armazena esses c√°lculos em um novo DataFrame chamado 'media'. Em seguida, ele extrai a coluna de m√©dias de notas ('NU_NOTA_REDACAO') desse DataFrame 'media' e a representa visualmente usando um gr√°fico de barras horizontais, onde cada barra representa um ano, a m√©dia das notas √© o valor da barra, e a barra √© acompanhada por barras de erro representando o desvio padr√£o das notas.

In [None]:
filtro_redacao = dados_tratados['NU_NOTA_REDACAO'] > 0
notas_redacao = dados_tratados.loc[filtro_redacao][['NU_NOTA_REDACAO','NU_ANO']]

media_redacao = notas_redacao.groupby('NU_ANO').agg([np.mean, np.std])

media_redacao2 = media_redacao['NU_NOTA_REDACAO']
media_redacao2.rename(columns={'mean':'M√©dia Notas'}).plot(kind = 'barh', xerr = 'std',legend=False)

#printando
plt.title('M√©dia e desvio padr√£o das notas da reda√ß√£o por ano')
plt.xlabel('M√©dia das notas')
plt.ylabel('Ano')

###  2.5.2 Correla√ß√£o entre as notas de reda√ß√£o e as notas nas provas de Linguagens, C√≥digos e suas Tecnologias

O c√≥digo calcula a corre√ß√£o entre as notas da prova de linguagens e c√≥digo e as notas da reda√ß√£o dos participantes. A correla√ß√£o √© retornada como um valor entre zero e um que expressao o n√≠vel de correla√ß√£o.

In [None]:
#plotar scatterplot notas LC (linguagens e codigos) x notas reda√ßa√£o (hipotese, quem vai bem em portugues vai bem em reda√ß√£o)
notas_correlacao_LC = dados_tratados.loc[filtro_notageral & filtro_redacao][['NU_NOTA_LC','NU_NOTA_REDACAO']]
notas_correlacao_LC.corr()


In [None]:
import matplotlib.pyplot as plt

# Calcule a correla√ß√£o entre as notas
correlacao = notas_correlacao_LC.corr().iloc[0, 1]

# Crie o scatterplot hexagonal
plt.figure(figsize=(8, 6))
plt.hexbin(
    x=notas_correlacao_LC['NU_NOTA_LC'],
    y=notas_correlacao_LC['NU_NOTA_REDACAO'],
    gridsize=20,  # Tamanho da grade hexagonal (ajuste conforme necess√°rio)
    cmap='viridis',  # Escolha uma paleta de cores
    mincnt=1,  # Contagem m√≠nima de pontos para colorir um hex√°gono (ajuste conforme necess√°rio)
)
plt.colorbar(label='Contagem de Alunos')  # Adicione uma barra de cores com a etiqueta

# Defina os r√≥tulos dos eixos e o t√≠tulo
plt.xlabel('Notas de LC (Linguagens e C√≥digos)')
plt.ylabel('Notas de Reda√ß√£o')
plt.title(f'Correla√ß√£o: {correlacao:.2f}')

# Exibir o gr√°fico
plt.show()

### 2.5.3 Correla√ß√£o entre as notas nas provas objetivas e as notas de reda√ß√£o


O c√≥digo calcula a corre√ß√£o entre as notas gerais e as notas da reda√ß√£o dos participantes. A correla√ß√£o √© retornada como um valor entre zero e um que expressao o n√≠vel de correla√ß√£o.

In [None]:
#plotar scatterplot notas gerais x notas reda√ßa√£o

notas_correlacao = dados_tratados.loc[filtro_notageral & filtro_redacao][['NU_NOTA_GERAL','NU_NOTA_REDACAO']]
notas_correlacao['NU_NOTA_GERAL'] = notas_correlacao['NU_NOTA_GERAL']

notas_correlacao.corr()


In [None]:
# Calcule a correla√ß√£o entre as notas
correlacao_geral = notas_correlacao.corr().iloc[0, 1]

# Crie o scatterplot hexagonal
plt.figure(figsize=(8, 6))
plt.hexbin(
    x=notas_correlacao['NU_NOTA_GERAL'],
    y=notas_correlacao_LC['NU_NOTA_REDACAO'],
    gridsize=20,  # Tamanho da grade hexagonal (ajuste conforme necess√°rio)
    cmap='viridis',  # Escolha uma paleta de cores
    mincnt=1,  # Contagem m√≠nima de pontos para colorir um hex√°gono (ajuste conforme necess√°rio)
)
plt.colorbar(label='Contagem de Alunos')  # Adicione uma barra de cores com a etiqueta

# Defina os r√≥tulos dos eixos e o t√≠tulo
plt.xlabel('Notas gerais')
plt.ylabel('Notas de Reda√ß√£o')
plt.title(f'Correla√ß√£o: {correlacao_geral:.2f}')

# Exibir o gr√°fico
plt.show()

### 2.5.4 Distribui√ß√£o das notas de reda√ß√£o

O c√≥digo processa dados de notas de alunos tratados. Ele seleciona as colunas de 'NU_NOTA_REDACAO' e 'NU_ANO' para alunos que atendem a um certo crit√©rio. Em seguida, usando a biblioteca gr√°fica Plotly, ele cria um gr√°fico de caixa (box plot) em que os anos est√£o no eixo x e as notas gerais, normalizadas por 4, est√£o no eixo y. O gr√°fico exibe a distribui√ß√£o das notas gerais ao longo dos anos.

In [None]:
# plotar grafico de linha da m√©dia das notas ao longo do tempo

fig = go.Figure()
fig.add_trace(go.Box(
    x = notas_redacao['NU_ANO'],
    y = notas_redacao['NU_NOTA_REDACAO']
))

#Adicionando elementos no grafico
fig.update_layout(
    title='Distribui√ß√£o das Notas das reda√ß√µes por Ano',
    xaxis_title='Ano',
    yaxis_title='Nota Reda√ß√£o'

)

fig.update_traces(
    boxmean=True,  # Adiciona a linha de m√©dia dentro da caixa
    line_width=1.5,  # Espessura da linha dos box plots
)

Teste de Hip√≥tese:

Vamos executar o Teste de Wilcoxon ou Mann-Whitney, em que podemos comparar a m√©dia ou a mediana de duas amostras independentes, sem fazer suposi√ß√µes sobre a distribui√ß√£o das amostras.

Fazendo a compara√ß√£o das m√©dias:

‚ñ™ H0: ùëÄùê¥ = ùëÄùêµ ou (ùëÄùê¥ - ùëÄùêµ) = 0

‚ñ™ H1: ùëÄùê¥ ‚â† ùëÄùêµ ou (ùëÄùê¥ - ùëÄùêµ) ‚â† 0

Se o p-value √© < 0,05 rejeitamos a hip√≥tese nula.

In [None]:
#filtrando os dataframes para ter apenas os dados dos respectivos anos
redacao_2019 = dados_tratados.loc[dados_tratados['NU_ANO'] == 2019]
redacao_2020 = dados_tratados.loc[dados_tratados['NU_ANO'] == 2020]

#filtrando para manter apenas a coluna de notas de redacao
redacao_2019 = redacao_2019['NU_NOTA_REDACAO']
redacao_2020 = redacao_2020['NU_NOTA_REDACAO']

#tirando o index
redacao_2019 = redacao_2019.reset_index(drop = True)
redacao_2020 = redacao_2020.reset_index(drop = True)

import scipy.stats as stats
stats.mannwhitneyu(redacao_2019,redacao_2020, alternative = 'two-sided')

 Resultado: p < 0,05.

 A hip√≥tese H0 √© rejeitada e portanto h√° evid√™ncias significativas de que a nota m√©dia entre os anos de 2019 e 2020 variou.

### 2.5.5 Houve mais dificuldade com reda√ß√£o durante a pandemia?

O c√≥digo une dados de tipos de reda√ß√£o e seus status com dados tratados. Ele calcula a propor√ß√£o de cada status de reda√ß√£o para cada ano, transforma os dados em um formato tabular e cria um gr√°fico de barras. O gr√°fico ilustra a rela√ß√£o entre os status das reda√ß√µes e os anos.

In [None]:
#Criando vari√°vel tipo de reda√ßao
#plotar status reda√ß√£o geral (sem ser por ano, apenas tipos)
tipo_redacao = dados_tratados.merge(dp_redacao.reindex(), on = 'TP_STATUS_REDACAO', how = 'left')
tipo_redacao = tipo_redacao[['NU_ANO' , 'Status Redacao' ]].value_counts(normalize=True) * 100
tipo_redacao = tipo_redacao.unstack()

In [None]:
# Plotar o gr√°fico de barras
ax = tipo_redacao.plot.bar()

# Personalizar a legenda
legend_labels = tipo_redacao.columns  # Labels da legenda (Status Redacao)

# Posicionar a legenda abaixo do gr√°fico, centralizado
ax.legend(legend_labels, loc='upper center', bbox_to_anchor=(0.5, -0.15), ncol=len(legend_labels))

# Resto do c√≥digo de personaliza√ß√£o
plt.title('Rela√ß√£o dos status das reda√ß√µes por ano')
plt.xlabel('Ano')
plt.ylabel('Propor√ß√£o (%)')
plt.xticks(rotation=0)
plt.tight_layout()

# Mostrar o gr√°fico
plt.show()

## 2.6 Alunos do terceiro ano

### 2.6.1 Como as notas de reda√ß√£o dos terceiro anistas foi impactada pela pandemia?

O c√≥digo realiza uma an√°lise das notas de reda√ß√£o entre estudantes do terceiro ano do ensino m√©dio. Ele filtra os dados para terceiro-anistas, calcula a m√©dia e o desvio padr√£o das notas de reda√ß√£o agrupadas por ano. Em seguida, renomeia colunas e compara essas m√©dias com uma m√©dia geral de notas de reda√ß√£o. Um gr√°fico √© gerado para exibir as m√©dias das notas dos terceiro-anistas e a m√©dia geral ao longo dos anos. Intervalos de confian√ßa s√£o sombreados para indicar a variabilidade das m√©dias. O objetivo √© analisar como as notas de reda√ß√£o dos terceiro-anistas se comparam com a m√©dia geral em diferentes anos.

In [None]:
#Entre os Terceiro Anistas:
filtro_terceiroanista = dados_tratados['TP_ST_CONCLUSAO'] == 2
terc_sit_EM = dados_tratados.loc[filtro_terceiroanista & filtro_redacao][['NU_NOTA_REDACAO','NU_ANO']]
media_terceiroanista = terc_sit_EM.groupby('NU_ANO').agg([np.mean, np.std])
media_terceiroanista2 = media_terceiroanista['NU_NOTA_REDACAO']
#renomeando colunas
media_terceiroanista2 = media_terceiroanista2.rename(columns={'mean':'mean 3a','std':'std 3a'})
media_redacao_compara = media_redacao2.rename(columns={'mean':'mean geral','std':'std geral'})

grafico_redacao = pd.concat([media_terceiroanista2,media_redacao_compara], axis = 1).reset_index()
grafico_redacao.plot(x = 'NU_ANO',y=["mean 3a", "mean geral"],  style='.-' , figsize = (15,8), xticks =grafico_redacao['NU_ANO'])
y1 = np.array(grafico_redacao['mean 3a']) - np.array(grafico_redacao['std 3a'])
y2 = np.array(grafico_redacao['mean 3a']) + np.array(grafico_redacao['std 3a'])
plt.fill_between(grafico_redacao['NU_ANO'],y1,y2,alpha=.1)
y1 = np.array(grafico_redacao['mean geral']) - np.array(grafico_redacao['std geral'])
y2 = np.array(grafico_redacao['mean geral']) + np.array(grafico_redacao['std geral'])
plt.fill_between(grafico_redacao['NU_ANO'],y1,y2,alpha=.1)




### 2.6.2 Houve alguma mudan√ßa significativa na participa√ß√£o de terceiro anistas diante da pandemia?


O c√≥digo combina dados de inscri√ß√£o com informa√ß√µes de conclus√£o do Ensino M√©dio. Ele cria um gr√°fico de barras empilhadas para representar a distribui√ß√£o das situa√ß√µes de conclus√£o do Ensino M√©dio ao longo dos anos de inscri√ß√£o.

In [None]:
#C√≥digo
inscritos_sit_EM = dados_tratados.merge(dp_conclusao.reindex(), on = 'TP_ST_CONCLUSAO', how = 'left')
inscritos_sit_EM = inscritos_sit_EM[['NU_ANO','Situa√ß√£o do Ensino M√©dio']].value_counts()
inscritos_sit_EM.unstack().plot.bar(stacked=True, figsize = (15,8)).legend(loc=0)

#printando
plt.title('Situa√ß√£o do ensino m√©dio por ano')
plt.xlabel('Ano')
plt.ylabel('Quantidade')
plt.xticks(rotation=0)


#presente = pd.DataFrame(dados_tratados[dados_tratados['TP_PRESENCA'] == True]['NU_ANO'].value_counts())
#alunos = pd.concat([inscritos.rename(columns = {'NU_ANO':'Inscritos'}),presente.rename(columns = {'NU_ANO':'Presentes'})],axis = 1)
#alunos.sort_index().plot(kind='bar')

A participa√ß√£o de pessoas que j√° conclu√≠ram o ensino m√©dio no ENEM diminuiu significativamente ap√≥s 2020.

---
# 3. Conclus√£o

## 3.1 Dificuldades e aprendizados


*   Pouco tempo para decis√£o do dataset
*   Dificuldade em trabalhar com dataset muito grande (garantir a reprodutibilidade)
* Dificuldade em trabalhar num ambiente colaborativo e versionado.
* Identificar os testes de hip√≠otese adequados para cada caso



## 3.2 Pontos Positivos


*   Equipe multidisciplinar
*   Troca de experi√™ncias

