# Análise de Notas em F428 - Física Teórica IV 2s/2022

Minha nota na P1 de F428 foi baixíssima. Tão baixa que os físicos chamariam de "desprezível".

Isso me fez pensar: "A prova que estava difícil ou eu que sou burro (ou os dois)?" Pra sanar essa dúvida, decidi analisar a planilha de notas que foi disponibilizada no moodle.

Isso foi feito usando Python, Jupyter Lab, e Voilà. Caso tenha curiosidade, o código que gerou essa página pode ser conferido nesse link e é livre para reúso.

## Parte I: Obtendo os Dados

A primeira tarefa foi obter uma cópia local da planilha de notas disponibilizada no moodle. Não havia opção de "Download" à vista, mas pressionar `Ctrl + s` resolveu o problema. Depois de baixar a planilha, abri ela no Libre Office Calc pra fazer algumas correções manuais e pra converter o arquvo para o formato *open document sheet* (.ods).

Feito isso, foi possível ler e tratar os dados.

In [None]:
# importar módulos necessários
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
import ipywidgets as widgets
import pandas as pd
import numpy as np
import seaborn
import os

In [None]:
# ler dados do arquivo ods
DATA_DIR:str = "data"
df:pd.DataFrame = pd.read_excel(os.path.join(DATA_DIR, "notas.ods"), engine="odf", decimal=",")

In [None]:
# tratamento de dados faltantes
df = df.replace(["-"], [np.nan])

# conversão para os tipos corretos
df["Prova 1"] = df["Prova 1"].astype(float)
df["Registro Acadêmico"] = df["Registro Acadêmico"].astype(float)
for i in range(1, 4): df[f"AS{i}"] = df[f"AS{i}"].astype(float)
for i in range(1, 5):df[f"Q{i}"] = df[f"Q{i}"].astype(float)
    
# desconsiderar pessoas que faltaram na P1
df = df[df["Prova 1"] != np.nan]

## Parte II: Desempenho na P1

Agora podemos entender melhor o desempenho geral na P1! Vejamos:

In [None]:
print("Número de reprovações na P1: ", df[df["Prova 1"] < 5]["Prova 1"].size)
print("Número de aprovações na P1: ", df[df["Prova 1"] >= 5]["Prova 1"].size)
print("Média da turma na P1: ", df["Prova 1"].mean().round(2))

Pelos números já conseguimos perceber que a maioria das notas foi abaixo da média, mas podemos visualizar melhor a distribuição das mesmas com um histograma.

In [None]:
# configurações gerais do matplotlib
plt.rcParams.update({"font.size": 16})
seaborn.set_theme()

In [None]:
# histograma de notas na P1
_, ax1 = plt.subplots(1, 1, figsize=(14, 6), dpi=300)
ax1.hist(df[df["Prova 1"] < 5]["Prova 1"], color="lightcoral", edgecolor="black",bins=range(11), label="Reprovações")
ax1.hist(df[df["Prova 1"] >= 5]["Prova 1"], color="lightblue", edgecolor="black", bins=range(11), label="Aprovações")
ax1.set_xticks(range(11))
ax1.set_xlabel("Nota", labelpad=10, fontsize=16)
ax1.set_ylabel("Contagem", labelpad=10, fontsize=16)
ax1.set_title("Distribuição de Notas na P1 de F428")
ax1.legend(loc="best")
plt.show()

Agora sim, podemos ver claramente que a maioria rodou nessa prova, já que área vermelha (notas abaixo de 5.0) é muito maior é muito maior que a área azul (notas maiores ou iguais a 5.0). Pra entender melhor o tamanho relativo dessas áreas, podemos usar um gráfico de setores.

In [None]:
_, ax2 = plt.subplots(1, 1, dpi=300)
ax2.pie([df[df["Prova 1"] >= 5]["Prova 1"].size, df[df["Prova 1"] < 5]["Prova 1"].size],
        labels=["Aprovações", "Reprovações"],
        colors=["lightblue","lightcoral"],
        wedgeprops={"edgecolor": "black"},
        autopct='%1.1f%%')
ax2.set_title("Porcentagem de Aprovações e Reprovações na P1 de F428")
plt.show()

Menos de um(a) em cada cinco estudantes foi aprovado(a) na P1! Ao que tudo indica, a prova estava difícil mesmo.

## Parte III: Questões da P1

Por que a P1 foi tão difícil? Alguma questão derrubou todo mundo?

Um gráfico de barras da média de pontos por questão da P1 mostra resultados ruins para todas as questões da prova. Isso indica que não foi uma questão específica que ultrapassou a dificuldade que esperávamos para essa prova.

Percebemos nesse gráfico também uma tendência decrescente na pontuação das questões, possivelmente indicando falta de tempo para completar a prova.

In [None]:
medias = []
questoes = []
for i in range(1, 5):
    medias.append(df[f"Q{i}"].mean())
    questoes.append(f"Q{i}")

    
_, ax5 = plt.subplots(1, 1, dpi=300)
ax5.set_ylim(0, 2.5)
ax5.bar(questoes, medias, color=["navajowhite", "thistle", "paleturquoise", "mistyrose"], edgecolor="black")
ax5.set_title("Média de Pontos por Questão da P1")

## Parte IV: Desempenho nas AS

Okay, okay, já entendemos: a P1 estava difícil! Mas será que ela estava "fora do padrão"? Ou seja, será que as avaliações anteriores não nos prepararam para esse nível de dificuldade?

Para responder a essa pergunta, precisamos analisar nosso desempenho nas Avaliações Simplificadas (AS). Vamos direto a um histograma das médias nas três avaliações simplificadas que já tivemos.

In [None]:
df["Média AS"] = (df["AS1"] + df["AS2"] + df["AS3"])/3

In [None]:
_, ax3 = plt.subplots(1, 1, figsize=(14, 6), dpi=300)
ax3.hist(df[df["Média AS"] < 5]["Média AS"], color="lightcoral", edgecolor="black", label="Reprovações", bins=range(11))
ax3.hist(df[df["Média AS"] >= 5]["Média AS"], color="lightblue", edgecolor="black", label="Aprovações", bins=range(11))
ax3.set_xticks(range(11))
ax3.set_xlabel("Nota", labelpad=10, fontsize=16)
ax3.set_ylabel("Estudantes", labelpad=10, fontsize=16)
ax3.set_title("Distribuição de Médias em AS de F428")
ax3.legend(loc="best")
plt.show()

Pelo jeito, fomos muito bem nas AS! A maior parte da área do gráfico é azul, indicando que a maiorias das pessoas está com média acima de 5.0 nas Avaliações Simplificadas.

Além disso, o intervalo mais comum de médias em AS foi [7.0, 8.0] enquanto o intervalo mais comum de notas da P1 foi [1.0, 2.0].

Essa diferença de desempenho fica ainda mais clara se colocamos os dois histogramas no mesmo gráfico:

In [None]:
_, ax4 = plt.subplots(1, 1, figsize=(14, 6), dpi=300)
ax4.hist([df["Média AS"], df["Prova 1"]], color=["navajowhite", "thistle"], label=["Médias em AS", "Notas na P1"], edgecolor="black",bins=range(11))
ax4.set_xticks(range(11))
ax4.set_xlabel("Nota", labelpad=10, fontsize=16)
ax4.set_ylabel("Estudantes", labelpad=10, fontsize=16)
ax4.set_title("Comparação de Notas na P1 e Médias em AS de F428")
ax4.legend(loc="best")
plt.show()

## Parte V: Comparação entre Turmas

Nesse momento, eu comecei a me questionar se dei azar com o meu PED (professor(a) assistente).

Cada PED se dedica exclusivamente a uma turma, então podemos correlacionar a qualidade do ensino dos(as) PEDs com as notas na P1 dos(as) estudantes de suas respectivas turmas. 

In [None]:
fig, axs = plt.subplots(2, 2, figsize=(8, 8))
fig.suptitle("Comparação de Desempenho na P1 entre Turmas")

turmas = ["A", "C", "E", "H"]
for t in turmas:
    turma = df[df["Turma"] == t]
    axs[turmas.index(t)%2, turmas.index(t)//2].pie([turma[turma["Prova 1"] >= 5]["Prova 1"].size, turma[turma["Prova 1"] < 5]["Prova 1"].size],
            colors=["lightblue","lightcoral"],
            wedgeprops={"edgecolor": "black"},
            autopct='%1.1f%%')
    axs[turmas.index(t)%2, turmas.index(t)//2].set_title(f"Turma {t}")

Apesar do desempenho levemente melhor da turma A, parece que as notas na P1 foram baixas em todas as turmas.

## Parte VI: Possíveis Soluções

Uma maneira de arrumar as notas para que não fôssemos muito prejudicados é usando normalização.

As notas podem ser normalizadas com relação à maior nota ou com relação à média das notas. A maior nota na P1 foi 10, então normalização com relação à maior nota não teria efeito. No entanto, a média das notas na P1 foi bem abaixo de 5.0 então podemos usá-la.

A fórmula para fazer isso é:

$$
n_{norm} = \frac{n}{\bar{n}} * 5.0
$$

Para conferir seria sua nota normalizada na P1, basta colocar seu RA no campo abaixo.

In [None]:
ra_textbox = widgets.FloatText(description="RA")
out_norm = widgets.Output(layout={'border': '1px solid black'})

def normalize_grade(change):
    ra = ra_textbox.value
    nota_P1 = df[df["Registro Acadêmico"] == ra]["Prova 1"].values[0]
    nota_norm = (nota_P1/df["Prova 1"].mean()) * 5
    out_norm.clear_output()
    with out_norm:
        print("Nota original na P1: ", nota_P1.round(1))
        print("Nota normalizada na P1: ", nota_norm.round(1))
        
ra_textbox.observe(normalize_grade, "value")
        
layout_norm = widgets.VBox([ra_textbox, out_norm])
layout_norm

## Parte VII: E a "Média 7"?

Com a discussão da possível volta da "Média 7" no IFGW, achei interessante modelar o que aconteceria caso ela já tivesse sido adotada nesse semestre.

O gráfico abaixo mostra que, nesse cenário hipotético, aproximadamente dois terços dos(as) estudantes teriam que necessariamente fazer o exame para passar em F428.

In [None]:
df["Média AS Máxima"] = df["Média AS"] * 0.6 + 10 * 0.4

df["Média Final Máxima"] = 0.10 * df["Média AS Máxima"] + 0.45 * df["Prova 1"] + 0.45 * 10
_, ax6 = plt.subplots(1, 1, dpi=300)

ax6.pie([df[df["Média Final Máxima"] >= 7]["Média Final Máxima"].size, df[df["Média Final Máxima"] < 7]["Média Final Máxima"].size],
        labels=["\"Férias em Novembro\"", "\"Exame é P3\""],
        wedgeprops={"edgecolor": "black"},
        autopct='%1.1f%%')
ax6.set_title("Porcentagem de Estudantes em Exame (média = 7)")
plt.show()

## Parte VIII: Ainda há Esperança

Felizmente, a média não é 7! Sendo assim, todos ainda tem chance de evitar o exame e sair de férias mais cedo.

Com isso em mente, fiz esse simulador que calcula a nota que você precisa tirar na P2 pra atingir a média final que você quiser, com base nas suas notas atuais e na sua previsão para as próximas Avaliações Simplificadas. Aproveitem!

In [None]:
def media_final(media_AS:float, nota_P1:float, nota_P2:float):
    return media_AS * 0.10 + nota_P1 * 0.45 + nota_P2 * 0.45

In [None]:
media_AS_slider = widgets.FloatSlider(description='Média AS Esperada', value=0, min=0, max=10, step=.1, readout_format = ".1f", disabled=True)
media_final_slider = widgets.FloatSlider(description='Média Final Desejada', value=5, min=0, max=10, step=.1, readout_format = ".1f", disabled=True)
out_hope = widgets.Output(layout={'border': '1px solid black'})

def update_bounds(change):
    ra = ra_textbox.value
    
    media_AS = df[df["Registro Acadêmico"] == ra]["Média AS"]    
    media_AS_slider.max = (media_AS*3 + 10*2)/5
    media_AS_slider.min = (media_AS*3 + 0*2)/5
    media_AS_slider.disabled = False
    
    nota_P1 = df[df["Registro Acadêmico"] == ra]["Prova 1"]
    media_final_slider.max = media_final(media_AS, nota_P1, 10)
    media_final_slider.min = media_final(media_AS, nota_P1, 0)
    media_final_slider.disabled = False

ra_textbox.observe(update_bounds, "value")

def update_media_final_bounds(change):
    ra = ra_textbox.value
    nota_P1 = df[df["Registro Acadêmico"] == ra]["Prova 1"]
    media_final_slider.max = media_final(media_AS_slider.value, nota_P1, 10)
    media_final_slider.min = media_final(media_AS_slider.value, nota_P1, 0)

media_AS_slider.observe(update_media_final_bounds, "value")

def update_nota_P2(change):
    ra = ra_textbox.value
    nota_P1 = df[df["Registro Acadêmico"] == ra]["Prova 1"].values[0]
    nota_P2 = (media_final_slider.value - 0.10 * media_AS_slider.value - 0.45 * nota_P1)/0.45
    out_hope.clear_output()
    with out_hope:
        print("Nota necessária na P2: ", nota_P2.round(1))

media_AS_slider.observe(update_nota_P2, "value")
media_final_slider.observe(update_nota_P2, "value")
    
layout_hope = widgets.VBox([ra_textbox, media_AS_slider, media_final_slider, out_hope])
layout_hope