---

In [2]:
import pandas as pd
import numpy as np

In [3]:
# Devido o Plotly estar sendo utilizado no Google Collab, precisaremos definir
# a função abaixo e chamá-la sempre que quisermos exibir um gráfico

def configure_plotly_browser_state():
  import IPython
  display(IPython.core.display.HTML('''
        <script src="/static/components/requirejs/require.js"></script>
        <script>
          requirejs.config({
            paths: {
              base: '/static/base',
              plotly: 'https://cdn.plot.ly/plotly-1.5.1.min.js?noext',
            },
          });
        </script>
        '''))

In [4]:
data = pd.read_csv('simulin.csv')
gabarito_ing = pd.read_csv('simulinho_gabarito_ing.csv').T.rename(columns={0:'gabarito_ing'})
gabarito_esp = pd.read_csv('simulinho_gabarito_esp.csv').T.rename(columns={0:'gabarito_esp'})

In [5]:
materias = pd.DataFrame({
    'questao': [f'questao_{i}' for i in range(1,11)],
    'materia': ['estrangeira']*4 + ['matemática']*3 + ['português']*3
})
materias = materias.set_index(materias['questao']).drop(columns=['questao'])

In [6]:
materias

Unnamed: 0_level_0,materia
questao,Unnamed: 1_level_1
questao_1,estrangeira
questao_2,estrangeira
questao_3,estrangeira
questao_4,estrangeira
questao_5,matemática
questao_6,matemática
questao_7,matemática
questao_8,português
questao_9,português
questao_10,português


In [7]:
data

Unnamed: 0,nome,cpf,lingua,questao_1,questao_2,questao_3,questao_4,questao_5,questao_6,questao_7,questao_8,questao_9,questao_10
0,Fulano,123.456.789-10,ing,d,e,e,d,e,e,d,d,a,b
1,Beltrano,111.222.333-45,ing,d,d,c,e,d,a,a,c,c,d
2,Ciclano,999.888.777.65,esp,c,c,d,a,c,d,e,e,a,c
3,Pedro,111.111.111-11,ing,a,b,c,d,e,a,b,c,d,e
4,Rafa,222.222.222-22,ing,e,d,c,b,a,e,d,c,b,a
5,Luli,333.333.333-33,ing,a,c,e,b,d,a,c,e,d,b


In [8]:
# junta os dois gabaritos em um mesmo DF pra ficar mais fácil de usar depois
gabarito = gabarito_ing.join(gabarito_esp)

In [9]:
gabarito

Unnamed: 0,gabarito_ing,gabarito_esp
questao_1,d,a
questao_2,e,c
questao_3,e,b
questao_4,d,c
questao_5,e,e
questao_6,e,e
questao_7,a,a
questao_8,e,e
questao_9,b,b
questao_10,b,b


In [10]:
# quebra as respostas para se ter uma resposta por pessoa por linha:
# pd.melt faz exatamente isso. as id_vars são as variáveis de identificação, que não devem ser quebradas por linha
data = pd.melt(data, id_vars=['nome', 'cpf', 'lingua'], var_name='questao', value_name='resposta')

In [11]:
data

Unnamed: 0,nome,cpf,lingua,questao,resposta
0,Fulano,123.456.789-10,ing,questao_1,d
1,Beltrano,111.222.333-45,ing,questao_1,d
2,Ciclano,999.888.777.65,esp,questao_1,c
3,Pedro,111.111.111-11,ing,questao_1,a
4,Rafa,222.222.222-22,ing,questao_1,e
5,Luli,333.333.333-33,ing,questao_1,a
6,Fulano,123.456.789-10,ing,questao_2,e
7,Beltrano,111.222.333-45,ing,questao_2,d
8,Ciclano,999.888.777.65,esp,questao_2,c
9,Pedro,111.111.111-11,ing,questao_2,b


In [12]:
# juntamos gabarito e respostas em um só DF
# com pd.DataFrame.join, fazemos uma mescla do DF com as respostas e do DF com os gabaritos
# o argumento 'on' nos permite escolher como fazer essa mescla
# nesse caso, fazemos a mescla na coluna 'questao' do DF de respostas,
#   assim, ele pega a linha do DF de gabarito de acordo com o valor da coluna 'questao'
data = data.join(gabarito, on='questao')

In [13]:
data

Unnamed: 0,nome,cpf,lingua,questao,resposta,gabarito_ing,gabarito_esp
0,Fulano,123.456.789-10,ing,questao_1,d,d,a
1,Beltrano,111.222.333-45,ing,questao_1,d,d,a
2,Ciclano,999.888.777.65,esp,questao_1,c,d,a
3,Pedro,111.111.111-11,ing,questao_1,a,d,a
4,Rafa,222.222.222-22,ing,questao_1,e,d,a
5,Luli,333.333.333-33,ing,questao_1,a,d,a
6,Fulano,123.456.789-10,ing,questao_2,e,e,c
7,Beltrano,111.222.333-45,ing,questao_2,d,e,c
8,Ciclano,999.888.777.65,esp,questao_2,c,e,c
9,Pedro,111.111.111-11,ing,questao_2,b,e,c


In [14]:
# funcao que retorna o gabarito de acordo com a língua escolhida
def gabarito(row):
  return row['gabarito_'+row['lingua']]

In [15]:
# aplica a função 'gabarito' a cada linha do DF de dados
data['gabarito'] = data.apply(gabarito, axis=1)
# agora temos uma coluna com o gabarito que leva em conta a língua escolhida

# a correção (acerto ou erro) nada mais é que a comparação entre a resposta e o gabarito
data['correcao'] = data['resposta'] == data['gabarito']

In [16]:
# remove as colunas de gabaritos esp e ing
data = data.drop(columns=['gabarito_esp', 'gabarito_ing'])

In [17]:
data

Unnamed: 0,nome,cpf,lingua,questao,resposta,gabarito,correcao
0,Fulano,123.456.789-10,ing,questao_1,d,d,True
1,Beltrano,111.222.333-45,ing,questao_1,d,d,True
2,Ciclano,999.888.777.65,esp,questao_1,c,a,False
3,Pedro,111.111.111-11,ing,questao_1,a,d,False
4,Rafa,222.222.222-22,ing,questao_1,e,d,False
5,Luli,333.333.333-33,ing,questao_1,a,d,False
6,Fulano,123.456.789-10,ing,questao_2,e,e,True
7,Beltrano,111.222.333-45,ing,questao_2,d,e,False
8,Ciclano,999.888.777.65,esp,questao_2,c,c,True
9,Pedro,111.111.111-11,ing,questao_2,b,e,False


In [18]:
# funcao que retorna o gabarito de acordo com a língua escolhida
def estrangeiras(row):
  if row['lingua'] == 'ing' and row['materia'] == 'estrangeira':
    return 'inglês'
  elif row['lingua'] == 'esp' and row['materia'] == 'estrangeira':
    return 'espanhol'
  else:
    return row['materia']

In [19]:
data = data.join(materias, on='questao')

In [20]:
data['materia'] = data.apply(estrangeiras, axis=1)

In [21]:
data

Unnamed: 0,nome,cpf,lingua,questao,resposta,gabarito,correcao,materia
0,Fulano,123.456.789-10,ing,questao_1,d,d,True,inglês
1,Beltrano,111.222.333-45,ing,questao_1,d,d,True,inglês
2,Ciclano,999.888.777.65,esp,questao_1,c,a,False,espanhol
3,Pedro,111.111.111-11,ing,questao_1,a,d,False,inglês
4,Rafa,222.222.222-22,ing,questao_1,e,d,False,inglês
5,Luli,333.333.333-33,ing,questao_1,a,d,False,inglês
6,Fulano,123.456.789-10,ing,questao_2,e,e,True,inglês
7,Beltrano,111.222.333-45,ing,questao_2,d,e,False,inglês
8,Ciclano,999.888.777.65,esp,questao_2,c,c,True,espanhol
9,Pedro,111.111.111-11,ing,questao_2,b,e,False,inglês


In [22]:
media_global = data['correcao'].mean()

In [23]:
media_global

0.3

In [24]:
# usando a função pd.DataFrame.groupby, agrupamos os valores iguais de uma coluna
#   e tiramos uma estatística
# nesse caso, agrupamos por nome e tiramos a média,
#   obtendo assim a média de acerto de cada pessoa (cada nome)
media_total_por_pessoa = data.groupby(['nome']).mean()

In [25]:
media_total_por_pessoa

Unnamed: 0_level_0,correcao
nome,Unnamed: 1_level_1
Beltrano,0.2
Ciclano,0.2
Fulano,0.7
Luli,0.3
Pedro,0.2
Rafa,0.2


In [26]:
# aqui tiramos a média de acerto por questão por prova (ing ou esp)
media_acerto_questao = data.groupby(['lingua', 'questao']).mean()

In [27]:
media_acerto_questao

Unnamed: 0_level_0,Unnamed: 1_level_0,correcao
lingua,questao,Unnamed: 2_level_1
esp,questao_1,0.0
esp,questao_10,0.0
esp,questao_2,1.0
esp,questao_3,0.0
esp,questao_4,0.0
esp,questao_5,0.0
esp,questao_6,0.0
esp,questao_7,0.0
esp,questao_8,1.0
esp,questao_9,0.0


In [28]:
media_por_materia = data.groupby(['materia']).mean()

In [29]:
media_por_materia

Unnamed: 0_level_0,correcao
materia,Unnamed: 1_level_1
espanhol,0.25
inglês,0.35
matemática,0.277778
português,0.277778


In [30]:
media_por_pessoa_por_materia = data.groupby(['nome','materia']).mean().unstack()['correcao']

In [31]:
media_por_pessoa_por_materia

materia,espanhol,inglês,matemática,português
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Beltrano,,0.25,0.333333,0.0
Ciclano,0.25,,0.0,0.333333
Fulano,,1.0,0.666667,0.333333
Luli,,0.25,0.0,0.666667
Pedro,,0.25,0.333333,0.0
Rafa,,0.0,0.333333,0.333333


In [32]:
quartis = media_por_pessoa_por_materia.quantile([0.25, 0.5, 0.75])
quartis

materia,espanhol,inglês,matemática,português
0.25,0.25,0.25,0.083333,0.083333
0.5,0.25,0.25,0.333333,0.333333
0.75,0.25,0.25,0.333333,0.333333


In [33]:
correlacao_ing = media_por_pessoa_por_materia.drop(columns=['espanhol']).dropna().corr()
correlacao_esp = media_por_pessoa_por_materia.drop(columns=['inglês']).dropna().corr()

correlacao_ing

## Corretor redação

In [36]:
df_redacao = pd.read_excel("Gabarito/redacao.xlsx")
df_redacao

Unnamed: 0,nome,Norma culta,comentarios,Adequação ao tema,comentarios.1,Argumentação,comentarios.2,Coesão,comentarios.3,Proposta de intervenção,comentarios.4,Nota,comentarios.5
0,Fulano,0,bom,40,bom,80,bom,120,bom,160,bom,400,bom
1,Beltrano,160,muito bom,80,muito bom,40,muito bom,160,muito bom,160,muito bom,600,melhorar letra
2,Ciclano,40,otimo,40,otimo,40,otimo,40,otimo,40,otimo,200,piorou
3,Pedro,80,melhor,120,melhor,120,melhor,160,melhor,200,melhor,680,melhorou
4,Rafa,80,pior,40,pior,160,pior,40,pior,40,pior,360,ilegivel
5,Luli,160,igual,120,igual,80,igual,40,igual,0,igual,400,muito curto


# Métricas

## Alunos

### Questões objetivas

In [37]:
# calcula o total de questões certas por máteria, quantas questões tinham por matéria, e média por matéria

# agg permite agregar multiplas funções ao groupby
acertos_aluno = data.groupby(['nome','materia'])['correcao'].agg(['sum','count','mean'])
acertos_aluno = acertos_aluno.rename(columns={"sum": "Total Acertos", "mean": "Média Individual", 'count': "Total questoes"})
acertos_aluno

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Acertos,Total questoes,Média Individual
nome,materia,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Beltrano,inglês,1,4,0.25
Beltrano,matemática,1,3,0.333333
Beltrano,português,0,3,0.0
Ciclano,espanhol,1,4,0.25
Ciclano,matemática,0,3,0.0
Ciclano,português,1,3,0.333333
Fulano,inglês,4,4,1.0
Fulano,matemática,2,3,0.666667
Fulano,português,1,3,0.333333
Luli,inglês,1,4,0.25


In [38]:
# comparar a média de acerto das questões dos alunos com a turma geral

# media geral do einstein
media_acerto_materia = data.groupby('materia').mean()

media_acerto_materia = media_acerto_materia.rename(columns={"correcao": "Media Geral"})

# adicionando a media geral aos dados individuais
acertos_aluno = acertos_aluno.join(media_acerto_materia, on='materia')
acertos_aluno

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Acertos,Total questoes,Média Individual,Media Geral
nome,materia,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Beltrano,inglês,1,4,0.25,0.35
Beltrano,matemática,1,3,0.333333,0.277778
Beltrano,português,0,3,0.0,0.277778
Ciclano,espanhol,1,4,0.25,0.25
Ciclano,matemática,0,3,0.0,0.277778
Ciclano,português,1,3,0.333333,0.277778
Fulano,inglês,4,4,1.0,0.35
Fulano,matemática,2,3,0.666667,0.277778
Fulano,português,1,3,0.333333,0.277778
Luli,inglês,1,4,0.25,0.35


In [39]:
acertos_aluno_total = data.groupby(['nome']).sum()
acertos_aluno_total

Unnamed: 0_level_0,correcao
nome,Unnamed: 1_level_1
Beltrano,2
Ciclano,2
Fulano,7
Luli,3
Pedro,2
Rafa,2


### Redação

In [40]:
# calcula a nota individual da redação + comentarios

# pontuacao_redacao = df_redacao
# pontuacao_redacao['nota'] = pontuacao_redacao[['Norma culta','Adequação ao tema','Argumentação','Coesão', 'Proposta de intervenção'
# ]].sum(axis=1)

In [60]:
#pontuacao_redacao

### Pontuação Total

In [67]:
# juntando a pontuação das questões objetivas com a nota da redação
pontuacao_total = df_redacao['Nota']
pontuacao_total = pontuacao_redacao.join(acertos_aluno_total, on='nome')

pontuacao_total = pontuacao_total.drop(labels=['Norma culta','Adequação ao tema','Argumentação','Coesão', 'Proposta de intervenção'
,'comentarios', 'comentarios.1','comentarios.2','comentarios.3','comentarios.4', 'comentarios.5', 'nota'], axis =1)

pontuacao_total

Unnamed: 0,nome,Nota,correcao
0,Fulano,400,7
1,Beltrano,600,2
2,Ciclano,200,2
3,Pedro,680,2
4,Rafa,360,2
5,Luli,400,3


In [68]:
# pega a colocação de cada aluno com base no nº de acertos

# verificar depois a info a seguir
# se o simulinho for que nem enem, as questões tambem tem peso igual o da redacao, ou seja, a nota das questoes objetivas vai
# de 0 à 500, logo, devemos multiplicar a coluna correçaõ por 10

pontuacao_total['correcao'] *= 10
pontuacao_total

Unnamed: 0,nome,Nota,correcao
0,Fulano,400,70
1,Beltrano,600,20
2,Ciclano,200,20
3,Pedro,680,20
4,Rafa,360,20
5,Luli,400,30


In [70]:
# a pontuacao total é a média entre as questoes objetivas e a nota da redacao
pontuacao_total['total'] = pontuacao_total[['Nota','correcao']].sum(axis=1)
pontuacao_total

Unnamed: 0,nome,Nota,correcao,total
0,Fulano,400,70,470
1,Beltrano,600,20,620
2,Ciclano,200,20,220
3,Pedro,680,20,700
4,Rafa,360,20,380
5,Luli,400,30,430


In [71]:
# porcentagem de acerto da prova
# a % é igual à nota geral divida por 1500 (que é a nota máxima)
# nesse dataset de teste a pontuação máxima seria 1090 (redaçaõ + 9 questões)
pontuacao_total['% de acerto'] = pontuacao_total['total'] / 1500
pontuacao_total

Unnamed: 0,nome,Nota,correcao,total,% de acerto
0,Fulano,400,70,470,0.313333
1,Beltrano,600,20,620,0.413333
2,Ciclano,200,20,220,0.146667
3,Pedro,680,20,700,0.466667
4,Rafa,360,20,380,0.253333
5,Luli,400,30,430,0.286667


In [72]:
# ver a colocação de cada aluno

colocacao = pontuacao_total.sort_values(by='total', ascending=False)

# como os indices ficam fora de ordem depois de colocar as notas em valor decrescente, é necessário resetar o valor do indices
# de 'colocacao'
colocacao = colocacao.reset_index(drop=True)
colocacao

Unnamed: 0,nome,Nota,correcao,total,% de acerto
0,Pedro,680,20,700,0.466667
1,Beltrano,600,20,620,0.413333
2,Fulano,400,70,470,0.313333
3,Luli,400,30,430,0.286667
4,Rafa,360,20,380,0.253333
5,Ciclano,200,20,220,0.146667


## Docentes


In [47]:
# total de inscritos

# falta discretizar por dia de prova

total_presentes = data['nome'].nunique()
total_presentes

6

### Objetivas

In [48]:
# media de acertos em cada questão
media_acerto_questao = data.groupby(['materia', 'questao']).mean()

media_acerto_questao

Unnamed: 0_level_0,Unnamed: 1_level_0,correcao
materia,questao,Unnamed: 2_level_1
espanhol,questao_1,0.0
espanhol,questao_2,1.0
espanhol,questao_3,0.0
espanhol,questao_4,0.0
inglês,questao_1,0.4
inglês,questao_2,0.2
inglês,questao_3,0.4
inglês,questao_4,0.4
matemática,questao_5,0.333333
matemática,questao_6,0.333333


In [49]:
# questões com mais acertos

# ingles e espanhol podem ter numeros muito diferentes por o total de alunos em cada materia pode ser muito diferente

mais_acertos = data.groupby(['materia', 'questao']).agg(['sum','count','mean'])
mais_acertos = mais_acertos.rename(columns={"sum": "Total Acertos", "mean": "Média", 'count': "Total Alunos"})

##### não consegui fazer um sort_values
mais_acertos

Unnamed: 0_level_0,Unnamed: 1_level_0,correcao,correcao,correcao
Unnamed: 0_level_1,Unnamed: 1_level_1,Total Acertos,Total Alunos,Média
materia,questao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
espanhol,questao_1,0,1,0.0
espanhol,questao_2,1,1,1.0
espanhol,questao_3,0,1,0.0
espanhol,questao_4,0,1,0.0
inglês,questao_1,2,5,0.4
inglês,questao_2,1,5,0.2
inglês,questao_3,2,5,0.4
inglês,questao_4,2,5,0.4
matemática,questao_5,2,6,0.333333
matemática,questao_6,2,6,0.333333


In [50]:
# media total de acertos em toda prova objetiva

media_acertos_obj = data['correcao'].mean()

media_acertos_obj

0.3

In [51]:
# porcentagem de acerto geral na prova = total de acertos / total de linhas
porcentagem_acerto_obj = data['correcao'].sum() / data.shape[0]
porcentagem_acerto_obj

0.3

In [52]:
# porcentagem acerto em cada materia = media de acerto de cada materia
media_acerto_materia = data.groupby('materia').mean()

media_acerto_materia

Unnamed: 0_level_0,correcao
materia,Unnamed: 1_level_1
espanhol,0.25
inglês,0.35
matemática,0.277778
português,0.277778


### Redação

In [73]:
pontuacao_redacao['nota'] = pontuacao_redacao[['Norma culta','Adequação ao tema','Argumentação','Coesão', 'Proposta de intervenção'
]].sum(axis=1)
pontuacao_redacao

Unnamed: 0,nome,Norma culta,comentarios,Adequação ao tema,comentarios.1,Argumentação,comentarios.2,Coesão,comentarios.3,Proposta de intervenção,comentarios.4,Nota,comentarios.5,nota
0,Fulano,0,bom,40,bom,80,bom,120,bom,160,bom,400,bom,400
1,Beltrano,160,muito bom,80,muito bom,40,muito bom,160,muito bom,160,muito bom,600,melhorar letra,600
2,Ciclano,40,otimo,40,otimo,40,otimo,40,otimo,40,otimo,200,piorou,200
3,Pedro,80,melhor,120,melhor,120,melhor,160,melhor,200,melhor,680,melhorou,680
4,Rafa,80,pior,40,pior,160,pior,40,pior,40,pior,360,ilegivel,360
5,Luli,160,igual,120,igual,80,igual,40,igual,0,igual,400,muito curto,400


In [74]:
#Média de pontuação na Redação
media_redacao = pontuacao_redacao[['Norma culta','Adequação ao tema','Argumentação','Coesão', 'Proposta de intervenção'
,'nota']].mean()
media_redacao

Norma culta                 86.666667
Adequação ao tema           73.333333
Argumentação                86.666667
Coesão                      93.333333
Proposta de intervenção    100.000000
nota                       440.000000
dtype: float64

In [75]:
#Porcentagem de acerto total na Redação

# como a nota maxima para cada criterio é 200, divide-se as notas por 200 para calcular o quantos % os alunos atingiram do valor máximo
porcem_acertos_redacao = df_redacao[['Norma culta','Adequação ao tema','Argumentação','Coesão', 'Proposta de intervenção']]/200

# calcula a media de porcentagem de acerto
porcem_acertos_redacao.mean()

Norma culta                0.433333
Adequação ao tema          0.366667
Argumentação               0.433333
Coesão                     0.466667
Proposta de intervenção    0.500000
dtype: float64

### Pontuação total

In [76]:
# a media da pontuação geral é a média entre os acertos de questões objetivas e a média das notas de redação

# assim como em Alunos -> pontuação total, tem que verificar a info a seguir
# como a média de acertos não está no padrão das notas de redação, é necessário multiplicar a média de acertos das questoes 
# objetivas por 1000
media_pontuacao_total = (media_acertos_obj*100 + media_redacao['nota'])/2
media_pontuacao_total

235.0

In [57]:
# porcentagem de acertos da prova toda (objetivas + redação)


In [77]:
# 10 melhores colocados, nota total e % de acertos
# 'colocacao' foi definido na seção de métricas de alunos
top10 = colocacao.head(10)
top10

Unnamed: 0,nome,Nota,correcao,total,% de acerto
0,Pedro,680,20,700,0.466667
1,Beltrano,600,20,620,0.413333
2,Fulano,400,70,470,0.313333
3,Luli,400,30,430,0.286667
4,Rafa,360,20,380,0.253333
5,Ciclano,200,20,220,0.146667


In [78]:
# 5 melhores, nota total e % de acertos
top5 = colocacao.head(5)
top5

Unnamed: 0,nome,Nota,correcao,total,% de acerto
0,Pedro,680,20,700,0.466667
1,Beltrano,600,20,620,0.413333
2,Fulano,400,70,470,0.313333
3,Luli,400,30,430,0.286667
4,Rafa,360,20,380,0.253333
