In [28]:
import os

import plotly
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd

In [29]:
INPUT_PATH = '../../data/4_final/forms'
OUTPUT_PATH = '../../data/5_content'

## Reading

In [30]:
enem = pd.read_csv(os.path.join(INPUT_PATH, 'enem.csv')).convert_dtypes()
enem.head()

Unnamed: 0,id,unidade,curso,ano,modalidade,chamada,nota_linguagens,nota_humanas,nota_natureza,nota_matematica,nota_redacao,nota_final,nota_redacao_c1,nota_redacao_c2,nota_redacao_c3,nota_redacao_c4,nota_redacao_c5,redacao
0,86,FEARP,Administração,2020,Ampla Concorrência (AC),,600.3,676.2,656.3,895.2,840.0,746.54,,,,,,
1,86,FEARP,Administração,2020,Ampla Concorrência (AC),,606.0,666.7,590.6,837.6,880.0,732.335,,,,,,
2,86,FEARP,Administração,2020,Ampla Concorrência (AC),,631.2,632.5,623.7,734.4,900.0,710.335,180.0,180.0,180.0,160.0,200.0,
3,86,FEARP,Administração,2020,Ampla Concorrência (AC),,631.9,621.1,589.3,752.2,920.0,712.635,160.0,200.0,180.0,180.0,200.0,
4,80,FEA,Administração Diurno,2019,"Pretos, Pardos e Indígenas (PPI)",,,,,,,714.0,,,,,,


In [31]:
fuvest = pd.read_csv(os.path.join(INPUT_PATH, 'fuvest.csv')).convert_dtypes()
fuvest.head()

Unnamed: 0,id,unidade,curso,ano,modalidade,chamada,nota_1,nota_2_1,nota_2_2,nota_final,nota_redacao,classificacao_carreira,classificacao_curso,redacao
0,4,EACH,Biotecnologia,2020,Escola Pública (EP),,51,51.88,31.25,465.988889,30.0,32,,
1,4,EACH,Biotecnologia,2020,Escola Pública (EP),,52,68.0,34.0,532.592593,43.0,7,,
2,4,EACH,Biotecnologia,2020,Escola Pública (EP),,60,55.0,41.67,544.455556,31.5,5,,
3,4,EACH,Biotecnologia,2020,Ampla Concorrência (AC),,57,59.5,49.17,573.344444,32.0,27,,
4,4,EACH,Biotecnologia,2020,Ampla Concorrência (AC),,64,68.0,41.67,602.603704,36.0,20,,


## Analysing

### Support functions

In [32]:
def table_from_df(df, cols=None, manual_header=None, cells_format=None):
  if cols is None:
    cols = df.columns
  
  if manual_header is not None:
    header_values = manual_header
  else:
    header_values = cols
    
  data_list = [df[col] for col in cols]
  fig = go.Figure(data=go.Table(
      header=dict(values=header_values,
                  align='center'),
      cells=dict(values=data_list,
                 format=cells_format),
  ))
  return fig

In [33]:
def plotly_fig_to_html(fig, path):
  fig.update_layout(margin=dict(
      b=0,
      l=0,
      r=0,
      t=0,
  ))
  fig.write_html(path, include_plotlyjs='cdn', full_html=False)

### Fuvest

In [34]:
for index, row in fuvest[['id', 'ano']].drop_duplicates().iterrows():
  os.makedirs(os.path.join(OUTPUT_PATH, str(row.id), 'fuvest', str(row.ano)))

In [35]:
fuvest_grouped = fuvest.groupby(['id', 'ano', 'modalidade'])
fuvest_grouped.groups

{(0, 2019, 'Escola Pública (EP)'): [22], (0, 2019, 'Pretos, Pardos e Indígenas (PPI)'): [1872], (0, 2020, 'Ampla Concorrência (AC)'): [24, 25, 26, 27], (0, 2020, 'Escola Pública (EP)'): [19, 20, 21, 23], (0, 2021, 'Ampla Concorrência (AC)'): [1869, 1870, 1873, 1875, 1877, 1879, 1880, 1883, 1884, 1885, 1886, 1887, 1889, 1891, 1893, 1894], (0, 2021, 'Escola Pública (EP)'): [1871, 1874, 1876, 1878, 1881, 1882, 1888, 1890, 1892], (2, 2021, 'Escola Pública (EP)'): [1854], (4, 2020, 'Ampla Concorrência (AC)'): [3, 4, 5, 6, 7, 8], (4, 2020, 'Escola Pública (EP)'): [0, 1, 2], (4, 2021, 'Ampla Concorrência (AC)'): [1830, 1831, 1832, 1833, 1834, 1835, 1836, 1838], (4, 2021, 'Escola Pública (EP)'): [1837], (6, 2021, 'Ampla Concorrência (AC)'): [1867, 1868], (6, 2021, 'Escola Pública (EP)'): [1866], (7, 2019, 'Escola Pública (EP)'): [28], (7, 2021, 'Ampla Concorrência (AC)'): [1895, 1897, 1901, 1902, 1904], (7, 2021, 'Escola Pública (EP)'): [1896, 1898, 1899, 1900], (7, 2021, 'Pretos, Pardos e Ind

In [36]:
fuvest_metrics_df = fuvest_grouped.agg(
  Mínimo=('nota_final', 'min'),
  Máximo=('nota_final', 'max'), 
  Médio=('nota_final', 'mean'),
)
fuvest_metrics_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Mínimo,Máximo,Médio
id,ano,modalidade,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2019,Escola Pública (EP),506.481481,506.481481,506.481481
0,2019,"Pretos, Pardos e Indígenas (PPI)",474.63,474.63,474.63
0,2020,Ampla Concorrência (AC),575.72963,644.618519,609.765741
0,2020,Escola Pública (EP),424.085185,546.666667,480.552778
0,2021,Ampla Concorrência (AC),577.96,729.81,649.51375
...,...,...,...,...,...
174,2020,Ampla Concorrência (AC),659.26,754.81,693.173333
174,2020,Escola Pública (EP),610.37,642.78,626.075833
174,2020,"Pretos, Pardos e Indígenas (PPI)",511.48,672.59,575.246667
174,2021,Ampla Concorrência (AC),764.26,764.26,764.26


#### Metrics plot

In [37]:
example_metrics = fuvest_metrics_df.loc[0].reset_index()
example_metrics

Unnamed: 0,ano,modalidade,Mínimo,Máximo,Médio
0,2019,Escola Pública (EP),506.481481,506.481481,506.481481
1,2019,"Pretos, Pardos e Indígenas (PPI)",474.63,474.63,474.63
2,2020,Ampla Concorrência (AC),575.72963,644.618519,609.765741
3,2020,Escola Pública (EP),424.085185,546.666667,480.552778
4,2021,Ampla Concorrência (AC),577.96,729.81,649.51375
5,2021,Escola Pública (EP),479.44,579.26,527.895556


In [38]:
molten_example_metrics = pd.melt(example_metrics,
                                 id_vars=['ano', 'modalidade'],
                                 value_vars=['Mínimo', 'Médio', 'Máximo'],
                                 var_name='metric',
                                 value_name='nota')
molten_example_metrics

Unnamed: 0,ano,modalidade,metric,nota
0,2019,Escola Pública (EP),Mínimo,506.481481
1,2019,"Pretos, Pardos e Indígenas (PPI)",Mínimo,474.63
2,2020,Ampla Concorrência (AC),Mínimo,575.72963
3,2020,Escola Pública (EP),Mínimo,424.085185
4,2021,Ampla Concorrência (AC),Mínimo,577.96
5,2021,Escola Pública (EP),Mínimo,479.44
6,2019,Escola Pública (EP),Médio,506.481481
7,2019,"Pretos, Pardos e Indígenas (PPI)",Médio,474.63
8,2020,Ampla Concorrência (AC),Médio,609.765741
9,2020,Escola Pública (EP),Médio,480.552778


In [39]:
first_year = molten_example_metrics.ano.min()
first_year

2019

In [40]:
px.line(
  molten_example_metrics,
  x='ano', y='nota',
  color='metric',
  facet_row='modalidade',
  markers=True,

  labels={
      'ano': 'Ano de ingresso',
      'nota': '',
      'metric': 'Valor',
  },
  category_orders={
      'modalidade': ['Ampla Concorrência (AC)',
                     'Escola Pública (EP)', 
                     'Pretos, Pardos e Indígenas (PPI)'],
      'metric': ['Máximo', 'Médio', 'Mínimo'],
  },
)

In [41]:
def abbreviate_quota(plotly_annotation):
  text = plotly_annotation.text
  new_text = text
  for abbreviation in ['AC', 'EP', 'PPI']:
    if abbreviation in text:
      new_text = abbreviation
      break
  
  return plotly_annotation.update(text=new_text)

figs = []
for id, df in fuvest_metrics_df.groupby('id'):
  molten_df = pd.melt(df.reset_index(),
                      id_vars=['ano', 'modalidade'],
                      value_vars=['Mínimo', 'Máximo', 'Médio'],
                      var_name='metric',
                      value_name='nota')
  fig = px.line(
    molten_df,
    x='ano', y='nota',
    color='metric',
    facet_row='modalidade',
    markers=True,

    labels={
        'ano': 'Ano de ingresso',
        'nota': '',
        'metric': 'Valor',
    },
    category_orders={
        'modalidade': ['Ampla Concorrência (AC)',
                      'Escola Pública (EP)', 
                      'Pretos, Pardos e Indígenas (PPI)'],
        'metric': ['Máximo', 'Médio', 'Mínimo'],
    },
  )
  first_year = molten_df.ano.min()
  fig.update_layout(
      xaxis=dict(
          tickmode='linear',
          tick0=first_year,
          dtick=1,
          fixedrange=True,
      ),
      yaxis=dict(
          fixedrange=True,
      ),
  )
  fig.for_each_annotation(abbreviate_quota)

  figs.append(fig)

print(len(figs))
figs[0].show()

126


In [42]:
figs[102].show()

In [43]:
def plot_metric_evolution(metrics_df, exam='fuvest'):

  def abbreviate_quota(plotly_annotation):
    text = plotly_annotation.text
    new_text = text
    for abbreviation in ['AC', 'EP', 'PPI']:
      if abbreviation in text:
        new_text = abbreviation
        break
    
    return plotly_annotation.update(text=new_text)

  for id, df in metrics_df.groupby('id'):
    molten_df = pd.melt(df.reset_index(),
                        id_vars=['ano', 'modalidade'],
                        value_vars=['Mínimo', 'Máximo', 'Médio'],
                        var_name='metric',
                        value_name='nota')
    fig = px.line(
      molten_df,
      x='ano', y='nota',
      color='metric',
      facet_row='modalidade',
      markers=True,

      labels={
          'ano': 'Ano de ingresso',
          'nota': '',
          'metric': 'Valor',
      },
      category_orders={
          'modalidade': ['Ampla Concorrência (AC)',
                        'Escola Pública (EP)', 
                        'Pretos, Pardos e Indígenas (PPI)'],
          'metric': ['Máximo', 'Médio', 'Mínimo'],
      },
    )
    first_year = molten_df.ano.min()
    fig.update_layout(
        xaxis=dict(
            tickmode='linear',
            tick0=first_year,
            dtick=1,
            fixedrange=True,
        ),
        yaxis=dict(
            fixedrange=True,
        ),
    )
    fig.for_each_annotation(abbreviate_quota)

    plotly_fig_to_html(
      fig,
      os.path.join(OUTPUT_PATH, str(id), exam,
                   'metric_evolution.html'))

In [44]:
plot_metric_evolution(fuvest_metrics_df)

#### Metrics table for the latest year

In [45]:
for id, df in fuvest_metrics_df.reset_index().groupby('id'):
  print(id)
  print(df[['ano', 'modalidade', 'Mínimo', 'Médio', 'Máximo']])

0
    ano                        modalidade      Mínimo       Médio      Máximo
0  2019               Escola Pública (EP)  506.481481  506.481481  506.481481
1  2019  Pretos, Pardos e Indígenas (PPI)      474.63      474.63      474.63
2  2020           Ampla Concorrência (AC)   575.72963  609.765741  644.618519
3  2020               Escola Pública (EP)  424.085185  480.552778  546.666667
4  2021           Ampla Concorrência (AC)      577.96   649.51375      729.81
5  2021               Escola Pública (EP)      479.44  527.895556      579.26
2
    ano           modalidade  Mínimo   Médio  Máximo
6  2021  Escola Pública (EP)  352.78  352.78  352.78
4
     ano               modalidade      Mínimo       Médio      Máximo
7   2020  Ampla Concorrência (AC)  573.344444  645.005556  735.555556
8   2020      Escola Pública (EP)  465.988889  514.345679  544.455556
9   2021  Ampla Concorrência (AC)      616.48   674.37375      823.33
10  2021      Escola Pública (EP)      618.33      618.33     

In [46]:
metric_tables = []
# TODO add latest avaliable year to the title of the table
for id, df in fuvest_metrics_df.reset_index().groupby('id'):
  latest_metrics_df = df.loc[df.ano == df.ano.max()]
  metric_tables.append(table_from_df(latest_metrics_df,
                                     ['modalidade', 'Mínimo', 'Médio', 'Máximo'],
                                     ['Modalidade', 'Mínima', 'Média', 'Máxima'],
                                     [None, '.2f', '.2f', '.2f']))

print(len(metric_tables))
metric_tables[0].show()

126


In [None]:
metric_tables[45].show()

In [47]:
def plot_latest_metrics_table(metrics_df, exam='fuvest'):
  # TODO add latest avaliable year to the title of the table
  for id, df in metrics_df.reset_index().groupby('id'):
    latest_metrics_df = df.loc[df.ano == df.ano.max()]
    plotly_fig_to_html(
      table_from_df(latest_metrics_df,
                    ['modalidade', 'Mínimo', 'Médio', 'Máximo'],
                    ['Modalidade', 'Mínima', 'Média', 'Máxima'],
                    [None, '.2f', '.2f', '.2f']),
      os.path.join(OUTPUT_PATH, str(id), exam,
                   'latest_metrics.html'))

In [48]:
plot_latest_metrics_table(fuvest_metrics_df)

#### Data tables

In [49]:
TABLE_COL_NAMES = [
  'chamada',
  'nota_1',
  'nota_2_1',
  'nota_2_2',
  'nota_final',
  'nota_redacao',
  'classificacao_carreira',
  'classificacao_curso',
]
HEADER_COL_NAMES = [
  'Chamada',
  '1° fase',
  '2° fase, 1° dia',
  '2° fase, 2° dia',
  'Nota final',
  'Nota da redação',
  'Classificação na carreira',
  'Classificação no curso',
]
COL_FORMATS = [None, None, '.2f', '.2f', '.2f', '.1f', None, None]
data_tables = []

for id, df in fuvest.groupby('id'):
  df = df.reset_index()
  for ano in df['ano'].unique():
    for modalidade in df['modalidade'].unique():
      sliced_df = df[(df['ano'] == ano)
                     & (df['modalidade'] == modalidade)]
      if not sliced_df.empty:
        sliced_df = sliced_df.sort_values('nota_final', ascending=False)
        full_df = sliced_df.astype(str)
        data_tables.append(table_from_df(full_df,
                                         TABLE_COL_NAMES,
                                         HEADER_COL_NAMES,
                                         COL_FORMATS))
print(len(data_tables))
data_tables[0].show()

490


In [50]:
def plot_data_tables(exam_df, cols, header, cells_format, exam='fuvest'):
  for id, df in exam_df.groupby('id'):
    df = df.reset_index()
    for ano in df['ano'].unique():
      for modalidade in df['modalidade'].unique():
        sliced_df = df[(df['ano'] == ano)
                      & (df['modalidade'] == modalidade)]
        if not sliced_df.empty:
          sliced_df = sliced_df.sort_values('nota_final', ascending=False)
          full_df = sliced_df.astype(str)
          plotly_fig_to_html(
            table_from_df(full_df, cols, header, cells_format),
            os.path.join(OUTPUT_PATH, str(id), exam,
                         str(ano), f'{modalidade}.html')  
          )

In [51]:
plot_data_tables(fuvest, TABLE_COL_NAMES, HEADER_COL_NAMES, COL_FORMATS)

### Enem

In [52]:
for index, row in enem[['id', 'ano']].drop_duplicates().iterrows():
  os.makedirs(os.path.join(OUTPUT_PATH, str(row.id), 'enem', str(row.ano)))

In [53]:
enem_grouped = enem.groupby(['id', 'ano', 'modalidade'])
enem_grouped.groups

{(0, 2020, 'Ampla Concorrência (AC)'): [412], (0, 2020, 'Escola Pública (EP)'): [413, 414, 415], (0, 2021, 'Pretos, Pardos e Indígenas (PPI)'): [417], (2, 2019, 'Escola Pública (EP)'): [72], (4, 2020, 'Escola Pública (EP)'): [46], (4, 2020, 'Pretos, Pardos e Indígenas (PPI)'): [45], (12, 2017, 'Pretos, Pardos e Indígenas (PPI)'): [231], (12, 2019, 'Pretos, Pardos e Indígenas (PPI)'): [232], (12, 2020, 'Ampla Concorrência (AC)'): [233], (12, 2021, 'Escola Pública (EP)'): [416], (22, 2019, 'Escola Pública (EP)'): [79, 80], (22, 2019, 'Pretos, Pardos e Indígenas (PPI)'): [78], (22, 2020, 'Escola Pública (EP)'): [82], (22, 2020, 'Pretos, Pardos e Indígenas (PPI)'): [81], (24, 2020, 'Ampla Concorrência (AC)'): [77, 418], (24, 2021, 'Escola Pública (EP)'): [419], (27, 2021, 'Pretos, Pardos e Indígenas (PPI)'): [420], (29, 2018, 'Pretos, Pardos e Indígenas (PPI)'): [44], (36, 2020, 'Escola Pública (EP)'): [163], (38, 2020, 'Pretos, Pardos e Indígenas (PPI)'): [421], (46, 2020, 'Ampla Concorrê

In [54]:
enem_metrics_df = enem_grouped.agg(
  Mínimo=('nota_final', 'min'),
  Máximo=('nota_final', 'max'), 
  Médio=('nota_final', 'mean'),
)
enem_metrics_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Mínimo,Máximo,Médio
id,ano,modalidade,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2020,Ampla Concorrência (AC),779.85,779.85,779.85
0,2020,Escola Pública (EP),715.08,723.9,718.073333
0,2021,"Pretos, Pardos e Indígenas (PPI)",707.34,707.34,707.34
2,2019,Escola Pública (EP),700.557143,700.557143,700.557143
4,2020,Escola Pública (EP),695.328571,695.328571,695.328571
...,...,...,...,...,...
173,2021,Ampla Concorrência (AC),723.0,723.0,723.0
174,2020,Ampla Concorrência (AC),803.83,831.63,817.73
174,2020,Escola Pública (EP),724.64,755.53,739.3
174,2020,"Pretos, Pardos e Indígenas (PPI)",647.22,745.0,706.132857


#### Metrics plot

In [55]:
plot_metric_evolution(enem_metrics_df, exam='enem')

#### Metrics table for the latest year

In [56]:
plot_latest_metrics_table(enem_metrics_df, exam='enem')

#### Data tables

In [57]:
enem.columns

Index(['id', 'unidade', 'curso', 'ano', 'modalidade', 'chamada',
       'nota_linguagens', 'nota_humanas', 'nota_natureza', 'nota_matematica',
       'nota_redacao', 'nota_final', 'nota_redacao_c1', 'nota_redacao_c2',
       'nota_redacao_c3', 'nota_redacao_c4', 'nota_redacao_c5', 'redacao'],
      dtype='object')

In [58]:
ENEM_TABLE_COL_NAMES = [
  'chamada',
  'nota_linguagens',
  'nota_humanas',
  'nota_natureza',
  'nota_matematica',
  'nota_redacao',
  'nota_final',
]
ENEM_HEADER_COL_NAMES = [
  'Chamada',
  'Linguagens',
  'Humanas',
  'Ciências da Natureza',
  'Matemática',
  'Nota da redação',
  'Nota final',
]
ENEM_COL_FORMATS = [None, '.2f', '.2f', '.2f', '.2f', '.3d', '.2f']

plot_data_tables(enem,
                 ENEM_TABLE_COL_NAMES, 
                 ENEM_HEADER_COL_NAMES, 
                 ENEM_COL_FORMATS, 
                 exam='enem')