In [None]:
%matplotlib notebook
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
from matplotlib import colors 
from matplotlib.ticker import PercentFormatter 
import matplotlib.ticker as ticker
import seaborn as sns

pd.set_option("display.precision", 13)

In [3]:
df_enem = pd.read_parquet("ENEM_2016_resumido.parquet", engine="fastparquet")
df_sisu = pd.read_parquet("SISU_2017_resumido.parquet", engine="fastparquet")

In [4]:
alunos_sisu_no_enem = df_sisu[df_sisu['NOTAS_CONCATENADAS'].isin(df_enem['NOTAS_CONCATENADAS'])]
#alunos_sisu_nao_no_enem = df_sisu[~df_sisu['NOTAS_CONCATENADAS'].isin(df_enem['NOTAS_CONCATENADAS'])]

alunos_enem_no_sisu = df_enem[df_enem['NOTAS_CONCATENADAS'].isin(df_sisu['NOTAS_CONCATENADAS'])]
#alunos_enem_nao_no_sisu = df_enem[~df_enem['NOTAS_CONCATENADAS'].isin(df_sisu['NOTAS_CONCATENADAS'])]

num_alunos_enem_no_sisu = len(alunos_enem_no_sisu)
num_alunos_sisu_no_enem = len(alunos_sisu_no_enem)

total_alunos_enem = len(df_enem)
total_alunos_sisu = len(df_sisu)

percent_alunos_enem_no_sisu = (num_alunos_enem_no_sisu / total_alunos_enem) * 100
percent_alunos_sisu_no_enem = (num_alunos_sisu_no_enem / total_alunos_sisu) * 100

info_correspondencia1 = pd.DataFrame({
    'Descrição': ['Alunos do SISU encontrados no ENEM', 'Alunos do ENEM encontrados no SISU'],
    'Quantidade de Observações': [num_alunos_sisu_no_enem, num_alunos_enem_no_sisu],
    'Percentual': [percent_alunos_sisu_no_enem, percent_alunos_enem_no_sisu]})
info_correspondencia1['Percentual'] = ["{:.2f}%".format(x) for x in info_correspondencia1['Percentual']]

info_correspondencia1_formatado = info_correspondencia1.style.set_caption("Correspondência entre alunos do SISU e ENEM - apenas notas")
info_correspondencia1_formatado.hide()
display(info_correspondencia1_formatado)

Descrição,Quantidade de Observações,Percentual
Alunos do SISU encontrados no ENEM,725695,27.64%
Alunos do ENEM encontrados no SISU,725691,52.28%


In [5]:
df_sisu['IDENTIFICADOR'] = df_sisu['NOTAS_CONCATENADAS'] + df_sisu['IDADE'].astype(str) + df_sisu['SG_UF_CANDIDATO'] + df_sisu['TP_SEXO']
df_enem['IDENTIFICADOR'] = df_enem['NOTAS_CONCATENADAS'] + df_enem['NU_IDADE'].astype(str) + df_enem['SG_UF_RESIDENCIA'] + df_enem['TP_SEXO']

alunos_sisu_no_enem = df_sisu[df_sisu['IDENTIFICADOR'].isin(df_enem['IDENTIFICADOR'])]
alunos_sisu_nao_no_enem = df_sisu[~df_sisu['IDENTIFICADOR'].isin(df_enem['IDENTIFICADOR'])]

alunos_enem_no_sisu = df_enem[df_enem['IDENTIFICADOR'].isin(df_sisu['IDENTIFICADOR'])]
alunos_enem_nao_no_sisu = df_enem[~df_enem['IDENTIFICADOR'].isin(df_sisu['IDENTIFICADOR'])]

num_alunos_enem_no_sisu = len(alunos_enem_no_sisu)
num_alunos_sisu_no_enem = len(alunos_sisu_no_enem)

total_alunos_enem = len(df_enem)
total_alunos_sisu = len(df_sisu)

percent_alunos_enem_no_sisu = (num_alunos_enem_no_sisu / total_alunos_enem) * 100
percent_alunos_sisu_no_enem = (num_alunos_sisu_no_enem / total_alunos_sisu) * 100

info_correspondencia2 = pd.DataFrame({
    'Descrição': ['Alunos do SISU encontrados no ENEM', 'Alunos do ENEM encontrados no SISU'],
    'Quantidade de Observações': [num_alunos_sisu_no_enem, num_alunos_enem_no_sisu],
    'Percentual': [percent_alunos_sisu_no_enem, percent_alunos_enem_no_sisu]})
info_correspondencia2['Percentual'] = ["{:.2f}%".format(x) for x in info_correspondencia2['Percentual']]

info_correspondencia2_formatado = info_correspondencia2.style.set_caption("Correspondência entre alunos do SISU e ENEM - notas, idade, UF e gênero")
info_correspondencia2_formatado.hide()
display(info_correspondencia2_formatado)

Descrição,Quantidade de Observações,Percentual
Alunos do SISU encontrados no ENEM,712526,27.14%
Alunos do ENEM encontrados no SISU,712526,51.33%


In [6]:
resultados = {"Valor": [], "Estatística": [], "Variável": [], "Descrição": []}
variavel_rotulo = ["Matemática", "Redação", "Ciências Humanas", "Ciências da Natureza", "Linguagens", "Idade"]
descricao_rotulo = ['Alunos do SISU no ENEM', 'Alunos do SISU não no ENEM', 'Alunos do ENEM no SISU', 'Alunos do ENEM não no SISU']
colunas_df_sisu = ["NU_NOTA_M", "NU_NOTA_R", "NU_NOTA_CH", "NU_NOTA_CN", "NU_NOTA_L", "IDADE"]
colunas_df_enem = ['NU_NOTA_LC', 'NU_NOTA_CH', 'NU_NOTA_CN', 'NU_NOTA_MT', 'NU_NOTA_REDACAO', 'NU_IDADE']

for i in range(5):
    medias = [alunos_sisu_no_enem[colunas_df_sisu[i]].mean(),
             alunos_sisu_nao_no_enem[colunas_df_sisu[i]].mean(),
             alunos_enem_no_sisu[colunas_df_enem[i]].mean(),
             alunos_enem_nao_no_sisu[colunas_df_enem[i]].mean()]
    dps = [alunos_sisu_no_enem[colunas_df_sisu[i]].std(),
             alunos_sisu_nao_no_enem[colunas_df_sisu[i]].std(),
             alunos_enem_no_sisu[colunas_df_enem[i]].std(),
             alunos_enem_nao_no_sisu[colunas_df_enem[i]].std()]

    for j in range(4):
        resultados["Valor"].append(medias[j])
        resultados["Estatística"].append("Média")
        resultados["Variável"].append(variavel_rotulo[i])
        resultados["Descrição"].append(descricao_rotulo[j])

        resultados["Valor"].append(dps[j])
        resultados["Estatística"].append("Desvio padrão")
        resultados["Variável"].append(variavel_rotulo[i])
        resultados["Descrição"].append(descricao_rotulo[j])

    
df_tabela_estatisticas = pd.DataFrame(resultados)
df_tabela_estatisticas_pivot = pd.pivot_table(df_tabela_estatisticas, values= 'Valor', 
                                index=['Variável'], 
                                columns=['Descrição','Estatística'], 
                                aggfunc=np.mean,
                                fill_value=0)
df_tabela_estatisticas_pivot_formatado = df_tabela_estatisticas_pivot.style.set_caption("Tabulação de estatísticas")
df_tabela_estatisticas_pivot_formatado.format('{:,.2f}')
display(df_tabela_estatisticas_pivot_formatado)

Descrição,Alunos do ENEM no SISU,Alunos do ENEM no SISU,Alunos do ENEM não no SISU,Alunos do ENEM não no SISU,Alunos do SISU no ENEM,Alunos do SISU no ENEM,Alunos do SISU não no ENEM,Alunos do SISU não no ENEM
Estatística,Desvio padrão,Média,Desvio padrão,Média,Desvio padrão,Média,Desvio padrão,Média
Variável,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Ciências Humanas,79.74,506.01,61.51,458.9,70.78,562.11,73.46,555.84
Ciências da Natureza,115.82,523.08,87.03,463.89,79.74,506.01,78.27,494.72
Linguagens,134.88,606.72,146.49,485.94,65.8,543.71,65.43,537.32
Matemática,65.8,543.71,66.19,501.37,115.82,523.08,108.94,510.46
Redação,70.78,562.11,69.42,510.74,134.88,606.72,132.63,577.27


In [7]:
novo_nome_colunas = {
    'NU_NOTA_LC': 'NU_NOTA_M',
    'NU_NOTA_CH': 'NU_NOTA_R',
    'NU_NOTA_CN': 'NU_NOTA_CH',
    'NU_NOTA_MT': 'NU_NOTA_CN',
    'NU_NOTA_REDACAO': 'NU_NOTA_L',
    'NU_IDADE': 'IDADE',
    'SG_UF_RESIDENCIA': 'SG_UF_CANDIDATO'
}
df_enem.rename(columns=novo_nome_colunas, inplace=True)

df_enem['ORIGEM'] = "ENEM"
df_sisu['ORIGEM'] = "SISU"

In [8]:
df_combinado = df_sisu.merge(df_enem, on='IDENTIFICADOR', suffixes=('_ENEM', '_SISU'))
display(df_combinado)

Unnamed: 0,IDENTIFICADORES_CONCATENADOS,NOTAS_CONCATENADAS_ENEM,NO_INSCRITO,IDADE_ENEM,TP_SEXO_ENEM,SG_UF_CANDIDATO_ENEM,MUNICIPIO_CANDIDATO,NU_NOTA_L_ENEM,NU_NOTA_CH_ENEM,NU_NOTA_CN_ENEM,...,Q043,Q044,Q045,Q046,Q047,Q048,Q049,Q050,NOTAS_CONCATENADAS_SISU,ORIGEM_SISU
0,0.0 364.8999938964844 412.79998779296875 0.0 5...,0.0 364.8999938964844 412.79998779296875 0.0 5...,MATHEUS OSORIO DE FREITAS,19,M,MA,Timon,0.0000000000000,364.8999938964844,412.7999877929688,...,A,A,B,B,A,A,B,A,0.0 364.8999938964844 412.79998779296875 0.0 5...,ENEM
1,0.0 377.29998779296875 384.79998779296875 0.0 ...,0.0 377.29998779296875 384.79998779296875 0.0 ...,ARIADILLA GOMES MOURAO,17,F,TO,Lagoa da Confusão,0.0000000000000,377.2999877929688,384.7999877929688,...,A,A,A,D,A,A,A,A,0.0 377.29998779296875 384.79998779296875 0.0 ...,ENEM
2,0.0 421.0 476.70001220703125 0.0 340.0 18 PE F,0.0 421.0 476.70001220703125 0.0 340.0,FABIOLA SOARES DA SILVA,18,F,PE,Recife,0.0000000000000,421.0000000000000,476.7000122070312,...,A,B,A,B,A,A,C,A,0.0 421.0 476.70001220703125 0.0 340.0,ENEM
3,0.0 466.70001220703125 421.70001220703125 0.0 ...,0.0 466.70001220703125 421.70001220703125 0.0 ...,FLAVIO ANDRE DE OLIVEIRA COELHO,20,M,SP,Sertãozinho,0.0000000000000,466.7000122070312,421.7000122070312,...,A,A,B,B,A,A,C,A,0.0 466.70001220703125 421.70001220703125 0.0 ...,ENEM
4,0.0 485.29998779296875 384.3999938964844 0.0 4...,0.0 485.29998779296875 384.3999938964844 0.0 4...,EDHYANNE BRUNA CUNHA SANTOS,18,F,MA,Caxias,0.0000000000000,485.2999877929688,384.3999938964844,...,D,C,A,B,A,A,C,A,0.0 485.29998779296875 384.3999938964844 0.0 4...,ENEM
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712521,774.7000122070312 794.0 757.7000122070312 966....,774.7000122070312 794.0 757.7000122070312 966....,GUILHERME DE ANGELO GUIMARAES DA SILVEIRA,17,M,SP,Cotia,774.7000122070312,794.0000000000000,757.7000122070312,...,A,A,A,B,E,A,A,A,774.7000122070312 794.0 757.7000122070312 966....,ENEM
712522,781.0999755859375 755.5999755859375 757.5 893....,781.0999755859375 755.5999755859375 757.5 893....,SARAH NOBRE QUINTAO BRANT,17,F,SP,São Paulo,781.0999755859375,755.5999755859375,757.5000000000000,...,A,A,A,B,D,A,A,A,781.0999755859375 755.5999755859375 757.5 893....,ENEM
712523,788.2999877929688 676.7999877929688 647.700012...,788.2999877929688 676.7999877929688 647.700012...,HELENA TAVARES,17,F,PR,Curitiba,788.2999877929688,676.7999877929688,647.7000122070312,...,A,A,A,B,D,A,A,A,788.2999877929688 676.7999877929688 647.700012...,ENEM
712524,789.7999877929688 802.9000244140625 871.299987...,789.7999877929688 802.9000244140625 871.299987...,LUIS FELIPE CHAGAS CALDEIRA CATAO,18,M,AL,Maceió,789.7999877929688,802.9000244140625,871.2999877929688,...,A,A,A,B,D,A,A,A,789.7999877929688 802.9000244140625 871.299987...,ENEM


In [9]:
df_combinado.to_parquet("datasets_combinados.parquet")

In [10]:
print(len(df_combinado))

712526


In [11]:
df_combinado.columns

Index(['IDENTIFICADORES_CONCATENADOS', 'NOTAS_CONCATENADAS_ENEM',
       'NO_INSCRITO', 'IDADE_ENEM', 'TP_SEXO_ENEM', 'SG_UF_CANDIDATO_ENEM',
       'MUNICIPIO_CANDIDATO', 'NU_NOTA_L_ENEM', 'NU_NOTA_CH_ENEM',
       'NU_NOTA_CN_ENEM',
       ...
       'Q043', 'Q044', 'Q045', 'Q046', 'Q047', 'Q048', 'Q049', 'Q050',
       'NOTAS_CONCATENADAS_SISU', 'ORIGEM_SISU'],
      dtype='object', length=202)