## 📑 LIMPEZA E PADRONIZAÇÃO DOS DADOS POR ANO

Houveram muitas mudanças nos nomes das variáveis ao longo dos anos, assim foi necessário padronizar os nomes, verificar cada ano, ver qual eram as variáveis e criar uma padronização, ao mesmo tempo em que deixamos apenas as variáveis de interesse.




In [38]:
import pandas as pd
import numpy as np

In [39]:
#VERIFICANDO AS COLUNAS DIFERENTES POR ANO 


year_list = [str(year) for year in range(2003, 2024)]
columns_by_year = {}

# Carregar os nomes das colunas de cada ano
for year in year_list:
    enem_ano = pd.read_csv(f'Data/enem_{year}.csv', sep=',', encoding='ISO-8859-1', nrows=0)
    columns_by_year[year] = set(enem_ano.columns)

# Agora comparar
# Pegar a interseção de todas (colunas que aparecem em todos os anos)
common_columns = set.intersection(*columns_by_year.values())

# Pegar as diferenças (colunas que mudam)
columns_diff = {}

for year in year_list:
    diff = columns_by_year[year] - common_columns
    if diff:
        columns_diff[year] = diff

# Resultados
print("Colunas comuns a todos os anos:")
print(sorted(common_columns))

print("\nColunas específicas ou diferentes por ano:")
for year, diff in columns_diff.items():
    print(f"{year}: {sorted(diff)}")

Colunas comuns a todos os anos:
['CO_MUNICIPIO_ESC', 'CO_UF_ESC', 'NO_MUNICIPIO_ESC', 'NU_ANO', 'NU_INSCRICAO', 'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC', 'TP_FAIXA_ETARIA', 'TP_LOCALIZACAO_ESC', 'TP_SEXO', 'TP_SIT_FUNC_ESC', 'TP_STATUS_REDACAO', 'TP_ST_CONCLUSAO']

Colunas específicas ou diferentes por ano:
2003: ['CO_MUNICIPIO_RESIDENCIA', 'CO_PROVA', 'CO_UF_RESIDENCIA', 'IN_QSE', 'NO_MUNICIPIO_RESIDENCIA', 'NU_NOTA_OBJETIVA', 'Q1', 'Q10', 'Q100', 'Q101', 'Q102', 'Q103', 'Q104', 'Q105', 'Q106', 'Q107', 'Q108', 'Q109', 'Q11', 'Q110', 'Q111', 'Q112', 'Q113', 'Q114', 'Q115', 'Q116', 'Q117', 'Q118', 'Q119', 'Q12', 'Q120', 'Q121', 'Q122', 'Q123', 'Q124', 'Q125', 'Q126', 'Q127', 'Q128', 'Q129', 'Q13', 'Q130', 'Q131', 'Q132', 'Q133', 'Q134', 'Q135', 'Q136', 'Q137', 'Q138', 'Q139', 'Q14', 'Q140', 'Q141', 'Q142', 'Q143', 'Q144', 'Q145', 'Q146', 'Q147', 'Q148', 'Q149', 'Q15', 'Q150', 'Q151', 'Q1

## 2003-2008

In [40]:
year_list = [str(year) for year in range(2003, 2009)]

selecionadas_ano1 = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
        'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC','TP_PRESENCA',
        'NU_NOTA_OBJETIVA', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q16','Q17','Q14','Q22','Q26','Q31','Q32']

selecionadas_ano2 = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC','TP_PRESENCA',
       'NU_NOTA_OBJETIVA', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q17','Q18','Q15','Q27','Q32','Q33','Q23']

for ano in year_list:
    print('STARTING ',ano , '------------------------------------------------------------------------------------')

    if ano in ['2003','2004']:
        enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano1);
        enem_ano.rename(columns = {'Q16': 'Q1', 
                               'Q17':'Q2',
                               'Q14':'Q5',
                               'Q31':'Q22',
                               'Q26':'Q24',
                               'Q32':'Q25',
                               'Q22':'Q6'}, inplace = True)
        
    if ano in ['2005','2006', '2007', '2008']:
        enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano2);
        enem_ano.rename(columns = {'Q17': 'Q1', 
                           'Q18':'Q2',
                           'Q15':'Q5',
                           'Q32':'Q22',
                           'Q27':'Q24',
                           'Q33':'Q25',
                           'Q23':'Q6'}, inplace = True)

    
    enem_ano['NU_NOTA_OBJETIVA']=enem_ano['NU_NOTA_OBJETIVA']*10
    enem_ano['NU_NOTA_COMP1']=enem_ano['NU_NOTA_COMP1']*10
    enem_ano['NU_NOTA_COMP2']=enem_ano['NU_NOTA_COMP2']*10
    enem_ano['NU_NOTA_COMP3']=enem_ano['NU_NOTA_COMP3']*10
    enem_ano['NU_NOTA_COMP4']=enem_ano['NU_NOTA_COMP4']*10
    enem_ano['NU_NOTA_COMP5']=enem_ano['NU_NOTA_COMP5']*10
    enem_ano['NU_NOTA_REDACAO']=enem_ano['NU_NOTA_REDACAO']*10
    
    # RETIRANDO AS NOTAS ZEROS DOS INDIVÍDUOS AUSENTES
    
    c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
    c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; 
    rd = enem_ano['NU_NOTA_REDACAO']; no = enem_ano['NU_NOTA_OBJETIVA']; 
    
    enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
    enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
    enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
    enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
    enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
    enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)
    enem_ano['NU_NOTA_OBJETIVA'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", no)
    
    #FORCANDO O TIPO DE VARIÁVEL
    enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
    enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
    enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
    enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
    enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
    enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')
    enem_ano.NU_NOTA_OBJETIVA = pd.to_numeric(enem_ano.NU_NOTA_OBJETIVA, errors='coerce')
    

    enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                            'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
    enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                             'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})

    
    enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

STARTING  2003 ------------------------------------------------------------------------------------
STARTING  2004 ------------------------------------------------------------------------------------
STARTING  2005 ------------------------------------------------------------------------------------
STARTING  2006 ------------------------------------------------------------------------------------
STARTING  2007 ------------------------------------------------------------------------------------
STARTING  2008 ------------------------------------------------------------------------------------


## 2009

In [41]:
ano = 2009
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ST_CONCLUSAO', 'TP_ENSINO', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'CO_PROVA_CN', 'CO_PROVA_CH',
       'CO_PROVA_LC', 'CO_PROVA_MT', 'TX_GABARITO_CN', 'TX_GABARITO_CH',
       'TX_GABARITO_LC', 'TX_GABARITO_MT', 'TP_STATUS_REDACAO',
       'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
       'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'IN_CERTIFICADO', 'IN_QSE',
       'Q1', 'Q2', 'Q3', 'Q4', 'Q5', 'Q6', 'Q7', 'Q8', 'Q9', 'Q10', 'Q11',
       'Q12', 'Q13', 'Q14', 'Q15', 'Q16', 'Q17', '

In [42]:
year_list = ['2009']

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q17','Q18','Q15','Q30','Q25','Q31','Q21',
       'TP_PRESENCA_MT']

for ano in year_list:
    print('STARTING ',ano , '------------------------------------------------------------------------------------')
    enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);
    
    
    enem_ano.rename(columns = {'Q17': 'Q1', 
                               'Q18':'Q2',
                               'Q15':'Q5',
                               'Q30':'Q22',
                               'Q25':'Q24',
                               'Q31':'Q25',
                               'Q21':'Q6'}, inplace = True)
    
    # FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
    enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)
    
    
    # CALCULANDO A MEDIA 
    cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
    c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
    c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
    enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
    enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
    enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
    enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
    enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
    enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
    enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
    enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
    enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
    enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)
    
    #FORCANDO O TIPO DE VARIÁVEL
    enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
    enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
    enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
    enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
    enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
    enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
    enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
    enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
    enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
    enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')
    
    enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)

    enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                            'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
    enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                             'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})


    enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

STARTING  2009 ------------------------------------------------------------------------------------


## 2010


A partir daqui temos TP_COR_RACA

In [43]:
ano = 2010
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_ST_CONCLUSAO', 'TP_ENSINO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_CERTIFICADO', 'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA',
       'CO_UF_PROVA', 'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH',
       'CO_PROVA_LC', 'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q01', 'Q02', 'Q03', 'Q04', 'Q05', 'Q06', 'Q07',
       'Q08', 'Q09', 'Q10', 'Q11

In [44]:
ano = 2010

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q02','Q03','Q01','Q04','Q22','Q24','Q25','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);
enem_ano.rename(columns = {'Q02':'Q1', 
                           'Q03':'Q2',
                           'Q01':'Q5',
                           'Q04':'Q6',
                           'Q11':'Q22',
                           'Q24':'Q24',
                           'Q25':'Q25'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)

enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})

enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

## 2011


In [45]:
ano = 2011
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_CERTIFICADO', 'NO_ENTIDADE_CERTIFICACAO',
       'CO_UF_ENTIDADE_CERTIFICACAO', 'SG_UF_ENTIDADE_CERTIFICACAO',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH',
       'CO_PROVA_LC', 'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3'

In [46]:
ano = 2011

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q002','Q003','Q001','Q004','Q070','Q064','Q071','TP_PRESENCA_MT']


enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);

enem_ano.rename(columns = {'Q002':'Q1', 
                           'Q003':'Q2',
                           'Q001':'Q5',
                           'Q004':'Q6',
                           'Q070':'Q22',
                           'Q064':'Q24',
                           'Q071':'Q25'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)

# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)

enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})


enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

## 2012

In [47]:
ano = 2012
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_CERTIFICADO', 'NO_ENTIDADE_CERTIFICACAO',
       'CO_UF_ENTIDADE_CERTIFICACAO', 'SG_UF_ENTIDADE_CERTIFICACAO',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH',
       'CO_PROVA_LC', 'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3'

In [48]:
ano = 2012

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q004','Q003','Q016','Q010','Q017','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);

enem_ano.rename(columns = {'Q001':'Q1', 
                           'Q002':'Q2',
                           'Q004':'Q5',
                           'Q003':'Q6',
                           'Q016':'Q22',
                           'Q010':'Q24',
                           'Q017':'Q25'},
                inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)



enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})

enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

## 2013

In [49]:
ano = 2013
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO', 'ANO_CONCLUIU', 'TP_ESCOLA',
       'TP_ENSINO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_CERTIFICADO', 'NO_ENTIDADE_CERTIFICACAO',
       'CO_UF_ENTIDADE_CERTIFICACAO', 'SG_UF_ENTIDADE_CERTIFICACAO',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH',
       'CO_PROVA_LC', 'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2'

In [None]:
ano = 2013

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q004','Q003','Q016','Q010','Q017','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);

       enem_ano.rename(columns = {'Q001':'Q1', 
                            'Q002':'Q2',
                            'Q004':'Q5',
                            'Q003':'Q6',
                            'Q016':'Q22',
                            'Q010':'Q24',
                            'Q017':'Q25',
                            'UF_ESC': 'SG_UF_ESC'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)


enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})


enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

## 2014

In [51]:
ano = 2014
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_CERTIFICADO', 'NO_ENTIDADE_CERTIFICACAO',
       'CO_UF_ENTIDADE_CERTIFICACAO', 'SG_UF_ENTIDADE_CERTIFICACAO',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH',
       'CO_PROVA_LC', 'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COM

In [52]:
ano = 2014

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q004','Q003','Q016','Q010','Q017','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);

enem_ano.rename(columns = {'Q001':'Q1', 
                           'Q002':'Q2',
                           'Q004':'Q5',
                           'Q003':'Q6',
                           'Q016':'Q22',
                           'Q010':'Q24',
                           'Q017':'Q25',
                           'UF_ESC': 'SG_UF_ESC'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)


enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})


enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

## 2015

In [53]:
ano = 2015
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC', 'CO_MUNICIPIO_PROVA',
       'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA', 'SG_UF_PROVA',
       'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
       'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
       'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001', 'Q002', '

In [54]:
ano = 2015

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q005','Q006','Q022','Q024','Q025','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);


enem_ano.rename(columns = {'Q001':'Q1', 
                           'Q002':'Q2',
                           'Q005':'Q5',
                           'Q006':'Q6',
                           'Q022':'Q22',
                           'Q024':'Q24',
                           'Q025':'Q25'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)


enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})


enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)


## 2016

In [55]:
ano = 2016
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC', 'CO_MUNICIPIO_PROVA',
       'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA', 'SG_UF_PROVA',
       'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
       'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
       'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001', 'Q002', '

In [56]:
ano = 2016

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q005','Q006','Q022','Q024','Q025','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);

enem_ano.rename(columns = {'Q001':'Q1', 
                           'Q002':'Q2',
                           'Q005':'Q5',
                           'Q006':'Q6',
                           'Q022':'Q22',
                           'Q024':'Q24',
                           'Q025':'Q25'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)


enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})

enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

## 2017

In [57]:
ano = 2017

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q005','Q006','Q022','Q024','Q025','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);

enem_ano.rename(columns = {'Q001':'Q1', 
                           'Q002':'Q2',
                           'Q005':'Q5',
                           'Q006':'Q6',
                           'Q022':'Q22',
                           'Q024':'Q24',
                           'Q025':'Q25'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)


enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})


enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

# 2018

In [58]:
ano = 2018

selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q005','Q006','Q022','Q024','Q025','TP_PRESENCA_MT']

enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);

enem_ano.rename(columns = {'Q001':'Q1', 
                           'Q002':'Q2',
                           'Q005':'Q5',
                           'Q006':'Q6',
                           'Q022':'Q22',
                           'Q024':'Q24',
                           'Q025':'Q25'}, inplace = True)

# FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)


# CALCULANDO A MEDIA 
cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)

#FORCANDO O TIPO DE VARIÁVEL
enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')

enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)


enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                        'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                         'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})



enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

## 2019 - 2023

In [59]:
year_list = [str(year) for year in range(2019, 2024)]
enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1');
enem_ano.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
       'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC', 'CO_MUNICIPIO_PROVA',
       'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA', 'SG_UF_PROVA',
       'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
       'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
       'NU_NOTA_MT', 'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH',
       'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TP_LINGUA',
       'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC',
       'TX_GABARITO_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001', 'Q002', '

In [60]:
year_list = [str(year) for year in range(2019, 2024)]
selecionadas_ano = ['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO','TP_COR_RACA',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC',
        'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC',
       'TP_LINGUA',
       'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1','NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001','Q002','Q005','Q006','Q022','Q024','Q025','TP_PRESENCA_MT']

for ano in year_list:
    print('STARTING ',ano , '------------------------------------------------------------------------------------')
    enem_ano = pd.read_csv(f'Data/enem_{ano}.csv',sep=',',encoding='ISO-8859-1', usecols=selecionadas_ano);
    enem_ano.rename(columns = {'Q001':'Q1', 
                               'Q002':'Q2',
                               'Q005':'Q5',
                               'Q006':'Q6',
                               'Q022':'Q22',
                               'Q024':'Q24',
                               'Q025':'Q25'}, inplace = True)
    
    # FAZENDO UMA GAMBIARRA AQUI, CRIANDO O TP_PRESENCA A PARTIR DO DADO DO TP_PRESENCA_MT, q é no segundo dia.
    enem_ano.rename({'TP_PRESENCA_MT':'TP_PRESENCA'}, axis=1, inplace=True)
    
    
    # CALCULANDO A MEDIA 
    cn = enem_ano['NU_NOTA_CN']; ch = enem_ano['NU_NOTA_CH']; lc = enem_ano['NU_NOTA_LC'];mt = enem_ano['NU_NOTA_MT'];  
    c1 = enem_ano['NU_NOTA_COMP1']; c2 = enem_ano['NU_NOTA_COMP2']; c3 = enem_ano['NU_NOTA_COMP3']; 
    c4 = enem_ano['NU_NOTA_COMP1']; c5 = enem_ano['NU_NOTA_COMP1']; rd = enem_ano['NU_NOTA_REDACAO']; 
    enem_ano['NU_NOTA_CN'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", cn)
    enem_ano['NU_NOTA_CH'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", ch)
    enem_ano['NU_NOTA_LC'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", lc)
    enem_ano['NU_NOTA_MT'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", mt)
    enem_ano['NU_NOTA_COMP1'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c1)
    enem_ano['NU_NOTA_COMP2'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c2)
    enem_ano['NU_NOTA_COMP3'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c3)
    enem_ano['NU_NOTA_COMP4'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c4)
    enem_ano['NU_NOTA_COMP5'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", c5)
    enem_ano['NU_NOTA_REDACAO'] = np.where(enem_ano['TP_PRESENCA'] == 0, "NaN", rd)
    
    #FORCANDO O TIPO DE VARIÁVEL
    enem_ano.NU_NOTA_CN = pd.to_numeric(enem_ano.NU_NOTA_CN, errors='coerce')
    enem_ano.NU_NOTA_CH = pd.to_numeric(enem_ano.NU_NOTA_CH, errors='coerce')
    enem_ano.NU_NOTA_LC = pd.to_numeric(enem_ano.NU_NOTA_LC, errors='coerce')
    enem_ano.NU_NOTA_MT = pd.to_numeric(enem_ano.NU_NOTA_MT, errors='coerce')
    enem_ano.NU_NOTA_COMP1 = pd.to_numeric(enem_ano.NU_NOTA_COMP1, errors='coerce')
    enem_ano.NU_NOTA_COMP2 = pd.to_numeric(enem_ano.NU_NOTA_COMP2, errors='coerce')
    enem_ano.NU_NOTA_COMP3 = pd.to_numeric(enem_ano.NU_NOTA_COMP3, errors='coerce')
    enem_ano.NU_NOTA_COMP4 = pd.to_numeric(enem_ano.NU_NOTA_COMP4, errors='coerce')
    enem_ano.NU_NOTA_COMP5 = pd.to_numeric(enem_ano.NU_NOTA_COMP5, errors='coerce')
    enem_ano.NU_NOTA_REDACAO = pd.to_numeric(enem_ano.NU_NOTA_REDACAO, errors='coerce')
    
    enem_ano["NU_NOTA_OBJETIVA"] = enem_ano[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_MT']].mean(axis=1)

    enem_ano['Q1'] = enem_ano['Q1'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                            'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})
    enem_ano['Q2'] = enem_ano['Q2'].replace({'A':'Sem Estudo', 'B':'Fundamental Incompleto', 'C':'Fundamental Completo', 'D':'Ensino Medio Incompleto',
                                             'E':'Ensino Medio Completo','F':'Superior Completo','G':'Pos-Graduacao', 'H': 'NI'})

    enem_ano.to_csv(f'Data/enem_{ano}_standard.csv', index=False)

STARTING  2019 ------------------------------------------------------------------------------------
STARTING  2020 ------------------------------------------------------------------------------------
STARTING  2021 ------------------------------------------------------------------------------------
STARTING  2022 ------------------------------------------------------------------------------------
STARTING  2023 ------------------------------------------------------------------------------------


## MERGE ALL DATA


In [61]:
import glob
import os

# Caminho da pasta onde estão os CSVs
pasta_dados = 'Data/'  # ajuste se necessário

# Padrão para buscar apenas arquivos que terminem com '_standard.csv'
arquivos = glob.glob(os.path.join(pasta_dados, 'enem_*_standard.csv'))

# Lista para armazenar os DataFrames
lista_df = []

for arquivo in arquivos:
    df = pd.read_csv(arquivo, sep=',', encoding='ISO-8859-1')
    lista_df.append(df)

# Juntar todos os DataFrames
df_final = pd.concat(lista_df, ignore_index=True)



## RENAME FACTORS

In [62]:
df_final.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_PRESENCA',
       'NU_NOTA_OBJETIVA', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q5', 'Q1', 'Q2', 'Q6', 'Q24', 'Q22', 'Q25',
       'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT',
       'TP_COR_RACA', 'TP_LINGUA'], dtype=object)

In [63]:
df_final['Q1'].unique()

array([nan, 'Ensino Medio Completo', 'Superior Completo', 'Pos-Graduacao',
       'Fundamental Completo', 'NI', 'Fundamental Incompleto', 'I',
       'Sem Estudo', 'Ensino Medio Incompleto', '*', '.'], dtype=object)

In [64]:
df_final['Q2'].unique()

array([nan, 'Pos-Graduacao', 'NI', 'Superior Completo',
       'Ensino Medio Completo', 'Ensino Medio Incompleto', 'Sem Estudo',
       'Fundamental Completo', 'Fundamental Incompleto', 'I', '.', '*'],
      dtype=object)

In [65]:
df_final['Q5'].unique()

array([nan, 'E', 'C', 'F', 'B', 'D', 'A', 'G', '.', '*', 4, 5, 3, 6, 7, 8,
       2, 12, 1, 11, 18, 9, 20, 10, 14, 15, 13, 16, 17, 19], dtype=object)

In [66]:
df_final['Q6'].unique()

array([nan, 'B', 'D', 'E', 'A', 'C', 'H', '.', 'F', 'G', '*', 'J', 'I',
       'K', 'P', 'L', 'Q', 'M', 'N', 'O'], dtype=object)

In [67]:
df_final['Q22'].unique()

array([nan, '.', 'C', 'A', 'B', 'D', '*', 'E'], dtype=object)

In [68]:
df_final['Q24'].unique()

array([nan, '.', 'B', 'A', 'D', 'C', '*', 5, 0, 3, 4, 1, 2, 'E'],
      dtype=object)

In [69]:
df_final['Q25'].unique()

array([nan, '.', 'B', 'A', 'D', 'C', '*', 5, 4, 0, 3, 1, 2], dtype=object)

In [70]:
df_final['Q1'].replace({'I':np.nan,'NI':np.nan,'.': np.nan,'*': np.nan,
                        'Sem Estudo':0,
                        'Fundamental Incompleto':1,
                        'Fundamental Completo':2,
                        'Ensino Medio Incompleto':3,
                        'Ensino Medio Completo':4,
                        'Superior Completo':5,
                        'Pos-Graduacao':6}, inplace=True)
df_final['Q1'].unique()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_final['Q1'].replace({'I':np.nan,'NI':np.nan,'.': np.nan,'*': np.nan,
  df_final['Q1'].replace({'I':np.nan,'NI':np.nan,'.': np.nan,'*': np.nan,


array([nan,  4.,  5.,  6.,  2.,  1.,  0.,  3.])

In [71]:
df_final['Q2'].replace({'I':np.nan,'NI':np.nan,'.': np.nan,'*': np.nan,
                        'Sem Estudo':0,
                        'Fundamental Incompleto':1,
                        'Fundamental Completo':2,
                        'Ensino Medio Incompleto':3,
                        'Ensino Medio Completo':4,
                        'Superior Completo':5,
                        'Pos-Graduacao': 6 }, inplace=True)
df_final['Q2'].unique()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_final['Q2'].replace({'I':np.nan,'NI':np.nan,'.': np.nan,'*': np.nan,
  df_final['Q2'].replace({'I':np.nan,'NI':np.nan,'.': np.nan,'*': np.nan,


array([nan,  6.,  5.,  4.,  3.,  0.,  2.,  1.])

In [72]:
df_final['Q5'].replace({'A':1, 'B':2, 'C':3, 'D':4, 'E':5, 'F':6, 'G':np.nan,                         
                        '.': np.nan,'*': np.nan}, inplace=True)
df_final['Q5'].unique()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_final['Q5'].replace({'A':1, 'B':2, 'C':3, 'D':4, 'E':5, 'F':6, 'G':np.nan,
  df_final['Q5'].replace({'A':1, 'B':2, 'C':3, 'D':4, 'E':5, 'F':6, 'G':np.nan,


array([nan,  5.,  3.,  6.,  2.,  4.,  1.,  7.,  8., 12., 11., 18.,  9.,
       20., 10., 14., 15., 13., 16., 17., 19.])

In [73]:
df_final['Q6'].replace({
    'A':0,'B':1,'C':1.5,'D':2,'E':2.5,'F':3,'G':3.5,'H':4,
                         'I':4.5,'J':5,'K':6,'L':7,'M':8,
                         'N':9,'O':10,'P':15,'Q': 20,
                        '.': np.nan,
                        '*': np.nan}, 
    inplace=True)
df_final['Q6'].unique()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_final['Q6'].replace({
  df_final['Q6'].replace({


array([ nan,  1. ,  2. ,  2.5,  0. ,  1.5,  4. ,  3. ,  3.5,  5. ,  4.5,
        6. , 15. ,  7. , 20. ,  8. ,  9. , 10. ])

In [75]:
df_final.rename(columns = {'Q1': 'Escolaridade_Pai',
                           'Q2':'Escolaridade_Mae',
                           'Q5':'NPessoas',
                           'Q6':'Renda',
                           'Q22':'Celular',
                           'Q24': 'Computador',
                           'Q25':'Internet'}, 
                inplace = True)

df_final['Celular'].replace({'A':0,'B':1,'C':1,'D':1,'E':1}, inplace=True)
df_final['Computador'].replace({'A':0,'B':1,'C':1,'D':1,'E':1, 'F':1, 2.0:1,3.0:1,4.0:1,5.0:1, 0.0:0, '1':1,'0':0,'0.0':0, 
                          '2':1,'3':1,'4':1,'5':1}, inplace=True)
df_final['Internet'].replace({'A':0,'B':1,'C':1,'D':1, 2.0:1,3.0:1,4.0:1,5.0:1}, inplace=True)
df_final['TP_SEXO'].replace({'M':1,'F':0}, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_final['Celular'].replace({'A':0,'B':1,'C':1,'D':1,'E':1}, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_final['Computador'].replace({'A':0,'B':1,'C':1,'D':1,'E':1, 'F':1, 2.0:1,3.0:1,4.0:1,5.0:1, 0.0:0, '1':1,'0':0,'0.0':0,
The behavior will change in pandas

In [76]:
pd.set_option('display.max_columns', None)

# Agora imprime
print(df_final.head())

   NU_INSCRICAO  NU_ANO  TP_FAIXA_ETARIA  TP_SEXO  CO_MUNICIPIO_ESC  \
0          1721    2003                3      0.0         2507507.0   
1          1722    2003                2      0.0         2507507.0   
2          3628    2003                3      1.0         2507507.0   
3          3629    2003                2      0.0         2507507.0   
4          3630    2003                2      0.0         2507507.0   

  NO_MUNICIPIO_ESC  CO_UF_ESC SG_UF_ESC  TP_DEPENDENCIA_ADM_ESC  \
0      JOAO PESSOA       25.0        PB                     4.0   
1      JOAO PESSOA       25.0        PB                     4.0   
2      JOAO PESSOA       25.0        PB                     4.0   
3      JOAO PESSOA       25.0        PB                     4.0   
4      JOAO PESSOA       25.0        PB                     4.0   

   TP_LOCALIZACAO_ESC  TP_PRESENCA  NU_NOTA_OBJETIVA TP_STATUS_REDACAO  \
0                 1.0          0.0               NaN                 F   
1                 1.0 

In [79]:
# Salvar no CSV final
df_final.to_csv('Data/enem_todos_os_anos.csv', sep=',', index=False, encoding='utf-8')
print("Arquivo final salvo em 'Data/enem_todos_os_anos.csv'")

Arquivo final salvo em 'Data/enem_todos_os_anos.csv'
