# Este script faz a leitura inicial da base original e cria uma base contendo apenas as colunas que serão utilizadas.

In [39]:
import pandas as pd
import numpy as np

In [40]:
url_or_file = 'MICRODADOS_ENEM_2021.csv'

In [41]:
# Colunas que serão importadas e que foram definidas em reunião da equipe:
colunas = ['TP_FAIXA_ETARIA', 
           'TP_SEXO',
           'TP_ESTADO_CIVIL', 
           'TP_COR_RACA', 
           'TP_NACIONALIDADE', 
           'TP_ST_CONCLUSAO', 
           'TP_ESCOLA',
           'IN_TREINEIRO',
           'NO_MUNICIPIO_PROVA',
           'SG_UF_PROVA',
           'TP_PRESENCA_CN', 
           'TP_PRESENCA_CH', 
           'TP_PRESENCA_LC',
           'TP_PRESENCA_MT',
           'NU_NOTA_CN', 
           'NU_NOTA_CH', 
           'NU_NOTA_LC', 
           'NU_NOTA_MT',
           'TP_STATUS_REDACAO',
           'NU_NOTA_REDACAO', 
           'Q001', 
           'Q002', 
           'Q003', 
           'Q004',
           'Q005', 
           'Q006', 
           'Q024', 
           'Q025']

In [42]:
dados = pd.read_csv(url_or_file, sep = ';', usecols = colunas, encoding = 'ISO-8859-1')

In [43]:
dados.head()

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,NO_MUNICIPIO_PROVA,SG_UF_PROVA,...,TP_STATUS_REDACAO,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006,Q024,Q025
0,5,F,1,1,1,1,1,0,Nova Lima,MG,...,1.0,760.0,F,F,B,B,3.0,D,B,B
1,12,M,1,1,1,1,1,0,Maceió,AL,...,1.0,560.0,B,B,B,B,3.0,B,A,A
2,13,F,3,1,1,1,1,0,Ferraz de Vasconcelos,SP,...,,,B,C,C,B,3.0,C,B,B
3,3,M,1,3,1,2,2,0,Crato,CE,...,1.0,780.0,B,B,B,B,6.0,B,B,B
4,2,F,1,3,1,2,2,0,Acarape,CE,...,1.0,780.0,D,E,F,D,4.0,C,B,B


In [44]:
display(dados.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2685053 entries, 0 to 2685052
Data columns (total 28 columns):
 #   Column              Dtype  
---  ------              -----  
 0   TP_FAIXA_ETARIA     int64  
 1   TP_SEXO             object 
 2   TP_ESTADO_CIVIL     int64  
 3   TP_COR_RACA         int64  
 4   TP_NACIONALIDADE    int64  
 5   TP_ST_CONCLUSAO     int64  
 6   TP_ESCOLA           int64  
 7   IN_TREINEIRO        int64  
 8   NO_MUNICIPIO_PROVA  object 
 9   SG_UF_PROVA         object 
 10  TP_PRESENCA_CN      int64  
 11  TP_PRESENCA_CH      int64  
 12  TP_PRESENCA_LC      int64  
 13  TP_PRESENCA_MT      int64  
 14  NU_NOTA_CN          float64
 15  NU_NOTA_CH          float64
 16  NU_NOTA_LC          float64
 17  NU_NOTA_MT          float64
 18  TP_STATUS_REDACAO   float64
 19  NU_NOTA_REDACAO     float64
 20  Q001                object 
 21  Q002                object 
 22  Q003                object 
 23  Q004                object 
 24  Q005                floa

None

In [45]:
# Criar uma nova coluna no DF para a média aritmética simples das 5 notas:
dados['MEDIA_ENEM'] = 0.0

In [46]:
dados.columns

Index(['TP_FAIXA_ETARIA', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO', 'TP_ESCOLA', 'IN_TREINEIRO',
       'NO_MUNICIPIO_PROVA', 'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_REDACAO',
       'Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006', 'Q024', 'Q025',
       'MEDIA_ENEM'],
      dtype='object')

In [47]:
# Primeira análise desta variável ('IN_TREINEIRO') a fim de decidirmos pelo seu uso nas análises futuras:
dados['IN_TREINEIRO'].value_counts()

0    2316091
1     368962
Name: IN_TREINEIRO, dtype: int64

In [48]:
treineiros = len(dados[dados['IN_TREINEIRO'] == 1])
nao_treineiros = len(dados[dados['IN_TREINEIRO'] == 0])
print(f'Percentual de treineiros: {(treineiros / nao_treineiros):.2%}')

Percentual de treineiros: 15.93%


In [49]:
# Identificação e tratamento das linhas cujas colunas apresentaram 1 único valor 'NaN' 
# observadas no script TCC_I e que foram importadas para este script:
colunas_tratamento = ['Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006', 'Q024', 'Q025']

In [50]:
# Visualização em tela do(s) índice(s) da(s) linha(s) que apresenta(m) 'NaN' (vazio):
for coluna in colunas_tratamento:
    indice = dados.loc[dados[coluna].isna(), coluna].index[0]
    print(f'Coluna {coluna} está vazia na linha de índice: {indice}.')

Coluna Q001 está vazia na linha de índice: 707314.
Coluna Q002 está vazia na linha de índice: 707314.
Coluna Q003 está vazia na linha de índice: 707314.
Coluna Q004 está vazia na linha de índice: 707314.
Coluna Q005 está vazia na linha de índice: 707314.
Coluna Q006 está vazia na linha de índice: 707314.
Coluna Q024 está vazia na linha de índice: 707314.
Coluna Q025 está vazia na linha de índice: 707314.


In [53]:
indice = dados.loc[dados['Q001'].isna(), coluna].index[0]

In [54]:
# Observou-se que apenas a linha 707314 apresenta 'NaN' simultaneamente nas colunas 
# 'Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006', 'Q024', 'Q025'.
# Tratamento e eliminação (drop) desta linha em particular:
dados = dados.drop(indice, axis = 0)

In [55]:
dados = dados.reset_index()

In [56]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2685052 entries, 0 to 2685051
Data columns (total 30 columns):
 #   Column              Dtype  
---  ------              -----  
 0   index               int64  
 1   TP_FAIXA_ETARIA     int64  
 2   TP_SEXO             object 
 3   TP_ESTADO_CIVIL     int64  
 4   TP_COR_RACA         int64  
 5   TP_NACIONALIDADE    int64  
 6   TP_ST_CONCLUSAO     int64  
 7   TP_ESCOLA           int64  
 8   IN_TREINEIRO        int64  
 9   NO_MUNICIPIO_PROVA  object 
 10  SG_UF_PROVA         object 
 11  TP_PRESENCA_CN      int64  
 12  TP_PRESENCA_CH      int64  
 13  TP_PRESENCA_LC      int64  
 14  TP_PRESENCA_MT      int64  
 15  NU_NOTA_CN          float64
 16  NU_NOTA_CH          float64
 17  NU_NOTA_LC          float64
 18  NU_NOTA_MT          float64
 19  TP_STATUS_REDACAO   float64
 20  NU_NOTA_REDACAO     float64
 21  Q001                object 
 22  Q002                object 
 23  Q003                object 
 24  Q004                obje

In [20]:
# Converter para int as colunas 'TP_STATUS_REDACAO' e 'Q005'.
# Primeiramente devem ser preenchidos com 0 onde está vazio.
# Atribuir 0 as células de notas vazias.

In [21]:
# Único valor vazio da coluna 'Q005' foi eliminado com o drop da linha 707314 acima.
dados['Q005'] = dados['Q005'].astype(np.int64)

In [22]:
# Preenchimento dos valores vazios desta coluna com o valor 4, conforme critério adotado por nossa equipe:
dados['TP_STATUS_REDACAO'] = dados['TP_STATUS_REDACAO'].fillna(4)

In [23]:
# Conversão para int64 de todos os valores da coluna 'TP_STATUS_REDACAO':
dados['TP_STATUS_REDACAO'] = dados['TP_STATUS_REDACAO'].astype(np.int64)

In [24]:
# Atribuir zero para as notas NaN nas colunas 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO'.
cols = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']
for coluna in cols:
    dados[coluna] = dados[coluna].fillna(0)

In [25]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2685052 entries, 0 to 2685051
Data columns (total 30 columns):
 #   Column              Dtype  
---  ------              -----  
 0   index               int64  
 1   TP_FAIXA_ETARIA     int64  
 2   TP_SEXO             object 
 3   TP_ESTADO_CIVIL     int64  
 4   TP_COR_RACA         int64  
 5   TP_NACIONALIDADE    int64  
 6   TP_ST_CONCLUSAO     int64  
 7   TP_ESCOLA           int64  
 8   IN_TREINEIRO        int64  
 9   NO_MUNICIPIO_PROVA  object 
 10  SG_UF_PROVA         object 
 11  TP_PRESENCA_CN      int64  
 12  TP_PRESENCA_CH      int64  
 13  TP_PRESENCA_LC      int64  
 14  TP_PRESENCA_MT      int64  
 15  NU_NOTA_CN          float64
 16  NU_NOTA_CH          float64
 17  NU_NOTA_LC          float64
 18  NU_NOTA_MT          float64
 19  TP_STATUS_REDACAO   int64  
 20  NU_NOTA_REDACAO     float64
 21  Q001                object 
 22  Q002                object 
 23  Q003                object 
 24  Q004                obje

In [26]:
# Aqui não podem aparecer valores vazios (NaN):
dados[cols].head(20)

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO
0,0.0,574.6,472.6,0.0,760.0
1,505.9,551.8,498.3,461.5,560.0
2,0.0,0.0,0.0,0.0,0.0
3,580.7,678.9,638.9,659.5,780.0
4,497.7,532.4,457.6,582.6,780.0
5,0.0,0.0,0.0,0.0,0.0
6,0.0,511.9,420.4,0.0,480.0
7,0.0,0.0,0.0,0.0,0.0
8,487.4,476.5,450.7,493.4,520.0
9,507.6,539.2,494.6,413.3,380.0


In [27]:
import time

tempo_inicial = time.time()

for i in range(len(dados)):
    soma_notas = 0
    for coluna in cols:
        soma_notas = soma_notas + dados[coluna][i]
    media_linha = soma_notas/len(cols)
    dados['MEDIA_ENEM'][i] = media_linha

tempo_final = time.time()
duracao = tempo_final - tempo_inicial
print(f'O processamento durou {(duracao)} segundos.')

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['MEDIA_ENEM'][i] = media_linha


O processamento durou 5550.44162106514 segundos.


In [28]:
# Definição das colunas de interesse:

colunas = ['TP_FAIXA_ETARIA', 
           'TP_SEXO',
           'TP_ESTADO_CIVIL', 
           'TP_COR_RACA', 
           'TP_NACIONALIDADE', 
           'TP_ST_CONCLUSAO', 
           'TP_ESCOLA',
           'IN_TREINEIRO',
           'NO_MUNICIPIO_PROVA',
           'SG_UF_PROVA',
           'TP_PRESENCA_CN', 
           'TP_PRESENCA_CH', 
           'TP_PRESENCA_LC',
           'TP_PRESENCA_MT',
           'NU_NOTA_CN', 
           'NU_NOTA_CH', 
           'NU_NOTA_LC', 
           'NU_NOTA_MT',
           'TP_STATUS_REDACAO',
           'NU_NOTA_REDACAO', 
           'Q001', 
           'Q002', 
           'Q003', 
           'Q004',
           'Q005', 
           'Q006', 
           'Q024', 
           'Q025',
           'MEDIA_ENEM'
          ]

In [29]:
dados_2 = dados[colunas]

In [30]:
# index = False não permite a criação de coluna com os índices, que gera coluna 'Unnamed: 0' nos novos DFs derivados.
dados_2.to_csv('Dados_Enem_2021.csv', sep=',', index = False)

In [31]:
dados_2 = pd.read_csv('Dados_Enem_2021.csv', sep=',')

In [32]:
dados_2.head(10)

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,NO_MUNICIPIO_PROVA,SG_UF_PROVA,...,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006,Q024,Q025,MEDIA_ENEM
0,5,F,1,1,1,1,1,0,Nova Lima,MG,...,760.0,F,F,B,B,3,D,B,B,361.44
1,12,M,1,1,1,1,1,0,Maceió,AL,...,560.0,B,B,B,B,3,B,A,A,515.5
2,13,F,3,1,1,1,1,0,Ferraz de Vasconcelos,SP,...,0.0,B,C,C,B,3,C,B,B,0.0
3,3,M,1,3,1,2,2,0,Crato,CE,...,780.0,B,B,B,B,6,B,B,B,667.6
4,2,F,1,3,1,2,2,0,Acarape,CE,...,780.0,D,E,F,D,4,C,B,B,570.06
5,10,F,1,3,1,1,1,0,Cascavel,CE,...,0.0,H,E,F,B,1,B,A,B,0.0
6,9,F,0,3,1,1,1,0,Tramandaí,RS,...,480.0,B,C,B,B,3,C,A,B,282.46
7,4,F,1,1,1,1,1,0,Matão,SP,...,0.0,E,G,C,D,4,G,B,B,0.0
8,8,F,1,3,1,2,2,0,Belo Horizonte,MG,...,520.0,B,B,B,B,2,B,A,B,485.6
9,4,F,1,3,1,2,2,0,Ruy Barbosa,BA,...,380.0,D,D,D,B,2,B,A,B,466.94


In [33]:
cols_notas = ['NU_NOTA_CN', 
              'NU_NOTA_CH', 
              'NU_NOTA_LC', 
              'NU_NOTA_MT',        
              'NU_NOTA_REDACAO', 
              'MEDIA_ENEM']

In [34]:
dados[cols_notas].head(10)

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,MEDIA_ENEM
0,0.0,574.6,472.6,0.0,760.0,361.44
1,505.9,551.8,498.3,461.5,560.0,515.5
2,0.0,0.0,0.0,0.0,0.0,0.0
3,580.7,678.9,638.9,659.5,780.0,667.6
4,497.7,532.4,457.6,582.6,780.0,570.06
5,0.0,0.0,0.0,0.0,0.0,0.0
6,0.0,511.9,420.4,0.0,480.0,282.46
7,0.0,0.0,0.0,0.0,0.0,0.0
8,487.4,476.5,450.7,493.4,520.0,485.6
9,507.6,539.2,494.6,413.3,380.0,466.94
