# **PROJETO ENEM - pt1**

## **Analise Estatística - ENEM 2019**

Este projeto analisa os resultados do ENEM no estado de São Paulo do ano de 2019.\
Dividido em arquivos separados, esta primeira fase envolve a manipulação da base de dados bruta para termos os dados devidamente tratados.\
Ao final, nosso objetivo é conter somente os registros dos inscritos classificados no ENEM.

Os dados foram extraídos do site do INEP. Neste link você pode encontrar a base de dados e seu dicionário: \
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem



# Extração e Limpeza

Para inicio, faremos a limpeza da base de dados e observaremos a sua estrutura crua

In [2]:
import numpy as np
import pandas as pd

# lendo arquivo de dados
dados = pd.read_csv('microdados_enem_2019_sp.csv', sep=';', encoding='iso-8859-1')

- **Primeira visualização**

In [3]:
dados.head()

Unnamed: 0,NU_INSCRICAO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,...,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",3546801,Santa Isabel,35,SP,22,M,1,3,1,...,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",3538204,Pinhalzinho,35,SP,19,M,1,3,1,...,,1,,,,,,,,A
2,"1,90E+11",3550308,São Paulo,35,SP,17,F,1,3,1,...,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",3548708,São Bernardo do Campo,35,SP,19,M,1,3,1,...,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",3549409,São Joaquim da Barra,35,SP,37,M,2,1,1,...,,1,,,,,,,,B


- **Tipos de dados por coluna**

In [4]:
dados.dtypes

NU_INSCRICAO                object
CO_MUNICIPIO_RESIDENCIA      int64
NO_MUNICIPIO_RESIDENCIA     object
CO_UF_RESIDENCIA             int64
SG_UF_RESIDENCIA            object
NU_IDADE                     int64
TP_SEXO                     object
TP_ESTADO_CIVIL              int64
TP_COR_RACA                  int64
TP_NACIONALIDADE             int64
CO_MUNICIPIO_NASCIMENTO    float64
NO_MUNICIPIO_NASCIMENTO     object
CO_UF_NASCIMENTO           float64
SG_UF_NASCIMENTO            object
TP_ST_CONCLUSAO              int64
TP_ANO_CONCLUIU              int64
TP_ESCOLA                    int64
TP_ENSINO                  float64
IN_TREINEIRO                 int64
CO_ESCOLA                  float64
CO_MUNICIPIO_ESC           float64
NO_MUNICIPIO_ESC            object
CO_UF_ESC                  float64
SG_UF_ESC                   object
TP_DEPENDENCIA_ADM_ESC     float64
TP_LOCALIZACAO_ESC         float64
TP_SIT_FUNC_ESC            float64
TP_PRESENCA_CN               int64
TP_PRESENCA_CH      

## Eliminação de colunas

Por não serem interessantes à nossa análise, iremos retirar as colunas:
- codigos de municípios de residencia e sigla UF da residencia,
- codigo/nome do municipio e UF de nascimento,
- Tipo e ano de conclusão de ensino
- codigos e siglas do municipio/UF da escola em que estudou 


In [5]:
dados1 = dados.drop(columns=['CO_MUNICIPIO_RESIDENCIA','CO_UF_RESIDENCIA','SG_UF_RESIDENCIA','CO_MUNICIPIO_NASCIMENTO','NO_MUNICIPIO_NASCIMENTO','CO_UF_NASCIMENTO','SG_UF_NASCIMENTO',
                              'TP_ANO_CONCLUIU','TP_ENSINO','CO_MUNICIPIO_ESC','CO_UF_ESC','SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC','TP_LOCALIZACAO_ESC','TP_SIT_FUNC_ESC'])
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,...,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,...,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,...,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,...,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,...,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,...,,1,,,,,,,,B


Verificando atual estrutura:

In [6]:
dados1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 813772 entries, 0 to 813771
Data columns (total 29 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   NU_INSCRICAO             813772 non-null  object 
 1   NO_MUNICIPIO_RESIDENCIA  813772 non-null  object 
 2   NU_IDADE                 813772 non-null  int64  
 3   TP_SEXO                  813772 non-null  object 
 4   TP_ESTADO_CIVIL          813772 non-null  int64  
 5   TP_COR_RACA              813772 non-null  int64  
 6   TP_NACIONALIDADE         813772 non-null  int64  
 7   TP_ST_CONCLUSAO          813772 non-null  int64  
 8   TP_ESCOLA                813772 non-null  int64  
 9   IN_TREINEIRO             813772 non-null  int64  
 10  CO_ESCOLA                219292 non-null  float64
 11  NO_MUNICIPIO_ESC         219292 non-null  object 
 12  TP_PRESENCA_CN           813772 non-null  int64  
 13  TP_PRESENCA_CH           813772 non-null  int64  
 14  TP_P

## Manutençao das Notas 

As notas do ENEM sao definidas entre 0 e 1000. As colunas de conhecimentos (Ciencias Naturais, Ciencias Humanas, Linguagens e Códigos e Matematica; colunas `NU_NOTA_CN`, `NU_NOTA_CH`, `NU_NOTA_LC` e `NU_NOTA_MT`) estão má formatadas. Para entender, o que devia ser '600,2' se tornou '6002.0'. 

Precisamos então, somente dividir as colunas por 10:

In [7]:
# selecionamos as 4 colunas que iremos dividir por 10
coluna = ['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT']

# loop para alterar todas simultaneamente
for i in coluna:
     dados1[i] /= 10

# verificando nosso resultado
dados1[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT']].head()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT
0,564.6,585.8,592.9,600.2
1,,,,
2,576.2,641.1,634.3,731.8
3,402.2,424.8,509.6,393.2
4,,,,


## Renomeando Colunas

In [8]:
# dicionario para usar ao renomear
names = {
     'NU_NOTA_REDACAO': 'NOTA_REDACAO',
     'NU_NOTA_CN': 'NOTA_CN',
     'NU_NOTA_CH': 'NOTA_CH',
     'NU_NOTA_LC': 'NOTA_LC',
     'NU_NOTA_MT': 'NOTA_MT',
     'NU_NOTA_COMP1': 'COMP1',
     'NU_NOTA_COMP2': 'COMP2',
     'NU_NOTA_COMP3': 'COMP3',
     'NU_NOTA_COMP4': 'COMP4',
     'NU_NOTA_COMP5':'COMP5',
     'NU_IDADE': 'IDADE','TP_SEXO': 'SEXO',
     'TP_COR_RACA': 'RACA',
     'Q025': 'INTERNET',
     'TP_ESCOLA':'ESCOLA'
}

# aplicando novos nomes de colunas
dados1 = dados1.rename(columns=names)

# verificando resultado
dados1.head(2)


Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,...,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,...,600.2,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,...,,1,,,,,,,,A


## Renomeando Registros

Para deixar as informações mais claras, vamos renomear as informações das linhas de acordo com o dicionário de Microdados, também disponivel no link informado ao início do projeto.

Para isso, usaremos `replace`, \
Ao fazer as substituições, podemos tanto fazê-las com a estrutura de listas, quanto com dicionarios:

In [9]:
# primeira forma de substituicao de registros
dados1['RACA'] = dados1['RACA'].replace([0,1,2,3,4,5], ['nao_declarado','branca','preta','parda','amarela','indigena'])
# segunda forma de substituicao de registros, com dicionarios
dados1['TP_LINGUA'] = dados1['TP_LINGUA'].replace({0: 'ingles', 1: 'espanhol'})

# demais substituicoes...
dados1['ESCOLA'] = dados1['ESCOLA'].replace([1,2,3,4], ['nao_respondeu','publica','privada','exterior'])
dados1['INTERNET'] = dados1['INTERNET'].replace({'A': 'nao', 'B': 'sim'})
dados1['INTERNET'] = dados1['INTERNET'].replace({'A': 'nao', 'B': 'sim'})

# conferindo resultados
dados1.head(3)

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,...,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,nao_respondeu,0,...,600.2,ingles,1.0,160.0,200.0,180.0,200.0,200.0,940.0,sim
1,"1,90E+11",Pinhalzinho,19,M,1,parda,1,1,nao_respondeu,0,...,,espanhol,,,,,,,,nao
2,"1,90E+11",São Paulo,17,F,1,parda,1,2,privada,0,...,731.8,ingles,1.0,160.0,120.0,200.0,200.0,200.0,880.0,nao


---

# Análise Exploratória e Transformação de Dados

Vamos organizar a base de dados para contermos somente as informações dos inscritos classificados. Para isso, analisaremos as colunas seguintes de forma que cheguemos neste resultado

## Coluna IDADE

Verifiquemos a quantidade de registros por idade. \
Alguns valores estranhos e curiosos: idades menores que 12 anos e maiores de 80 anos. Vamos retirar estes registros para limpeza

In [10]:
dados1['IDADE'].value_counts().sort_index()

IDADE
2     1
3     1
4     1
5     2
6     2
     ..
80    2
81    3
82    2
86    1
91    1
Name: count, Length: 80, dtype: int64

In [11]:
# inscricoes com idade abaixo de 12 anos serao excluidos devido a alta probabilidade de erro
df = dados1.loc[dados1.IDADE > 11]

# verificando resultado
df['IDADE'].value_counts().sort_index()

IDADE
12        6
13       29
14      355
15    11583
16    59316
      ...  
80        2
81        3
82        2
86        1
91        1
Name: count, Length: 73, dtype: int64

## Coluna TREINEIRO

Vamos separar os dados entre  *Vestibulandos* e *Treineiros* em seus respectivos DataFrames

A coluna `IN_TREINEIRO` indica se o inscrito fez a prova com o intuito de treinar os conhecimentos, sendo 1 = SIM e 0 = NAO, \
Vamos manipulá-lo para separar ambos tipos de inscritos em seus respectivos dataframes:

In [36]:
# definindo dataframes
treineiros = df.loc[df.IN_TREINEIRO == 1]
vestibulandos = df.loc[df.IN_TREINEIRO == 0]

# verificando os tamanhos de cada dataframe
trein = treineiros.shape
vest = vestibulandos.shape

print(f'treineiros: {trein} | vestibulandos: {vest}')

treineiros: (93988, 29) | vestibulandos: (719768, 29)


## Presença de Inscritos

- **Coluna PRESENCA**

as 4 avaliações (Ciencias da Natureza, Humanas, Linguagens e Códigos, Matemática) possuem colunas referentes a presença, cada uma:

`TP_PRESENCA_CN`, `TP_PRESENCA_CH`, `TP_PRESENCA_LC`, `TP_PRESENCA_MT`

É registrado a presença, em cada avaliação, da seguinte forma:
- 0 = Faltou a prova 
- 1 = Presente na prova
- 2 = Eliminado na prova

Vamos verificar estas colunas:

In [37]:
cn = vestibulandos['TP_PRESENCA_CN'].value_counts()
mt = vestibulandos['TP_PRESENCA_MT'].value_counts()
ch = vestibulandos['TP_PRESENCA_CH'].value_counts()
lc = vestibulandos['TP_PRESENCA_LC'].value_counts()

print(f'{cn}\n\n{mt}\n\n{ch}\n\n{lc}')


TP_PRESENCA_CN
1    500805
0    218693
2       270
Name: count, dtype: int64

TP_PRESENCA_MT
1    500805
0    218693
2       270
Name: count, dtype: int64

TP_PRESENCA_CH
1    533142
0    185969
2       657
Name: count, dtype: int64

TP_PRESENCA_LC
1    533142
0    185969
2       657
Name: count, dtype: int64


Observe que os registros são iguais, isto pois são duas provas por dia (sem contar a redação); \
**RESUMO DA PRESENÇA NAS PROVAS:**

- **dia A** - Ciências da Natureza/Matemática: 500.805 presentes, 218.693 faltaram e 270 eliminados.
- **dia B** - Ciências Humanas/Linguagens e Códigos: 533.142 presentes, 185.969 faltaram e 657 eliminados.

Portanto, vamos selecionar somente os classificados em ambos dias de avaliação:

In [49]:
# selecionando somente os presentes (=1), & == AND
vest_classf = vestibulandos[
     (vestibulandos['TP_PRESENCA_CN'] == 1) &
     (vestibulandos['TP_PRESENCA_CH'] == 1)
]

vest_classf.shape

(499940, 29)

- **coluna STATUS_REDACAO**

Agora, vamos verificar a situação dos inscritos quanto a redação.

A coluna `TP_STATUS_REDACAO` há oito tipos de registros, de acordo com o dicionario do Microdados:
- 1 = Sem problemas
- 2 = Anulada
- 3 = Copia Texto Motivador
- 4 = Em Branco
- 6 = Fuga ao tema
- 7 = Nao atendimento ao tipo textual
- 8 = Texto Insuficiente
- 9 = Parte Desconectada

Portanto, selecionaremos apenas os registros == 1:

In [50]:
# verificando cada indice do primeiro DF
vestibulandos['TP_STATUS_REDACAO'].value_counts().sort_index(axis='index')

TP_STATUS_REDACAO
1.0    519763
2.0       913
3.0      1417
4.0      5513
6.0      3626
7.0       543
8.0       828
9.0       539
Name: count, dtype: int64

Como filtramos somente os inscritos classificados, podemos ver tambem a alteração de cada situação por candidato:

In [51]:
# verificando cada indice do segundo DF agora
vest_classf['TP_STATUS_REDACAO'].value_counts().sort_index(axis='index')

TP_STATUS_REDACAO
1.0    490759
2.0       796
3.0      1200
4.0      3012
6.0      2678
7.0       483
8.0       568
9.0       444
Name: count, dtype: int64

- Eliminando os indices de treineiros

Por fim, como agora só temos vestibulandos classificados, podemos eliminar a coluna `IN_TREINEIRO`. \
Observe que o resultado final será de 28 colunas agora

In [52]:
# confirmando que o unico registro do DF == 0
print(list(set(vest_classf['IN_TREINEIRO'])))

[0]


In [53]:
# eliminacao
vest_classf = vest_classf.drop(columns='IN_TREINEIRO')
vest_classf.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,CO_ESCOLA,...,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,nao_respondeu,,...,600.2,ingles,1.0,160.0,200.0,180.0,200.0,200.0,940.0,sim
2,"1,90E+11",São Paulo,17,F,1,parda,1,2,privada,15567761.0,...,731.8,ingles,1.0,160.0,120.0,200.0,200.0,200.0,880.0,nao
3,"1,90E+11",São Bernardo do Campo,19,M,1,parda,1,2,publica,35904958.0,...,393.2,espanhol,1.0,80.0,160.0,120.0,100.0,100.0,560.0,sim
5,"1,90E+11",Embu-Guaçu,17,F,1,parda,1,2,publica,,...,419.2,ingles,1.0,120.0,120.0,120.0,120.0,80.0,560.0,sim
8,"1,90E+11",Guarulhos,23,F,1,branca,1,1,nao_respondeu,,...,796.1,ingles,1.0,160.0,200.0,180.0,180.0,160.0,880.0,sim


# DataFrame Tratado

Vamos salvar em seu respectivo dispositivo o DataFrame agora devidamente tratado:

- Detalhes do novo DataFrame

In [56]:
vest_classf.info()

<class 'pandas.core.frame.DataFrame'>
Index: 499940 entries, 0 to 813771
Data columns (total 28 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   NU_INSCRICAO             499940 non-null  object 
 1   NO_MUNICIPIO_RESIDENCIA  499940 non-null  object 
 2   IDADE                    499940 non-null  int64  
 3   SEXO                     499940 non-null  object 
 4   TP_ESTADO_CIVIL          499940 non-null  int64  
 5   RACA                     499940 non-null  object 
 6   TP_NACIONALIDADE         499940 non-null  int64  
 7   TP_ST_CONCLUSAO          499940 non-null  int64  
 8   ESCOLA                   499940 non-null  object 
 9   CO_ESCOLA                176894 non-null  float64
 10  NO_MUNICIPIO_ESC         176894 non-null  object 
 11  TP_PRESENCA_CN           499940 non-null  int64  
 12  TP_PRESENCA_CH           499940 non-null  int64  
 13  TP_PRESENCA_LC           499940 non-null  int64  
 14  TP_PRESEN

- Salvamento

Aqui, o DataFrame será salvo em arquivo *.csv*

In [None]:
vest_classf.to_csv('enem2019_tratado.csv', encoding='iso-8859-1', index=False)