# ENEM 2019 - Experimento Machine Learning - Pré-Processamento

## Análise Exploratória de Dados
Esta é uma técnica inicial muito comum e, ao mesmo tempo, essencial para qualquer trabalho de machine learning.

O objetivo é entender como os dados estão organizados, conhecer cada **feature** em termos de distribuição, presença de dados **missing**, **outliers** e medidas estatisticas que detalhem melhor os dados.

### Carregando o conjunto de dados e avaliando a estrutura

In [1]:
import pandas as pd

In [2]:
enem2019 = pd.read_csv("C:/Sandbox/MICRODADOS_ENEM_2019.csv",  encoding = "ISO-8859-1", sep=';')

In [3]:
enem2019

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001004627,2019,1506807,Santarém,15,PA,21,M,1,3,...,A,A,A,C,B,A,D,A,B,A
1,190001004628,2019,1504059,Mãe do Rio,15,PA,16,F,1,3,...,A,A,A,B,B,A,B,A,A,A
2,190001004629,2019,1505502,Paragominas,15,PA,18,F,1,1,...,B,A,A,D,B,B,D,A,C,B
3,190001004630,2019,1507706,São Sebastião da Boa Vista,15,PA,23,M,0,3,...,A,A,A,C,A,A,D,A,A,A
4,190001004631,2019,1503903,Juruti,15,PA,23,M,1,3,...,A,A,A,B,A,A,D,A,A,A
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5095265,190006129589,2019,2928604,Santo Amaro,29,BA,28,F,2,2,...,A,A,A,B,A,A,B,A,A,B
5095266,190006129590,2019,2927408,Salvador,29,BA,25,M,1,2,...,A,A,A,A,A,A,B,A,A,A
5095267,190006129591,2019,2931806,Tremedal,29,BA,18,F,1,3,...,A,A,A,B,A,A,B,A,A,B
5095268,190006129592,2019,2927408,Salvador,29,BA,16,M,1,1,...,B,A,A,B,B,A,C,A,B,B


### Pré-processamento dos dados

Removendo dados não utilizados no experimento.

In [3]:
remover = ['NU_ANO',
    'NO_MUNICIPIO_RESIDENCIA', 'NO_MUNICIPIO_NASCIMENTO', 'NO_MUNICIPIO_ESC', 'NO_MUNICIPIO_PROVA', 
    'CO_MUNICIPIO_RESIDENCIA', 'CO_MUNICIPIO_NASCIMENTO', 'CO_UF_NASCIMENTO', 'SG_UF_NASCIMENTO', 'CO_ESCOLA', 
    'CO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC', 'CO_MUNICIPIO_PROVA', 'CO_UF_PROVA', 'SG_UF_PROVA',
    'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'TX_GABARITO_CN', 'TX_GABARITO_CH', 
    'TX_GABARITO_LC', 'TX_GABARITO_MT',
    'IN_BAIXA_VISAO', 'IN_CEGUEIRA', 'IN_SURDEZ', 'IN_DEFICIENCIA_AUDITIVA', 'IN_SURDO_CEGUEIRA', 'IN_DEFICIENCIA_FISICA',           
    'IN_DEFICIENCIA_MENTAL', 'IN_DEFICIT_ATENCAO', 'IN_DISLEXIA', 'IN_DISCALCULIA', 'IN_AUTISMO', 'IN_VISAO_MONOCULAR', 
    'IN_OUTRA_DEF', 'IN_GESTANTE', 'IN_LACTANTE', 'IN_IDOSO', 'IN_ESTUDA_CLASSE_HOSPITALAR', 'IN_SEM_RECURSO', 'IN_BRAILLE', 
    'IN_AMPLIADA_24', 'IN_AMPLIADA_18', 'IN_LEDOR', 'IN_ACESSO', 'IN_TRANSCRICAO', 'IN_LIBRAS', 'IN_TEMPO_ADICIONAL', 
    'IN_LEITURA_LABIAL', 'IN_MESA_CADEIRA_RODAS', 'IN_MESA_CADEIRA_SEPARADA', 'IN_APOIO_PERNA', 'IN_GUIA_INTERPRETE', 
    'IN_COMPUTADOR', 'IN_CADEIRA_ESPECIAL', 'IN_CADEIRA_CANHOTO', 'IN_CADEIRA_ACOLCHOADA', 'IN_PROVA_DEITADO', 
    'IN_MOBILIARIO_OBESO', 'IN_LAMINA_OVERLAY', 'IN_PROTETOR_AURICULAR', 'IN_MEDIDOR_GLICOSE', 'IN_MAQUINA_BRAILE', 
    'IN_SOROBAN', 'IN_MARCA_PASSO', 'IN_SONDA', 'IN_MEDICAMENTOS', 'IN_SALA_INDIVIDUAL', 'IN_SALA_ESPECIAL', 
    'IN_SALA_ACOMPANHANTE', 'IN_MOBILIARIO_ESPECIFICO', 'IN_MATERIAL_ESPECIFICO', 'IN_NOME_SOCIAL',
    'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
    'CO_PROVA_MT']


enem2019_prep = enem2019.drop(columns=remover)

Esta primeira tem como objetivo identificar casos **missing**. Não será necessária uma análise de outliers, pois os intervalos de valores são controlados e não há ocorrencia de dados atípicos. 

In [5]:
enem2019_prep.isnull().sum()

NU_INSCRICAO                    0
CO_UF_RESIDENCIA                0
SG_UF_RESIDENCIA                0
NU_IDADE                        0
TP_SEXO                         0
TP_ESTADO_CIVIL                 0
TP_COR_RACA                     0
TP_NACIONALIDADE                0
TP_ST_CONCLUSAO                 0
TP_ANO_CONCLUIU                 0
TP_ESCOLA                       0
TP_ENSINO                 2217073
IN_TREINEIRO                    0
TP_DEPENDENCIA_ADM_ESC    3947858
TP_LOCALIZACAO_ESC        3947858
TP_SIT_FUNC_ESC           3947858
NU_NOTA_CN                1384837
NU_NOTA_CH                1172125
NU_NOTA_LC                1172125
NU_NOTA_MT                1384837
TP_LINGUA                       0
TP_STATUS_REDACAO         1172126
NU_NOTA_COMP1             1172126
NU_NOTA_COMP2             1172126
NU_NOTA_COMP3             1172126
NU_NOTA_COMP4             1172126
NU_NOTA_COMP5             1172126
NU_NOTA_REDACAO           1172126
Q001                            0
Q002          

A ocorrência de casos missing exige que uma ação seja tomada.

Primeiramente é importante avaliar as colunas que estão faltando e assim decidir por:
1. Remover as colunas
2. Remover as linhas
3. Substituir os casos missing por um valor típico (ou mais frequente)
4. Substituir os casos missing por um valor alternativo.

Começando pelas colunas com prefixo `TP` vamos substituir os casos missing pela categoria 0 (zero)

In [4]:
valores = {'TP_ENSINO':0, 'TP_DEPENDENCIA_ADM_ESC':0, 'TP_LOCALIZACAO_ESC':0, 'TP_SIT_FUNC_ESC':0}
enem2019_prep.fillna(value=valores, inplace=True)
enem2019_prep.isnull().sum()

NU_INSCRICAO                    0
CO_UF_RESIDENCIA                0
SG_UF_RESIDENCIA                0
NU_IDADE                        0
TP_SEXO                         0
TP_ESTADO_CIVIL                 0
TP_COR_RACA                     0
TP_NACIONALIDADE                0
TP_ST_CONCLUSAO                 0
TP_ANO_CONCLUIU                 0
TP_ESCOLA                       0
TP_ENSINO                       0
IN_TREINEIRO                    0
TP_DEPENDENCIA_ADM_ESC          0
TP_LOCALIZACAO_ESC              0
TP_SIT_FUNC_ESC                 0
NU_NOTA_CN                1384837
NU_NOTA_CH                1172125
NU_NOTA_LC                1172125
NU_NOTA_MT                1384837
TP_LINGUA                       0
TP_STATUS_REDACAO         1172126
NU_NOTA_COMP1             1172126
NU_NOTA_COMP2             1172126
NU_NOTA_COMP3             1172126
NU_NOTA_COMP4             1172126
NU_NOTA_COMP5             1172126
NU_NOTA_REDACAO           1172126
Q001                            0
Q002          

Avaliando as colunas de notas vemos que há dados missing. O tratamento dado para estes caso será remover as linhas que possuem alguma nota faltando. 

In [5]:
enem2019_prep.dropna(how='any',axis=0, inplace=True)
enem2019_prep.shape

(3702007, 53)

In [None]:
enem2019_prep.to_csv('C:/Sandbox/MICRODADOS_ENEM_2019_clean.csv',index=False)