---
### Projeto: Quality Education
---

#### 💻 ENEM
Neste  notebook, iremos utilizada a base de dados do Exame Nacional do Ensino Médio (ENEM) que tem como objetivo  avaliar o desempenho escolar dos estudantes e principal porta de entrada para as faculdades. Além disso, as notas do Enem podem ser utilizadas no Sistema de Seleção Unificada (Sisu), Programa Universidade para Todos (ProUni) e também para pleitear o Fundo de Financiamento Estudantil (Fies).Os resultados do Enem também proporcionam indicadores educacionais do país. 

A prova consistem em quatro áreas do conhecimento: linguagens, códigos e suas tecnologias; ciências humanas e suas tecnologias; ciências da natureza e suas tecnologias; e matemática  e suas tecnologias, que ao totalizam 180 questões objetivas e uma redação, aplicadas em 2 dias de exame. 


#### 💡 DESAFIO PROPOSTO 
O objetivo é criar modelos para predizer as notas dos alunos(as) nas provas: Ciências da Natureza, Ciências Humanas, Linguagens e Códigos, Matemática e Redação.

##### 📘  METODOLOGIA CRISP-DM
Neste notebook, iremos a metodologia CRISP-DM (Cross Industry Standard Processo for Data Mining), para melhor entendimento, iremos dividir esta análise em seções abordando cada etapa da metodologia

##### 1 Importação das bibliotecas

In [1]:
#carregando bibliotecas 
import pandas as pd 
import seaborn as sns 
import numpy as np
import matplotlib.pylab as plt
import os
import json 
from matplotlib import rcParams

from sklearn import metrics 

#mensagens de warnings 
import warnings
warnings.filterwarnings("ignore")


#configs 
%matplotlib inline
plt.style.use('fivethirtyeight')
sns.set(context='notebook', palette='pastel')
rcParams['figure.figsize'] = 8,6

##### 2  Carregamento das bases 

In [2]:
#base de treino
train = pd.read_csv("data/test.csv")
train.head()

Unnamed: 0,NU_INSCRICAO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,5d5b362b-7388-4ac6-81b3-23573e4e2d3a,2305506,Iguatu,23,CE,22.0,F,1,3,1,...,A,A,A,B,B,A,B,A,B,B
1,52356efd-3239-4cd2-a444-416625dfc560,3548500,Santos,35,SP,19.0,F,1,1,1,...,B,A,A,B,A,B,E,B,B,B
2,1ba42e9a-dd61-4405-9b08-79b728ad23c9,3552106,Socorro,35,SP,16.0,F,1,1,1,...,B,A,B,C,A,A,E,A,B,B
3,16fa0f84-a88f-43e6-bcbb-8d5ea41e5f03,3541000,Praia Grande,35,SP,22.0,M,1,1,1,...,B,A,A,C,A,B,C,B,B,B
4,fa663d11-5052-4ab2-b771-3a3de3bdec55,4106902,Curitiba,41,PR,17.0,M,1,1,1,...,B,A,B,B,A,B,B,B,C,B


In [3]:
#base de teste
test = pd.read_csv("data/test.csv")
test.head()

Unnamed: 0,NU_INSCRICAO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,5d5b362b-7388-4ac6-81b3-23573e4e2d3a,2305506,Iguatu,23,CE,22.0,F,1,3,1,...,A,A,A,B,B,A,B,A,B,B
1,52356efd-3239-4cd2-a444-416625dfc560,3548500,Santos,35,SP,19.0,F,1,1,1,...,B,A,A,B,A,B,E,B,B,B
2,1ba42e9a-dd61-4405-9b08-79b728ad23c9,3552106,Socorro,35,SP,16.0,F,1,1,1,...,B,A,B,C,A,A,E,A,B,B
3,16fa0f84-a88f-43e6-bcbb-8d5ea41e5f03,3541000,Praia Grande,35,SP,22.0,M,1,1,1,...,B,A,A,C,A,B,C,B,B,B
4,fa663d11-5052-4ab2-b771-3a3de3bdec55,4106902,Curitiba,41,PR,17.0,M,1,1,1,...,B,A,B,B,A,B,B,B,C,B


##### 3 Exploração dos Dados 

In [5]:
# dimensão da base de dados 
print('O dataset possui {} linhas e {} colunas'.format(train.shape[0], train.shape[1]))

O dataset possui 1783345 linhas e 113 colunas


In [8]:
train.columns.values

array(['NU_INSCRICAO', 'CO_MUNICIPIO_RESIDENCIA',
       'NO_MUNICIPIO_RESIDENCIA', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA',
       'NU_IDADE', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       'TP_NACIONALIDADE', 'CO_MUNICIPIO_NASCIMENTO',
       'NO_MUNICIPIO_NASCIMENTO', 'CO_UF_NASCIMENTO', 'SG_UF_NASCIMENTO',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_ESCOLA', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_BAIXA_VISAO', 'IN_CEGUEIRA', 'IN_SURDEZ',
       'IN_DEFICIENCIA_AUDITIVA', 'IN_SURDO_CEGUEIRA',
       'IN_DEFICIENCIA_FISICA', 'IN_DEFICIENCIA_MENTAL',
       'IN_DEFICIT_ATENCAO', 'IN_DISLEXIA', 'IN_DISCALCULIA',
       'IN_AUTISMO', 'IN_VISAO_MONOCULAR', 'IN_OUTRA_DEF', 'IN_GESTANTE',
       'IN_LACTANTE', 'IN_IDOSO', 'IN_ESTUDA_CLASSE_HOSPITALAR',
       'IN_SEM_RECURSO', 'IN_BRAILLE', 'IN_AMPLIADA_24', 'IN_AMP