# Desafio Codenation: Melhores notas de matemática do ENEM 2016

### Bibliotecas básicas

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

### Dicionário dos dados

- **`NU_INSCRICAO`**: Número de inscrição
- **`NU_ANO`**: Ano do Enem
- **`CO_MUNICIPIO_RESIDENCIA`**: Código do município de residência 
- **`NO_MUNICIPIO_RESIDENCIA`**: Nome do município de residência
- **`CO_UF_RESIDENCIA`**: Código da UF de residência
- **`SG_UF_RESIDENCIA`**: Sigla da UF de residência
- **`NU_IDADE`**: Idade
- **`TP_SEXO`**: Sexo
- **`TP_ESTADO_CIVIL`**: Estado Civil
- **`TP_COR_RACA`**: Cor/raça
- **`TP_NACIONALIDADE`**: Nacionalidade
- **`CO_MUNICIPIO_NASCIMENTO`**: Código do município de nascimento
- **`NO_MUNICIPIO_NASCIMENTO`**: Nome do município de nascimento
- **`CO_UF_NASCIMENTO`**: Código da UF de nascimento
- **`SG_UF_NASCIMENTO`**: Sigla da UF de nascimento
- **`TP_ST_CONCLUSAO`**: Situação de conclusão do Ensino Médio
- **`TP_ANO_CONCLUIU`**: Ano de Conclusão do Ensino Médio
- **`TP_ESCOLA`**: Tipo de escola do Ensino Médio
- **`TP_ENSINO`**: Tipo de instituição que concluiu ou concluirá o Ensino Médio 
- **`IN_TREINEIRO`**: Indica se o inscrito fez a prova com intuito de apenas treinar seus conhecimentos
- **`CO_ESCOLA`**: Código da Escola
- **`CO_MUNICIPIO_ESC`**: Código do município da escola 
- **`NO_MUNICIPIO_ESC`**: Nome do município da escola
- **`CO_UF_ESC`**: Código da UF da escola
- **`SG_UF_ESC`**: Sigla da UF da escola
- **`TP_DEPENDENCIA_ADM_ESC`**: Dependência administrativa (Escola)
- **`TP_LOCALIZACAO_ESC`**: Localização (Escola)
- **`TP_SIT_FUNC_ESC`**: Situação de funcionamento (Escola)
- **`IN_BAIXA_VISAO`**: Indicador de baixa visão
- **`IN_CEGUEIRA`**: Indicador de cegueira
- **`IN_SURDEZ`**: Indicador de surdez
- **`IN_DEFICIENCIA_AUDITIVA`**: Indicador de deficiência auditiva
- **`IN_SURDO_CEGUEIRA`**: Indicador de surdo-cegueira
- **`IN_DEFICIENCIA_FISICA`**: Indicador de deficiência física
- **`IN_DEFICIENCIA_MENTAL`**: Indicador de deficiência mental
- **`IN_DEFICIT_ATENCAO`**: Indicador de déficit de atenção
- **`IN_DISLEXIA`**: Indicador de dislexia
- **`IN_DISCALCULIA`**: Indicador de discalculia
- **`IN_AUTISMO`**: Indicador de autismo
- **`IN_VISAO_MONOCULAR`**: Indicador de visão monocular
- **`IN_GESTANTE`**: Indicador de gestante
- **`IN_LACTANTE`**: Indicador de lactante
- **`IN_IDOSO`**: Indicador de inscrito idoso
- **`IN_ESTUDA_CLASSE_HOSPITALAR`**: Indicador de inscrição em Unidade Hospitalar
- **`IN_SEM_RECURSO`**: Indicador de inscrito que não requisitou nenhum recurso
- **`IN_BRAILLE`**: Indicador de solicitação de prova em braille
- **`IN_AMPLIADA_24`**: Indicador de solicitação de prova superampliada com fonte tamanho
- **`IN_AMPLIADA_18`**: Indicador de solicitação de prova ampliada com fonte tamanho
- **`IN_LEDOR`**: Indicador de solicitação de auxílio para leitura (ledor)
- **`IN_ACESSO`**: Indicador de solicitação de sala de fácil acesso
- **`IN_TRANSCRICAO`**: Indicador de solicitação de auxílio para transcrição
- **`IN_LIBRAS`**: Indicador de solicitação de Tradutor- Intérprete Libras
- **`IN_LEITURA_LABIAL`**: Indicador de solicitação de leitura labial
- **`IN_MESA_CADEIRA_RODAS`**: Indicador de solicitação de mesa para cadeira de rodas
- **`IN_MESA_CADEIRA_SEPARADA`**: Indicador de solicitação de mesa e cadeira separada
- **`IN_APOIO_PERNA`**: Indicador de solicitação de apoio de perna e pé
- **`IN_GUIA_INTERPRETE`**: Indicador de solicitação de guia intérprete
- **`IN_MACA`**: Indicador de solicitação de maca
- **`IN_COMPUTADOR`**: Indicador de solicitação de computador
- **`IN_CADEIRA_ESPECIAL`**: Indicador de solicitação de cadeira especial
- **`IN_CADEIRA_CANHOTO`**: Indicador de solicitação de cadeira para canhoto
- **`IN_CADEIRA_ACOLCHOADA`**: Indicador de solicitação de cadeira acolchoada
- **`IN_PROVA_DEITADO`**: Indicador de solicitação para fazer prova deitado em maca ou mobiliário similar
- **`IN_MOBILIARIO_OBESO`**: Indicador de solicitação de mobiliário adequado para obeso
- **`IN_LAMINA_OVERLAY`**: Indicador de solicitação de lâmina overlay
- **`IN_PROTETOR_AURICULAR`**: Indicador de solicitação de protetor auricular
- **`IN_MEDIDOR_GLICOSE`**: Indicador de solicitação de medidor de glicose e/ou aplicação de insulina
- **`IN_MAQUINA_BRAILE`**: Indicador de solicitação de máquina Braile e/ou Reglete e Punção
- **`IN_SOROBAN`**: Indicador de solicitação de soroban
- **`IN_MARCA_PASSO`**: Indicador de solicitação de marca-passo (impeditivo de uso de detector de metais)
- **`IN_SONDA`**: Indicador de solicitação de sonda com troca periódica
- **`IN_MEDICAMENTOS`**: Indicador de solicitação de medicamentos
- **`IN_SALA_INDIVIDUAL`**: Indicador de solicitação de sala especial individual
- **`IN_SALA_ESPECIAL`**: Indicador de solicitação de sala especial até 20 participantes
- **`IN_SALA_ACOMPANHANTE`**: Indicador de solicitação de sala reservada para acompanhantes
- **`IN_MOBILIARIO_ESPECIFICO`**: Indicador de solicitação de mobiliário específico
- **`IN_MATERIAL_ESPECIFICO`**: Indicador de solicitação de material específico
- **`IN_NOME_SOCIAL`**: Indicador de inscrito que se declarou travesti, transexual ou transgênero e solicitou atendimento pelo Nome Social
- **`IN_CERTIFICADO`**: Indicador de solicitação de certificação no Ensino Médio
- **`NO_ENTIDADE_CERTIFICACAO`**: Nome da Entidade Certificadora
- **`CO_UF_ENTIDADE_CERTIFICACAO`**: Código da Unidade da Federação da Entidade Certificadora
- **`SG_UF_ENTIDADE_CERTIFICACAO`**: Sigla da Unidade da Federação da Entidade Certificadora
- **`CO_MUNICIPIO_PROVA`**: Código do município da aplicação da prova
- **`NO_MUNICIPIO_PROVA`**: Nome do município da aplicação da prova
- **`CO_UF_PROVA`**: Código da Unidade da Federação da aplicação da prova
- **`SG_UF_PROVA`**: Sigla da Unidade da Federação da aplicação da prova
- **`TP_PRESENCA_CN`**: Presença na prova objetiva de Ciências da Natureza
- **`TP_PRESENCA_CH`**: Presença na prova objetiva de Ciências Humanas
- **`TP_PRESENCA_LC`**: Presença na prova objetiva de Linguagens e Códigos
- **`TP_PRESENCA_MT`**: Presença na prova objetiva de Matemática
- **`CO_PROVA_CN`**: Código do tipo de prova de Ciências da Natureza 
- **`CO_PROVA_CH`**: Código do tipo de prova de Ciências Humanas 
- **`CO_PROVA_LC`**: Código do tipo de prova de Linguagens e Códigos 
- **`CO_PROVA_MT`**: Código do tipo de prova de Matemática 
- **`NU_NOTA_CN`**: Nota da prova de Ciências da Natureza
- **`NU_NOTA_CH`**: Nota da prova de Ciências Humanas
- **`NU_NOTA_LC`**: Nota da prova de Linguagens e Códigos
- **`NU_NOTA_MT`**: Nota da prova de Matemática
- **`TX_RESPOSTAS_CN`**: Vetor com as respostas da parte objetiva da prova de Ciências da Natureza
- **`TX_RESPOSTAS_CH`**: Vetor com as respostas da parte objetiva da prova de Ciências Humanas
- **`TX_RESPOSTAS_LC`**: Vetor com as respostas da parte objetiva da prova de Linguagens e Códigos
- **`TX_RESPOSTAS_MT`**: Vetor com as respostas da parte objetiva da prova de Matemática
- **`TP_LINGUA`**: Língua Estrangeira
- **`TX_GABARITO_CN`**: Vetor com o gabarito da parte objetiva da prova de Ciências da Natureza
- **`TX_GABARITO_CH`**: Vetor com o gabarito da parte objetiva da prova de Ciências Humanas
- **`TX_GABARITO_LC`**: Vetor com o gabarito da parte objetiva da prova de Linguagens e Códigos 
- **`TX_GABARITO_MT`**: Vetor com o gabarito da parte objetiva da prova de Matemática
- **`TP_STATUS_REDACAO`**: Situação da redação do participante
- **`NU_NOTA_COMP1`**: Nota da competência 1 - Demonstrar domínio da modalidade escrita formal da Língua Portuguesa.
- **`NU_NOTA_COMP2`**: Nota da competência 2 - Compreender a proposta de redação e aplicar conceitos das várias áreas de conhecimento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-argumentativo em prosa.
- **`NU_NOTA_COMP3`**: Nota da competência 3 - Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argumentos em defesa de um ponto de vista.
- **`NU_NOTA_COMP4`**: Nota da competência 4 - Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação.
- **`NU_NOTA_COMP5`**: Nota da competência  - Elaborar proposta de intervenção para o problema abordado, respeitando os direitos humanos.
- **`NU_NOTA_REDACAO`**: Nota da prova de redação
- **`Q001`**: Até que série seu pai, ou o homem responsável por você, estudou?
- **`Q002`**: Até que série sua mãe, ou a mulher responsável por você, estudou? 
- **`Q003`**: A partir da apresentação de algumas ocupações divididas em grupos ordenados, indique o grupo que contempla a ocupação mais próxima da ocupação do seu pai ou do homem responsável por você. (Se ele não estiver trabalhando, escolha uma ocupação pensando no último trabalho dele). 
- **`Q004`**: A partir da apresentação de algumas ocupações divididas em grupos ordenados, indique o grupo que contempla a ocupação mais próxima da ocupação da sua mãe ou da mulher responsável por você. (Se ela não estiver trabalhando, escolha uma ocupação pensando no último trabalho dela). 
- **`Q005`**: Incluindo você, quantas pessoas moram atualmente em sua residência?
- **`Q006`**: Qual é a renda mensal de sua família? (Some a sua renda com a dos seus familiares.)
- **`Q007`**: Em sua residência trabalha empregado(a) doméstico(a)? 
- **`Q008`**: Na sua residência tem banheiro?
- **`Q009`**: Na sua residência tem quartos para dormir?
- **`Q010`**: Na sua residência tem carro?
- **`Q011`**: Na sua residência tem motocicleta?
- **`Q012`**: Na sua residência tem geladeira?
- **`Q013`**: Na sua residência tem freezer (independente ou segunda porta da geladeira)?
- **`Q014`**: Na sua residência tem máquina de lavar roupa? (o tanquinho NÃO deve ser considerado)
- **`Q015`**: Na sua residência tem máquina de secar roupa (independente ou em conjunto com a máquina de lavar roupa)?
- **`Q016`**: Na sua residência tem forno micro-ondas?
- **`Q017`**: Na sua residência tem máquina de lavar louça?
- **`Q018`**: Na sua residência tem aspirador de pó?
- **`Q019`**: Na sua residência tem televisão em cores?
- **`Q020`**: Na sua residência tem aparelho de DVD?
- **`Q021`**: Na sua residência tem TV por assinatura?
- **`Q022`**: Na sua residência tem telefone celular?
- **`Q023`**: Na sua residência tem telefone fixo?
- **`Q024`**: Na sua residência tem computador?
- **`Q025`**: Na sua residência tem acesso à Internet?
- **`Q026`**: Você exerce ou já exerceu atividade remunerada?
- **`Q027`**: Com que idade você começou a exercer uma atividade remunerada?
- **`Q028`**: Quantas horas semanais você trabalha ou trabalhava aproximadamente? (Considere a atividade remunerada mais recente.)
- **`Q029`**: Indique a importância de cada um dos motivos abaixo na sua decisão de trabalhar: Ajudar meus pais nas despesas com a casa.
- **`Q029`**: Indique a importância de cada um dos motivos abaixo na sua decisão de trabalhar: Ajudar meus pais nas despesas com a casa.
- **`Q030`**: Indique a importância de cada um dos motivos abaixo na sua decisão de trabalhar: Sustentar minha família (esposo/a, filhos/as etc.). 
- **`Q031`**: Indique a importância de cada um dos motivos abaixo na sua decisão de trabalhar: Ser independente/ganhar meu próprio dinheiro. 
- **`Q032`**: Indique a importância de cada um dos motivos abaixo na sua decisão de trabalhar: Adquirir experiência. 
- **`Q033`**: Indique a importância de cada um dos motivos abaixo na sua decisão de trabalhar: Custear/pagar meus estudos. 
- **`Q034`**: Indique os motivos que levaram você a participar do ENEM: Testar meus conhecimentos, para aumentar as minhas chances de ingressar na Educação Superior. 
- **`Q035`**: Indique os motivos que levaram você a participar do ENEM: Ingressar na Educação Superior pública. 
- **`Q036`**: Indique os motivos que levaram você a participar do ENEM: Ingressar na Educação Superior privada. 
- **`Q037`**: Indique os motivos que levaram você a participar do ENEM: Conseguir uma bolsa de estudos (ProUni, outras). 
- **`Q038`**: Indique os motivos que levaram você a participar do ENEM: Participar do Programa de Financiamento Estudantil - FIES. 
- **`Q039`**: Indique os motivos que levaram você a participar do ENEM: Participar do Programa Ciências Sem Fronteiras. 
- **`Q040`**: Indique os motivos que levaram você a participar do ENEM: Aumentar a possibilidade de conseguir um emprego. 
- **`Q041`**: Indique os motivos que levaram você a participar do ENEM: Progredir no meu emprego atual. 
- **`Q042`**: Em que tipo de escola você frequentou o Ensino Fundamental?
- **`Q043`**: Marque entre as opções abaixo aquela que melhor descreve a modalidade de Ensino Fundamental que você frequentou
- **`Q044`**: Em que turno você frequentou o Ensino Fundamental?
- **`Q045`**: Durante o Ensino Fundamental, você abandonou os estudos por algum tempo e/ou foi reprovado?
- **`Q046`**: Você já concluiu ou está concluindo o Ensino Médio?
- **`Q047`**: Em que tipo de escola você frequentou o Ensino Médio?
- **`Q048`**: Marque entre as opções abaixo aquela que melhor descreve a modalidade de Ensino Médio que você frequentou
- **`Q049`**: Em que turno você frequentou o Ensino Médio?
- **`Q050`**: Durante o Ensino Médio, você abandonou os estudos por algum tempo e/ou foi reprovado?

### Carrega os dados

#### Dados de teste

In [2]:
dados = pd.read_csv('test.csv').reset_index(drop=True)

colunas_de_notas = [
                    'NU_INSCRICAO',
                    'NU_NOTA_CN', 
                    'NU_NOTA_CH', 
                    'NU_NOTA_LC', 
                    'NU_NOTA_REDACAO'
                  ]


test = dados[colunas_de_notas]
print(f'Linhas: {test.shape[0]} | Colunas: {test.shape[1]}')

Linhas: 4576 | Colunas: 5


In [3]:
test = test.dropna().reset_index(drop=True)
print(f'Linhas: {test.shape[0]} | Colunas: {test.shape[1]}')
test.head()

Linhas: 3360 | Colunas: 5


Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_REDACAO
0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,464.8,443.5,431.8,420.0
1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,391.1,491.1,548.0,580.0
2,b38a03232f43b11c9d0788abaf060f7366053b6d,595.9,622.7,613.6,320.0
3,715494628a50142ce8cb17191cfe6d0f3cae0934,592.9,492.6,571.4,320.0
4,e656d6bad65c93fb2880f1eba5037008c8e75774,414.5,568.5,542.5,560.0


#### Dados de treino

In [4]:
dados = pd.read_csv('train.csv').reset_index(drop=True)
dados.drop(['Unnamed: 0'], axis=1, inplace=True)

colunas_de_notas = [
                    'NU_INSCRICAO',
                    'NU_NOTA_CN', 
                    'NU_NOTA_CH', 
                    'NU_NOTA_LC', 
                    'NU_NOTA_REDACAO', 
                    'NU_NOTA_MT'
                  ]

train = dados[colunas_de_notas]
print(f'Linhas: {train.shape[0]} | Colunas: {train.shape[1]}')

Linhas: 13730 | Colunas: 6


In [5]:
train = train.dropna().reset_index(drop=True)
print(f'Linhas: {train.shape[0]} | Colunas: {train.shape[1]}')
train.head()

Linhas: 10097 | Colunas: 6


Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_REDACAO,NU_NOTA_MT
0,ed50e8aaa58e7a806c337585efee9ca41f1eb1ad,436.3,495.4,581.2,520.0,399.4
1,2c3acac4b33ec2b195d77e7c04a2d75727fad723,474.5,544.1,599.0,580.0,459.8
2,a37c99ec251d4f6e8ddbeabadf1c87fdbfddc4d1,439.7,583.2,410.9,620.0,364.5
3,63b4e128e9ffe8ab27f5d093db1976ef4f353e0a,420.1,604.2,484.5,560.0,529.2
4,2eb189d4912f64b19d1967e8e84b6141aba18770,619.6,625.8,611.2,620.0,566.7


### Média ponderada das notas

**`Pesos`**:

- matemática: 3
- ciências da natureza: 2
- linguagens e códigos: 1.5
- ciências humanas: 1
- redação: 3

In [6]:
train['AVERAGE'] = (train['NU_NOTA_CN'] * 2) + (train['NU_NOTA_CH'] * 1) + (train['NU_NOTA_LC'] * 1.5) + (train['NU_NOTA_REDACAO'] * 3) + (train['NU_NOTA_MT'] * 3) / 10.5

In [7]:
train.head(2)

Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_REDACAO,NU_NOTA_MT,AVERAGE
0,ed50e8aaa58e7a806c337585efee9ca41f1eb1ad,436.3,495.4,581.2,520.0,399.4,3913.914286
1,2c3acac4b33ec2b195d77e7c04a2d75727fad723,474.5,544.1,599.0,580.0,459.8,4262.971429


In [8]:
test['AVERAGE'] = (test['NU_NOTA_CN'] * 2) + (test['NU_NOTA_CH'] * 1) + (test['NU_NOTA_LC'] * 1.5) + (test['NU_NOTA_REDACAO'] * 3) / 7.5

In [9]:
test.head(2)

Unnamed: 0,NU_INSCRICAO,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_REDACAO,AVERAGE
0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,464.8,443.5,431.8,420.0,2188.8
1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,391.1,491.1,548.0,580.0,2327.3


### Variável alvo

In [10]:
target = train['NU_NOTA_MT']
train.drop(['NU_NOTA_MT'], axis=1, inplace=True)

### Modelagem

In [18]:
colunas_features = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_REDACAO', 'AVERAGE']
X = train[colunas_features].to_numpy()
X_test = test[colunas_features].to_numpy()

In [23]:
from sklearn.linear_model import RidgeCV
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import ExtraTreesRegressor, RandomForestRegressor, StackingRegressor
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

In [28]:
estimators = [
    ('rf', RandomForestRegressor()),
    ('et', ExtraTreesRegressor(bootstrap=True, max_features=0.4, min_samples_leaf=12, 
                               min_samples_split=11, n_estimators=100)),
    ('rg', RidgeCV())
]

In [29]:
pipeline = make_pipeline(
    PolynomialFeatures(degree=2, include_bias=False, interaction_only=False),
    StackingRegressor(estimators=estimators, final_estimator=LinearRegression())
)

In [30]:
pipeline.fit(X, target)
pipeline.score(X, target)

0.9635316686311234

In [31]:
y_pred = pipeline.predict(X_test)

### Submissão

In [32]:
desafio_df = test['NU_INSCRICAO'].to_frame()
desafio_df['NU_NOTA_MT'] = y_pred

desafio_df.to_csv('answer.csv', index=False)
desafio_df.head()

Unnamed: 0,NU_INSCRICAO,NU_NOTA_MT
0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,374.675005
1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,381.163279
2,b38a03232f43b11c9d0788abaf060f7366053b6d,578.957242
3,715494628a50142ce8cb17191cfe6d0f3cae0934,492.165075
4,e656d6bad65c93fb2880f1eba5037008c8e75774,355.333797
