# Projeto de Análise de Dados - Notas do Enem 2021 de Pernambuco

### Disciplina: Tópicos Avançados em Gerencimento de Dados e Informações
### Alunos: Maria Teresa e Victor Amarante


Este projeto de ciência de dados visa entender um pouco mais sobre o comportamento das notas dos vestibulandos do estado de Pernambuco no ano de 2021. A base de dados é pública e foi divulgada no site do Inep. Mais informações sobre a base de dados no link abaixo.

> [Microdados do Enem 2021](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem)

## Importar bibliotecas

In [1]:
import pandas as pd
import numpy as np
from fancyimpute import KNN

pd.set_option('display.max_columns', None)

## Importar base de dados

In [2]:
df2021 = pd.read_csv('MICRODADOS_ENEM_2021.csv', sep=';', encoding='iso-8859-1')

## Visualização da base de dados

In [3]:
df2021

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,IN_TREINEIRO,CO_MUNICIPIO_ESC,NO_MUNICIPIO_ESC,CO_UF_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_SIT_FUNC_ESC,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,CO_UF_PROVA,SG_UF_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,CO_PROVA_CN,CO_PROVA_CH,CO_PROVA_LC,CO_PROVA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TX_RESPOSTAS_CN,TX_RESPOSTAS_CH,TX_RESPOSTAS_LC,TX_RESPOSTAS_MT,TP_LINGUA,TX_GABARITO_CN,TX_GABARITO_CH,TX_GABARITO_LC,TX_GABARITO_MT,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006,Q007,Q008,Q009,Q010,Q011,Q012,Q013,Q014,Q015,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210053865474,2021,5,F,1,1,1,1,3,1,,0,,,,,,,,3144805,Nova Lima,31,MG,0,1,1,0,,881.0,892.0,,,574.6,472.6,,,BBCCECEABCEABADDAAEECBEBADADAAABABBABBACCCBBB,99999BADDEAEBACADADDAEABCEECDDBBAEADEDEABADBBA...,,1,,BEECCAEABADBCAEBAAEEDDEBBBADBCBAAEEBBBADCCBBA,ABBACAAECACDBDDADEBDDCBDCEDBEDDBBBBDCEEAADABAC...,,1.0,140.0,120.0,120.0,180.0,200.0,760.0,F,F,B,B,3.0,D,A,B,C,B,A,B,A,B,A,A,A,A,B,A,A,B,A,B,B
1,210052384164,2021,12,M,1,1,1,1,11,1,,0,,,,,,,,2704302,Maceió,27,AL,1,1,1,1,912.0,882.0,891.0,901.0,505.9,551.8,498.3,461.5,DCBCCBDBCCCCCCDDCDCCCACCABCCECCCCAADCCCBBCADE,ECCDAAEBCDACBDBDECABBEAACBCBCCCDACEABEBEBACAE,99999ACECCEEBACDABACBECBBCDBDEBDDCCCDECCDDCCCC...,CDCCBCCCDCCCCBEACEECAEABECCCDCBBCABACDAEDCCEC,1,DABCEDEBEEBBCABEDDCBCBECDADCDAACBDCCCDBBBEBAB,EBAAEADBCACBBABEECBAAEEBBBADCBADBCEDDEBBCAEAB,ACABBACAEADCEADABDACDCEABDDADBEDDDEBBACCDDDCCE...,DCCAEBABDDCABEECCBCCEXADDCEECDEBADCABBDBDEDCE,1.0,120.0,120.0,120.0,120.0,80.0,560.0,B,B,B,B,3.0,B,A,B,C,A,A,B,A,A,A,A,A,A,B,A,A,C,A,A,A
2,210052589243,2021,13,F,3,1,1,1,15,1,,0,,,,,,,,3515707,Ferraz de Vasconcelos,35,SP,0,0,0,0,,,,,,,,,,,,,1,,,,,,,,,,,,B,C,C,B,3.0,C,A,B,B,A,A,B,B,A,A,B,A,A,B,A,A,C,B,B,B
3,210052128335,2021,3,M,1,3,1,2,0,2,1.0,0,2304202.0,Crato,23.0,CE,2.0,1.0,1.0,2304202,Crato,23,CE,1,1,1,1,911.0,880.0,890.0,902.0,580.7,678.9,638.9,659.5,CCABBDAEDBEBEDDCAAABBDAADBDCACACEDAABCEABAEBC,CBBDABAABBAAEECEBAADADBEBCAEEBEDDEBBBADBCBEDC,ABBCA99999CDECCCBADCDBCEAEBBAAEADEEADDACAEDDAB...,EACDCEACDDDDCBDDCABADAEBACDCDDEDBBCDBECACCCCA,0,CDBBBCABEDEDEAAEBACCCBDABCDCBCBDECDADCDBBEEBB,BBBAAEECBBABEECEBAAEADBCACAEABEDDEBBBADBCBADC,ABBCAEAACADDCACDCADABBBBDEBBACEADCEBDDACEEDDDB...,ECCCABBDBDDDCEDDCABXEEEBABEDCEDCCAEBADBCCECDA,1.0,120.0,180.0,120.0,200.0,160.0,780.0,B,B,B,B,6.0,B,A,B,C,A,A,B,A,A,A,A,A,A,B,A,A,B,A,B,B
4,210051353021,2021,2,F,1,3,1,2,0,2,1.0,0,2311603.0,Redenção,23.0,CE,2.0,1.0,1.0,2300150,Acarape,23,CE,1,1,1,1,912.0,882.0,891.0,901.0,497.7,532.4,457.6,582.6,BABCDCCBEBCD.DEDCABCBDEDAABEDADBDBCDECCAEDBCB,CAE.ACDCAAEBBEDEBCADADEDADAACEBDABBCEABBCDEAC,99999EAACBDCBECCABADBEDADCDADDCDDECABAADEBBDAC...,ACEDEBECABDABDEECBDEEADDDDBEBCEADCCADCADEDCEB,1,DABCEDEBEEBBCABEDDCBCBECDADCDAACBDCCCDBBBEBAB,EBAAEADBCACBBABEECBAAEEBBBADCBADBCEDDEBBCAEAB,ACABBACAEADCEADABDACDCEABDDADBEDDDEBBACCDDDCCE...,DCCAEBABDDCABEECCBCCEXADDCEECDEBADCABBDBDEDCE,1.0,120.0,140.0,160.0,180.0,180.0,780.0,D,E,F,D,4.0,C,A,B,C,A,A,B,A,B,A,B,A,A,B,A,B,E,A,B,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2685048,210052034039,2021,4,M,1,1,1,2,0,2,1.0,0,3205002.0,Serra,32.0,ES,1.0,1.0,1.0,3205002,Serra,32,ES,1,1,1,1,912.0,882.0,891.0,901.0,626.3,672.2,663.2,731.3,DABDBEEBECCADABAEDCBCDBCDABCBEACDAACCDEDDCACB,ECADAADBBDBBDABEECBAACEDBBAECBADBCEEDEBBCAEBB,ACABB99999DEEADAABADEEEDBDDADBEDDDEBDABADCDACB...,DCCAECADDDCABDECDBCBEAADACDDCDDBADBEDBBAEBDCE,0,DABCEDEBEEBBCABEDDCBCBECDADCDAACBDCCCDBBBEBAB,EBAAEADBCACBBABEECBAAEEBBBADCBADBCEDDEBBCAEAB,ACABBACAEADCEADABDACDCEABDDADBEDDDEBBACCDDDCCE...,DCCAEBABDDCABEECCBCCEXADDCEECDEBADCABBDBDEDCE,1.0,140.0,120.0,100.0,140.0,180.0,680.0,G,G,D,F,5.0,C,A,B,B,B,A,B,B,B,A,A,A,A,B,A,B,E,B,C,B
2685049,210051134913,2021,4,F,1,3,1,2,0,2,1.0,0,,,,,,,,2702306,Coruripe,27,AL,1,1,1,1,909.0,881.0,892.0,899.0,535.2,461.6,510.8,599.9,BECDCDEAABCBACEDCBCABECEADEADEACDEBACBCEBDAED,CCEDCAAEBABABAEB..E.....E.A....E..EB.........,99999AAEACCDBACEDACBDABECEDBAD............D......,DEBECACDCDCADBACDCCBADAEDABCBCEDCDACBDEABECDA,1,EDECABEDABCBEBACCDCBBEEBBCBDAAECDCBDCDBBBADCD,BEECCAEABADBCAEBAAEEDDEBBBADBCBAAEEBBBADCCBBA,ABBACAAECACDBDDADEBDDCBDCEDBEDDBBBBDCEEAADABAC...,EEXEBABDDCECCBCCECDCAEBADEABBDBDEDCEDCCADDCAB,1.0,140.0,200.0,120.0,140.0,200.0,800.0,D,D,A,A,5.0,A,A,B,D,A,B,B,A,A,A,A,A,A,B,A,A,D,A,A,B
2685050,210051964252,2021,5,M,1,3,1,1,2,1,,0,,,,,,,,2927408,Salvador,29,BA,0,0,0,0,,,,,,,,,,,,,0,,,,,,,,,,,,E,F,E,E,4.0,C,A,C,D,A,A,B,B,B,B,B,B,B,B,B,B,B,B,B,B
2685051,210053743073,2021,4,F,1,0,1,1,2,1,,0,,,,,,,,2211001,Teresina,22,PI,1,1,1,1,912.0,882.0,891.0,901.0,407.5,337.9,403.7,412.3,DDCCBABEECBDCDBBCECCDDACABCCEDAEEDDBBCBCDEDCD,EBBDCBCABDDACCEABEEDBCABDCADBACCDBAABCDBDCABC,EECAC99999DABEDDBAEADDDADCABDCBBDDDCADCCBCDCAD...,DECADDBCABDCBAAACEDBCDDECBDCABDBCBEBDCBABDCBA,0,DABCEDEBEEBBCABEDDCBCBECDADCDAACBDCCCDBBBEBAB,EBAAEADBCACBBABEECBAAEEBBBADCBADBCEDDEBBCAEAB,ACABBACAEADCEADABDACDCEABDDADBEDDDEBBACCDDDCCE...,DCCAEBABDDCABEECCBCCEXADDCEECDEBADCABBDBDEDCE,1.0,100.0,120.0,100.0,120.0,80.0,520.0,H,H,B,B,4.0,C,A,B,C,A,B,B,A,B,A,B,A,A,B,A,A,C,A,B,B


## Filtrando a base de dados para o estado de Pernambuco

In [4]:
df_pe2021 = df2021.query('SG_UF_PROVA == "PE"')

In [5]:
df_pe2021.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,IN_TREINEIRO,CO_MUNICIPIO_ESC,NO_MUNICIPIO_ESC,CO_UF_ESC,SG_UF_ESC,TP_DEPENDENCIA_ADM_ESC,TP_LOCALIZACAO_ESC,TP_SIT_FUNC_ESC,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,CO_UF_PROVA,SG_UF_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,CO_PROVA_CN,CO_PROVA_CH,CO_PROVA_LC,CO_PROVA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TX_RESPOSTAS_CN,TX_RESPOSTAS_CH,TX_RESPOSTAS_LC,TX_RESPOSTAS_MT,TP_LINGUA,TX_GABARITO_CN,TX_GABARITO_CH,TX_GABARITO_LC,TX_GABARITO_MT,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q001,Q002,Q003,Q004,Q005,Q006,Q007,Q008,Q009,Q010,Q011,Q012,Q013,Q014,Q015,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
16,210053788150,2021,7,F,1,1,1,1,4,1,,0,,,,,,,,2613701,São Lourenço da Mata,26,PE,1,1,1,1,911.0,880.0,890.0,902.0,487.9,419.9,488.2,553.1,CDCDDAEBDEBABECEACDAAEBAECAEADDBCDDADEAABECDA,AAAABEACBDBABEBDBEECCBACDEAEBEDABABADCDAABEEB,BCAEA99999DBEABBBACADCBEDDDBBAEADEEABAECDADACD...,DCCDBADBACECADABCDDADBEEDDBACCBCEDBACDBCCAEDE,0,CDBBBCABEDEDEAAEBACCCBDABCDCBCBDECDADCDBBEEBB,BBBAAEECBBABEECEBAAEADBCACAEABEDDEBBBADBCBADC,ABBCAEAACADDCACDCADABBBBDEBBACEADCEBDDACEEDDDB...,ECCCABBDBDDDCEDDCABXEEEBABEDCEDCCAEBADBCCECDA,1.0,140.0,120.0,140.0,160.0,160.0,720.0,E,E,D,B,2.0,B,A,B,C,B,A,B,A,B,A,A,A,A,B,A,A,C,A,A,B
19,210053797083,2021,11,M,1,3,1,1,9,1,,0,,,,,,,,2613701,São Lourenço da Mata,26,PE,1,1,1,1,909.0,881.0,892.0,899.0,388.1,602.0,337.1,629.5,DCACDDACCBCEDBACADDCEACDDBBADDBBABACACCDCCBCE,BDECCCEBDCECBDECCAEDDDEBBDADBABBACBDBECDCCABA,99999BCCBCBABADCDDBCDCDEECCBBDEECCDEEECCBCCDCB...,ECDEBBDACDDCDBBCDCCDCABECDDCBDDDDCAADBCADDEAD,1,EDECABEDABCBEBACCDCBBEEBBCBDAAECDCBDCDBBBADCD,BEECCAEABADBCAEBAAEEDDEBBBADBCBAAEEBBBADCCBBA,ABBACAAECACDBDDADEBDDCBDCEDBEDDBBBBDCEEAADABAC...,EEXEBABDDCECCBCCECDCAEBADEABBDBDEDCEDCCADDCAB,1.0,140.0,200.0,140.0,180.0,200.0,860.0,E,E,B,B,2.0,C,A,B,C,A,A,B,A,B,A,A,A,A,B,B,A,B,A,A,B
50,210051819810,2021,4,F,1,3,1,1,0,1,,0,,,,,,,,2615300,Timbaúba,26,PE,1,1,1,1,912.0,882.0,891.0,901.0,387.0,486.4,436.9,404.0,DCCEEDBADDCDAEEAEBEACCEDABBCBEAEEBCEADADBCECA,CCAAAACDCABCECBBEEADCEDDBDDACBCBDBDACBCECDCDA,99999EEACEDEEACBBBAADECECAEDCADBDCDDDEAEDBCBAE...,BABBCECEEBDDBEBEDBBAAABEBCDCEDBCDCBDAEACDADDB,1,DABCEDEBEEBBCABEDDCBCBECDADCDAACBDCCCDBBBEBAB,EBAAEADBCACBBABEECBAAEEBBBADCBADBCEDDEBBCAEAB,ACABBACAEADCEADABDACDCEABDDADBEDDDEBBACCDDDCCE...,DCCAEBABDDCABEECCBCCEXADDCEECDEBADCABBDBDEDCE,1.0,100.0,180.0,120.0,120.0,140.0,660.0,B,D,B,B,2.0,B,A,B,B,A,A,B,B,A,A,A,A,A,B,B,A,C,A,B,B
57,210054293853,2021,3,F,1,3,1,1,1,1,,0,,,,,,,,2608750,Lagoa Grande,26,PE,1,1,1,1,910.0,879.0,889.0,900.0,507.1,472.2,474.2,506.3,BADAECADDECADBEEADBCABCDEBEBEDCBEEBEAEADBCACA,BADEDADBBBACEDAEBDEABCDBEBCDECDEABDEABCEABCAE,99999EDABAABDDEBDEBCAADBBADABDCEACBDECADBEDBCA...,DDCDDACEDCCECEBBAEDEDAADACDECEECAABCECECBACDA,1,ADCDCDBBBECDCCDCBCBDABCAADCBEBABEEBBBCABEDEDE,BADCBADBCEDDEBBADBCABEECCAEABEBAAECBBABAAEEBB,CAABBCAEAABDCDEADCEDBEDDDABBBBDEBCEADABDBACACD...,DDCABDCCAEDCEBBDBDAEEBADCAECDBCCCCDDCEEBABXEE,1.0,120.0,120.0,120.0,120.0,100.0,580.0,B,E,A,A,5.0,A,A,B,D,B,A,B,A,B,A,A,A,A,B,B,A,E,A,A,B
69,210054019198,2021,14,M,1,3,1,1,15,1,,0,,,,,,,,2611606,Recife,26,PE,0,0,0,0,,,,,,,,,,,,,0,,,,,,,,,,,,E,E,D,D,3.0,D,A,B,C,B,A,B,A,B,A,A,A,A,B,A,A,C,B,B,B


## Limpeza e Tratamento da base dos dados

> Processo de preparação, organização e estruturação dos dados.

### Excluindo colunas

> Exclusão de colunas julgadas desnecessárias para as análises futuras.

In [6]:
df_pe2021 = df_pe2021.drop(columns=['NU_ANO', 'TP_ESTADO_CIVIL', 'TP_NACIONALIDADE', 'TP_ENSINO', 'CO_MUNICIPIO_ESC',
                                  'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC', 'TP_SIT_FUNC_ESC', 
                                    'CO_UF_PROVA', 'SG_UF_PROVA', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC', 'CO_PROVA_MT',
                                  'TX_GABARITO_CN', 'TX_GABARITO_CH', 'TX_GABARITO_LC', 'TX_GABARITO_MT',
                                    'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC', 'TX_RESPOSTAS_MT', 'Q001',
                                  'Q002', 'Q003', 'Q004', 'Q005','Q007', 'Q008', 'Q009', 'Q010', 'Q011', 'Q012',
                                  'Q013', 'Q014', 'Q015', 'Q016', 'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022', 'Q023', 'Q024',
                                   'TP_ANO_CONCLUIU'])

### Renomeando os registros das linhas

> Padronização e categorização dos dados

In [7]:
df_pe2021['TP_FAIXA_ETARIA'] = df_pe2021['TP_FAIXA_ETARIA'].replace({1: 'Menor de 17 anos',
                                                                    2: '17 anos',
                                                                    3: '18 anos',
                                                                    4: '19 anos',
                                                                    5: '20 anos',
                                                                    6: '21 anos',
                                                                    7: '22 anos',
                                                                    8: '23 anos',
                                                                    9: '24 anos',
                                                                    10: '25 anos',
                                                                    11: 'Entre 26 e 30 anos',
                                                                    12: 'Entre 31 e 35 anos',
                                                                    13: 'Entre 36 e 40 anos',
                                                                    14: 'Entre 41 e 45 anos',
                                                                    15: 'Entre 46 e 50 anos',
                                                                    16: 'Entre 51 e 55 anos',
                                                                    17: 'Entre 56 e 60 anos',
                                                                    18: 'Entre 61 e 65 anos',
                                                                    19: 'Entre 66 e 70 anos',
                                                                    20: 'Maior que 70 anos'}) 

In [8]:
df_pe2021['TP_COR_RACA'] = df_pe2021['TP_COR_RACA'].replace({0: 'Não declarado',
                                                            1: 'Branca',
                                                            2: 'Preta',
                                                            3: 'Parda',
                                                            4: 'Amarela',
                                                            5: 'Indígena'})

In [9]:
df_pe2021['TP_ST_CONCLUSAO'] = df_pe2021['TP_ST_CONCLUSAO'].replace({1: 'Já concluí o EM',
                                                                    2: 'Estou cursando e concluirei o EM em 2021',
                                                                    3: 'Estou cursando e concluirei o EM após 2021',
                                                                    4: 'Não concluí e não estou cursando o EM'})

In [10]:
df_pe2021['TP_ESCOLA'] = df_pe2021['TP_ESCOLA'].replace({1: 'Não respondeu',
                                                        2: 'Público',
                                                        3: 'Privada',
                                                        4: 'Exterior'})

In [11]:
df_pe2021['IN_TREINEIRO'] = df_pe2021['IN_TREINEIRO'].replace({1: 'Sim',
                                                              0: 'Não'})

In [12]:
df_pe2021['TP_LOCALIZACAO_ESC'] = df_pe2021['TP_LOCALIZACAO_ESC'].replace({1: 'Urbana',
                                                                          2: 'Rural'})

In [13]:
df_pe2021['TP_LINGUA'] = df_pe2021['TP_LINGUA'].replace({0: 'Inglês',
                                                         1: 'Espanhol'})

In [14]:
df_pe2021['TP_STATUS_REDACAO'] = df_pe2021['TP_STATUS_REDACAO'].replace({1: 'Sem problemas',
                                                                        2: 'Anulada',
                                                                        3: 'Cópia Texto Motivador',
                                                                        4: 'Em Branco',
                                                                        6: 'Fuga ao tema',
                                                                        7: 'Não atendimento ao tipo textual',
                                                                        8: 'Texto insuficiente',
                                                                        9: 'Parte desconectada'})

Para fins didáticos, transformamos a seguir os valores da renda salarial mensal em atributos numéricos. Posteriormente, haverá uma modificação na tipagem dessa variável para o tipo de dado categórico. O objetivo será termos níveis/fatores quando formos analisar os dados na parte de análise exploratória dos dados e testes de hipóteses, tentando assim, evitar alguns problemas que podem surgir.

In [15]:
df_pe2021['Q006'] = df_pe2021['Q006'].replace({'A': 0,
                                              'B': 0.5,
                                              'C': 1,
                                              'D': 1.5,
                                              'E': 2,
                                              'F': 2.5,
                                              'G': 3,
                                              'H': 4,
                                              'I': 5,
                                              'J': 6,
                                              'K': 7,
                                              'L': 8,
                                              'M': 9,
                                              'N': 10,
                                              'O': 12,
                                              'P': 15,
                                              'Q': 21})

In [16]:
df_pe2021['Q025'] = df_pe2021['Q025'].replace({'A': 'Não', 'B': 'Sim'})

### Renomeando as colunas da base de dados

In [17]:
df_pe2021 = df_pe2021.rename(columns={'TP_FAIXA_ETARIA': 'FAIXA ETÁRIA',
                                     'TP_SEXO': 'SEXO',
                                     'TP_COR_RACA': 'COR/RAÇA',
                                     'TP_ST_CONCLUSAO': 'SITUAÇÃO DE CONCLUSÃO',
                                     'TP_ESCOLA': 'TIPO DE ESCOLA',
                                     'TP_LOCALIZACAO_ESC': 'LOCALIZAÇÃO DA ESCOLA',
                                     'TP_LINGUA': 'IDIOMA',
                                     'TP_STATUS_REDACAO': 'STATUS DA REDAÇÃO',
                                     'Q006': 'RENDA',
                                     'Q025': 'INTERNET',
                                     'NU_NOTA_CN': 'NOTA_CN', 'NU_NOTA_CH':'NOTA_CH', 'NU_NOTA_LC':'NOTA_LC', 'NU_NOTA_MT':'NOTA_MT',
                                     'NU_NOTA_COMP1':'NOTA_COMP1', 'NU_NOTA_COMP2':'NOTA_COMP2','NU_NOTA_COMP3':'NOTA_COMP3',
                                      'NU_NOTA_COMP4':'NOTA_COMP4', 'NU_NOTA_COMP5':'NOTA_COMP5', 'NU_NOTA_REDACAO':'NOTA_REDACAO'})

In [18]:
df_pe2021.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,IN_TREINEIRO,NO_MUNICIPIO_ESC,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET
16,210053788150,22 anos,F,Branca,Já concluí o EM,Não respondeu,Não,,,2613701,São Lourenço da Mata,1,1,1,1,487.9,419.9,488.2,553.1,Inglês,Sem problemas,140.0,120.0,140.0,160.0,160.0,720.0,0.5,Sim
19,210053797083,Entre 26 e 30 anos,M,Parda,Já concluí o EM,Não respondeu,Não,,,2613701,São Lourenço da Mata,1,1,1,1,388.1,602.0,337.1,629.5,Espanhol,Sem problemas,140.0,200.0,140.0,180.0,200.0,860.0,1.0,Sim
50,210051819810,19 anos,F,Parda,Já concluí o EM,Não respondeu,Não,,,2615300,Timbaúba,1,1,1,1,387.0,486.4,436.9,404.0,Espanhol,Sem problemas,100.0,180.0,120.0,120.0,140.0,660.0,0.5,Sim
57,210054293853,18 anos,F,Parda,Já concluí o EM,Não respondeu,Não,,,2608750,Lagoa Grande,1,1,1,1,507.1,472.2,474.2,506.3,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,0.0,Sim
69,210054019198,Entre 41 e 45 anos,M,Parda,Já concluí o EM,Não respondeu,Não,,,2611606,Recife,0,0,0,0,,,,,Inglês,,,,,,,,1.5,Sim


### Separar entre vestibulandos e treineiros

> Filtrar apenas para os inscritos considerados vestibulandos e que não estão com o intuito de apenas treinar seus conhecimentos.

In [19]:
vestibulandos = df_pe2021.loc[df_pe2021.IN_TREINEIRO == 'Não']

In [20]:
vestibulandos = vestibulandos.drop(columns=['IN_TREINEIRO','NO_MUNICIPIO_ESC'])

In [21]:
vestibulandos.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET
16,210053788150,22 anos,F,Branca,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,487.9,419.9,488.2,553.1,Inglês,Sem problemas,140.0,120.0,140.0,160.0,160.0,720.0,0.5,Sim
19,210053797083,Entre 26 e 30 anos,M,Parda,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,388.1,602.0,337.1,629.5,Espanhol,Sem problemas,140.0,200.0,140.0,180.0,200.0,860.0,1.0,Sim
50,210051819810,19 anos,F,Parda,Já concluí o EM,Não respondeu,,2615300,Timbaúba,1,1,1,1,387.0,486.4,436.9,404.0,Espanhol,Sem problemas,100.0,180.0,120.0,120.0,140.0,660.0,0.5,Sim
57,210054293853,18 anos,F,Parda,Já concluí o EM,Não respondeu,,2608750,Lagoa Grande,1,1,1,1,507.1,472.2,474.2,506.3,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,0.0,Sim
69,210054019198,Entre 41 e 45 anos,M,Parda,Já concluí o EM,Não respondeu,,2611606,Recife,0,0,0,0,,,,,Inglês,,,,,,,,1.5,Sim


In [22]:
presenca = ['TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC', 'TP_PRESENCA_MT']

In [23]:
# Calculando a soma das presenças no vestibular 2021
vestibulandos['PRESENCA'] = vestibulandos[presenca].sum(axis=1)
vestibulandos.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA
16,210053788150,22 anos,F,Branca,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,487.9,419.9,488.2,553.1,Inglês,Sem problemas,140.0,120.0,140.0,160.0,160.0,720.0,0.5,Sim,4
19,210053797083,Entre 26 e 30 anos,M,Parda,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,388.1,602.0,337.1,629.5,Espanhol,Sem problemas,140.0,200.0,140.0,180.0,200.0,860.0,1.0,Sim,4
50,210051819810,19 anos,F,Parda,Já concluí o EM,Não respondeu,,2615300,Timbaúba,1,1,1,1,387.0,486.4,436.9,404.0,Espanhol,Sem problemas,100.0,180.0,120.0,120.0,140.0,660.0,0.5,Sim,4
57,210054293853,18 anos,F,Parda,Já concluí o EM,Não respondeu,,2608750,Lagoa Grande,1,1,1,1,507.1,472.2,474.2,506.3,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,0.0,Sim,4
69,210054019198,Entre 41 e 45 anos,M,Parda,Já concluí o EM,Não respondeu,,2611606,Recife,0,0,0,0,,,,,Inglês,,,,,,,,1.5,Sim,0


In [24]:
# Filtrando os vestibulandos que foram pelo menos 1 dia pra o vestibular
vestibulandos_presentes = vestibulandos.loc[vestibulandos.PRESENCA != 0]
vestibulandos_presentes.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA
16,210053788150,22 anos,F,Branca,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,487.9,419.9,488.2,553.1,Inglês,Sem problemas,140.0,120.0,140.0,160.0,160.0,720.0,0.5,Sim,4
19,210053797083,Entre 26 e 30 anos,M,Parda,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,388.1,602.0,337.1,629.5,Espanhol,Sem problemas,140.0,200.0,140.0,180.0,200.0,860.0,1.0,Sim,4
50,210051819810,19 anos,F,Parda,Já concluí o EM,Não respondeu,,2615300,Timbaúba,1,1,1,1,387.0,486.4,436.9,404.0,Espanhol,Sem problemas,100.0,180.0,120.0,120.0,140.0,660.0,0.5,Sim,4
57,210054293853,18 anos,F,Parda,Já concluí o EM,Não respondeu,,2608750,Lagoa Grande,1,1,1,1,507.1,472.2,474.2,506.3,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,0.0,Sim,4
76,210051930402,17 anos,F,Branca,Estou cursando e concluirei o EM em 2021,Privada,Urbana,2614501,Surubim,1,1,1,1,587.8,591.6,558.9,644.1,Espanhol,Sem problemas,140.0,180.0,120.0,180.0,200.0,820.0,1.5,Sim,4


In [25]:
# Criando e calculando a soma das notas das áreas de conhecimento do vestibular
notas = ['NOTA_CN','NOTA_CH','NOTA_LC','NOTA_MT','NOTA_REDACAO']
vestibulandos_presentes['NOTAS'] = vestibulandos_presentes[notas].sum(axis=1)
vestibulandos_presentes.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  vestibulandos_presentes['NOTAS'] = vestibulandos_presentes[notas].sum(axis=1)


Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA,NOTAS
16,210053788150,22 anos,F,Branca,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,487.9,419.9,488.2,553.1,Inglês,Sem problemas,140.0,120.0,140.0,160.0,160.0,720.0,0.5,Sim,4,2669.1
19,210053797083,Entre 26 e 30 anos,M,Parda,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,388.1,602.0,337.1,629.5,Espanhol,Sem problemas,140.0,200.0,140.0,180.0,200.0,860.0,1.0,Sim,4,2816.7
50,210051819810,19 anos,F,Parda,Já concluí o EM,Não respondeu,,2615300,Timbaúba,1,1,1,1,387.0,486.4,436.9,404.0,Espanhol,Sem problemas,100.0,180.0,120.0,120.0,140.0,660.0,0.5,Sim,4,2374.3
57,210054293853,18 anos,F,Parda,Já concluí o EM,Não respondeu,,2608750,Lagoa Grande,1,1,1,1,507.1,472.2,474.2,506.3,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,0.0,Sim,4,2539.8
76,210051930402,17 anos,F,Branca,Estou cursando e concluirei o EM em 2021,Privada,Urbana,2614501,Surubim,1,1,1,1,587.8,591.6,558.9,644.1,Espanhol,Sem problemas,140.0,180.0,120.0,180.0,200.0,820.0,1.5,Sim,4,3202.4


In [26]:
df_remove = vestibulandos_presentes.loc[vestibulandos_presentes['NOTAS'] == 0]

In [27]:
# Vestibulandos que zeraram ou foram eliminados nas provas (analisar depois)
df_remove.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA,NOTAS
22255,210052817497,23 anos,F,Branca,Já concluí o EM,Não respondeu,,2605202,Escada,0,1,1,0,,0.0,0.0,,Espanhol,Em Branco,0.0,0.0,0.0,0.0,0.0,0.0,2.0,Sim,2,0.0
28229,210053819873,17 anos,F,Parda,Estou cursando e concluirei o EM em 2021,Público,,2610707,Paulista,0,2,2,0,,,,,Inglês,,,,,,,,1.5,Sim,4,0.0
38487,210052051368,19 anos,M,Não declarado,Já concluí o EM,Não respondeu,,2609600,Olinda,0,1,1,0,,0.0,0.0,,Inglês,Em Branco,0.0,0.0,0.0,0.0,0.0,0.0,2.5,Sim,2,0.0
38752,210052917893,Entre 41 e 45 anos,M,Parda,Já concluí o EM,Não respondeu,,2605202,Escada,0,2,2,0,,,,,Espanhol,,,,,,,,3.0,Sim,4,0.0
45733,210051617898,Entre 31 e 35 anos,F,Branca,Já concluí o EM,Não respondeu,,2606002,Garanhuns,0,2,2,0,,,,,Inglês,,,,,,,,0.5,Sim,4,0.0


In [28]:
vestibulandos_presentes_pe = vestibulandos_presentes.drop(df_remove.index)

In [29]:
vestibulandos_presentes_pe.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA,NOTAS
16,210053788150,22 anos,F,Branca,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,487.9,419.9,488.2,553.1,Inglês,Sem problemas,140.0,120.0,140.0,160.0,160.0,720.0,0.5,Sim,4,2669.1
19,210053797083,Entre 26 e 30 anos,M,Parda,Já concluí o EM,Não respondeu,,2613701,São Lourenço da Mata,1,1,1,1,388.1,602.0,337.1,629.5,Espanhol,Sem problemas,140.0,200.0,140.0,180.0,200.0,860.0,1.0,Sim,4,2816.7
50,210051819810,19 anos,F,Parda,Já concluí o EM,Não respondeu,,2615300,Timbaúba,1,1,1,1,387.0,486.4,436.9,404.0,Espanhol,Sem problemas,100.0,180.0,120.0,120.0,140.0,660.0,0.5,Sim,4,2374.3
57,210054293853,18 anos,F,Parda,Já concluí o EM,Não respondeu,,2608750,Lagoa Grande,1,1,1,1,507.1,472.2,474.2,506.3,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,0.0,Sim,4,2539.8
76,210051930402,17 anos,F,Branca,Estou cursando e concluirei o EM em 2021,Privada,Urbana,2614501,Surubim,1,1,1,1,587.8,591.6,558.9,644.1,Espanhol,Sem problemas,140.0,180.0,120.0,180.0,200.0,820.0,1.5,Sim,4,3202.4


> Neste momento, temos a base de dados dentro dos parâmetros escolhidos para as análises futuras.

### Substituição dos valores ausentes de acordo com o tipo da variável

In [30]:
vestibulandos_presentes_pe['LOCALIZAÇÃO DA ESCOLA'] = vestibulandos_presentes_pe['LOCALIZAÇÃO DA ESCOLA'].fillna('Não Consta')
vestibulandos_presentes_pe['STATUS DA REDAÇÃO'] = vestibulandos_presentes_pe['STATUS DA REDAÇÃO'].fillna('Não Consta')

In [31]:
vestibulandos_presentes_pe.dtypes

NU_INSCRICAO               int64
FAIXA ETÁRIA              object
SEXO                      object
COR/RAÇA                  object
SITUAÇÃO DE CONCLUSÃO     object
TIPO DE ESCOLA            object
LOCALIZAÇÃO DA ESCOLA     object
CO_MUNICIPIO_PROVA         int64
NO_MUNICIPIO_PROVA        object
TP_PRESENCA_CN             int64
TP_PRESENCA_CH             int64
TP_PRESENCA_LC             int64
TP_PRESENCA_MT             int64
NOTA_CN                  float64
NOTA_CH                  float64
NOTA_LC                  float64
NOTA_MT                  float64
IDIOMA                    object
STATUS DA REDAÇÃO         object
NOTA_COMP1               float64
NOTA_COMP2               float64
NOTA_COMP3               float64
NOTA_COMP4               float64
NOTA_COMP5               float64
NOTA_REDACAO             float64
RENDA                    float64
INTERNET                  object
PRESENCA                   int64
NOTAS                    float64
dtype: object

In [32]:
vestibulandos_presentes_pe.columns

Index(['NU_INSCRICAO', 'FAIXA ETÁRIA', 'SEXO', 'COR/RAÇA',
       'SITUAÇÃO DE CONCLUSÃO', 'TIPO DE ESCOLA', 'LOCALIZAÇÃO DA ESCOLA',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'TP_PRESENCA_CN',
       'TP_PRESENCA_CH', 'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'NOTA_CN',
       'NOTA_CH', 'NOTA_LC', 'NOTA_MT', 'IDIOMA', 'STATUS DA REDAÇÃO',
       'NOTA_COMP1', 'NOTA_COMP2', 'NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5',
       'NOTA_REDACAO', 'RENDA', 'INTERNET', 'PRESENCA', 'NOTAS'],
      dtype='object')

In [33]:
# Mudando o type das variáveis quantitativas para o dtype category
vestibulandos_presentes_pe['FAIXA ETÁRIA'] = vestibulandos_presentes_pe['FAIXA ETÁRIA'].astype('category')
vestibulandos_presentes_pe['SEXO'] = vestibulandos_presentes_pe['SEXO'].astype('category')
vestibulandos_presentes_pe['COR/RAÇA'] = vestibulandos_presentes_pe['COR/RAÇA'].astype('category')
vestibulandos_presentes_pe['SITUAÇÃO DE CONCLUSÃO'] = vestibulandos_presentes_pe['SITUAÇÃO DE CONCLUSÃO'].astype('category')
vestibulandos_presentes_pe['TIPO DE ESCOLA'] = vestibulandos_presentes_pe['TIPO DE ESCOLA'].astype('category')
vestibulandos_presentes_pe['LOCALIZAÇÃO DA ESCOLA'] = vestibulandos_presentes_pe['LOCALIZAÇÃO DA ESCOLA'].astype('category')
vestibulandos_presentes_pe['NO_MUNICIPIO_PROVA'] = vestibulandos_presentes_pe['NO_MUNICIPIO_PROVA'].astype('category')
vestibulandos_presentes_pe['IDIOMA'] = vestibulandos_presentes_pe['IDIOMA'].astype('category')
vestibulandos_presentes_pe['STATUS DA REDAÇÃO'] = vestibulandos_presentes_pe['STATUS DA REDAÇÃO'].astype('category')
vestibulandos_presentes_pe['INTERNET'] = vestibulandos_presentes_pe['INTERNET'].astype('category')
vestibulandos_presentes_pe['NU_INSCRICAO'] = vestibulandos_presentes_pe['NU_INSCRICAO'].astype('object')

In [34]:
vestibulandos_presentes_pe.dtypes

NU_INSCRICAO               object
FAIXA ETÁRIA             category
SEXO                     category
COR/RAÇA                 category
SITUAÇÃO DE CONCLUSÃO    category
TIPO DE ESCOLA           category
LOCALIZAÇÃO DA ESCOLA    category
CO_MUNICIPIO_PROVA          int64
NO_MUNICIPIO_PROVA       category
TP_PRESENCA_CN              int64
TP_PRESENCA_CH              int64
TP_PRESENCA_LC              int64
TP_PRESENCA_MT              int64
NOTA_CN                   float64
NOTA_CH                   float64
NOTA_LC                   float64
NOTA_MT                   float64
IDIOMA                   category
STATUS DA REDAÇÃO        category
NOTA_COMP1                float64
NOTA_COMP2                float64
NOTA_COMP3                float64
NOTA_COMP4                float64
NOTA_COMP5                float64
NOTA_REDACAO              float64
RENDA                     float64
INTERNET                 category
PRESENCA                    int64
NOTAS                     float64
dtype: object

In [35]:
vestibulandos_presentes_pe.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100751 entries, 16 to 2685010
Data columns (total 29 columns):
 #   Column                 Non-Null Count   Dtype   
---  ------                 --------------   -----   
 0   NU_INSCRICAO           100751 non-null  object  
 1   FAIXA ETÁRIA           100751 non-null  category
 2   SEXO                   100751 non-null  category
 3   COR/RAÇA               100751 non-null  category
 4   SITUAÇÃO DE CONCLUSÃO  100751 non-null  category
 5   TIPO DE ESCOLA         100751 non-null  category
 6   LOCALIZAÇÃO DA ESCOLA  100751 non-null  category
 7   CO_MUNICIPIO_PROVA     100751 non-null  int64   
 8   NO_MUNICIPIO_PROVA     100751 non-null  category
 9   TP_PRESENCA_CN         100751 non-null  int64   
 10  TP_PRESENCA_CH         100751 non-null  int64   
 11  TP_PRESENCA_LC         100751 non-null  int64   
 12  TP_PRESENCA_MT         100751 non-null  int64   
 13  NOTA_CN                96386 non-null   float64 
 14  NOTA_CH           

In [36]:
# Verificação dos valores ausentes para serem imputados
vestibulandos_presentes_pe.isnull().sum()

NU_INSCRICAO                0
FAIXA ETÁRIA                0
SEXO                        0
COR/RAÇA                    0
SITUAÇÃO DE CONCLUSÃO       0
TIPO DE ESCOLA              0
LOCALIZAÇÃO DA ESCOLA       0
CO_MUNICIPIO_PROVA          0
NO_MUNICIPIO_PROVA          0
TP_PRESENCA_CN              0
TP_PRESENCA_CH              0
TP_PRESENCA_LC              0
TP_PRESENCA_MT              0
NOTA_CN                  4365
NOTA_CH                   203
NOTA_LC                   203
NOTA_MT                  4365
IDIOMA                      0
STATUS DA REDAÇÃO           0
NOTA_COMP1                203
NOTA_COMP2                203
NOTA_COMP3                203
NOTA_COMP4                203
NOTA_COMP5                203
NOTA_REDACAO              203
RENDA                       0
INTERNET                    0
PRESENCA                    0
NOTAS                       0
dtype: int64

### Selecionar uma amostra de 5% da base de dados

In [37]:
notas = ['NOTA_CN', 'NOTA_CH', 'NOTA_LC', 'NOTA_MT', 'NOTA_COMP1', 'NOTA_COMP2','NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5', 'NOTA_REDACAO']

In [38]:
# Retirando uma amostra simples de 5% da base de dados vestibulandos_presentes_pe
np.random.seed(1)
vestibulandos_amostra = vestibulandos_presentes_pe.sample(frac=0.05)
vestibulandos_amostra

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA,NOTAS
368282,210051567969,18 anos,M,Preta,Estou cursando e concluirei o EM em 2021,Público,Urbana,2604106,Caruaru,1,1,1,1,554.2,524.7,456.4,649.5,Inglês,Sem problemas,120.0,120.0,120.0,140.0,140.0,640.0,0.5,Sim,4,2824.8
1145755,210054292437,18 anos,M,Branca,Estou cursando e concluirei o EM em 2021,Público,Não Consta,2602605,Brejo da Madre de Deus,0,1,1,0,,453.8,421.4,,Inglês,Sem problemas,80.0,120.0,80.0,140.0,120.0,540.0,0.5,Sim,2,1415.2
1180311,210051340033,18 anos,F,Parda,Estou cursando e concluirei o EM em 2021,Público,Urbana,2612208,Salgueiro,1,1,1,1,410.5,498.3,459.2,606.0,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,20.0,500.0,1.5,Sim,4,2474.0
1987617,210051891394,19 anos,F,Parda,Já concluí o EM,Não respondeu,Não Consta,2604106,Caruaru,1,1,1,1,400.9,480.8,458.0,472.0,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,3.0,Sim,4,2391.7
763247,210053720446,Entre 31 e 35 anos,F,Branca,Já concluí o EM,Não respondeu,Não Consta,2607901,Jaboatão dos Guararapes,1,1,1,1,552.0,595.1,541.9,446.9,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,60.0,540.0,1.5,Sim,4,2675.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
240978,210052273160,18 anos,F,Branca,Já concluí o EM,Não respondeu,Não Consta,2604007,Carpina,1,1,1,1,473.6,531.6,580.1,425.4,Espanhol,Sem problemas,140.0,180.0,160.0,160.0,160.0,800.0,2.0,Sim,4,2810.7
875779,210051181504,22 anos,F,Parda,Já concluí o EM,Não respondeu,Não Consta,2611606,Recife,1,1,1,1,618.5,624.6,571.6,613.7,Inglês,Sem problemas,160.0,200.0,160.0,160.0,180.0,860.0,3.0,Sim,4,3288.4
2560629,210054136550,Entre 26 e 30 anos,F,Preta,Já concluí o EM,Não respondeu,Não Consta,2611606,Recife,1,1,1,1,449.2,521.3,466.3,474.3,Inglês,Sem problemas,120.0,160.0,120.0,120.0,100.0,620.0,1.0,Sim,4,2531.1
77317,210051320592,18 anos,F,Parda,Já concluí o EM,Não respondeu,Não Consta,2614105,Sertânia,1,1,1,1,428.4,365.7,451.3,417.4,Espanhol,Sem problemas,120.0,120.0,80.0,100.0,40.0,460.0,0.5,Sim,4,2122.8


In [39]:
vestibulandos_amostra.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5038 entries, 368282 to 2387934
Data columns (total 29 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   NU_INSCRICAO           5038 non-null   object  
 1   FAIXA ETÁRIA           5038 non-null   category
 2   SEXO                   5038 non-null   category
 3   COR/RAÇA               5038 non-null   category
 4   SITUAÇÃO DE CONCLUSÃO  5038 non-null   category
 5   TIPO DE ESCOLA         5038 non-null   category
 6   LOCALIZAÇÃO DA ESCOLA  5038 non-null   category
 7   CO_MUNICIPIO_PROVA     5038 non-null   int64   
 8   NO_MUNICIPIO_PROVA     5038 non-null   category
 9   TP_PRESENCA_CN         5038 non-null   int64   
 10  TP_PRESENCA_CH         5038 non-null   int64   
 11  TP_PRESENCA_LC         5038 non-null   int64   
 12  TP_PRESENCA_MT         5038 non-null   int64   
 13  NOTA_CN                4801 non-null   float64 
 14  NOTA_CH                5029 non-

In [40]:
vestibulandos_amostra.columns

Index(['NU_INSCRICAO', 'FAIXA ETÁRIA', 'SEXO', 'COR/RAÇA',
       'SITUAÇÃO DE CONCLUSÃO', 'TIPO DE ESCOLA', 'LOCALIZAÇÃO DA ESCOLA',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'TP_PRESENCA_CN',
       'TP_PRESENCA_CH', 'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'NOTA_CN',
       'NOTA_CH', 'NOTA_LC', 'NOTA_MT', 'IDIOMA', 'STATUS DA REDAÇÃO',
       'NOTA_COMP1', 'NOTA_COMP2', 'NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5',
       'NOTA_REDACAO', 'RENDA', 'INTERNET', 'PRESENCA', 'NOTAS'],
      dtype='object')

In [41]:
vestibulandos_amostra[notas]

Unnamed: 0,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO
368282,554.2,524.7,456.4,649.5,120.0,120.0,120.0,140.0,140.0,640.0
1145755,,453.8,421.4,,80.0,120.0,80.0,140.0,120.0,540.0
1180311,410.5,498.3,459.2,606.0,120.0,120.0,120.0,120.0,20.0,500.0
1987617,400.9,480.8,458.0,472.0,120.0,120.0,120.0,120.0,100.0,580.0
763247,552.0,595.1,541.9,446.9,120.0,120.0,120.0,120.0,60.0,540.0
...,...,...,...,...,...,...,...,...,...,...
240978,473.6,531.6,580.1,425.4,140.0,180.0,160.0,160.0,160.0,800.0
875779,618.5,624.6,571.6,613.7,160.0,200.0,160.0,160.0,180.0,860.0
2560629,449.2,521.3,466.3,474.3,120.0,160.0,120.0,120.0,100.0,620.0
77317,428.4,365.7,451.3,417.4,120.0,120.0,80.0,100.0,40.0,460.0


In [42]:
notas_knn = KNN(k=3).fit_transform(vestibulandos_amostra[notas])

Imputing row 1/5038 with 0 missing, elapsed time: 2.463
Imputing row 101/5038 with 0 missing, elapsed time: 2.467
Imputing row 201/5038 with 0 missing, elapsed time: 2.468
Imputing row 301/5038 with 0 missing, elapsed time: 2.469
Imputing row 401/5038 with 0 missing, elapsed time: 2.469
Imputing row 501/5038 with 0 missing, elapsed time: 2.469
Imputing row 601/5038 with 0 missing, elapsed time: 2.470
Imputing row 701/5038 with 0 missing, elapsed time: 2.470
Imputing row 801/5038 with 0 missing, elapsed time: 2.470
Imputing row 901/5038 with 0 missing, elapsed time: 2.471
Imputing row 1001/5038 with 0 missing, elapsed time: 2.471
Imputing row 1101/5038 with 0 missing, elapsed time: 2.472
Imputing row 1201/5038 with 0 missing, elapsed time: 2.472
Imputing row 1301/5038 with 0 missing, elapsed time: 2.473
Imputing row 1401/5038 with 0 missing, elapsed time: 2.473
Imputing row 1501/5038 with 0 missing, elapsed time: 2.473
Imputing row 1601/5038 with 0 missing, elapsed time: 2.474
Imputing 

In [43]:
notas_knn = pd.DataFrame(data=notas_knn[0:,0:],columns=['NOTA_CN', 'NOTA_CH', 'NOTA_LC', 'NOTA_MT', 'NOTA_COMP1', 'NOTA_COMP2','NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5', 'NOTA_REDACAO'])

In [44]:
notas_knn.head()

Unnamed: 0,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO
0,554.2,524.7,456.4,649.5,120.0,120.0,120.0,140.0,140.0,640.0
1,405.269967,453.8,421.4,482.724891,80.0,120.0,80.0,140.0,120.0,540.0
2,410.5,498.3,459.2,606.0,120.0,120.0,120.0,120.0,20.0,500.0
3,400.9,480.8,458.0,472.0,120.0,120.0,120.0,120.0,100.0,580.0
4,552.0,595.1,541.9,446.9,120.0,120.0,120.0,120.0,60.0,540.0


In [45]:
notas_knn.isnull().sum()

NOTA_CN         0
NOTA_CH         0
NOTA_LC         0
NOTA_MT         0
NOTA_COMP1      0
NOTA_COMP2      0
NOTA_COMP3      0
NOTA_COMP4      0
NOTA_COMP5      0
NOTA_REDACAO    0
dtype: int64

In [46]:
vestibulandos_amostra.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,CO_MUNICIPIO_PROVA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA,NOTAS
368282,210051567969,18 anos,M,Preta,Estou cursando e concluirei o EM em 2021,Público,Urbana,2604106,Caruaru,1,1,1,1,554.2,524.7,456.4,649.5,Inglês,Sem problemas,120.0,120.0,120.0,140.0,140.0,640.0,0.5,Sim,4,2824.8
1145755,210054292437,18 anos,M,Branca,Estou cursando e concluirei o EM em 2021,Público,Não Consta,2602605,Brejo da Madre de Deus,0,1,1,0,,453.8,421.4,,Inglês,Sem problemas,80.0,120.0,80.0,140.0,120.0,540.0,0.5,Sim,2,1415.2
1180311,210051340033,18 anos,F,Parda,Estou cursando e concluirei o EM em 2021,Público,Urbana,2612208,Salgueiro,1,1,1,1,410.5,498.3,459.2,606.0,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,20.0,500.0,1.5,Sim,4,2474.0
1987617,210051891394,19 anos,F,Parda,Já concluí o EM,Não respondeu,Não Consta,2604106,Caruaru,1,1,1,1,400.9,480.8,458.0,472.0,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,3.0,Sim,4,2391.7
763247,210053720446,Entre 31 e 35 anos,F,Branca,Já concluí o EM,Não respondeu,Não Consta,2607901,Jaboatão dos Guararapes,1,1,1,1,552.0,595.1,541.9,446.9,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,60.0,540.0,1.5,Sim,4,2675.9


In [47]:
vestibulandos_amostra.to_csv('df_null.csv', sep=';', encoding='ISO-8859-1', index = False)

In [48]:
notas_knn.to_csv('df_knn.csv', sep=';', encoding='ISO-8859-1', index = False)