# Projeto de análise de estatística do Enem 2019 Estado de São Paulo
Este projeto analisa os resultados do ENEM no estado de São Paulo do ano de 2019.

Os dados foram extraídos do site do INEP:
http://inep.gov.br/microdados

In [2]:
#importação das bibliotecas necessárias
import pandas as pd
import numpy as np

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
dados = pd.read_csv('/content/drive/MyDrive/Cursos UDEMY/Curso Estatistica com Python/arquivos1/microdados_enem_2019_sp.csv', sep=';', encoding='iso-8859-1')

In [5]:
#base de dados
dados.head()

Unnamed: 0,NU_INSCRICAO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,...,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",3546801,Santa Isabel,35,SP,22,M,1,3,1,...,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",3538204,Pinhalzinho,35,SP,19,M,1,3,1,...,,1,,,,,,,,A
2,"1,90E+11",3550308,São Paulo,35,SP,17,F,1,3,1,...,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",3548708,São Bernardo do Campo,35,SP,19,M,1,3,1,...,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",3549409,São Joaquim da Barra,35,SP,37,M,2,1,1,...,,1,,,,,,,,B


In [6]:
#numero total de inscritos do Enem 2019 do Estado de São Paulo foi de 813.772 inscritos. Temos 44 colunas
dados.shape

(813772, 44)

# Extraçãao e limpeza dos dados
Iremos eliminar variáveis desnecessárias para nosso estudo

In [7]:
pd.options.display.max_columns = 44

In [8]:
#eliminação de colunas desnecessárias que não serão usadas nesse estudo
dados1 = dados.drop(columns=['CO_MUNICIPIO_RESIDENCIA','CO_UF_RESIDENCIA','SG_UF_RESIDENCIA','CO_MUNICIPIO_NASCIMENTO','NO_MUNICIPIO_NASCIMENTO','CO_UF_NASCIMENTO','SG_UF_NASCIMENTO','TP_ANO_CONCLUIU','TP_ENSINO','CO_MUNICIPIO_ESC','CO_UF_ESC','SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC','TP_LOCALIZACAO_ESC','TP_SIT_FUNC_ESC'],)

In [9]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,1,1,1,1,5646.0,5858.0,5929.0,6002.0,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,1,1,1,1,5762.0,6411.0,6343.0,7318.0,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,4022.0,4248.0,5096.0,3932.0,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B


In [10]:
#com a eliminação de colunas nossa base diminuiu para 29 colunas que são essas que iremos trabalhar
dados1.shape

(813772, 29)

# Correção de erros de notas
algumas notas dos inscritos há valores exorbitantes. uma das formas que encontramos é substituir as variáveis dos valores das notas dividindo por 10

In [11]:
dados1.loc[:,'NU_NOTA_CN'] /= 10
dados1.loc[:,'NU_NOTA_CH'] /= 10
dados1.loc[:,'NU_NOTA_LC'] /= 10
dados1.loc[:,'NU_NOTA_MT'] /= 10

In [12]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO,Q025
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,1,1,1,1,564.6,585.8,592.9,600.2,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B


# Renomeando colunas
algumas variáveis possuem nomes que são incompreensíveis na base de dados. Exemplo a variável "NU_NOTA_REDACAO" pode ser subistituida por "NOTA_REDACAO" e ficar claro o que significa aquela coluna.

In [13]:
dados1 = dados1.rename(columns={'NU_NOTA_REDACAO': 'NOTA_REDACAO', 'NU_NOTA_CN': 'NOTA_CN', 'NU_NOTA_CH': 'NOTA_CH', 'NU_NOTA_LC': 'NOTA_LC', 'NU_NOTA_MT': 'NOTA_MT', 'NU_NOTA_COMP1': 'COMP1','NU_NOTA_COMP2': 'COMP2','NU_NOTA_COMP3': 'COMP3','NU_NOTA_COMP4': 'COMP4','NU_NOTA_COMP5':'COMP5', 'NU_IDADE': 'IDADE','TP_SEXO': 'SEXO','TP_COR_RACA': 'RACA','Q025': 'INTERNET', 'TP_ESCOLA':'ESCOLA'})

In [14]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,3,1,1,1,0,,,1,1,1,1,564.6,585.8,592.9,600.2,0,1.0,160.0,200.0,180.0,200.0,200.0,940.0,B
1,"1,90E+11",Pinhalzinho,19,M,1,3,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,A
2,"1,90E+11",São Paulo,17,F,1,3,1,2,3,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,0,1.0,160.0,120.0,200.0,200.0,200.0,880.0,A
3,"1,90E+11",São Bernardo do Campo,19,M,1,3,1,2,2,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,1,1.0,80.0,160.0,120.0,100.0,100.0,560.0,B
4,"1,90E+11",São Joaquim da Barra,37,M,2,1,1,1,1,0,,,0,0,0,0,,,,,1,,,,,,,,B


# Renomeando linhas
Algums registros há valores numericos que podemos substituir por strings. Para isso usamos a função replace()

In [15]:
#renomeando linhas da variável "Raça"
dados1['RACA'] = dados1['RACA'].replace({0: 'nao_declarado', 1: 'branca', 2: 'preta', 3: 'parda', 4: 'amarela', 5: 'indigena'})

In [16]:
#renomeando linhas da variável "TP_lingua"
dados1['TP_LINGUA'] = dados1['TP_LINGUA'].replace({0: 'ingles', 1: 'espanhol'})

In [17]:
#renomeando linhas da variável "Escola"
dados1['ESCOLA'] = dados1['ESCOLA'].replace({1: 'nao_respondeu', 2: 'publica', 3: 'privada'})

In [18]:
#renomeando linhas da variável "internet"
dados1['INTERNET'] = dados1['INTERNET'].replace({'A': 'nao', 'B': 'sim'})

In [19]:
dados1.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,IN_TREINEIRO,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,nao_respondeu,0,,,1,1,1,1,564.6,585.8,592.9,600.2,ingles,1.0,160.0,200.0,180.0,200.0,200.0,940.0,sim
1,"1,90E+11",Pinhalzinho,19,M,1,parda,1,1,nao_respondeu,0,,,0,0,0,0,,,,,espanhol,,,,,,,,nao
2,"1,90E+11",São Paulo,17,F,1,parda,1,2,privada,0,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,ingles,1.0,160.0,120.0,200.0,200.0,200.0,880.0,nao
3,"1,90E+11",São Bernardo do Campo,19,M,1,parda,1,2,publica,0,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,espanhol,1.0,80.0,160.0,120.0,100.0,100.0,560.0,sim
4,"1,90E+11",São Joaquim da Barra,37,M,2,branca,1,1,nao_respondeu,0,,,0,0,0,0,,,,,espanhol,,,,,,,,sim


# Peguei o arquivo tratado e limpo pelo professor e descidi incluir nessa parte em diante do projeto

In [20]:
dados = pd.read_csv('/content/drive/MyDrive/Cursos UDEMY/Curso Estatistica com Python/arquivos1/enem_2019_tratado.csv', encoding='iso-8859-1')

In [21]:
dados.head()

Unnamed: 0,NU_INSCRICAO,NO_MUNICIPIO_RESIDENCIA,IDADE,SEXO,TP_ESTADO_CIVIL,RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,ESCOLA,CO_ESCOLA,NO_MUNICIPIO_ESC,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,TP_LINGUA,TP_STATUS_REDACAO,COMP1,COMP2,COMP3,COMP4,COMP5,NOTA_REDACAO,INTERNET
0,"1,90E+11",Santa Isabel,22,M,1,parda,1,1,não_respondeu,,,1,1,1,1,564.6,585.8,592.9,600.2,Inglês,1.0,160.0,200.0,180.0,200.0,200.0,940.0,Sim
1,"1,90E+11",São Paulo,17,F,1,parda,1,2,privada,15567761.0,Belém,1,1,1,1,576.2,641.1,634.3,731.8,Inglês,1.0,160.0,120.0,200.0,200.0,200.0,880.0,Não
2,"1,90E+11",São Bernardo do Campo,19,M,1,parda,1,2,pública,35904958.0,São Bernardo do Campo,1,1,1,1,402.2,424.8,509.6,393.2,Espanhol,1.0,80.0,160.0,120.0,100.0,100.0,560.0,Sim
3,"1,90E+11",Embu-Guaçu,17,F,1,parda,1,2,pública,,,1,1,1,1,399.6,426.8,487.2,419.2,Inglês,1.0,120.0,120.0,120.0,120.0,80.0,560.0,Sim
4,"1,90E+11",Guarulhos,23,F,1,branca,1,1,não_respondeu,,,1,1,1,1,625.7,646.5,629.3,796.1,Inglês,1.0,160.0,200.0,180.0,180.0,160.0,880.0,Sim
