# **PROJETO ANÁLISE ESTATÍSTICA DO ENEM 2019**

Este projeto analisa os resultados do ENEM no estado de São Paulo do ano de 2019.

Os dados foram extraídos do site do INEP:

http://inep.gov.br/microdados

In [None]:
import numpy as np
import pandas as pd

In [None]:
dados = pd.read_csv('/Users/paull/OneDrive/Área de Trabalho/LEONARDO/python/microdados_enem_2019_sp.csv',
                    sep=';', encoding='iso-8859-1')
# encoding: codificação de caracteres, normalmente utiliza-se o iso-8859-1, utf-8, latin-1)

## Extração e Limpeza dos dados

In [None]:
pd.options.display.max_columns = 44

In [None]:
dados.head()

In [None]:
#O número total de inscritos em São Paulo foi de 813772, sendo de 15,97% de todo o Brasil que foi de 5095308 inscritos. 
dados.shape

In [None]:
# Análise dos tipos de atributos.
# object: strings
# int64: inteiros
# float64: reais
# complex: complexos
dados.dtypes

In [None]:
dados1 = dados.drop(columns=['CO_MUNICIPIO_RESIDENCIA'])

In [None]:
dados1.head()

In [None]:
dados1 = dados1.drop(columns=['CO_UF_RESIDENCIA','SG_UF_RESIDENCIA','CO_MUNICIPIO_NASCIMENTO'], )

In [None]:
dados1.head(40)

In [None]:
dados1 = dados1.drop(columns=['NO_MUNICIPIO_NASCIMENTO','CO_UF_NASCIMENTO','SG_UF_NASCIMENTO',
                              'TP_ANO_CONCLUIU','TP_ENSINO','CO_MUNICIPIO_ESC','CO_UF_ESC','SG_UF_ESC'],)

In [None]:
dados1.head()

In [None]:
dados1 = dados1.drop(columns=['TP_DEPENDENCIA_ADM_ESC','TP_LOCALIZACAO_ESC','TP_SIT_FUNC_ESC'],)

In [None]:
dados1.head()

In [None]:
dados1.shape

Corrigindo erros nas notas

In [None]:
dados1.loc[:,'NU_NOTA_CN'] /= 10

In [None]:
dados1.head(12)

In [None]:
dados1.loc[:,'NU_NOTA_CH'] /= 10
dados1.loc[:,'NU_NOTA_LC'] /= 10
dados1.loc[:,'NU_NOTA_MT'] /= 10

In [None]:
dados1.head()

Renomeando Variáveis (colunas)

In [None]:
dados1 = dados1.rename(columns={'NU_NOTA_REDACAO': 'NOTA_REDACAO'})

In [None]:
dados1.head()

In [None]:
dados1 = dados1.rename(columns={'NU_NOTA_CN': 'NOTA_CN','NU_NOTA_CH': 'NOTA_CH',
                                'NU_NOTA_LC': 'NOTA_LC','NU_NOTA_MT': 'NOTA_MT'})

In [None]:
dados1 = dados1.rename(columns={'NU_NOTA_COMP1': 'COMP1','NU_NOTA_COMP2': 'COMP2',
                                'NU_NOTA_COMP3': 'COMP3','NU_NOTA_COMP4': 'COMP4',
                                'NU_NOTA_COMP5':'COMP5'})

In [None]:
dados1 = dados1.rename(columns={'NU_IDADE': 'IDADE','TP_SEXO': 'SEXO',
                                'TP_COR_RACA': 'RACA','Q025': 'INTERNET',
                                'TP_ESCOLA':'ESCOLA'})

Renomeando Registros (Linhas)

In [None]:
dados1["RACA"] = dados1["RACA"].replace({0:"nao_declarado", 1:"branca", 2:"preta", 3:"parda", 4:"amarela", 5:"indigena"})

In [None]:
dados1.head()

In [None]:
# OUTRA MANEIRA
# dados1['RACA'] = dados1['RACA'].replace([0,1,2,3,4,5], ['Não Declarado','Branca','Preta','Parda','Amarela','Indígena'])

In [None]:
dados1["TP_LINGUA"] = dados1["TP_LINGUA"].replace({0:"Inglês", 1:"Espanhol"})

In [None]:
dados1["ESCOLA"] = dados1["ESCOLA"].replace({1:"não_respondeu", 2:"pública", 3:"privada", 4:"exterior"})

In [None]:
dados1["INTERNET"] = dados1["INTERNET"].replace({"A":"Não", "B":"Sim"})

## Análise Exploratória e Transformação dos dados

**Análise das idades**

In [None]:
dados1['IDADE'].value_counts()


In [None]:
dados1['IDADE'].value_counts().sort_index()

In [None]:
# Para ver todas as linhas, primeiro transforme num Dataframe:
idade = pd.DataFrame(dados1['IDADE'].value_counts().sort_index())

In [None]:
# Configura o Pandas para observar 80 linhas
pd.set_option('display.max_rows', 80)

In [None]:
idade.head(80)

Alguns valores estranhos e curiosos: idades menores que 12 anos e maiores de 80 anos.

In [None]:
menores_12 = dados1.query('IDADE < 12')['NO_MUNICIPIO_RESIDENCIA'].value_counts()

In [None]:
# Inscrições com idade abaixo de 12 anos serão excluídos devido a alta probabilidade de erro.
menores_12

In [None]:
dados_maiores_11 = dados1.loc[dados1.IDADE > 11]

In [None]:
dados_maiores_11.head()

In [None]:
dados_maiores_11['IDADE'].value_counts().sort_index()

**Treineiros**

In [None]:
dados_maiores_11.query('IN_TREINEIRO == 1')['IN_TREINEIRO'].value_counts()

In [None]:
treineiros = dados_maiores_11.loc[dados_maiores_11.IN_TREINEIRO == 1]

In [None]:
treineiros.head()

In [None]:
treineiros.to_csv('treineiros_enem_2019_sp.csv', encoding = 'iso-8859-1', index = False)

In [None]:
# Separação entre os treineiros e os vestibulandos
vestibulandos = dados_maiores_11.loc[dados_maiores_11.IN_TREINEIRO == 0]

In [None]:
vestibulandos.head()

In [None]:
vestibulandos.shape

**Análise das presenças**

In [None]:
vestibulandos['TP_PRESENCA_CN'].value_counts()

In [None]:
vestibulandos['TP_PRESENCA_CH'].value_counts()

In [None]:
vestibulandos['TP_PRESENCA_LC'].value_counts()

In [None]:
vestibulandos['TP._PRESENCA_MT'].value_counts()

RESUMO DA PRESENÇA NAS PROVAS:

Ciências da Natureza: 500805 presentes, 218693 faltaram e 270 eliminados.

Ciências Humanas: 533142 presentes, 185969 faltaram e 657 eliminados.

Linguagens e Códigos: 533142 presentes, 185969 faltaram e 657 eliminados.

Matemática: 500805 presentes, 218693 faltaram e 270 eliminados.

In [None]:
vestibulandos['TP_STATUS_REDACAO'].value_counts().sort_index()

**Valores Ausentes**

In [None]:
vestibulandos['IDADE'].isnull().sum()

In [None]:
provas = ['NOTA_REDACAO','NOTA_CN','NOTA_MT','NOTA_LC','NOTA_CH']

In [None]:
# Registros NAN nas notas
vestibulandos[provas].isnull().sum()

In [None]:
vestibulandos_classificados = vestibulandos.loc[vestibulandos.TP_PRESENCA_CH == 1]
vestibulandos_classificados = vestibulandos_classificados.loc[vestibulandos_classificados.TP_PRESENCA_MT == 1]

In [None]:
vestibulandos_classificados['TP_PRESENCA_MT'].value_counts()

In [None]:
vestibulandos_classificados['TP_PRESENCA_CH'].value_counts()

In [None]:
vestibulandos_classificados['TP_PRESENCA_CN'].value_counts()

In [None]:
vestibulandos_classificados['TP_PRESENCA_LC'].value_counts()

In [None]:
vestibulandos_classificados[provas].isnull().sum()

** Notas zeros na Redação**

In [None]:
from collections import Counter
dict(Counter(vestibulandos_classificados['NOTA_REDACAO']))

In [None]:
vestibulandos_classificados.query('NOTA_REDACAO == 0')['NOTA_REDACAO'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP1 == 0')['COMP1'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP2 == 0')['COMP2'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP3 == 0')['COMP3'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP4 == 0')['COMP4'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP5 == 0')['COMP5'].value_counts()

NOTAS ZEROS EM REDAÇÃO:

REDAÇÃO (final): 9181 notas zeros devido a não cumprimento das regras ou tirou zero em todos os cinco componentes.

COMPONENTE 1(Demonstrar domínio da modalidade escrita formal da Língua Portuguesa.): 9188 notas zeros somente neste item.

COMPONENTE 2 (Compreender a proposta de redação e aplicar conceitos das várias áreas de conhecimento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-argumentativo em prosa): 9181. 

COMPONENTE 3 (Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argumentos em defesa de um ponto de vista): 9197 notas zeros somente neste item.

COMPONENTE 4 (Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação.): 9194 notas zeros somente neste item.

COMPONENTE 5 (Elaborar proposta de intervenção para o problema abordado, respeitando os direitos humanos): 73330 notas zeros somente neste item.


In [None]:
vestibulandos_classificados.query('NOTA_CH == 0')['NOTA_CH'].value_counts()

In [None]:
vestibulandos_classificados.query('NOTA_CN == 0')['NOTA_CN'].value_counts()

In [None]:
vestibulandos_classificados.query('NOTA_LC == 0')['NOTA_LC'].value_counts()

In [None]:
vestibulandos_classificados.query('NOTA_MT == 0')['NOTA_MT'].value_counts()

In [None]:
vestibulandos_classificados.query('NOTA_REDACAO == 0')['NOTA_REDACAO'].value_counts()

NOTAS ZEROS DOS INSCRITOS CONCORRENTES AO VESTIBULAR:

Matemática = 56

Ciências da Natureza = 36

Linguagens e Códigos = 135

Ciências Humanas = 343

Redação = 9181


In [None]:
vestibulandos_classificados.head()

In [None]:
vestibulandos_classificados = vestibulandos_classificados.drop(columns=['IN_TREINEIRO'], )

In [None]:
vestibulandos_classificados.shape

## **Salvando (Exportando) o Dataframe Tratado**

In [None]:
vestibulandos_classificados.to_csv('enem_2019_tratado.csv', encoding = 'iso-8859-1', index = False)