# Projeto Análise Estatística do ENEM 2019

Este projeto analisa os resultados do ENEM no estado de São Paulo no ano de 2019.

Os dados foram extraídos do site do INEP:

inep.gov.br/microdados

# 01-Preparação, organização e estruturação dos dados

In [None]:
import numpy as np
import pandas as pd

In [None]:
dados = pd.read_csv('./microdados_enem_2019_sp.csv', sep=';', encoding='iso-8859-1')

In [None]:
dados.head()

In [None]:
dados.shape

## Extração e Limpeza dos Dados

In [None]:
# Análise dos tipos de atributos

dados.dtypes

In [None]:
dados1 = dados.drop(columns=['CO_MUNICIPIO_RESIDENCIA'])

In [None]:
dados1.head()

In [None]:
dados1 = dados1.drop(columns=['CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA', 'CO_MUNICIPIO_NASCIMENTO'])

In [None]:
dados1 = dados1.drop(columns=['NO_MUNICIPIO_NASCIMENTO', 'CO_UF_NASCIMENTO', 'SG_UF_NASCIMENTO',
                             'TP_ANO_CONCLUIU', 'TP_ENSINO', 'CO_MUNICIPIO_ESC', 'CO_UF_ESC',
                             'SG_UF_ESC'])

In [None]:
dados1 = dados1.drop(columns=['TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC'])

In [None]:
dados1.shape

### Corrigindo erros nas notas

In [None]:
# Todas as notas estão com um erro de uma casa decimal

dados1.loc[:, 'NU_NOTA_CN'] /= 10 #  /=  dividir todos os elementos da coluna

In [None]:
dados1.head()

In [None]:
dados1.loc[:, 'NU_NOTA_CH'] /= 10
dados1.loc[:, 'NU_NOTA_LC'] /= 10
dados1.loc[:, 'NU_NOTA_MT'] /= 10

In [None]:
dados1.head()

### Renomeando Variáveis (colunas)

In [None]:
dados1 = dados1.rename(columns={'NU_NOTA_REDACAO': 'NOTA_REDACAO'})

In [None]:
dados1.head()

In [None]:
dados1 = dados1.rename(columns={'NU_NOTA_CN': 'NOTA_CN', 'NU_NOTA_CH': 'NOTA_CH', 
                                'NU_NOTA_LC': 'NOTA_LC', 'NU_NOTA_MT': 'NOTA_MT' })

In [None]:
dados1 = dados1.rename(columns={'NU_NOTA_COMP1': 'COMP1', 'NU_NOTA_COMP2': 'COMP2', 
                                'NU_NOTA_COMP3': 'COMP3', 'NU_NOTA_COMP4': 'COMP4',
                                'NU_NOTA_COMP5': 'COMP5'})

In [None]:
dados1 = dados1.rename(columns={'NU_IDADE': 'IDADE', 'TP_SEXO': 'SEXO', 
                                'TP_COR_RACA': 'RACA', 'Q025': 'INTERNET',
                                'TP_ESCOLA': 'ESCOLA'})

### Renomeando Registros (Linhas)

In [None]:
dados1['RACA'] = dados1['RACA'].replace({0:'nao_declarado', 1:'branca', 2:'preta', 3:'parda', 4:'amarela', 5:'indigena'})

In [None]:
dados1.head()

In [None]:
dados1['TP_LINGUA'] = dados1['TP_LINGUA'].replace({0:'Ingles', 1:'Espanhol'})

In [None]:
dados1['ESCOLA'] = dados1['ESCOLA'].replace({1:'nao_respondeu', 2:'publica', 3:'privada', 4:'exterior'})

In [None]:
dados1['INTERNET'] = dados1['INTERNET'].replace({'A':'Nao', 'B':'Sim'})

## Análise Exploratória e Transformação dos Dados

### Análise das idades

In [None]:
dados1['IDADE'].value_counts()

In [None]:
dados1['IDADE'].value_counts().sort_index()

In [None]:
# Alguns valores estranhos e curiosos, como idades menores que 12 anos e maior de 80 anos

In [None]:
menores_12 = dados1.query('IDADE < 12')['NO_MUNICIPIO_RESIDENCIA'].value_counts()

In [None]:
menores_12

In [None]:
# removendo os dados com idades menores de 12 anos
dados_maiores_11 = dados1.loc[dados1.IDADE > 11]

In [None]:
dados_maiores_11.head()

In [None]:
dados_maiores_11['IDADE'].value_counts().sort_index()

### Treineiros

In [None]:
dados_maiores_11.query('IN_TREINEIRO == 1')['IN_TREINEIRO'].value_counts()

In [None]:
treineiros = dados_maiores_11.loc[dados_maiores_11.IN_TREINEIRO == 1]

In [None]:
treineiros.head()

In [None]:
treineiros.to_csv('treineiros_enem_2019_sp.csv', encoding = 'iso-8859-1', index = False)

In [None]:
# Separação entre os treineiros e os vestibulandos
vestibulandos = dados_maiores_11.loc[dados_maiores_11.IN_TREINEIRO == 0]

In [None]:
vestibulandos.head()

In [None]:
vestibulandos.shape

### Análise das presenças

In [None]:
vestibulandos['TP_PRESENCA_CN'].value_counts()

In [None]:
vestibulandos['TP_PRESENCA_CH'].value_counts()

In [None]:
vestibulandos['TP_PRESENCA_LC'].value_counts()

In [None]:
vestibulandos['TP_PRESENCA_MT'].value_counts()

In [None]:
vestibulandos['TP_STATUS_REDACAO'].value_counts().sort_index()

### Valores Ausentes

In [None]:
vestibulandos['IDADE'].isnull().sum()

In [None]:
provas = ['NOTA_REDACAO', 'NOTA_CN', 'NOTA_CH', 'NOTA_LC', 'NOTA_MT']

In [None]:
# Registros NAN nas notas
vestibulandos[provas].isnull().sum()

In [None]:
vestibulandos_classificados = vestibulandos.loc[vestibulandos.TP_PRESENCA_CH == 1]
vestibulandos_classificados = vestibulandos_classificados.loc[vestibulandos_classificados.TP_PRESENCA_MT == 1]

In [None]:
vestibulandos_classificados['TP_PRESENCA_MT'].value_counts()

In [None]:
vestibulandos_classificados['TP_PRESENCA_CH'].value_counts()

In [None]:
vestibulandos_classificados['TP_PRESENCA_CN'].value_counts()

In [None]:
vestibulandos_classificados['TP_PRESENCA_LC'].value_counts()

In [None]:
vestibulandos_classificados[provas].isnull().sum()

### Notas zero na redação

In [None]:
vestibulandos_classificados.query('NOTA_REDACAO == 0')['NOTA_REDACAO'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP1 == 0')['COMP1'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP2 == 0')['COMP2'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP3 == 0')['COMP3'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP4 == 0')['COMP4'].value_counts()

In [None]:
vestibulandos_classificados.query('COMP5 == 0')['COMP5'].value_counts()

In [None]:
# Componente 5 é um ponto fraco da redação

In [None]:
vestibulandos_classificados.query('NOTA_CH == 0')['NOTA_CH'].value_counts()

In [None]:
vestibulandos_classificados.query('NOTA_CN == 0')['NOTA_CN'].value_counts()

In [None]:
vestibulandos_classificados.query('NOTA_LC == 0')['NOTA_LC'].value_counts()

In [None]:
vestibulandos_classificados.query('NOTA_MT == 0')['NOTA_MT'].value_counts()

In [None]:
vestibulandos_classificados.head()

In [None]:
vestibulandos_classificados = vestibulandos_classificados.drop(columns=['IN_TREINEIRO'])

In [None]:
vestibulandos_classificados.shape

## Salvando (Exportando) o Dataframe tratado

In [None]:
vestibulandos_classificados.to_csv('enem_2019_tratado.csv', encoding = 'iso-8859-1', index = False)