# Análise dos dados do ENEM
## Arquivo com 10% dos dados

In [None]:
# Importação de bibliotecas
import pandas as pd

In [None]:
# Carregando o arquivo
df = pd.read_excel('ENEM_2017_2019_AMOSTRA_01.xlsx')

# Verificando o tamanho do dataframe em termos de (linhas, colunas)
df.shape

In [None]:
# Analisando os tipos das colunas
df.info()

In [None]:
# Visulizando os 5 primeiros registros
df.head()

In [None]:
# Visulizando os 5 primeiros registros de forma transposta
df.head().T

In [None]:
# Visualizando os 5 últimos registros
df.tail()

In [None]:
# Visualizando 5 registros aleatórios
df.sample(5)

In [None]:
# Análise quantitativa dos dados
df.describe()

In [None]:
# Vamos analisar apenas as colunas de notas
colunas_notas = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_COMP1',
                 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
                 'NU_NOTA_REDACAO', 'NOTA_MEDIA' ]

df[colunas_notas].describe()

In [None]:
# Toda vez que usamos [] estamos separando uma parte do dataframe para exibição/tratamento

# Selecionando os dados de apenas uma coluna
df['TP_SEXO']

In [None]:
# Trabalhando a visualização dos dados da coluna TP_SEXO
df['TP_SEXO'].value_counts()

In [None]:
# Trabalhando a visualização dos dados da coluna TP_SEXO
df['TP_SEXO'].value_counts(normalize=True)

In [None]:
# Podemos usar value_counts() para analisar diversas colunas
# Como SG_UF_RESIDENCIA
df['SG_UF_RESIDENCIA'].value_counts()

In [None]:
# Analisando o Tipo de Escola
df['TP_ESCOLA'].value_counts()

In [None]:
# As variáveis estão convertidas em valores numéricos para facilitar
# o processamento: é mais fácil guardar os dados assim e para os modelos
# de Machine Leraning é obrigatório que os dados sejam numéricos

# Mas podemos mapear de volta os números em texto. A gente sempre tem
# que mapear texto em número, mas o processo é o mesmo e pode ser feito
# em sentido inverso

# Dicionário com o mapeamento
tp_escola = {1: 'Não Respondeu', 2: 'Pública', 3: 'Privada', 4: 'Exterior'}

# Criando uma nova coluna
df['TIPO_ESCOLA'] = df['TP_ESCOLA'].map(tp_escola)

# Analisando o Tipo de Escola
df['TIPO_ESCOLA'].value_counts()

In [None]:
# Vamos ver os dados de idade dos participantes do ENEM
df['NU_IDADE'].describe()

In [None]:
# Verificando as 5 menores idade
df.nsmallest(5, 'NU_IDADE')

In [None]:
# Quantos participantes têm menos de 16 anos?
df[df['NU_IDADE'] < 16]['NU_IDADE'].count()

In [None]:
# Distribuição das idades
df[df['NU_IDADE'] < 16]['NU_IDADE'].value_counts()

In [None]:
# Visualização gráfica da distribuição dessas idades menores
df[df['NU_IDADE'] < 16]['NU_IDADE'].value_counts().plot.barh()

In [None]:
# Verificando as 5 maiores idades
df.nlargest(5, 'NU_IDADE')

In [None]:
# Média das notas presentes na base de dados
df[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean()

In [None]:
# Em gráfico
df[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean().plot.bar()

In [None]:
# Outro gráfico
df[['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']].mean().plot.barh()

In [None]:
# Quantas pessoas vão fazer prova em um estado diferente daquele que moram?
df[df['SG_UF_RESIDENCIA'] != df['SG_UF_PROVA']]['SG_UF_RESIDENCIA'].count()

In [None]:
# Vamos criar um dataframe específico para os residentes no RR
df_df = df[df['SG_UF_RESIDENCIA'] == 'DF'].copy()

df_df.shape

In [None]:
# Quantas pessoas do DF vão fazer a prova em outra UF?
df_df[df_df['SG_UF_RESIDENCIA'] != df_df['SG_UF_PROVA']]['SG_UF_RESIDENCIA'].count()

In [None]:
# Vamos verificar essa lista de 17 pessoas
lista_colunas = ['SG_UF_RESIDENCIA', 'NO_MUNICIPIO_RESIDENCIA', 'SG_UF_PROVA', 'NO_MUNICIPIO_PROVA',
                'TP_SEXO', 'NU_NOTA_REDACAO']

df_df[df_df['SG_UF_RESIDENCIA'] != df_df['SG_UF_PROVA']][lista_colunas]