## Análise exploratória dos dados do ENEM-2016

A análise dos dados está em publicada no meu [Medium](https://medium.com/@naiaracerqueira/an%C3%A1lise-explorat%C3%B3ria-de-dados-do-enem-d1a7cccf4489). 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#sns.set(style='whitegrid')
#temas disponíveis: darkgrid, whitegrid, dark, white, and ticks



In [2]:
plt.style.use('seaborn-colorblind')

#ver os estilos disponíveis, para escolher o seaborn-colorblind que é bonitinho 
plt.style.available

['seaborn-colorblind',
 'dark_background',
 'seaborn-white',
 'ggplot',
 'grayscale',
 'seaborn-deep',
 'tableau-colorblind10',
 'seaborn-darkgrid',
 'seaborn-dark-palette',
 'seaborn-paper',
 'seaborn-talk',
 'Solarize_Light2',
 'seaborn-whitegrid',
 'seaborn-muted',
 '_classic_test',
 'seaborn-dark',
 'seaborn-ticks',
 'classic',
 'seaborn-bright',
 'seaborn-notebook',
 'seaborn-pastel',
 'seaborn',
 'bmh',
 'fivethirtyeight',
 'seaborn-poster',
 'fast']

### Estudar e selecionar os dados

In [3]:
df = pd.read_csv('train.csv')
df.shape

(13730, 167)

In [4]:
#ver as colunas disponíveis
df.columns

Index(['Unnamed: 0', 'NU_INSCRICAO', 'NU_ANO', 'CO_MUNICIPIO_RESIDENCIA',
       'NO_MUNICIPIO_RESIDENCIA', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA',
       'NU_IDADE', 'TP_SEXO', 'TP_ESTADO_CIVIL',
       ...
       'Q041', 'Q042', 'Q043', 'Q044', 'Q045', 'Q046', 'Q047', 'Q048', 'Q049',
       'Q050'],
      dtype='object', length=167)

In [5]:
#selecionando apenas algumas colunas
enem = df[['SG_UF_RESIDENCIA','NU_IDADE','TP_SEXO','TP_COR_RACA','NU_NOTA_MT','NU_NOTA_CH','Q025',
         'Q006','Q002']]
print('meu dataset tem',enem.shape[0],'colunas e',enem.shape[1],'linhas')

meu dataset tem 13730 colunas e 9 linhas


In [6]:
enem.head()

Unnamed: 0,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,NU_NOTA_MT,NU_NOTA_CH,Q025,Q006,Q002
0,RS,24,M,1,399.4,495.4,A,C,D
1,CE,17,F,3,459.8,544.1,A,B,A
2,CE,21,F,3,,,A,C,D
3,RJ,25,F,0,,,B,E,E
4,AM,28,M,2,,,A,C,D


In [8]:
#tabelinha com colunas, tipos dos dados em cada colunas e porcentagem de dados nulos por coluna
pd.DataFrame({'tipos':enem.dtypes, 'missing':enem.isna().sum()})

Unnamed: 0,tipos,missing
SG_UF_RESIDENCIA,object,0
NU_IDADE,int64,0
TP_SEXO,object,0
TP_COR_RACA,int64,0
NU_NOTA_MT,float64,3597
NU_NOTA_CH,float64,3389
Q025,object,0
Q006,object,0
Q002,object,0


### Tratando variáveis qualitativas

In [None]:
enem['TP_COR_RACA'] = enem['TP_COR_RACA'].map({0:'NA', 6:'NA', 1:'Branca', 2:'Preta', 3:'Parda',
                                               4:'Amarela', 5:'Indígena'})

In [None]:
#Possui internet em casa?
enem['Q025'] = enem['Q025'].map({'A':'Não', 'B':'Sim'})

In [None]:
#Escolaridade da mãe
enem['Q002'] = enem['Q002'].map({'A':'Nunca estudou', 'B':'Não completou EF', 'C':'Não completou EF',
                                'D':'Não completou EM', 'E':'Não completou ES', 'F':'Graduada',
                                'G':'Pós-graduada','H':'Não sabe'})

In [None]:
#Renda familiar (incluindo a do aluno)
enem['Q006'] = enem['Q006'].map({'A':'Nenhuma renda', 'B':'Até 1.320', 'C':'Até 1.320',
                                 'D':'Até 3.520', 'E':'Até 3.520', 'F':'Até 3.520', 'G':'Até 3.520',
                                 'H':'Até 10.560','I':'Até 10.560', 'J':'Até 10.560','K':'Até 10.560',
                                 'L':'Até 10.560','M':'Até 10.560','N':'Até 10.560',
                                 'O':'Mais de 10.560','P':'Mais de 10.560','Q':'Mais de 10.560'})

### Gráficos iniciais

In [None]:
#porcentagem de cada sexo na amostra
enem['TP_SEXO'].value_counts()/enem.shape[0]*100

In [None]:
enem['TP_COR_RACA'].value_counts()/enem.shape[0]*100

In [None]:
sns.countplot(enem['TP_COR_RACA'])
plt.xlabel('Cor/Raça')
plt.ylabel("")
plt.show()

In [None]:
sns.countplot(enem['TP_SEXO'],hue=enem['TP_COR_RACA'], dodge=True)
plt.title('Sexo x Cor')
plt.xlabel('')
plt.ylabel("")
plt.legend(loc='best')
plt.show()

In [None]:
sns.countplot(enem['SG_UF_RESIDENCIA'], orient='h')
plt.title('UF de Residência', size=15)
plt.xticks(rotation=90)
plt.xlabel("")
plt.ylabel("")
plt.show()

In [None]:
#Possui internet em casa?
enem['Q025'].value_counts()/enem.shape[0]*100

In [None]:
#Escolaridade da mãe
enem['Q002'].value_counts()/enem.shape[0]*100

In [None]:
sns.countplot(enem['Q002'])
plt.title('Escolaridade da mãe')
plt.xticks(rotation=90)
plt.xlabel("")
plt.ylabel("")
plt.show()

In [None]:
#Renda da familia, incluindo a do aluno
enem['Q006'].value_counts()/enem.shape[0]*100

In [None]:
sns.countplot(enem['Q006'])
plt.title('Renda familiar mensal')
plt.xticks(rotation=90)
plt.xlabel("")
plt.ylabel("")
plt.show()

### Cruzando com as notas de matemática

In [None]:
enem.describe()

In [None]:
plt.hist(enem['NU_NOTA_MT'], alpha=0.7, color='red')
plt.hist(enem['NU_NOTA_CH'], alpha=0.7, color='blue')
plt.title('Histograma das notas')
plt.show()

In [None]:
plt.hist(enem['NU_IDADE'],bins=15, histtype='bar', color='#3CB371')
plt.title('Histograma da idade')
plt.show()

In [None]:
plt.scatter(enem['NU_IDADE'], enem['NU_NOTA_MT'], alpha=0.5)
plt.title("Idade x Nota na prova de matemática", size=15)
plt.xlabel("Idade")
plt.ylabel("Nota de matemática")
plt.ylim(200) #ignorando as notas = 0
plt.show()

In [None]:
plt.scatter(enem['NU_IDADE'], enem['NU_NOTA_CH'], alpha=0.5)
plt.title("Idade x Nota na prova de humanas", size=15)
plt.xlabel("Idade")
plt.ylabel("Nota de matemática")
plt.ylim(200) #ignorando as notas = 0
plt.show()

In [None]:
plt.scatter(enem['NU_NOTA_MT'], enem['NU_NOTA_CH'], alpha=0.5)
plt.xlim(300) #removendo as notas =0
plt.ylim(300) #removendo as notas =0
plt.xlabel("Nota de Matemática")
plt.ylabel("Nota de Ciências Humanas")
plt.show()

In [None]:
sns.boxplot(x=enem['TP_SEXO'], y=enem['NU_NOTA_MT'])
plt.xlabel("")
plt.ylabel("Nota de Matemática")
plt.show()

#fazer teste estatistico pra ver se tem diferença significativa entre os sexos

In [None]:
from scipy import stats
from statsmodels.stats import diagnostic

In [None]:
sexo = enem[['TP_SEXO', 'NU_NOTA_MT']]
sexo_f = sexo.query('TP_SEXO == "F"').drop('TP_SEXO',axis=1).dropna()
sexo_m = sexo.query('TP_SEXO == "M"').drop('TP_SEXO',axis=1).dropna()
print(sexo_f.shape[0])
print(sexo_m.shape[0])

In [None]:
# teste de normalidade: Shapiro-Wilk "p-value may not be accurate for N > 5000."
# teste de normalidade: Lilliefors Test: FALHOU! 
# mas eu imaginava isso pelos gráficos e diferença entre media e mediana

print('sexo_f:',diagnostic.lilliefors(sexo_f))
print('sexo_m:',diagnostic.lilliefors(sexo_m))

In [None]:
# Teste U de Mann–Whitney: são estatisticamente diferentes!
stats.mannwhitneyu(sexo_f, sexo_m, alternative='two-sided')

In [None]:
sns.boxplot(x=enem['Q025'], y=enem['NU_NOTA_MT'])
plt.xlabel("Tem internet em casa?")
plt.ylabel("Nota de Matemática")
plt.show()

In [None]:
internet = enem[['Q025', 'NU_NOTA_MT']]
internet_n = internet.query('Q025 == "Não"').drop('Q025',axis=1).dropna()
internet_s = internet.query('Q025 == "Sim"').drop('Q025',axis=1).dropna()
print(internet_n.shape[0])
print(internet_s.shape[0])

In [None]:
# teste de normalidade: FALHOU!
print('internet_n:',diagnostic.lilliefors(internet_n))
print('internet_s:',diagnostic.lilliefors(internet_s))

In [None]:
# Teste U de Mann–Whitney: são estatisticamente diferentes!
stats.mannwhitneyu(internet_n, internet_s, alternative='two-sided')

In [None]:
sns.boxplot(x=enem['TP_COR_RACA'], y=enem['NU_NOTA_MT'])
plt.xlabel("")
plt.ylabel("Nota de Matemática")
plt.show()

In [None]:
raca = enem[['TP_COR_RACA', 'NU_NOTA_MT']]
raca_b = raca.query('TP_COR_RACA == "Branca"').drop('TP_COR_RACA',axis=1).dropna()
raca_pa = raca.query('TP_COR_RACA == "Parda"').drop('TP_COR_RACA',axis=1).dropna()
raca_pr = raca.query('TP_COR_RACA == "Preta"').drop('TP_COR_RACA',axis=1).dropna()
raca_a = raca.query('TP_COR_RACA == "Amarela"').drop('TP_COR_RACA',axis=1).dropna()
raca_i = raca.query('TP_COR_RACA == "Indígena"').drop('TP_COR_RACA',axis=1).dropna()

print(raca_b.shape[0])
print(raca_pa.shape[0])
print(raca_pr.shape[0])
print(raca_a.shape[0])
print(raca_i.shape[0]) 

In [None]:
# Agora eu já entro em comparações múltiplas pq não tenho mais só duas amostras pra comparar
# O Teste de Kruskal-Wallis é um teste não paramétrico para comparações de múltiplas amostras
# Ele é seguido do Dunn, que avalia as amostras com diferenças significativas de duas em duas 
# Ainda não apliquei o Dunn pois não consegui.

stats.kruskal(raca_b,raca_pa,raca_pr,raca_a,raca_i)

In [None]:
sns.boxplot(x=enem['Q006'], y=enem['NU_NOTA_MT'])
plt.xticks(rotation=90)
plt.xlabel("Renda familiar")
plt.ylabel("Nota de Matemática")
plt.show()

In [None]:
sns.boxplot(x=enem['Q002'], y=enem['NU_NOTA_MT'])
plt.xticks(rotation=90)
plt.xlabel("Escolaridade da mãe")
plt.ylabel("Nota de Matemática")
plt.show()

In [None]:
sns.boxplot(x=enem['SG_UF_RESIDENCIA'], y=enem['NU_NOTA_MT'])
plt.xticks(rotation=90)
plt.xlabel("")
plt.ylabel("Nota de Matemática")
plt.show()