# Análise dos dados Enem-2019

Análise dos das médias com o objetivo de explicar a nota da redação a partir das demais notas e, sendo possivel, criar um modelo de previsão da nota da redação com base nas outras notas.

## Carregando dados do Enem-2019

Carregando os dados e preparando as variáveis categóricas

In [1]:
import pandas as pd

In [2]:
enem2019 = pd.read_csv("C:/Sandbox/MICRODADOS_ENEM_2019_interim.csv",  encoding = "ISO-8859-1", sep=',')

In [27]:
enem2019.shape

(3702007, 53)

In [3]:
enem2019.columns

Index(['NU_INSCRICAO', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA', 'NU_IDADE',
       'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC',
       'TP_SIT_FUNC_ESC', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC',
       'NU_NOTA_MT', 'TP_LINGUA', 'TP_STATUS_REDACAO', 'NU_NOTA_COMP1',
       'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
       'NU_NOTA_REDACAO', 'Q001', 'Q002', 'Q003', 'Q004', 'Q005', 'Q006',
       'Q007', 'Q008', 'Q009', 'Q010', 'Q011', 'Q012', 'Q013', 'Q014', 'Q015',
       'Q016', 'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022', 'Q023', 'Q024',
       'Q025'],
      dtype='object')

In [4]:
categoricos = ['SG_UF_RESIDENCIA', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO', 
               'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'IN_TREINEIRO', 'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC',
               'TP_SIT_FUNC_ESC', 'TP_LINGUA', 'TP_STATUS_REDACAO', 
               'Q001', 'Q002', 'Q003', 'Q004', 'Q006', 'Q007', 'Q008', 'Q009', 'Q010', 'Q011', 'Q012', 'Q013', 'Q014', 'Q015',
               'Q016', 'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022', 'Q023', 'Q024', 'Q025'
              ]

for campos in categoricos:
    enem2019[campos] = enem2019[campos].astype("category")

## Análise exploratória dos dados

Avaliando os dados da redação em busca de entendimento acerca de suas medidas.

In [14]:
enem2019.groupby('TP_STATUS_REDACAO')['TP_STATUS_REDACAO'].value_counts()/enem2019.shape[0]*100

TP_STATUS_REDACAO  TP_STATUS_REDACAO
1.0                1.0                  97.139660
2.0                2.0                   0.133171
3.0                3.0                   0.563424
4.0                4.0                   0.948107
6.0                6.0                   0.846190
7.0                7.0                   0.091842
8.0                8.0                   0.167261
9.0                9.0                   0.110346
Name: TP_STATUS_REDACAO, dtype: float64

In [16]:
enem2019.groupby('TP_STATUS_REDACAO')['NU_NOTA_REDACAO'].mean()

TP_STATUS_REDACAO
1.0    596.841093
2.0      0.000000
3.0      0.000000
4.0      0.000000
6.0      0.000000
7.0      0.000000
8.0      0.000000
9.0      0.000000
Name: NU_NOTA_REDACAO, dtype: float64

Cerca de **3%** dos participantes tiveram algum problema com a redação e isto impacta a média da nota de redação.

Para minimizar este impacto devemos remover os registros com TP_STATUS_REDACAO >1

In [24]:
enem2019_revisado = enem2019.drop(enem2019[enem2019.TP_STATUS_REDACAO != 1].index)

Avaliando os dados numéricos após a exclusão dos casos com problemas na nota de redação.

In [29]:
(enem2019_revisado.describe().T).to_csv('C:/Sandbox/MICRODADOS_ENEM_2019_sumario.csv')
(enem2019_revisado.describe().T)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
NU_INSCRICAO,3596117.0,190003500000.0,1450862.0,190001000000.0,190002200000.0,190003500000.0,190004700000.0,190006100000.0
CO_UF_RESIDENCIA,3596117.0,30.69979,9.84357,11.0,24.0,31.0,35.0,53.0
NU_IDADE,3596117.0,21.12426,6.861937,1.0,17.0,19.0,22.0,92.0
NU_NOTA_CN,3596117.0,479.4389,76.01345,0.0,419.4,472.4,534.9,860.9
NU_NOTA_CH,3596117.0,511.9934,80.28143,0.0,453.7,515.7,570.1,835.1
NU_NOTA_LC,3596117.0,524.3249,61.64076,0.0,488.1,529.4,567.7,801.7
NU_NOTA_MT,3596117.0,525.2794,109.246,0.0,436.9,503.9,600.6,985.5
NU_NOTA_COMP1,3596117.0,125.4863,24.26533,0.0,120.0,120.0,140.0,200.0
NU_NOTA_COMP2,3596117.0,128.1383,36.2941,40.0,120.0,120.0,140.0,200.0
NU_NOTA_COMP3,3596117.0,119.9369,33.91945,0.0,100.0,120.0,140.0,200.0


In [52]:
enem2019_revisado.groupby('TP_SEXO')['NU_NOTA_REDACAO'].count()

TP_SEXO
F    2143138
M    1452979
Name: NU_NOTA_REDACAO, dtype: int64

In [77]:
enem2019_F = enem2019_revisado.drop(enem2019_revisado[enem2019.TP_SEXO != 'F'].index)
enem2019_F = enem2019_F['NU_NOTA_REDACAO']
enem2019_F.describe()

  enem2019_F = enem2019_revisado.drop(enem2019_revisado[enem2019.TP_SEXO != 'F'].index)


count    2.143138e+06
mean     6.014731e+02
std      1.562052e+02
min      4.000000e+01
25%      5.000000e+02
50%      6.000000e+02
75%      7.000000e+02
max      1.000000e+03
Name: NU_NOTA_REDACAO, dtype: float64

In [85]:
enem2019_M = enem2019_revisado.drop(enem2019_revisado[enem2019.TP_SEXO != 'M'].index)
enem2019_M = enem2019_M['NU_NOTA_REDACAO']
enem2019_M.describe()

  enem2019_M = enem2019_revisado.drop(enem2019_revisado[enem2019.TP_SEXO != 'M'].index)


count    1.452979e+06
mean     5.900090e+02
std      1.535731e+02
min      4.000000e+01
25%      5.000000e+02
50%      5.800000e+02
75%      6.800000e+02
max      1.000000e+03
Name: NU_NOTA_REDACAO, dtype: float64

In [None]:
from scipy.stats import ttest_ind

In [None]:
stat, p = ttest_ind(enem2019_F, enem2019_M, equal_var=False)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
    print('Não Rejeitar H0')
else:
    print('Rejeitar H0')


In [None]:
import statsmodels.api as sm
from statsmodels.formula.api import ols