# Análise Estatística do ENEM

Projeto da Semana 5 da jornada DataScienceJourney.

Objetivo: aplicar conceitos de estatística descritiva e análise exploratória
em dados educacionais do ENEM, buscando padrões, distribuições e relações
entre variáveis.


---
## Importação das bibliotecas

In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use("seaborn-v0_8")

---
## Carregamento do dataset

In [14]:
df = pd.read_csv(
    "data/enem_2019_sample.csv",
    sep=",",
    encoding="latin1",
    low_memory=False
)

---
## Exploração Inicial dos Dados

In [16]:
df.shape

(127380, 136)

In [22]:
df.columns

Index(['NU_INSCRICAO', 'NU_ANO', 'CO_MUNICIPIO_RESIDENCIA',
       'NO_MUNICIPIO_RESIDENCIA', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA',
       'NU_IDADE', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       ...
       'Q016', 'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022', 'Q023', 'Q024',
       'Q025'],
      dtype='object', length=136)

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 127380 entries, 0 to 127379
Columns: 136 entries, NU_INSCRICAO to Q025
dtypes: float64(24), int64(71), object(41)
memory usage: 132.2+ MB


---
## Seleção das Variáveis de Interesse

In [23]:
colunas_estatistica = [
    "NU_NOTA_CN",
    "NU_NOTA_CH",
    "NU_NOTA_LC",
    "NU_NOTA_MT",
    "NU_NOTA_REDACAO",
    "TP_SEXO",
    "TP_ESCOLA"
]

df_stats = df[colunas_estatistica].copy()

In [24]:
df_stats.head()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,TP_SEXO,TP_ESCOLA
0,435.6,512.3,488.6,432.4,420.0,M,1
1,,409.3,375.3,,400.0,M,1
2,423.2,499.1,441.0,427.2,560.0,F,1
3,426.2,578.1,551.5,499.9,500.0,F,1
4,516.5,571.3,511.2,424.5,780.0,F,1


---
## Verificando valores ausentes

In [25]:
df_stats.isnull().sum().sort_values(ascending=False)

NU_NOTA_CN         34622
NU_NOTA_MT         34622
NU_NOTA_CH         29337
NU_NOTA_LC         29337
NU_NOTA_REDACAO    29337
TP_SEXO                0
TP_ESCOLA              0
dtype: int64

---
## Primeira Estatística Descritiva

In [26]:
df_stats.describe()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,TP_ESCOLA
count,92758.0,98043.0,98043.0,92758.0,98043.0,127380.0
mean,477.964015,507.365912,520.463928,523.555206,571.570025,1.330515
std,76.296099,82.972839,64.556578,109.416939,188.076455,0.555043
min,0.0,0.0,0.0,0.0,0.0,1.0
25%,418.0,447.9,483.7,435.3,480.0,1.0
50%,470.2,510.9,526.1,501.6,580.0,1.0
75%,533.3,567.1,565.1,598.2,680.0,2.0
max,797.3,809.4,801.7,985.0,1000.0,3.0
