# Script de pré-processamento para as bases de dados do ENEM

**Autor**: Rafael Victor Araujo Bernardes - rafaelvictor.bernardes@gmail.com

## Análise exploratória dos dados.

O objetivo principal desta análise exploratória dos dados é entender e extrair _insights_ iniciais sobre os microdados por meio da observação de padrões, tendências, relações e anomalias. Segue abaixo um compilado das etapas que segui:

In [1]:
import pandas as pd

In [2]:
# Variáveis de controle

# ano = '2019'
# ano = '2020'
# ano = '2021'
# ano = '2022'
ano = '2023'

# Endereço dados brutos:
DATASET_ENEM_PATH = 'D:\Bases\MICRODADOS_ENEM_' + ano + '.csv'

In [3]:
microdadosEnem = pd.read_csv(DATASET_ENEM_PATH, sep=';', encoding='ISO-8859-1')

In [4]:
microdadosEnem.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210059085136,2023,14,M,2,1,1,1,17,1,...,C,C,B,B,A,B,B,A,A,B
1,210059527735,2023,12,M,2,1,0,1,16,1,...,B,A,B,B,A,A,C,A,D,B
2,210061103945,2023,6,F,1,1,1,1,0,1,...,B,A,A,B,A,A,A,A,A,B
3,210060214087,2023,2,F,1,3,1,2,0,2,...,A,A,A,B,A,A,D,A,A,B
4,210059980948,2023,3,F,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,A,A


In [5]:
total_instancias = microdadosEnem.shape[0]
print(f"Número total de instâncias (candidatos): {total_instancias}")

Número total de instâncias (candidatos): 3933955


In [6]:
total_atributos = microdadosEnem.shape[1]
print(f"Quantidade de atributos (colunas): {total_atributos}")

Quantidade de atributos (colunas): 76


In [7]:
linhas_irregulares = microdadosEnem.isnull().any(axis=1).sum()
print(f"Linhas com dados faltantes: {linhas_irregulares}")

Linhas com dados faltantes: 3225341


In [8]:
distribuicao_renda = microdadosEnem['Q006'].value_counts(normalize=True) * 100
print("\nDistribuição percentual da renda familiar (Q006):")
print(distribuicao_renda)


Distribuição percentual da renda familiar (Q006):
Q006
B    31.654429
C    16.546758
D    11.117717
E     7.473243
A     6.813830
G     6.642857
F     4.355515
H     3.540432
I     2.185333
J     1.911028
K     1.515803
Q     1.308836
N     1.056570
O     1.047750
L     1.006519
P     0.968618
M     0.854763
Name: proportion, dtype: float64


In [9]:
distribuicao_escolaridade_mae = microdadosEnem['Q002'].value_counts(normalize=True) * 100
print("\nDistribuição percentual da escolaridade da mãe (Q002):")
print(distribuicao_escolaridade_mae)


Distribuição percentual da escolaridade da mãe (Q002):
Q002
E    35.018321
B    12.850300
D    12.045232
F    11.572781
G    11.232792
C    11.108973
H     3.354309
A     2.817292
Name: proportion, dtype: float64


In [10]:
distribuicao_cor_raca = microdadosEnem['TP_COR_RACA'].value_counts(normalize=True) * 100
print("\nDistribuição percentual da cor/raça (TP_COR_RACA):")
print(distribuicao_cor_raca)


Distribuição percentual da cor/raça (TP_COR_RACA):
TP_COR_RACA
3    43.386312
1    40.057601
2    12.951622
4     1.639876
0     1.336441
5     0.628146
Name: proportion, dtype: float64


In [11]:
distribuicao_acesso_internet = microdadosEnem['Q025'].value_counts(normalize=True) * 100
print("\nDistribuição percentual de acesso à internet (Q025):")
print(distribuicao_acesso_internet)


Distribuição percentual de acesso à internet (Q025):
Q025
B    90.454797
A     9.545203
Name: proportion, dtype: float64
