### Análise de dados ENEM 2023

### Pré Processamento - Parte 1

### Este notebook tem como objetvo fazer a primeira parte da limpeza dos dados do ENEM 2023

- Otimizar os tipos de coluna com o auxílio da biblioteca 'dtype_diet'

- Passar o dataframe com os tipos otimizados para o formato parquet

#### O resumo dos resultados das otimizações encontra-se no final do notebook

In [3]:
import pandas as pd

In [4]:
df = pd.read_csv('MICRODADOS_ENEM_2023.csv', encoding= 'latin1', sep= ';')

In [5]:
df

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210059085136,2023,14,M,2,1,1,1,17,1,...,C,C,B,B,A,B,B,A,A,B
1,210059527735,2023,12,M,2,1,0,1,16,1,...,B,A,B,B,A,A,C,A,D,B
2,210061103945,2023,6,F,1,1,1,1,0,1,...,B,A,A,B,A,A,A,A,A,B
3,210060214087,2023,2,F,1,3,1,2,0,2,...,A,A,A,B,A,A,D,A,A,B
4,210059980948,2023,3,F,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,A,A
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3933950,210061959676,2023,12,M,1,1,1,1,6,1,...,B,A,A,C,A,B,E,A,A,B
3933951,210061950911,2023,1,F,1,1,2,3,0,1,...,B,A,B,C,B,B,B,B,C,B
3933952,210061965966,2023,3,F,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,A,B
3933953,210061932304,2023,2,M,1,1,1,2,0,3,...,B,B,B,C,A,A,D,A,C,B


In [6]:
df.shape

(3933955, 76)

##### Ao utilizar o comando "df.info(memory_usage='deep')" temos acesso aos tipos de dados de cada coluna, além do uso detalhado de memória ram

In [8]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 76 columns):
 #   Column                  Dtype  
---  ------                  -----  
 0   NU_INSCRICAO            int64  
 1   NU_ANO                  int64  
 2   TP_FAIXA_ETARIA         int64  
 3   TP_SEXO                 object 
 4   TP_ESTADO_CIVIL         int64  
 5   TP_COR_RACA             int64  
 6   TP_NACIONALIDADE        int64  
 7   TP_ST_CONCLUSAO         int64  
 8   TP_ANO_CONCLUIU         int64  
 9   TP_ESCOLA               int64  
 10  TP_ENSINO               float64
 11  IN_TREINEIRO            int64  
 12  CO_MUNICIPIO_ESC        float64
 13  NO_MUNICIPIO_ESC        object 
 14  CO_UF_ESC               float64
 15  SG_UF_ESC               object 
 16  TP_DEPENDENCIA_ADM_ESC  float64
 17  TP_LOCALIZACAO_ESC      float64
 18  TP_SIT_FUNC_ESC         float64
 19  CO_MUNICIPIO_PROVA      int64  
 20  NO_MUNICIPIO_PROVA      object 
 21  CO_UF_PROVA             int64  

#### Escolher o tipo de dado ideal para cada coluna pode trazer grandes ganhos de memória. Uma excelente biblioteca para isso é a dtype_diet, que analisa os tipos de dados em cada coluna do dataframe e infere as melhores otimizações. 

#### Por exemplo, se uma das colunas armazena valores entre 0 e 100, não há necessidade de usar um tipo 'int64', que pode armazenar valores muito maiores, até $$2^{64} - 1$$ e, consequentemente, consome mais memória. A dtype_diet ajusta automaticamente para um tipo de dado mais econômico.

In [9]:
from dtype_diet import optimize_dtypes, report_on_dataframe

In [10]:
report_on_dataframe(df)

Unnamed: 0_level_0,Current dtype,Proposed dtype,Current Memory (MB),Proposed Memory (MB),Ram Usage Improvement (MB),Ram Usage Improvement (%)
Column,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
NU_INSCRICAO,int64,,15367.074219,,,
NU_ANO,int64,int16,15367.074219,3841.815430,11525.258789,74.999695
TP_FAIXA_ETARIA,int64,int8,15367.074219,1920.938965,13446.135254,87.499644
TP_SEXO,object,category,111410.897461,1921.048340,109489.849121,98.275709
TP_ESTADO_CIVIL,int64,int8,15367.074219,1920.938965,13446.135254,87.499644
...,...,...,...,...,...,...
Q021,object,category,111410.897461,1921.048340,109489.849121,98.275709
Q022,object,category,111410.897461,1921.164551,109489.732910,98.275604
Q023,object,category,111410.897461,1921.048340,109489.849121,98.275709
Q024,object,category,111410.897461,1921.164551,109489.732910,98.275604


In [11]:
df_opt = report_on_dataframe(df, unit='MB')
enem_opt = optimize_dtypes(df, df_opt)

print(f'Uso de memória do dataframe original: {df.memory_usage(deep=True).sum()/1024/1024} MB')
print(f'Uso de memória do dataframe com tipos otimizados: {enem_opt.memory_usage(deep=True).sum()/1024/1024} MB')


Uso de memória do dataframe original: 9890.84520149231 MB
Uso de memória do dataframe com tipos otimizados: 1712.5290174484253 MB


#### Temos que o uso de memória RAM original era quase 10gb e foi possível reduzir para menos de 2gb. De forma exata, tivemos uma redução de 82% de memória, fator bastante importante para o desempenho das análises

In [12]:
enem_opt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3933955 entries, 0 to 3933954
Data columns (total 76 columns):
 #   Column                  Dtype   
---  ------                  -----   
 0   NU_INSCRICAO            int64   
 1   NU_ANO                  int16   
 2   TP_FAIXA_ETARIA         int8    
 3   TP_SEXO                 category
 4   TP_ESTADO_CIVIL         int8    
 5   TP_COR_RACA             int8    
 6   TP_NACIONALIDADE        int8    
 7   TP_ST_CONCLUSAO         int8    
 8   TP_ANO_CONCLUIU         int8    
 9   TP_ESCOLA               int8    
 10  TP_ENSINO               float16 
 11  IN_TREINEIRO            int8    
 12  CO_MUNICIPIO_ESC        float32 
 13  NO_MUNICIPIO_ESC        category
 14  CO_UF_ESC               float16 
 15  SG_UF_ESC               category
 16  TP_DEPENDENCIA_ADM_ESC  float16 
 17  TP_LOCALIZACAO_ESC      float16 
 18  TP_SIT_FUNC_ESC         float16 
 19  CO_MUNICIPIO_PROVA      int32   
 20  NO_MUNICIPIO_PROVA      category
 21  CO_UF_PR

#### O último passo vai ser passar para um arquivo do tipo parquet, e de agora em diante utilizar apenas ele e futuras otimizações a partir deste. Diferente de arquivos CSV, que não conseguem armazenar metadados (informações sobre o tipo de dado de cada coluna, por exemplo), o Parquet mantém essas informações, o que pode resultar em uma grande economia de memória.

In [14]:
enem_opt.to_parquet("df_enem_otimizado.parquet", compression='gzip')

### Conclusões:

#### Redução de Memória RAM:

- 9,6 GB para 1,71 GB (82%)

#### Redução de Memória em Disco:

- 1,74GB GB para 285 mb (84%)

#### Como resultado do passo a passo acima, saímos de um uso de memória RAM de 9,6 GB para 1,71 GB. De forma exata, tivemos uma redução de 82% de memória, fator bastante importante para o desempenho das análises. 

#### A transformação do arquivo CSV para um arquivo do tipo Parquet também proporcionou uma redução significativa de memória em disco. O arquivo CSV tinha 1,74GB, e o arquivo em parquet tem apenas 285 MB, ou seja, uma redução de quase 84% no espaço em disco