<a href="https://colab.research.google.com/github/marcellapbp/AnaliseEnem2019/blob/main/1_Leitura_Dados_em_Grande_Volume_com_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Leitura Dados em Grande Volume com Pandas

Neste notebook é feito a leitura dos dados do Enem 2019 disponível no [site do INEP](http://inep.gov.br/microdados).
<br><br>
Como o dataset possui mais de 3gb de conteúdo após descompactado torna inviável realizar sua leitura da forma convencional com a biblioteca Pandas, pois ocupa muito espaço em memória ocasionando erro.
Sendo assim através de um artigo no [Medium](https://medium.com/@miltongamaneto/otimizando-o-armazenamento-da-mem%C3%B3ria-de-um-dataframe-pandas-ca8c4eb45699) encontrei uma alternativa de realizar a leitura dos dados ainda utilizando Pandas.


Importando a biblioteca

In [1]:
import pandas as pd

Já que não é possível realizar a leitura de uma vez, a ideia foi ler em partes e ir armazenando cada parte e ao final concatenar num único Data Frame. Para isso utilizei as opções *chunksize* e *low_memory* combinado com um loop para a cada iteração gravar parte dos dados.
<br><br>
Já as opções *encoding* e *delimiter* foram necessárias para conseguir fazer a leitura e separar as colunas corretamente.
<br><br>
Obs.: Conectei o notebook localmente para aproveitar a infraestrura local com mais memória, pois a  execução demora alguns minutos.

In [None]:
lotes = []

for lote in pd.read_csv(r"C:\Users\marcellapereira\Downloads\microdados_enem_2019\DADOS\MICRODADOS_ENEM_2019.csv", encoding='ISO-8859-1', delimiter=';', low_memory=False, chunksize=1000):
  lotes.append(lote)

df = pd.concat(lotes)

Conferindo o tamanho do arquivo e de fato armazenou as mais de 5 milhões de linhas.
<br>
Nem no excel é possível ler todos os dados, o Excel suporta até em torno de 1 milhão e 45 mil linhas.

In [None]:
df.shape

(5095270, 136)

Conferindo as primeiras linhas para garantir que os dados não ficaram distorcidos.

In [None]:
df.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001004627,2019,1506807,Santarém,15,PA,21,M,1,3,...,A,A,A,C,B,A,D,A,B,A
1,190001004628,2019,1504059,Mãe do Rio,15,PA,16,F,1,3,...,A,A,A,B,B,A,B,A,A,A
2,190001004629,2019,1505502,Paragominas,15,PA,18,F,1,1,...,B,A,A,D,B,B,D,A,C,B
3,190001004630,2019,1507706,São Sebastião da Boa Vista,15,PA,23,M,0,3,...,A,A,A,C,A,A,D,A,A,A
4,190001004631,2019,1503903,Juruti,15,PA,23,M,1,3,...,A,A,A,B,A,A,D,A,A,A


Conferindo a memória que o Data Frame ocupa após carregado.

In [None]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5095270 entries, 0 to 5095269
Columns: 136 entries, NU_INSCRICAO to Q025
dtypes: float64(24), int64(71), object(41)
memory usage: 16.0 GB


No entanto ainda não é possível executar algumas funções por utilizar muita memória, sendo assim, no código abaixo, é selecionando para essa amostra, inscritos no Enem 2019 nascidos no Estado de São Paulo

In [3]:
lotes = []

for lote in pd.read_csv(r"C:\Users\marcellapereira\Downloads\microdados_enem_2019\DADOS\MICRODADOS_ENEM_2019.csv", encoding='ISO-8859-1', delimiter=';', low_memory=False, chunksize=1000):
  lote = lote.drop(lote[lote.SG_UF_RESIDENCIA != 'SP'].index)
  lotes.append(lote)

df = pd.concat(lotes)

In [6]:
print(f'Shape {df.shape}')
df.head()

Shape (813772, 136)


Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
12426,190001017053,2019,3546801,Santa Isabel,35,SP,22,M,1,3,...,A,A,A,C,A,A,D,A,B,B
14849,190001019476,2019,3538204,Pinhalzinho,35,SP,19,M,1,3,...,A,A,A,B,A,A,C,A,B,A
15223,190001019850,2019,3550308,São Paulo,35,SP,17,F,1,3,...,A,A,A,A,A,A,C,A,A,A
20246,190001024874,2019,3548708,São Bernardo do Campo,35,SP,19,M,1,3,...,B,A,B,B,B,A,B,B,A,B
20303,190001024931,2019,3549409,São Joaquim da Barra,35,SP,37,M,2,1,...,B,A,A,A,A,A,C,B,B,B
