<a href="https://colab.research.google.com/github/marcellapbp/AnaliseEnem2019/blob/main/4_Leitura_Dados_em_Grande_Volume_com_Dask.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Leitura de Dados em Grande Volume com Dask
Neste notebook vamos dar continuidade no [experimento](https://github.com/marcellapbp/AnaliseEnem2019/blob/main/1_Leitura_Dados_em_Grande_Volume_com_Pandas.ipynb) de ler e trabalhar com grande quantidade de dados em um arquivo CSV. <BR>
Nesse [artigo](https://www.kdnuggets.com/2021/03/dask-pandas-data.html) do KDNuggets, é apresentado uma comparação entre as bibliotecas Pandas e Dask. <BR><BR>

Pandas é amplamente utilizado em análise de dados, no entanto com grande quantidades de dados percebemos no experimento anterior que se torna um pouco lento e mais complexo de trabalhar. Dask tem a proposta de lidar melhor com esse volume de dados e é isso que vamos testar logo abaixo. <BR><BR>

Instalando a biblioteca por completo e em seguida a importando, mais informações em [dask.org](https://dask.org/)


In [1]:
pip install "dask[complete]" 

Collecting dask[complete]
  Downloading dask-2021.4.1-py3-none-any.whl (952 kB)
Collecting cloudpickle>=1.1.1
  Downloading cloudpickle-1.6.0-py3-none-any.whl (23 kB)
Collecting toolz>=0.8.2
  Downloading toolz-0.11.1-py3-none-any.whl (55 kB)
Collecting partd>=0.3.10
  Downloading partd-1.2.0-py3-none-any.whl (19 kB)
Collecting fsspec>=0.6.0
  Downloading fsspec-2021.4.0-py3-none-any.whl (108 kB)
Collecting distributed>=2021.04.1; extra == "complete"
  Downloading distributed-2021.4.1-py3-none-any.whl (696 kB)
Collecting locket
  Downloading locket-0.2.1-py2.py3-none-any.whl (4.1 kB)
Collecting psutil>=5.0
  Downloading psutil-5.8.0-cp39-cp39-win_amd64.whl (246 kB)
Collecting zict>=0.1.3
  Downloading zict-2.0.0-py3-none-any.whl (10 kB)
Collecting click>=6.6
  Downloading click-7.1.2-py2.py3-none-any.whl (82 kB)
Collecting sortedcontainers!=2.0.0,!=2.0.1
  Downloading sortedcontainers-2.3.0-py2.py3-none-any.whl (29 kB)
Collecting msgpack>=0.6.0
  Downloading msgpack-1.0.2-cp39-cp39-win

You should consider upgrading via the 'c:\users\marcellapereira\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


In [2]:
import dask.dataframe as dd

Na documentação do método ```read_csv``` a recomendação é utilizar o parâmetro ```assume_missing=True```, pois a leitura dos dados pode ter nas primeiras linhas informações completas sem valores nulos e a biblioteca assume os tipos de dados e não considera que pode exister valores nulos causando erro caso se depare com eles ao longo da leitura.<BR><BR>
No trecho abaixo estou importando os dados do Enem 2019 que possui cerca de 2,97 GB.

 

In [5]:
#file = f'/home/marcella/Documentos/microdados_enem_2019/DADOS/MICRODADOS_ENEM_2019.csv'
file = f'C:/users/marcellapereira/Downloads/microdados_enem_2019/DADOS/MICRODADOS_ENEM_2019.csv'
df = dd.read_csv(file, 
                 assume_missing=True,  
                 encoding='ISO-8859-1', 
                 delimiter=';')

Utilizar o método ```persist``` ajuda a trabalhar o DataFrame de forma otimizada. Os dados e a estrutura permanecem inalterados, porém os dados ficam previamente computados, ou são computados em backgroud podendo ser até computados de forma distribuída. Na [documentação](https://docs.dask.org/en/latest/api.html#dask.persist) oficial é possível obter mais detalhes.




In [6]:
%%time
daskDF = df.persist()

Wall time: 3min 25s


Logo abaixo foi feito um teste consultando as primeiras linhas do DataFrame antes da persistência e após. 
O DataFrame ```df``` sem a persistência demorou cerca de 5 segundos na máquina que foi utilizada para o experimento (com Intel i5 de 8ª geração e 16 gb de RAM), enquanto que o DataFrame ```daskDF``` com a persistência demorou menos de 1 segundo.
Por ser uma máquina com grande poder de processamento, 5 segundos contra 1 segundo parece não ser um grande resultado, mas dependendo da máquina ou do processo a ser realizado pode valer a pena gastar alguns segundos persistindo o DataFrame, pois o resultado pode ser 5 vezes mais rápido.

In [7]:
%%time
df.head()

Wall time: 5.49 s


Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001000000.0,2019.0,1506807.0,Santarém,15.0,PA,21.0,M,1.0,3.0,...,A,A,A,C,B,A,D,A,B,A
1,190001000000.0,2019.0,1504059.0,Mãe do Rio,15.0,PA,16.0,F,1.0,3.0,...,A,A,A,B,B,A,B,A,A,A
2,190001000000.0,2019.0,1505502.0,Paragominas,15.0,PA,18.0,F,1.0,1.0,...,B,A,A,D,B,B,D,A,C,B
3,190001000000.0,2019.0,1507706.0,São Sebastião da Boa Vista,15.0,PA,23.0,M,0.0,3.0,...,A,A,A,C,A,A,D,A,A,A
4,190001000000.0,2019.0,1503903.0,Juruti,15.0,PA,23.0,M,1.0,3.0,...,A,A,A,B,A,A,D,A,A,A


In [8]:
%%time
daskDF.head()

Wall time: 41 ms


Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001000000.0,2019.0,1506807.0,Santarém,15.0,PA,21.0,M,1.0,3.0,...,A,A,A,C,B,A,D,A,B,A
1,190001000000.0,2019.0,1504059.0,Mãe do Rio,15.0,PA,16.0,F,1.0,3.0,...,A,A,A,B,B,A,B,A,A,A
2,190001000000.0,2019.0,1505502.0,Paragominas,15.0,PA,18.0,F,1.0,1.0,...,B,A,A,D,B,B,D,A,C,B
3,190001000000.0,2019.0,1507706.0,São Sebastião da Boa Vista,15.0,PA,23.0,M,0.0,3.0,...,A,A,A,C,A,A,D,A,A,A
4,190001000000.0,2019.0,1503903.0,Juruti,15.0,PA,23.0,M,1.0,3.0,...,A,A,A,B,A,A,D,A,A,A


No trecho abaixo demorou mais de 4 minutos para mostrar a quantidade de linhas e colunas do DataFrame sem presistência contra menos de 1 segundo do DataFrame com persistência.

In [9]:
%%time
a = df.shape
a[0].compute(), a[1]

Wall time: 4min 36s


(5095270, 136)

In [10]:
%%time
a = daskDF.shape
a[0].compute(), a[1]

Wall time: 25.4 ms


(5095270, 136)

##Considerações Finais

Dask se demonstrou ser uma boa alternativa ao Pandas para trabalhar com arquivos de grande volume de dados. Provavelmente irei utiliza-lo nos próximos experimentos nesse dataset do Enem 2019 e realizar novos experimentos com outras bibliotecas que surgirem e que eu descobrir.