[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Introducción a *Dask*.

Las bibliotecas de *Scipy* tienen limitaciones en cuanto a su capacidad de escalar de forma horizontal y aún cuando son capaces de realizar *multithreading* para procesamiento en paralelo, están restringidas a la cantidad de recursos disponibles de la máquina dede las que són ejecutadas.

[*Dask*](https://dask.org/) es una biblioteca general para cómputo paralelo que permite escalar sus operaciones por medio de clústers (grupos de equipos de cómputo que trabajan de forma coordinada).

*Dask* consta de:

* Un calendarizador de tareas dinámico (*dynamic task scheduler*).
* Una colección de bibliotecas optimizadas para *Big Data*, con interfaces que extienden a*Numpy* y *Pandas*.

https://docs.dask.org/en/stable/

https://tutorial.dask.org/

In [None]:
pip install dask

##  Principales paquetes de *Dask*.

<img src="img/arquitectura_dask.png" width=75%>

### Paquetes de colecciones de datos de *Dask*.

* ```dask.array```, el cual contiene una biblioteca para manejo de arreglos similar a la de *Numpy*. Por convención, este módulo se importa como ```da```. La documentación de este paquete puede consultarse en:
    * https://docs.dask.org/en/stable/array.html
* ```dask.dataframe```, el cual contiene una biblioteca para manejo de *datafames* similar a la de *Pandas*. Por convención, este módulo se importa como ```dd```. La documentación de este paquete puede consultarse en:
    * https://docs.dask.org/en/stable/dataframe.html
* ```dask.bags```, el cual contiene una biblioteca para manejo de *bags*, las cuales son estructuras de datos que pueden contener datos semi-estructurados y estructurados. Por convención este módulo se importa como ```db```. La documentación de este paquete puede consultarse en:
https://docs.dask.org/en/stable/bag.html

### Evaluación perezosa (*lazy*) con el método ```compute()```.

In [None]:
import dask.dataframe as dd

In [None]:
df = dd.read_csv('data/data_covid.csv')

In [None]:
df

In [None]:
df.compute()

In [None]:
type(df["Nacional"])

In [None]:
df["Nacional"].compute()

In [None]:
df.loc[df["Nacional"] > 50000].loc[:, ['index', 'Nacional']]

In [None]:
df.loc[df["Nacional"] > 50000].loc[:, ['index', 'Nacional']].compute()

### Bibliotecas de *Dask*.

* ```dask.delayed```. Esta biblioteca permite procesar colecciones basadas en *Python* de forma paralela.
    * https://docs.dask.org/en/stable/delayed.html
* ```dask.futures```. Es una implementación  de [```concurrent.futures```](https://docs.python.org/3/library/concurrent.futures.html) de *Python* optimizado para correr en un cluster.  La documentación de este paquete puede consultarse en:
    * https://docs.dask.org/en/stable/futures.html

## Depliegue de un cluster con ```Dask.Distributed```.

*Dask* puede ser desplegado en clusters mediante el uso de varios equipos *workers* gestionados por un *scheduler*.


https://distributed.dask.org/en/stable/

<img src="img/dask_cluster.png" width=45%>

In [None]:
!pip install "bokeh>=2.4.2, <3"
!pip install dask distributed --upgrade

In [None]:
!dask scheduler

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>