**Programador preterminado dask**
    
**Threads vs. processes**

*Thredas (Hilos) :*

    - Dask arrays
    - Dask dataframes
    - Delayed pipelines creados con dask.delayed()
    - Son muy rápidos para inicia
    - No es necesario transferirles datos
    - Están limitados por el GIL, lo que permite que un subproceso lea el código de una sola vez
    
*Processes (Procesos) :*
    
    - Dask bags
    - Tómese el tiempo para configurar
    - Lento para transferir datos
    - Cada uno tiene su propio GIL, por lo que no es necesario turnarse para leer el código

*Elegir el programador*

In [1]:
import dask.dataframe as dd
import dask

df  = dd.read_csv("spotify/*.csv", blocksize="1MB")

In [2]:
x = df["tempo"].round()

#Uso normal
result = x.compute()
result = dask.compute(x)
result

(0       114.0
 1       112.0
 2       121.0
 3       170.0
 4       160.0
         ...  
 5378    120.0
 5379    140.0
 5380    127.0
 5381     90.0
 5382     92.0
 Name: tempo, Length: 161738, dtype: float64,)

In [3]:
#Uso de threads (hilos)
result = x.compute(scheduler = 'threads')
result = dask.compute(x, sheduler = 'threads')
result

(0       114.0
 1       112.0
 2       121.0
 3       170.0
 4       160.0
         ...  
 5378    120.0
 5379    140.0
 5380    127.0
 5381     90.0
 5382     92.0
 Name: tempo, Length: 161738, dtype: float64,)

In [4]:
# Use processes
result = x.compute(scheduler='processes')
result = dask.compute(x, scheduler='processes')
result

(0       114.0
 1       112.0
 2       121.0
 3       170.0
 4       160.0
         ...  
 5378    120.0
 5379    140.0
 5380    127.0
 5381     90.0
 5382     92.0
 Name: tempo, Length: 161738, dtype: float64,)

**Clústeres y clientes**

Según el hardware de su computadora y el cálculo que está tratando de completar, puede ser más rápido ejecutarlo usando una combinación de subprocesos y procesos.

Para ello, debe configurar un clúster local.

Hay dos formas de configurar un clúster local que usará Dask.

La primera forma es crear el clúster local y pasarlo a un cliente.

¡Esto es muy similar a cómo configuraría un cliente para que se ejecute en un grupo de computadoras! 

La segunda forma es usar el cliente directamente y permitirle crear el clúster local por sí mismo.

Este es un atajo que funciona para clústeres locales, pero no para otros tipos de clústeres.

Creamos clientes utilizando ambos métodos.

Tenga cuidado al crear el clúster y los clientes. Si los configura incorrectamente, su sesión puede expirar.

**Creación de un cluster local**

In [5]:
from dask.distributed import Client, LocalCluster

cluster = LocalCluster(
    processes=True,
    n_workers=2,
    threads_per_worker=2)

print(cluster)

LocalCluster(63d35828, 'tcp://127.0.0.1:51446', workers=2, threads=4, memory=39.69 GiB)


In [None]:
cluster = LocalCluster(
    processes=False,
    n_workers=2,
    threads_per_worker=2)

print(cluster)

**Un cluster simple**

In [None]:
cluster = LocalCluster(processes=True)

print(cluster)

**Creación de un cliente**

In [6]:
client = Client(cluster)

print(client)

<Client: 'tcp://127.0.0.1:51446' processes=2 threads=4, memory=39.69 GiB>


Uso del cluster

In [9]:
result = x.compute()
result = x.compute(scheduler='threads')
result = client.compute(x)

In [10]:
result

### Entrenamiento de modelos machine learning con grandes conjuntos de datos