# Actividad 4: Integración de Estructuras de Datos de Dask
1. Combina el uso de Bags, DataFrames y Arrays de Dask en una tarea que demuestre cómo estas estructuras pueden trabajar juntas.
2. Realiza una operación compleja que involucre al menos dos de las estructuras (por ejemplo, cargar datos en un DataFrame, procesarlos con un Bag y luego realizar un cálculo en un Array).

Como es obvio, lo primero que debemos hacer es importar los valores que vamos a utilizar en este caso, **bag, dataframe, arrays**

In [1]:
import dask.bag as db
import dask.dataframe as dd
import dask.array as da

En mi caso, lo primero que vamos a hacer es un array, donde será llenado de valores al **azar** en un y será una **matriz de 100 x 5**

In [2]:
dask_array = da.random.random(size=(100, 5), chunks=(10, 5))

Ahora, lo que haremos será convertir el dask_array en un dataframe, esto lo haremos con el comando **_"Dataframe.from_dask_array"_**, como **parametros** le pasamos el **dask_array** y podemos ingresarle los valores a las columnas si quisiesemos, agregando **_columns=_** y poniendo los valores que deseasemos, respetando lo agregado anteriormente.

In [3]:
dask_df = dd.from_dask_array(dask_array, columns=['col1', 'col2', 'col3', 'col4', 'col5'])

Realizamos una vista preliminar del dataframe.

In [4]:
dask_df

Unnamed: 0_level_0,col1,col2,col3,col4,col5
npartitions=10,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,float64,float64,float64,float64,float64
10,...,...,...,...,...
...,...,...,...,...,...
90,...,...,...,...,...
99,...,...,...,...,...


Ahora, lo pasaremos a un bag, esto se realizará a traves de una función del dataframe, la cual es _**Dataframe.to_bag()**_, la cual como dice su nombre nos permite entregar los valores a un bag.

In [5]:
bag = dask_df.to_bag()

Realizamos una operación corta, para poder **multiplicar los valores en el bag por 2**, esto podria realizar cualquier operación pero para simplificar el trabajo solo se aplicará esta transformación.

In [6]:
bag_mapeado = bag.map(lambda x: x * 2)

Ejecutamos el comando **_compute()_**, para que se realicen las operaciones.

In [7]:
bag_computado = bag_mapeado.compute()

Mostramos el resultado.

In [8]:
bag_computado

[(0.9965341200958243,
  0.9610979090747248,
  0.8784719289693896,
  0.7844313802454592,
  0.9390166514627915,
  0.9965341200958243,
  0.9610979090747248,
  0.8784719289693896,
  0.7844313802454592,
  0.9390166514627915),
 (0.315021056418357,
  0.8317151524994985,
  0.24781255495020282,
  0.1759546636587367,
  0.8103582738280553,
  0.315021056418357,
  0.8317151524994985,
  0.24781255495020282,
  0.1759546636587367,
  0.8103582738280553),
 (0.7512729734973422,
  0.17180171136877198,
  0.9440869837098678,
  0.7329594275679282,
  0.12500153714147522,
  0.7512729734973422,
  0.17180171136877198,
  0.9440869837098678,
  0.7329594275679282,
  0.12500153714147522),
 (0.4955588647767415,
  0.17089766659089256,
  0.7244875326299526,
  0.906033326223444,
  0.5683333760744559,
  0.4955588647767415,
  0.17089766659089256,
  0.7244875326299526,
  0.906033326223444,
  0.5683333760744559),
 (0.7403299137395375,
  0.3874563602610095,
  0.8309419485504087,
  0.7144693274005742,
  0.5109526666518331,
  

Por ultimo para volver donde todo comenzo, transformamos nuevamente el bag a un array, esto lo podemos realizar a traves de la función de Array, _**Array.from_array**_, ingresando como parametros el **bag computado** y los **chunks**.

In [9]:
Final_array = da.from_array(bag_computado, chunks=10)

In [10]:
Final_array

Unnamed: 0,Array,Chunk
Bytes,7.81 kiB,800 B
Shape,"(100, 10)","(10, 10)"
Dask graph,10 chunks in 1 graph layer,10 chunks in 1 graph layer
Data type,float64 numpy.ndarray,float64 numpy.ndarray
"Array Chunk Bytes 7.81 kiB 800 B Shape (100, 10) (10, 10) Dask graph 10 chunks in 1 graph layer Data type float64 numpy.ndarray",10  100,

Unnamed: 0,Array,Chunk
Bytes,7.81 kiB,800 B
Shape,"(100, 10)","(10, 10)"
Dask graph,10 chunks in 1 graph layer,10 chunks in 1 graph layer
Data type,float64 numpy.ndarray,float64 numpy.ndarray


Realizmos la última operación, la cual es de obtener el promedio del array, y esto usamos el comando de _**Array.mean()**_, entregando como parametros el array.

In [11]:
Valor_Final = da.mean(Final_array)

In [12]:
Valor_Final

Unnamed: 0,Array,Chunk
Bytes,8 B,8 B
Shape,(),()
Dask graph,1 chunks in 6 graph layers,1 chunks in 6 graph layers
Data type,float64 numpy.ndarray,float64 numpy.ndarray
Array Chunk Bytes 8 B 8 B Shape () () Dask graph 1 chunks in 6 graph layers Data type float64 numpy.ndarray,,

Unnamed: 0,Array,Chunk
Bytes,8 B,8 B
Shape,(),()
Dask graph,1 chunks in 6 graph layers,1 chunks in 6 graph layers
Data type,float64 numpy.ndarray,float64 numpy.ndarray


Realizamos el **_compute()_** de finalización para mostrar el resultado final.

In [13]:
Final_Computado = Valor_Final.compute()

In [14]:
Final_Computado

0.4738411061179203