# Dask Array

Материалы:
* Макрушин С.В. Лекция 11: Dask
* https://docs.dask.org/en/latest/array.html
* JESSE C. DANIEL. Data Science with Python and Dask. 

## Задачи для совместного разбора

In [1]:
import numpy as np
import dask
import dask.array as da
import h5py

In [2]:
dask.__version__

'2021.11.2'

1. Создайте массив размерностью 1000 на 300000, заполненный числами из стандартного нормального распределения. Исследуйте основные характеристики полученного массива.

In [3]:
%%time
arr_np = np.random.normal(0, 1, size=(1000, 300_000))

Wall time: 8.19 s


In [4]:
%%time
arr_da = da.random.normal(0, 1, size=(1000, 300_000), chunks = (1000, 30_000))
arr_da
#и мы видим не массив, а его заготовку - собираемся создать массив вот с такими параметрами
#dask - много-много мини-массивов
#эта запись никаких вычислений не создает
#парадигма такая, что все вычисления ленивые
#dask строит план массива в виде графа

Wall time: 170 ms


Unnamed: 0,Array,Chunk
Bytes,2.24 GiB,228.88 MiB
Shape,"(1000, 300000)","(1000, 30000)"
Count,10 Tasks,10 Chunks
Type,float64,numpy.ndarray
"Array Chunk Bytes 2.24 GiB 228.88 MiB Shape (1000, 300000) (1000, 30000) Count 10 Tasks 10 Chunks Type float64 numpy.ndarray",300000  1000,

Unnamed: 0,Array,Chunk
Bytes,2.24 GiB,228.88 MiB
Shape,"(1000, 300000)","(1000, 30000)"
Count,10 Tasks,10 Chunks
Type,float64,numpy.ndarray


2. Посчитайте сумму квадратов элементов массива, созданного в задаче 1. Создайте массив `np.array` такого же размера и сравните скорость решения задачи с использование `da.array` и `np.array`

In [5]:
%%time
np.power(arr_np, 2).sum()

Wall time: 46 s


300030632.8972194

In [6]:
%%time
da.power(arr_da, 2).sum()

Wall time: 232 ms


Unnamed: 0,Array,Chunk
Bytes,8 B,8.0 B
Shape,(),()
Count,41 Tasks,1 Chunks
Type,float64,numpy.ndarray
Array Chunk Bytes 8 B 8.0 B Shape () () Count 41 Tasks 1 Chunks Type float64 numpy.ndarray,,

Unnamed: 0,Array,Chunk
Bytes,8 B,8.0 B
Shape,(),()
Count,41 Tasks,1 Chunks
Type,float64,numpy.ndarray


In [7]:
%%time
da.power(arr_da, 2).sum().compute() #благодаря compute() у нас будут происходит вычисления, иначе не будут
#compute мы пишем только один раз в самом конце, чтобы визуализировать вычисления

Wall time: 6.27 s


299974368.92152417

In [None]:
%%time
#если мы вызовем compute не там, где надо, то мы не получим прироста времени:
#плохой пример!!!
da.power(arr_da.compute(), 2).sum()

3. Визуализируйте граф вычислений для задачи 2.

In [14]:
!pip install graphviz



In [15]:
import os
os.environ['PATH'] += os.pathsep + r'C:\Program Files\Graphviz\bin'

In [None]:
da.power(arr_da, 2).sum().visualize()

Мораль. Билиотеку используем для ускоренной обработки данных. Массив - это много np-массивчиков. Все, что знаем о np, применимо и здесь. Откладываем compute() до самого последнего момента, потому что иначе не будет эффекта по времени.

## Лабораторная работа 11

In [17]:
import dask.array as da
import h5py
import numpy as np

1. Считайте датасет `recipe` из файла `minutes_n_ingredients_full.hdf5` в виде `dask.array`. Укажите аргумент `chunks=(100_000, 3)` при создании массива. Выведите на экран основную информацию о массиве.

In [18]:
file_h = h5py.File('./data/minutes_n_ingredients_full.hdf5')
recipes = da.from_array(file_h['recipe'], chunks=(100_000, 3))
recipes_test = da.from_array(file_h['recipe'])
recipes_test2 = da.from_array(file_h['recipe'], chunks=(1_000_000, 3))
recipes

Unnamed: 0,Array,Chunk
Bytes,51.08 MiB,2.29 MiB
Shape,"(2231637, 3)","(100000, 3)"
Count,24 Tasks,23 Chunks
Type,int64,numpy.ndarray
"Array Chunk Bytes 51.08 MiB 2.29 MiB Shape (2231637, 3) (100000, 3) Count 24 Tasks 23 Chunks Type int64 numpy.ndarray",3  2231637,

Unnamed: 0,Array,Chunk
Bytes,51.08 MiB,2.29 MiB
Shape,"(2231637, 3)","(100000, 3)"
Count,24 Tasks,23 Chunks
Type,int64,numpy.ndarray


In [19]:
recipes.compute()

array([[ 683970,      33,       9],
       [1089012,      23,       5],
       [1428572,       0,       5],
       ...,
       [1910650,      60,       2],
       [ 713836,       0,       9],
       [ 660699,      64,       8]], dtype=int64)

2. Вычислите среднее значение по каждому столбцу, кроме первого. 

In [6]:
%%time
print(f'Среднее значение по второму столбцу = {da.mean(recipes[:, 1]).compute()}')
print(f'Среднее значение по третьему столбцу = {da.mean(recipes[:, 2]).compute()}')

Среднее значение по второму столбцу = 1004.2080517575215
Среднее значение по третьему столбцу = 5.419800800936711
Wall time: 219 ms


3. Исследуйте, как влияет значение аргумента `chunks` при создании `dask.array` на скорость выполнения операции поиска среднего. 

In [7]:
%%time
print(f'Среднее значение по второму столбцу = {da.mean(recipes_test[:, 1]).compute()}')
print(f'Среднее значение по третьему столбцу = {da.mean(recipes_test[:, 2]).compute()}')

Среднее значение по второму столбцу = 1004.2080517575215
Среднее значение по третьему столбцу = 5.419800800936711
Wall time: 230 ms


In [8]:
%%time
print(f'Среднее значение по второму столбцу = {da.mean(recipes_test2[:, 1]).compute()}')
print(f'Среднее значение по третьему столбцу = {da.mean(recipes_test2[:, 2]).compute()}')

Среднее значение по второму столбцу = 1004.2080517575215
Среднее значение по третьему столбцу = 5.419800800936711
Wall time: 203 ms


Чем больше количество элементов в одном chunk, тем быстрее

4. Выберите рецепты, время выполнения которых меньше медианного значения

In [9]:
median = da.median(recipes[:, 1], axis=0).compute()
print(f'Медиана = {median}')
print(f'Рецепты, время выполнения которых меньше медианного значения:\n{recipes[recipes[:, 1] < median].compute()}')

Медиана = 32.0
Рецепты, время выполнения которых меньше медианного значения:
[[1089012      23       5]
 [1428572       0       5]
 [1400250      24       1]
 ...
 [1029131      19       4]
 [1700703       1       1]
 [ 713836       0       9]]


5. Посчитайте количество каждого из возможных значений кол-ва ингредиентов

In [4]:
n_ingred, count_n = da.unique(recipes[:, 2], return_counts = True)
dict(zip(n_ingred.compute(), count_n.compute()))

{1: 222071,
 2: 224158,
 3: 229388,
 4: 234948,
 5: 240720,
 6: 244360,
 7: 247181,
 8: 246747,
 9: 246816,
 10: 22430,
 11: 19094,
 12: 15165,
 13: 11640,
 14: 8284,
 15: 6014,
 16: 4145,
 17: 2793,
 18: 1913,
 19: 1279,
 20: 852,
 21: 529,
 22: 346,
 23: 244,
 24: 178,
 25: 107,
 26: 68,
 27: 55,
 28: 33,
 29: 22,
 30: 20,
 31: 13,
 32: 5,
 33: 4,
 34: 3,
 35: 4,
 36: 1,
 37: 2,
 38: 1,
 39: 1,
 40: 2,
 43: 1}

6. Найдите максимальную продолжительность рецепта. Ограничьте максимальную продолжительность рецептов сверху значением, равному 75% квантилю.

In [5]:
max_time = da.max(recipes[:, 1]).compute()
max_time

2147483647

In [6]:
quant = recipes.to_dask_dataframe()[1].quantile(0.75).compute()
recipes[recipes[:, 1] > quant, 1] = quant
#quant
recipes.compute()

array([[ 683970,      33,       9],
       [1089012,      23,       5],
       [1428572,       0,       5],
       ...,
       [1910650,      49,       2],
       [ 713836,       0,       9],
       [ 660699,      49,       8]], dtype=int64)

In [7]:
max_time = da.max(recipes[:, 1]).compute()
max_time

49

7. Создайте массив `dask.array` из 2 чисел, содержащих ваши предпочтения относительно времени выполнения рецепта и кол-ва ингредиентов. Найдите наиболее похожий (в смысле $L_1$) рецепт из имеющихся в датасете.

In [12]:
my_arr = da.from_array([25, 10])
mask = da.fabs(my_arr - recipes[:, 1:]).sum(axis=1).argmin()
most_similar = recipes[mask].compute()
most_similar

array([24399,    25,    10], dtype=int64)

8. Работая с исходным файлом в формате `hdf5`, реализуйте алгоритм подсчета среднего значения в блочной форме и вычислите с его помощью среднее значение второго столбца в массиве.

Блочный алгоритм вычислений состоит из двух частей:
1. загрузка фрагмента за фрагментом данных по `blocksize` элементов и проведение вычислений на этим фрагментом;
2. агрегация результатов вычислений на различных фрагментах для получения результата на уровне всего набора данных.

Важно: при работе с `h5py` в память загружаются не все элементы, а только те, которые запрашиваются в данный момент

In [27]:
file_h = h5py.File('./data/minutes_n_ingredients_full.hdf5')
recipes_8 = da.from_array(file_h['recipe'], chunks=(100_000, 3))
recipes_8

Unnamed: 0,Array,Chunk
Bytes,51.08 MiB,2.29 MiB
Shape,"(2231637, 3)","(100000, 3)"
Count,24 Tasks,23 Chunks
Type,int64,numpy.ndarray
"Array Chunk Bytes 51.08 MiB 2.29 MiB Shape (2231637, 3) (100000, 3) Count 24 Tasks 23 Chunks Type int64 numpy.ndarray",3  2231637,

Unnamed: 0,Array,Chunk
Bytes,51.08 MiB,2.29 MiB
Shape,"(2231637, 3)","(100000, 3)"
Count,24 Tasks,23 Chunks
Type,int64,numpy.ndarray


In [28]:
def mean_func(arr, n):
    arr_with_mean = []
    parts = np.array_split(arr, n)
    for item in parts:
        elem = da.from_array(np.array(item))
        mean = elem[:, 1].mean(axis = 0)
        arr_with_mean.append(mean.compute())
    return arr_with_mean
mean_func(recipes_8, 9)



[42.22067268914341,
 41.57520164542668,
 39.82334650750121,
 39.9490885626714,
 8702.696184868528,
 41.342724633005325,
 42.53939159296497,
 41.61677535398997,
 46.09745562774491]

Исходный файл является не совсем корректным, так как есть в нем слишком большое максимальное время. Это сильно портит статистику и подсчет среднего значения. Рассмотрим максимальное значение времени в этом датасете:

In [29]:
da.max(recipes_8[:, 1]).compute()

2147483647

Это слишком много для времени приготовления блюда (35791394.11667 часа). Поэтому заменю значение на 40 минут и снова выведу максимальное:

In [30]:
recipes_8[recipes_8[:, 1] == 2147483647, 1] = 40
da.max(recipes_8[:, 1]).compute()

1051200

Это тоже слишком много. Поэтому я заменю все значения, которые больше 4320 на 40:

In [31]:
recipes_8[recipes_8[:, 1] > 4320, 1] = 40
da.max(recipes_8[:, 1]).compute()

4320

Теперь найдем среднее значение по новому датасету:

In [32]:
def mean_func(arr, n):
    arr_with_mean = []
    test = np.array_split(arr, n)
    for item in test:
        elem = da.from_array(np.array(item))
        mean = elem[:, 1].mean(axis = 0)
        arr_with_mean.append(mean.compute())
    return arr_with_mean
mean_func(recipes_8, 100)



[36.542590850024645,
 36.72814446386163,
 36.602813998297265,
 36.4749742348882,
 36.28346103867007,
 37.106062642828334,
 36.249899179997314,
 37.810996101626564,
 36.651073172917506,
 36.02244925393198,
 36.31930815073711,
 36.18210332930053,
 37.483039835103284,
 36.38598377918179,
 36.71891383250437,
 36.9137428865887,
 36.349106062642825,
 36.420576242326476,
 36.62423264775732,
 36.73123627727741,
 36.995832773222205,
 36.57104449522785,
 36.91387731325895,
 36.08818389568491,
 35.969126674732266,
 36.01371152036564,
 36.043554241161445,
 36.749563113321685,
 37.055921494824574,
 36.457543576645605,
 36.62987856790787,
 36.896849935027106,
 37.150333826231126,
 36.662947528789715,
 36.7906976744186,
 36.37751489895595,
 36.49975355110454,
 36.6474278544542,
 36.077433231761965,
 36.9547409930095,
 36.157062197526436,
 36.362564975802115,
 36.66060225846926,
 36.58424448825954,
 36.7124932783653,
 35.97006632012906,
 36.52052339128876,
 36.46840831690267,
 36.76671446495788,
 36.0