# Dask Array

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Dask"
* https://docs.dask.org/en/latest/array.html

In [1]:
import dask.array as da
import h5py
import numpy as np
import dask
import pandas as pd

In [2]:
!pip install graphviz 



In [3]:
!pip install --user --upgrade dask



## Задачи для совместного разбора

1. Создайте массив размерностью 1000 на 300000, заполненный числами из стандартного нормального распределения. Исследуйте основные характеристики полученного массива. Визуализируйте граф вычисления задачи.

In [None]:
import numpy as np
import h5py
with h5py.File("demo.h5", "w") as hdf:
    hdf.create_dataset('arr', data=np.random.normal(0, 1, size = (1000, 300_000)))

In [None]:
#with h5py.File("demo.h5", "w") as hdf:
    #...
hdf = h5py.File("demo.h5", "r")
dset = hdf['arr']
arr = da.from_array(dset, chunks=(1000, 30000))
arr

In [None]:
%%time
arr.mean()

In [None]:
%%time
arr.mean().compute()

In [None]:
%%time
arr1 = arr*2
s = arr1.sum()
m = arr1.mean()
dask.compute(
    s,m
)

In [None]:
s.visualize()

2. Посчитайте сумму квадратов элементов массива, созданного в задаче 1. Создайте массив `np.array` такого же размера и сравните скорость решения задачи с использование `da.array` и `np.array`

In [None]:
%%time
arr_np = np.random.normal(0,1, size=(1000, 300000))
(arr_np ** 2).sum()

In [None]:
%%time
arr_da = da.random.normal(0,1, size=(1000, 300000))
(arr_da ** 2).sum().compute()

In [None]:
np.mean(arr_da)

## Лабораторная работа 11

__При решении данных задач не подразумевается использования циклов или генераторов Python в ходе работы с пакетами `numpy`, `pandas` и `dask`, если в задании не сказано обратного. Решения задач, в которых для обработки массивов `numpy`, структур `pandas` или структур `dask` используются явные циклы (без согласования с преподавателем), могут быть признаны некорректными и не засчитаны.__

В ходе выполнения все операции вычислений (расчет средних значений, расчет косинусной близости и т.д.) проводятся над `dask.array` и средствами пакета `dask`, если в задании не сказано обратного. Переход от `dask.array` к `numpy.array` или `pd.DataFrame` возможен исключительно для демонстрации результата в конце решения задачи. Если в задаче используются результаты выполнения предыдущих задач, то подразумевается, что вы используете результаты в виде `dask.array` (то есть то, что было получено до вызова `compute`, а не после).

1\. Считайте датасет `embeddings` из файла `recipe_embeddings.h5` в виде `dask.array`. Выведите на экран основную информацию о массиве: размер, форму, тип, количество и размер сегментов. 

In [1]:
import dask.array as da
import h5py
import numpy as np
import dask
import pandas as pd

In [2]:
hdf = h5py.File("recipe_embeddings.h5", "r")
dset = hdf['embeddings']
arr = da.from_array(dset)
arr

Unnamed: 0,Array,Chunk
Bytes,1.39 GiB,128.00 MiB
Shape,"(1200000, 312)","(107546, 312)"
Dask graph,12 chunks in 2 graph layers,12 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray
"Array Chunk Bytes 1.39 GiB 128.00 MiB Shape (1200000, 312) (107546, 312) Dask graph 12 chunks in 2 graph layers Data type float32 numpy.ndarray",312  1200000,

Unnamed: 0,Array,Chunk
Bytes,1.39 GiB,128.00 MiB
Shape,"(1200000, 312)","(107546, 312)"
Dask graph,12 chunks in 2 graph layers,12 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray


2\. Посчитайте и выведите на экран среднее значение всех элементов массива. Исследуйте, как влияет значение аргумента `chunks` при создании `dask.array` на скорость выполнения операции поиска среднего. 

Пусть $M$ - количество строк в массиве, $N$ - количество столбцов в массиве, `chunks=(r,c)`. Сравните несколько вариантов:
* $r=M$, $с \ll N$ , 
* $r \ll M$, $c=N$ 
* $r = M$, $c = N$ 
* значения $r, c$ по умолчанию.

Выберите наиболее оптимальные значения $r$ и  $c$ в смысле скорости вычислений и далее продолжайте работу с ними.

In [3]:
arr = da.from_array(dset, chunks=(1200000, 10))

In [4]:
%%time
arr.mean().compute()

Wall time: 22.4 s


0.0023777543

In [5]:
arr = da.from_array(dset, chunks=(12000, 312))

In [6]:
%%time
arr.mean().compute()

Wall time: 717 ms


0.0023777566

In [7]:
arr = da.from_array(dset, chunks=(1200000, 312))
arr

Unnamed: 0,Array,Chunk
Bytes,1.39 GiB,1.39 GiB
Shape,"(1200000, 312)","(1200000, 312)"
Dask graph,1 chunks in 2 graph layers,1 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray
"Array Chunk Bytes 1.39 GiB 1.39 GiB Shape (1200000, 312) (1200000, 312) Dask graph 1 chunks in 2 graph layers Data type float32 numpy.ndarray",312  1200000,

Unnamed: 0,Array,Chunk
Bytes,1.39 GiB,1.39 GiB
Shape,"(1200000, 312)","(1200000, 312)"
Dask graph,1 chunks in 2 graph layers,1 chunks in 2 graph layers
Data type,float32 numpy.ndarray,float32 numpy.ndarray


In [22]:
ar = arr.compute()

In [8]:
%%time
arr.mean().compute()

Wall time: 1.99 s


0.0023777678

## Наиболее оптимальное значение при r=M и с=N

3\. Опишите пространство, в котором расположены эмбеддинги, посчитав минимальное и максимальное значение для каждой из координат. Сведите результаты в таблицу `pd.DataFrame`, состоящую из двух строк и 312 столбцов. Задайте индексы строк "min" и "max". Названия столбцов сделайте вида $x_i$. Выведите полученную таблицу на экран.

Решите задачу двумя способами. В первом варианте сделайте два вызова метода `compute` для расчета каждого из векторов максимальных и минимальных значений. Во втором варианте сделайте один вызов функции `dask.compute` для одновременного расчета двух векторов. Сравните время выполнения двух решений.

## Первый способ

In [9]:
%%time
mn = da.min(arr, axis=0)
mx = da.max(arr, axis=0)
da.compute(
    mn,mx
)

Wall time: 3.36 s


(array([-0.13280304, -0.14905587, -0.09446791, -0.1916968 , -0.11422908,
        -0.11434078, -0.09603858, -0.11517793, -0.15727527, -0.1167149 ,
        -0.11471461, -0.15019277, -0.0796339 , -0.0945342 , -0.09285595,
        -0.13958164, -0.09811686, -0.0975826 , -0.10431358, -0.05787669,
        -0.13606346, -0.12994963, -0.14080842, -0.16251615, -0.07816251,
        -0.08777131, -0.15673235, -0.1112382 , -0.11480374, -0.08176571,
        -0.11284319, -0.16102342, -0.11257177, -0.15000317, -0.12035861,
        -0.0584373 , -0.11112811, -0.15351729, -0.22966738, -0.14327545,
        -0.1974432 ,  0.03151742, -0.09751797, -0.129823  , -0.10871614,
        -0.13429932, -0.07607475, -0.14919333, -0.07580777, -0.16950257,
        -0.11487022, -0.15702714, -0.1671625 , -0.10305755, -0.21833259,
        -0.08830633, -0.05387363, -0.09623961, -0.12235058, -0.09821943,
        -0.04651169, -0.08259498, -0.11942946, -0.0804956 , -0.11324544,
        -0.0824606 , -0.14259079, -0.11750264, -0.1

## Второй способ

In [10]:
%%time
mn = da.min(arr, axis=0).compute()
mx = da.max(arr, axis=0).compute()
mn, mx

Wall time: 1.75 s


(array([-0.13280304, -0.14905587, -0.09446791, -0.1916968 , -0.11422908,
        -0.11434078, -0.09603858, -0.11517793, -0.15727527, -0.1167149 ,
        -0.11471461, -0.15019277, -0.0796339 , -0.0945342 , -0.09285595,
        -0.13958164, -0.09811686, -0.0975826 , -0.10431358, -0.05787669,
        -0.13606346, -0.12994963, -0.14080842, -0.16251615, -0.07816251,
        -0.08777131, -0.15673235, -0.1112382 , -0.11480374, -0.08176571,
        -0.11284319, -0.16102342, -0.11257177, -0.15000317, -0.12035861,
        -0.0584373 , -0.11112811, -0.15351729, -0.22966738, -0.14327545,
        -0.1974432 ,  0.03151742, -0.09751797, -0.129823  , -0.10871614,
        -0.13429932, -0.07607475, -0.14919333, -0.07580777, -0.16950257,
        -0.11487022, -0.15702714, -0.1671625 , -0.10305755, -0.21833259,
        -0.08830633, -0.05387363, -0.09623961, -0.12235058, -0.09821943,
        -0.04651169, -0.08259498, -0.11942946, -0.0804956 , -0.11324544,
        -0.0824606 , -0.14259079, -0.11750264, -0.1

In [11]:
df = pd.DataFrame(list(zip(mn,mx))).T
df.index = ['min', 'max']

In [12]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,302,303,304,305,306,307,308,309,310,311
min,-0.132803,-0.149056,-0.094468,-0.191697,-0.114229,-0.114341,-0.096039,-0.115178,-0.157275,-0.116715,...,-0.103254,-0.122285,-0.149789,-0.127703,-0.094802,-0.11969,-0.141425,-0.123732,-0.081543,-0.227348
max,0.135038,0.076125,0.157854,0.030987,0.101192,0.111774,0.147497,0.173821,0.099808,0.115573,...,0.119518,0.197589,0.113135,0.13649,0.162921,0.099021,0.086653,0.158176,0.166968,0.048967


4\. Найдите вектор $x \ne x_{256}$ из набора данных, ближайший к вектору $x_{256}$ в смысле метрики $L_1$. Выведите на экран первые 10 координат вектора $x$.

$$d_1(\textbf{x},\textbf{y})=\sum_{k=1}^{n}{|x_k - y_k|}, \textbf{x}, \textbf{y} \in \mathbb{R}^n$$

In [13]:
arr_256 = arr[:, 255]
arr1 = arr.T
arr1 = abs(da.subtract(arr1, arr_256))
s = da.sum(arr1, axis=1)
s1 = s[s!=0]
mn = da.min(s1)
#mn = da.argmin(s1)
mn.compute()

32032.639

In [14]:
arr[15,:10].compute()

array([-0.03955906,  0.00647067,  0.02269384, -0.08420704, -0.00360685,
       -0.01134263, -0.01475033,  0.05443913,  0.01077477, -0.02883131],
      dtype=float32)

5\. Рецепты разбиты на 4 группы. Загрузите маску для разбиения на группы из датасета `mask` из файла `recipe_embeddings.h5` в виде `dask.array`. Для каждой группы посчитайте и выведите на экран максимальное значение  нормы $\ell_1$ векторов рецептов, принадлежащих к этой группе. 

Подсказка: закодируйте маску принадлежности к группе при помощи метода кодирования one-hot encoding и воспользуйтесь механизмом распространения.

$$\ell_1: ||\textbf{x}||_1=\sum_{k=1}^{n}{|x_k|}, \textbf{x} \in \mathbb{R}^n$$

In [104]:
hdf = h5py.File("recipe_embeddings.h5", "r")
dset = hdf['mask']
arr1 = da.from_array(dset)
a = arr1.compute()

In [106]:
len(a)

1200000

In [71]:
df = pd.DataFrame(list(zip(a, ar)),
                  columns=['mask', 'embeddings'])

In [24]:
df

Unnamed: 0,mask,embeddings
0,0,"[-0.015978599, -0.034536354, 0.03090704, -0.09..."
1,0,"[0.0026621816, 0.013695833, 0.008942296, -0.04..."
2,1,"[0.016719278, -0.021457268, -0.00982465, -0.08..."
3,0,"[0.028780375, -0.012865529, 0.04704835, -0.064..."
4,2,"[0.020745065, -0.009229866, 0.030271918, -0.07..."
...,...,...
1199995,1,"[-0.027420517, -0.03409488, 0.033854954, -0.10..."
1199996,0,"[0.029103432, 0.0040526385, 0.059565574, -0.11..."
1199997,0,"[-0.025125941, -0.034792326, 0.040209778, -0.0..."
1199998,1,"[0.033667147, -0.07862837, 0.035144974, -0.095..."


In [72]:
df['embeddings'] = df['embeddings'].apply(lambda c: abs(c.sum()))
df.groupby(['mask']).max()

Unnamed: 0_level_0,embeddings
mask,Unnamed: 1_level_1
0,0.894194
1,0.888202
2,0.890275
3,0.855774


6\. Пусть $X=[\textbf{x}_1,...\textbf{x}_M]^\top$ - матрица эмбеддингов рецептов размера $M\times N$, $W=[\textbf{w}_1,...,\textbf{w}_N]^\top$ - матрица коэффициентов некоторой модели машинного обучения размера $N\times 4$, $y=[y_1,...,y_M]^\top$ - вектор размера $M$, содержащий номера групп рецептов (метки классов). Тогда задачу классификации можно решить следующим образом: $$\hat{y_i} = argmax_j{<X_{i\cdot}, W_{\cdot j}>}$$ где $A_{i\cdot}$ обозначает $i$ строку матрицы, $A_{\cdot j}$ обозначает $j$ столбец матрицы, $\hat{y_i}$ - прогноз класса для рецепта $i$, $<\cdot, \cdot>$ - скалярное произведение векторов.

Инициализируйте матрицу $W$ случайным образом и получите прогнозы для всех рецептов при помощи этой матрицы и матрицы эмбеддингов. Подсчитайте и выведите на экран значение accuracy на основе полученных прогнозов $\hat{y}$ и правильных ответов $y$.

In [116]:
X = arr
W = da.random.random((312, 4))
y = a
X.shape

(1200000, 312)

In [120]:
y_pred = da.argmax(da.dot(X,W),axis=1)

In [121]:
from sklearn.metrics import accuracy_score
accuracy_score(y, y_pred)

0.3716075

7\. Сингулярным разложением (SVD) матрицы $A$ размера $M\times N$ называется разложение вида $A = USV^\top$, где $U$ - матрица размера $M\times N$  ортонормированных векторов произведения $AA^\top$, $V^T$ - транспонированная матрица размера $N\times N$ ортонормированных векторов произведения $A^\top A$, $S$ - диагональная матрица сингулярных значений размера $N\times N$.

SVD может быть использовано для понижения размерности векторов. Для этого от матрицы $U$ оставляют первые $k$ столбцов $U_{\cdot,:k}$, от матрицы $S$ оставляют левый верхний квадрат размера $k\times k$ $S_{:k,:k}$ и вычисляется произведение $\hat{A} = U_{\cdot,:k}S_{:k,:k}$

Выберите эмбеддинги тех рецептов, которые относятся к группе с номеров 3, и уменьшите их размерность до 64 при помощи реализации алгоритма SVD из пакета `dask.array.linalg`. Выведите количество строк и столбцов полученного массива.

Примечание: после отбора рецепта, принадлежащих третьей группе, вызовите у полученного массива метод `compute_chunk_sizes`, чтобы `dask` обновил метаинформацию в этом массиве. 

In [133]:
dc = dict(zip(y, X))
len(dc)

4

In [129]:
df = pd.DataFrame(list(zip(a, ar)),
                  columns=['mask', 'embeddings'])

In [130]:
df1 = df[df['mask']==3]
df1

Unnamed: 0,mask,embeddings
34,3,"[0.015851904, -0.04754907, 0.04722089, -0.0395..."
76,3,"[0.04937441, -0.017285338, 0.029222712, -0.063..."
107,3,"[-0.03255851, -0.026145615, 0.092743054, -0.13..."
178,3,"[0.03982068, 0.022444904, 0.014051031, -0.0559..."
227,3,"[-0.03078365, -0.030726478, 0.060431868, -0.08..."
...,...,...
1199200,3,"[-0.013487248, -0.078241155, 0.024188606, -0.0..."
1199709,3,"[0.009589391, -0.013597075, 0.094544694, -0.12..."
1199777,3,"[-0.025038606, 0.03287174, 0.0056541776, -0.03..."
1199795,3,"[-0.0059945676, -0.03023665, 0.07064198, -0.11..."


8\. Используя эмбеддинги уменьшенной размерности, полученные в задании 6, посчитайте косинусное сходство между каждой парой рецептов третьей группы. Выведите матрицу косинусного сходства на экран.

9\. Посчитайте и выведите на экран количество рецептов, для которых рецепт с индексом `242` входит число топ-5 ближайших рецептов в смысле косинусной близости. При поиске топ-5 рецептов для конкретного рецепта считайте, что он сам в это число не входит.

10\. Графом называется совокупность двух множеств $G=(V,E)$: множества $V=\{v_1, ..., v_M\}$ узлов и множества ребер $E=\{(v_i, v_j)|v_i\in V, v_j\in V\}$, соединяющих эти узлы. Матрицей смежности невзвешенного графа называется квадратная матрица $A=[a_{ij}]$, в которой ${a_{ij}}$ обозначает количество ребер, соединяющих вершины $i$ и $j$.

Постройте матрицу смежности для графа рецептов на основе матрицы косинусного сходства между каждой парой рецептов. Будем считать, что между двумя рецептами в этом графе существует ребро, если косинусное сходство между двумя этими рецептами не менее 0.85. Петли (ребра из вершины в саму в себя) в графе должны отсутствовать. Посчитайте и выведите на экран количество ребер в данном графе. Проверьте, является ли полученная матрица смежности симметричной.

Примечание: считайте, что два различных рецепта не могут иметь косинусное сходство, равное 1.

11\. Работая с исходным файлом в формате `h5`, реализуйте алгоритм подсчета среднего вектора датасета в блочной форме.

Блочный алгоритм вычислений состоит из двух частей:
1. Загрузка фрагмента за фрагментом данных и проведение вычислений над этим фрагментом
2. Агрегация результатов вычислений на различных фрагментах для получения результата на уровне всего набора данных

Важно: при работе с `h5` в память загружаются не все элементы, а только те, которые запрашиваются в данный момент. При работе с `h5` вы можете работать с массивами `numpy.array`. Для итерации по сегментам файла допускается использование циклов.

Сравните время и результаты решения работы вашего алгоритма с реализацией поиска среднего вектора из `dask`. 