# Dask Delayed

Материалы:
* Макрушин С.В. Лекция 13: Dask Delayed
* https://docs.dask.org/en/latest/delayed.html
* Jesse C. Daniel. Data Science with Python and Dask.


## Задачи для совместного разбора

Multiprocessing - есть задача, мы ее пилим на подзадачи, каждую подзадачу решает процесс, а главный процес собирает результаты. Процессы между собой никак не связаны.
Multithreading - создаются потоки внутри одного процесса, которые можно понимать как сильно облегченную версию подпроцессов. У них общая память, общие ресурсы, их проще создать и манипулировать ими. 
Если потоки создавать проще, то смысл использовать процессы? Нужно понимать, что такое GIL (надо почитать о нем) - это такой лог в Multithreading, который не дает потокам работать параллельно. У нас есть один процесс, мы внутри него создали потоки, хотим, чтобы работали параллельно, но мешают питон и гил, который является фишкой конкретной реализации CPython. Приводит это к тому, что распараллелить алгоритм, используя потоки, в питоне не всегда возможно.

![](https://i.imgur.com/AwiN8y6.png)
![](https://i.imgur.com/ceY6guU.png)

1. Напишите 2 функции, имитирующие CPU-bound задачу и IO-bound задачу:

`cpu_task()`: генерирует 100 тыс. случайных чисел и возвращает их сумму (без использования `numpy`)

`io_task()`: "спит" 0.1 сек, затем генерирует случайное число и возвращает его

Замерьте время выполнения 100 последовательных вызовов каждой из этих функций. Распараллелив вычисления при помощи `dask.delayed`, сократите время выполнения. Исследуйте, как зависит время вычислений от выбранного планировщика `scheduler`.

In [2]:
#CPU-bound - огромный массив чисел и надо что-то посчитать, например
#IO-bound - например, захотели зайти на какой-то любимый сайт, нажали enter и ждем

import random
import time

def cpu_task():
    lst = [random.randint(0, 10) for _ in range(100_000)]
    return sum(lst)

def io_task():
    time.sleep(0.1)
    return random.randint(0, 10)

In [3]:
cpu_task()

500163

In [7]:
%%time
res = [cpu_task() for _ in range(100)]

Wall time: 7.73 s


In [8]:
%%time
res = [io_task() for _ in range(100)]

Wall time: 10.9 s


In [21]:
from dask import delayed
from dask import compute

In [11]:
cpu_task_delayed = delayed(cpu_task) #декорируем функцию, НЕ РЕЗУЛЬТАТ

In [12]:
cpu_task_delayed() #делаем вызов задекорированной функции и получаем объект Delayed

Delayed('cpu_task-bb348857-0b8f-45ed-8ba3-04a88352081c')

In [18]:
cpu_task_delayed().compute()

500158

In [25]:
%%time
res = [cpu_task_delayed() for _ in range(100)]
res_computed = compute(res) #результат получился таким же или даже хуже по времени
#здесь вызов функции не распараллелился нормально, потому что оу нас был список, но мы можем исправить это так:

Wall time: 7.56 s


In [27]:
%%time
res = [cpu_task_delayed() for _ in range(100)]
res_computed = compute(res, sheduler = 'multiprocessing')

Wall time: 7.42 s


In [28]:
io_task_delayed = delayed(io_task)

In [29]:
%%time
res = [io_task_delayed() for _ in range(100)]
res_computed = compute(res)

Wall time: 1.42 s


In [30]:
%%time
res = [io_task_delayed() for _ in range(100)]
res_computed = compute(res, sheduler = 'multiprocessing')

Wall time: 1.43 s


Мораль - декоратор благодаря которым мы делаем функцию отложенным. Чтобы получить результат - комппьютим. Мы можем делать граф, а не сразу вычислять. Нужно четко понимать, какую задачу решаем, чтобы понять, столкнемся с GIL или нет.

## Лабораторная работа 14

1. Напишите функцию, которая считывает файл формата xml из каталога `reviewers_full` и по данным этого файла формирует список словарей, содержащих следующие ключи: `id`, `username`, `name`, `sex`, `country`, `mail`, `registered`, `birthdate`, `name_prefix`, `country_code`. Часть из этих значений в исходном файле хранится в виде тэгов, часть - в виде атрибутов тэгов. Для конкретного человека какие-то из этих ключей могут отсутствовать. 



2. Измерьте время выполнения функции из задания 1 на всех файлах из каталога `reviewers_full`. Ускорьте время выполнения, используя `dask.delayed`.

3. Задекорируйте функцию из задания 1 при помощи `dask.delayed` и создайте список `reviewers`, состоящий из 5 объектов `delayed` (по одному объекту на файл). Из списка объектов `delayed`, создайте `dask.bag` при помощи метода `db.from_delayed`. Добавьте ключ `birth_year`, в котором хранится год рождения человека. Оставьте в выборке только тех людей, которые __наверняка__ моложе 1980 года. Преобразуйте поле `id` к целому типу.

4. Из `dask.bag`, полученного в задании 3, создайте `dask.dataframe` при помощи метода `bag.to_dataframe`. Укажите столбец `id` в качестве индекса.

5. Назовем отзыв негативным, если оценка равна 0, 1 или 2. Загрузите данные о негативных отзывах из файлов архива `reviews_full` (__ЛР12__) в виде `dask.DataFrame`. Посчитайте количество отзывов с группировкой по пользователю, оставившему отзыв. Объедините результат с таблицей, полученной в задаче 4.

#### [версия 2]
* Уточнена формулировка задачи 1