# Творческая работа Dask

## 1.Dask это

**Dask** - библиотека Python с открытым исходным кодом для параллельных вычислений, масштабирующая код с многоядерных
локальных компьютеров до распределенных кластеров в облаке.Предоставляет пользовательский интерфейс, схожий с Pandas,
scikit-learn и NumPy, а также низкоуровневые API для параллельного запуска алгоритмов. Создана Мэтью Роклином в декабре 2014
года, с более чем 9,8 тыс. звезд и 500 участников на GitHub. Используется различными организациями, включая Walmart, Wayfair,
JDA, GrubHub, General Motors, Nvidia, Harvard Medical School, Capital One и NASA.

## 2.Dask в Python предоставляет следующие возможности:

* **1. Параллельные вычисления:** Dask позволяет выполнять вычисления параллельно на многопроцессорных системах, что ускоряет выполнение задач.

* **2. Работа с большими данными:** Dask позволяет работать с данными, не помещающимися в оперативную память, благодаря инкрементному вычислению и ленивой загрузке данных.

* **3. Масштабируемость:** Dask позволяет масштабировать вычисления от одного компьютера до кластера из сотен или тысяч узлов.

* **4. Интеграция с экосистемой Python:** Dask хорошо интегрируется с другими библиотеками Python, такими как NumPy, Pandas, scikit-learn и другими.

* **5. Удобный API:** Dask предоставляет удобный API для выполнения параллельных вычислений, который похож на API других популярных библиотек.

* **6. Поддержка различных типов вычислений:** Dask поддерживает как высокоуровневые операции над данными (например, фильтрацию, агрегацию), так и низкоуровневые операции (например, распределенные массивы и вычисления).


## 3.Примеры использования

* 1.Функция **delayed** в библиотеке Dask позволяет создавать отложенные вычисления, что упрощает параллельную обработку данных. Когда вы вызываете функцию delayed для оборачивания функции или операции, Dask не выполняет её немедленно, а создает граф задач, который представляет последовательность операций, которые нужно выполнить. Таким образом, функция delayed в Dask помогает управлять вычислениями, оптимизировать их выполнение и эффективно работать с данными в параллельной среде.


In [None]:
import dask
# Создаем список чисел
data = [1, 2, 3, 4, 5]
# Импортируем функцию из Dask
from dask import delayed
# Применяем операцию возведения числа в квадрат к каждому элементу списка с помощью delayed
squared_results = [delayed(pow)(x, 2) for x in data]
# Вычисляем результаты
results = dask.compute(*squared_results)
print(results)


* 2.Функция **compute** в библиотеке Dask используется для явного запуска вычислений, представленных в виде отложенных задач или графа задач. Когда вы создаете последовательность операций с помощью delayed, compute используется для фактического выполнения этих операций и получения результата. При вызове z.compute(), Dask выполнит все операции, представленные в графе задач, и вернет итоговый результат. Это позволяет эффективно управлять вычислениями и получать результаты отложенных операций.
Таким образом, функция compute в Dask играет ключевую роль в выполнении отложенных вычислений и получении результатов для дальнейшего анализа или обработки данных.

In [None]:
from dask import delayed
# Оборачиваем функцию для отложенного выполнения
def add(a, b):
    return a + b
# Создаем граф задач
x = add(1, 2)
y = add(3, 4)
z = add(x, y)
# Выполняем граф задач и получаем результат
result = z.compute()
print(result)  # Вывод: 10


* 3.  **dask.array** - это инструмент, который помогает работать с большими массивами данных, как если бы это были обычные массивы чисел, но с дополнительными возможностями. Он позволяет делать вычисления на таких массивах быстрее и эффективнее.
dask.array разбивает массив данных на кусочки и выполняет вычисления параллельно, что позволяет использовать все ядра процессора и ускорить работу с данными. Также он позволяет работать с данными, которые не помещаются целиком в оперативной памяти компьютера.
Простыми словами, dask.array делает работу с большими массивами данных более удобной и эффективной, позволяя выполнять операции быстрее и использовать ресурсы компьютера более эффективно.

In [None]:
import dask.array as da

# Создание случайного массива данных с помощью dask.array
x = da.random.random((1000, 1000), chunks=(100, 100))

# Вычисление среднего значения по столбцам и строкам
mean_col = x.mean(axis=0).compute()
mean_row = x.mean(axis=1).compute()

# Вычисление суммы всех элементов массива
total_sum = x.sum().compute()

print("Среднее значение по столбцам:", mean_col)
print("Среднее значение по строкам:", mean_row)
print("Сумма всех элементов массива:", total_sum)
