# Лекция 10: введение в параллельные вычисления

Сначала рассмотрим параллельные вычисления в общем, какие бывают и как реализуются, а в дальнейшем перейдём к использованию их на Python.

## Concurrency и параллелизм

* Про важность темы в дальнейшем.
* Введение про переход от последовательных к параллельным программам, сложности.

Основные логические элементы:

* Processing Unit (PU, processor, процессор, обработчик)
* Data (данные, память)
* Instruction (инструкции, команды, процессы)

Пара определений (важно разделять понятия):
* Concurrency - про совместное, но не обязательно параллельное выполнение задач (логическое разделение процессов в системах, в т.ч. для совместного выполнения).
* Параллелизм - про одновременное параллельное выполнение задач (физическое разделение).
* В зависимости от контекста, в обсуждении параллелизм может подразумевать в т.ч. concurrency.

### Цель применения
* решение задачи за меньшее время
* решене бОльших задач, чем при последовательном выполнении

### Создание параллельного алгоритма
* Поиск параллелизма в последовательном, модификация или создание нового алгоритма
* Декомпозиция задачи на подзадачи, которые могут выполняться параллельно
* Анализ зависимостей между задачами

### Реализация параллельной программы
* Распределение задач между процессорами
* Организация взаимодействия подзадач
* Учет архитектуры целевой параллельной системы
* Запуск, измерение и анализ показателей эффективности

### Характерно для параллелизма в операционных системах, серверах и GUI

* Данность: много разных процессов, асинхронность
* Безопасное разделение и оптимальное использование ресурсов между многими процессорами
* Акцент на пропускной способности и времени отклика

### Характерно для параллелизма в параллельных вычислениях

* Процессы надо найти внутри алгоритма
* Изоляция процессов друг от друга не так важна
* Минимизация времени выполнения одной программы

### Режимы выполнения параллельной программы

#### Многозадачный режим
  * Режим разделения времени
  * Активен только один процесс
  * Примеры: многозадачность в однопроцессорной среде, корутины.

#### Параллельное выполнение
  * Многопроцессорная система
  * Конвейерные и векторные устройства
  * Пример технологий: обычная параллельность (OpenMP), гетерогенное выполнение (OpenCL, CUDA), ручные реализации.

#### Распределенные вычисления
  * Несколько независимых машин
  * Влияние сети на скорость обмена данными, отказы и т.п.
  * Примеры технологий: OpenMPI, MapReduce, ручные реализации.

### Примеры параллельных программ и систем

- Загрузку данных по сети
- Математические операции на матрицах и векторах
- Обработка и вывод данных пользователю в локальной программе
- Обработка данных в формате, который можно параллельно обрабатывать
- Веб-сервер
- Интернет

## Параллельные вычислительные системы

### Классификация Флинна

#### Общая таблица

![Общая таблица таксономии Флинна](flynn_taxonomy_01.png)

#### Детали по каждому из классов

![Детальная таблица таксономии Флинна](flynn_taxonomy_02.png)

### Детализация  класса MIMD

* Системы с общей разделяемой памятью (мультипроцессоры)
* Системы с распределённой памятью (мультикомпьютеры)
* Гибридные системы

#### Общая разделяемая память

##### Симметричные мультипроцессоры

![Symmetric multiprocessors](shared_memory_systems_01.png)

##### Неоднородный доступ к памяти

![NUMA system](shared_memory_systems_02.png)

##### Преимущества и недостатки систем с общей памятью

Преимущества:
* Привычная модель программирования
* Высокая скорость обмена данными

Проблемы:
* Синхронизация при доступе к общим данным
* Когерентность кэшей, ложное разделение данных
* Масштабируемость
* Эффективное использование памяти в NUMA

#### Распределённая память

* Процессоры (Cell (у каждого из ядер этого процессора есть локальная память и с ней работает))
* Массивно-параллельные системы (MPP, много ядер и памяти в одной системе)
* Кластеры (много самостоятельных узлов рядом)
* Network of workstations (NOW, много самостоятельных рабочих станций рядом)
* Grid (много распределённых на большой площади самостоятельных вычислительных узлов)

##### Преимущества и недостатки систем с распределённой памятью 

Преимущества:
* Низкая стоимость
* Высокая масштабируемость
* Меньше проблем с синхронизацией
* Декомпозиция на крупные подзадачи

Проблемы:
* Необходимость использования сообщений
* Высокие временные задержки и низкая пропускная способность
* Неоднородность, отказы узлов

## Принципы разработки параллельных алгоритмов

### Прежде чем начать

* Стоит ли задача усилий?
* Оптимизирован ли код?
* Используется ли эффективный алгоритм?
* Какие задачи наиболее интенсивны в вычислительном соотношении?
* Есть ли там параллелизм?
* Есть ли готовые параллельные реализации?

### Методология PCAM

* Partition - декомпозиция на подзадачи
* Communicate - анализ зависимостей и организация взаимодействия между подзадачами
* Выбор вычислительной системы
* Agglomerate - масштабирование подзадач
* Map - Распределение подзадач между процессорами

![PCAM methodology](pcam_methodology.png)

#### Первый этап PCAM: декомпозиция на подзадачи

* Выявление возможностей для параллельного выполнения
* Размер подзадач выбирается минимальным (максимально возможное число подзадач, далее могут быть укрупнены)
* Виды декомпозиции:
  * По данным (domain decomposition)
  * Функциональная (functional decomposition)
* Избегание дублирования вычислений и данных

##### Выбор структуры алгоритма:

* Существуют типовые структуры параллельных алгоритмов
  * см. книгу Patterns for Parallel Programming в рекомендованных
* Декомпозиция:
  * По заданиям
  * По данным
  * По потокам данных
* Комбинация нескольких структур
  * Последовательность, иерархия, композиция


##### Декомпозиция на задания

![Task parallelism](task_decomposition_01.png)

###### Task parallelism

Задачи и примеры:
* Монте-Карло, рендеринг
  * Большое количество заданий, нет зависимостей
(embarassingly parallel)

* Молекулярная динамика
  * Вычисление сил, действующих на атом ~ O(n*N), n << N
  * Требуется координация ~ O(N)

* Метод «ветвей и границ» (branch and bound)
  * Обход и разбиение множества решений в соответствии с правилами отсева и ветвления
  * Динамическое порождение заданий
  * Не требуется выполнение всех заданий

![Divide and Conqueror](task_decomposition_02.png)

###### Divide and Conquer

![Divide and conqueror recursive scheme](divide_and_conqueror_01.png)

Особенности:
* Степень параллелизма изменяется в ходе выполнения алгоритма
* Операции split и merge могут стать узким местом (см. закон Амдала)
* Задания порождаются динамически
* Очень большое количество заданий может привести к значительным накладным расходам

##### Декомпозиция данных

![Geometric data decomposition](data_decomposition_01.png)

###### Геометрическая декомпозиция

![Geometric data decomposition cube sample](data_decomposition_01_01.png)

* Алгоритм организован вокруг структуры данных, разбитой на набор одновременно обновляемых областей
* Подзадачами являются обновления отдельных областей структуры данных
* Вычисления локализованы внутри области?
  * Да: независимый параллелизм, см. Task Parallelism
  * Нет: требуется разделение данных между областями

Ключевые моменты:
* Декомпозиция структуры данных на области
  * Размер подзадач обычно подбирается эмпирически
  * Форма области влияет на накладные расходы (Соотношение объема к площади поверхности)
  * Дублирование соседних точек
* Реализация обмена данными
  * Перед операцией обновления
  * Параллельно с операцией обновления

![Recursive data decomposition](data_decomposition_02.png)

###### Рекурсивные данные

* Алгоритм работает с рекурсивной структурой данных (список, дерево, граф)
  * Часто кажется, что единственный способ решения – последовательный обход структуры
  * Однако иногда возможно перестроить алгоритм так, что операции над отдельными элементами можно выполнять одновременно

##### Поток данных

![Conveyor data decomposition](data_flow_decomposition_01_01.png)

###### Конвейерная обработка

* Вычисления производятся над набором элементов данных, каждый из которых проходит несколько стадий обработки
* Регулярный, односторонний, стабильный поток данных
* Подзадачи
  * Применение операции "стадия N" к каждому элементу данных
* Примеры
  * Конвейерная обработка команд процессором
  * Обработка сигналов, фильтры, графика
  * Unix pipes

![Conveyor data decomposition visualization](data_flow_decomposition_01_02.png)

Особенности:
* Параллелизм ограничен числом стадий
* В идеале времена работы каждой стадии должны быть одинаковыми
  * Самая медленная стадия становится узким местом
  * Комбинирование и декомпозиция стадий
  * Распараллеливание медленной стадии
* Времена заполнения и опустошения конвейера

![Event based data decomposition](data_flow_decomposition_02.png)

###### Координация на основе событий

* Декомпозиция на слабосвязанные компоненты, взаимодействующие нерегулярным образом
* Ср. с конвейером
  * Не обязательно линейная структура
  * Двусторонние потоки данных
  * Нерегулярные, непредсказуемые взаимодействия
* Задания
  * Прием, обработка и отправка событий для отдельного компонента
* Примеры
  * Моделирование с дискретными событиями
  * Координация между заданиями в других шаблонах
  * Распределенные системы

Особенности:
* Сохранение порядка событий
* Высокий риск возникновения взаимной блокировки
* Нерегулярность усложняет распределение заданий по исполнителям

##### Контрольные вопросы перед завершением этапа декомпозиции на подзадачи

* Превосходит ли количество подзадач число процессоров в целевой системе как минимум на порядок?
* Не приводит ли декомпозиция к дублированию вычислений и увеличению требований к хранению данных?
* Имеют ли подзадачи сопоставимый размер?
* Увеличивается ли количество подзадач с ростом размера задачи?
* Определено ли несколько альтернативных схем декомпозиции?

#### Второй этап PCAM: анализ зависимостей и организация взаимодействия между подзадачами

##### Взаимодействие между подзадачами

* Выделение информационных зависимостей между подзадачами => операции взаимодействия
* Граф «подзадачи-каналы-сообщения»
* Минимизация числа каналов и операций взаимодействия
* Распределение операций взаимодействий между процессами, с возможностью их параллельного выполнения

##### Виды взаимодействий
* Локальные и глобальные
* Структурированные и неструктурированные
* Статические и динамические
* Синхронные и асинхронные

##### Примеры

![Subtask dependencies samples](subtask_dependencies_01.png)

##### Контрольные вопросы перед завершением этапа организации взаимодействия между подзадачами

* Является ли одинаковой интенсивность взаимодействий для всех подзадач?
* Взаимодействует ли каждая подзадача только с небольшим числом «соседей» (локальность)?
* Могут ли операции взаимодействия выполняться одновременно?
* Не препятствует ли выбранная схема взаимодействия параллельному выполнению подзадач?

#### Промежуточный этап: выбор вычислительной системы

* Соблюдение баланса между
  * Абстрактностью и переносимостью алгоритма
  * Эффективностью для целевой платформы
* На ранних стадиях разработки параллельного алгоритма лучше избегать тесной привязки к конкретной платформе
  * Алгоритм хорошо работает на целевой платформе
  * Алгоритм достаточно гибок для того, чтобы его можно было адаптировать под другие платформы и архитектуры
* Количество процессоров P
  * Можно подобрать P одинаковых подзадач
  * Можно подобрать N>>P подзадач
* Обмен данными между процессорами
  * Большой объем общих данных или интенсивные обмены данными => общая память, SMP
  * Группировка подзадач по процессорам
* Соотношение между временами вычислений и обмена данными (синхронизации)
  * Зависит от размера подзадачи и характеристик платформы

#### Третий этап PCAM: масштабирование подзадач
* Адаптация алгоритма для эффективного выполнения на целевой системе
  * Учет доступного количества процессоров
  * Уменьшение накладных расходов на взаимодействие, создание подзадач...
* Укрупнение (агломерация) подзадач
  * Какое количество подзадач выбрать?
* Репликация данных и вычислений

##### Объединение подзадач

![Subtask agglomeration](subtask_agglomerate_01.png)

##### Репликация вычислений

![Calculation replication](calculation_replication_01.png)

Гибкость:
* Отсутствие ограничений на количество подзадач
* Возможность легко увеличивать и уменьшать количество подзадач
* Возможность автоматически изменять число подзадач в зависимости от количества процессоров

##### Контрольные вопросы перед завершением этапа масштабирования подзадач

* Уменьшились ли расходы на взаимодействия в результате увеличения локальности вычислений?
* Перевешивают ли преимущества от дублирования вычислений дополнительные расходы? (для задач разного размера и разного кол-ва процессоров)
* Не ограничивает ли дублирование данных масштабируемость алгоритма?
* Имеют ли полученные подзадачи одинаковую вычислительную и коммуникационную сложность?
* Масштабируется ли по-прежнему количество подзадач с ростом размера задачи?
* Достаточно ли имеющегося в алгоритме параллелизма для текущей и будущих систем?
* Может ли количество подзадач быть далее уменьшено без нежелательных последствий?

#### Признаки хорошего алгоритма

* Возможность варьировать число и размер подзадач => параметризация подзадач
* Подзадачи должны быть достаточно крупными, чтобы компенсировать накладные расходы
* Подзадачи должны быть достаточно независимыми, чтобы координация не стала узким местом
* Время обработки подзадач должно быть примерно одинаковым для лучшей балансировки нагрузки

#### Четвёртый этап PCAM: распределение подзадач между процессорами

* Минимизация времени выполнения алгоритма
* Размещение подзадач, которые могут выполняться одновременно, на разных процессорах
* Размещение подзадач, которые часто взаимодействуют, на одном процессоре
* Равномерная загрузка процессоров


##### Тривиальное статическое планирование

* Подзадачи одинакового размера
* Фиксированное число подзадач
* Структурированные локальные и глобальные взаимодействия
* Фиксированное число процессоров
  * Однородная система
  * Гетерогенная система

##### Балансировка нагрузки

![Load balancing](load_balancing_01.png)

##### Статическое планирование с балансировкой нагрузки

* Подзадачи различного размера
* Неструктурированные взаимодействия
* Число подзадач >> числа процессоров
  * Случайное распределени
  * Циклическая схема

##### Динамическое планирование с балансировкой нагрузки

* Динамически изменяются во время выполнения алгоритма
  * Число подзадач
  * Вычислительная и коммуникационная сложность подзадач
  * Состав процессоров
* Типичные стратегии
  * Общая очередь заданий (master-worker)
  * Децентрализованная схема (work stealing)
  * Миграция вычислений

##### Контрольные вопросы перед завершением этапа распределения подзадач между процессорами
* Существует ли необходимость динамической балансировки вычислений?
* Не станет ли мастер узким местом при централизованной схеме балансировки нагрузки?
* Произведена ли оценка относительной сложности различных стратегий при динамической балансировке нагрузки?
* Имеется ли достаточно большое число подзадач при использовании случайной или циклической схем статической балансировки?

## Про парадигму Mapreduce

Рассмотрели на лекции теоретическое описание, примеры решения нескольких задач.

### Почитать и посмотреть

* MapReduce: Simplified Data Processing on Large Clusters (Jeffrey Dean, Sanjay Ghemawat)
  - 2004: http://research.google.com/archive/mapreduce-osdi04.pdf
  - 2008: http://burtonator.files.wordpress.com/2008/01/p107-dean.pdf
* Data-Intensive Text Processing with MapReduce (Jimmy Lin, Chris Dyer)
  - http://lintool.github.com/MapReduceAlgorithms/
* Design Patterns for Efficient Graph Algorithms in MapReduce (Jimmy Lin, Michael Schatz, 2010)
  - http://www.umiacs.umd.edu/~jimmylin/publications/Lin_Schatz_MLG2010.pdf  
* Открытые видеолекции ШАД по параллельным вычислениям (ниже)

## Источники материалов и самостоятельное изучение

#### Лекции по параллельному программированию
* Эта лекция сделана на основе одного из отличных курсов ШАД по курсу "Параллельные и распределённые вычисления".
* Видеолекции (теоретическая часть курса) есть в открытом доступе: https://yandexdataschool.ru/edu-process/courses/parallel  
* Советую к следующей лекции посмотреть первые три видео (можно и все, со временем, тогда будет ещё полезнее), чтобы закрепить и углубить материал, а также подготовить почву для лучшего понимания примеров на Python.
* Также во второй лекции есть моменты, которые в этой пропущены, в т.ч. некоторые теоретические основы параллельных вычислений (например, про модель параллельного алгоритма и закон Амдала).
* Хинт: можно попробовать  смотреть видео на ускорении 1.3-1.7, если получается воспринимать.

#### Welcome to the jungle
* Хорошая песня от Guns N’ Roses.
* Название второй из пары интересных заметок от Герба Саттера про состояние (на некоторый момент, в прошлом) технологий и тенденций в параллельных вычислениях.

Как всё выглядело в 2005 году:
  * The Free Lunch Is Over - A Fundamental Turn Toward Concurrency in Software по адресу http://www.gotw.ca/publications/concurrency-ddj.htm


И как в 2011-2012:
* Welcome to the Jungle по адресу https://herbsutter.com/welcome-to-the-jungle/

In the twilight of Moore’s Law, the transitions to multicore processors, GPU computing, and HaaS cloud computing are not separate trends, but aspects of a single trend – mainstream computers from desktops to ‘smartphones’ are being permanently transformed into heterogeneous supercomputer clusters. Henceforth, a single compute-intensive application will need to harness different kinds of cores, in immense numbers, to get its job done.

The free lunch is over. Now welcome to the hardware jungle.

#### Книга Foster I. Designing and Building Parallel Programs: Concepts and Tools for Software Engineering
http://www.mcs.anl.gov/~itf/dbpp/

#### Ещё несколько книг
* Foundations of Multithreaded, Parallel, and Distributed Programming by Gregory R Andrews
* Patterns for Parallel Programming by Mattson, Sanders, Massingill
* https://software.intel.com/en-us/articles/technical-books-for-multi-core-software-developers