## Параллельная симуляция. Часть 3

Курс «Программное моделирование вычислительных систем»

> Григорий Речистов grigory.rechistov@phystech.edu

> > 28 апреля 2014 г.



- 1 Обзор
- 2 Атомарные инструкции
- 3 Модели памяти
- 4 Примеры симуляторов
- 5 Литература
- 6 Конец



#### На прошлой лекции

- Оптимистичные схемы
- Откат состояния
- Time Warp и virtual time



## На прошлой лекции

- Оптимистичные схемы
- Откат состояния
- Time Warp и virtual time
- Вопрос: как выполнять вывод (printf) в оптимистичной симуляции?



## Общая схема моделируемой системы

| Хозяйский поток 1 | Хозяйский поток 2 | Хозяйский<br>поток <i>N</i> |  |  |  |
|-------------------|-------------------|-----------------------------|--|--|--|
| Процессор 1       | Процессор 3       | Процессор $K-1$             |  |  |  |
| Процессор 2       | Процессор 4       | Процессор К                 |  |  |  |
|                   |                   | 1                           |  |  |  |
| Устройство А      | Устройство В      | Устройство Ю                |  |  |  |
| Устройство Б      | Устройство Г      | Устройство Я                |  |  |  |
| Очередь 1         | Очередь 2         | Очередь <i>N</i>            |  |  |  |
|                   | Общая память      |                             |  |  |  |
|                   | l I               | İI                          |  |  |  |



#### Атомарные инструкции



- Read–Modify–Write для ячейки в памяти
- Средства реализации семафоров
- «Дорогие» для исполнения



## Атомарные инструкции



- Read-Modify-Write для ячейки в памяти
- Средства реализации семафоров
- «Дорогие» для исполнения
- Вопрос: нужны ли атомарные инструкции для однопроцессорных систем?



## Симуляция инструкций

- 1 Использование хозяйских инструкций
- 2 Использование критических секций
- Использование транзакций



## Использование хозяйских инструкций

- Разные ISA для атомарных инструкций (напр. IA-32 больше 10 инструкций, ARM две)
- Не все атомарные операции одинаково сильны (consensus number) [1]
  - ∞ Mem-Mem, CAS, LL/SC
  - 2 TAS, SWAP, FAA
  - 1 атомарное чтение и запись
- Метод наиболее удобен в случаях совпадения архитектур хозяина и гостя



#### Использование критических секций

 Хозяйская критическая секция для моделирования одной атомарной операции



#### Использование критических секций

- Хозяйская критическая секция для моделирования одной атомарной операции ... но это не работает
- Пример [2]: взятие семафора с помощью CAS, освобождение — с помощью атомарной записи





## Использование транзакций

- Не предотвращать, а детектировать гонки данных
- Повторять попытку атомарной операции в случае неуспеха
- Используются хозяйские инструкции CAS или (лучше)
   LL/SC



## Консистентность памяти

- Между процессорами и ОЗУ может лежать несколько буферов (кэши, очереди)
- Возможны ситуации, в которых разные процессоры «видят» разные значения для одних и тех ячеек
- Правила, которые определяют допустимые порядки видимости значений для архитектуры — модель консистентности памяти



#### Консистентность памяти

- Между процессорами и ОЗУ может лежать несколько буферов (кэши, очереди)
- Возможны ситуации, в которых разные процессоры «видят» разные значения для одних и тех ячеек
- Правила, которые определяют допустимые порядки видимости значений для архитектуры — модель консистентности памяти
- Модели консистентности различаются между собой



## Отношение строгости





## Что же делать? Барьеры памяти

- Устанавливают частичный порядок для операций
- Т.е. какие из доступов в каком направлении могут опережать соседние
- Чтение, запись, доступ к устройствам, чтение инструкций
- Примеры инструкций: sfence, lfence, mfence; mf, ld.acq, ld.rel; eioeio, sync; cpuid
- Атомарные инструкции не обязательно являются барьерами!



Из [4]

|                      | Loads Reordered After Loads? | Loads Reordered After Stores? | Stores Reordered After Stores? | Stores Reordered After Loads? | Atomic Instructions Reordered With Loads? | Atomic Instructions Reordered With Stores? | Dependent Loads Reordered? | A Incoherent Instruction Cache/Pipeline? |
|----------------------|------------------------------|-------------------------------|--------------------------------|-------------------------------|-------------------------------------------|--------------------------------------------|----------------------------|------------------------------------------|
| Alpha                | Y                            | Y                             | Y                              | Y                             | Y                                         | Y                                          | Y                          | Y                                        |
| AMD64                |                              |                               |                                | Y                             |                                           |                                            |                            |                                          |
| ARMv7-A/R            | Y                            | Y                             | Y                              | Y                             | Y                                         | Y                                          | у                          | Y                                        |
| IA64                 | Y                            | Y                             | Y                              | Y                             | Y                                         | Y                                          |                            | Y                                        |
| (PA-RISC)            | Y                            | Y                             | Y                              | Y                             |                                           |                                            |                            |                                          |
| PA-RISC CPUs         |                              |                               |                                |                               |                                           |                                            |                            |                                          |
| POWER                | Y                            | Y                             | Y                              | Y                             | Y                                         | Y                                          |                            | Y                                        |
| (SPARC RMO)          | Y                            | Y                             | Y                              | Y                             | Y                                         | Y                                          |                            | Y                                        |
| (SPARC PSO)          |                              |                               | Y                              | Y                             |                                           | Y                                          |                            | Y                                        |
| SPARC TSO            |                              |                               |                                | Y                             |                                           |                                            |                            | Y<br>Y<br>Y<br>Y<br>Y<br>Y               |
| x86                  |                              |                               |                                | Y                             |                                           |                                            |                            | Y                                        |
| (x86 OOStore)        | Y                            | Y                             | Y                              | Y                             |                                           |                                            |                            | Y                                        |
| zSeries <sup>®</sup> |                              |                               |                                | Y                             |                                           |                                            |                            | Y                                        |



## Практические параллельные симуляторы

- Simics
- Graphite
- SimOS
- Coremu
- Pqemu
- BigSim
- DynamoRIO



## Дополнительные вопросы параллельной симуляции

- Параллельная двоичная трансляция
- Распределённая общая память



## Дополнительные вопросы параллельной симуляции

- Параллельная двоичная трансляция
- Распределённая общая память
- Почему параллельная симуляция настолько сложна?



- Параллельная двоичная трансляция
- Распределённая общая память
- Почему параллельная симуляция настолько сложна?
   «...необходимо определить, может или нет сообщение E<sub>1</sub>
   быть обработано одновременно с E<sub>2</sub>. Но каким образом узнать, влияет или нет E<sub>1</sub> на E<sub>2</sub>, без его симуляции?»





Maurice Herlihy. "Wait-Free Synchronization" http:
//cs.brown.edu/~mph/Herlihy91/p124-herlihy.pdf



Zhaoguo Wang et al. COREMU: a Scalable and Portable Parallel Full-System Emulator http://ppi.fudan.edu.cn/\_media/publications%3Bcoremu-ppopp11.pdf,



Kourosh Gharachorloo Memory Consistency Models for Shared-Memory Multiprocessors. http://infolab.stanford.edu/pub/cstr/reports/csl/ tr/95/685/CSL-TR-95-685.pdf



Paul E. McKenney Memory Barriers: a Hardware View for Software Hackers http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.152.5245









# Спасибо за внимание!

Материалы курса выкладываются на сайте

http://iscalare.mipt.ru/material/course\_materials/

Замечание: все торговые марки и логотипы, использованные в данном материале, являются собственностью их владельцев. Представленная здесь точка зрения отражает личное мнение автора, не выступающего от лица какой-либо организации.

