

# Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Московский государственный технический университет имени Н. Э. Баумана

(национальный исследовательский университет)» (МГТУ им. Н. Э. Баумана)

| ФАКУЛЬТЕТ «Информатика и системы управления»                      |  |
|-------------------------------------------------------------------|--|
| КАФЕДРА «Программное обеспечение ЭВМ и информационные технологии» |  |

# Отчет по лабораторной работе №5 по курсу "Архитектура ЭВМ"

| Тема             | Разработка ускорителей вычислений средствами САПР высокоуровневого |  |  |  |  |
|------------------|--------------------------------------------------------------------|--|--|--|--|
| <u>синтез</u>    | a Xilinx Vitis HLS                                                 |  |  |  |  |
| Студе            | ент Цветков И.А.                                                   |  |  |  |  |
| Группа _ ИУ7-53Б |                                                                    |  |  |  |  |
| Оценка (баллы)   |                                                                    |  |  |  |  |
| Препо            | одаватель Дубровин Е.Н.                                            |  |  |  |  |

# Содержание

| 1        | Teo | ритические основы                                      | 4  |
|----------|-----|--------------------------------------------------------|----|
|          | 1.1 | Методология ускорения вычислений на основе ПЛИС        | 4  |
|          | 1.2 | Оптимизация времени обработки и пропускной способности | 6  |
|          |     | 1.2.1 Конвейерная обработка циклов                     | 6  |
|          |     | 1.2.2 Разворачивание циклов                            | 7  |
|          |     | 1.2.3 Потоковая обработка                              | 7  |
| <b>2</b> | Вы  | полнение лабораторной работы                           | 8  |
|          | 2.1 | Функции ядра по индивидуальному варианту               | 8  |
|          | 2.2 | Pежим Emulation-SW                                     | 12 |
|          | 2.3 | Режим Emulation-HW                                     | 12 |
|          | 2.4 | Режим HardWare                                         | 13 |
|          | 2.5 | Обоснование результатов и выводы                       | 15 |
| 3:       | жлю | уение                                                  | 16 |

## Введение

Основной целью данной работы является изучение методики и технологии синтеза аппаратных устройств ускорения вычислений по описаниям на языках высокого уровня. В ходе лабораторной работы рассматривается маршрут проектирования устройств, представленных в виде синтаксических конструкций ЯВУ С/С++, изучаются принципы работы IDE Xilinx Vitis HLS и методика анализа и отладки устройств. В ходе работы необходимо разработать ускоритель вычислений по индивидуальному заданию, разработать код для тестирования ускорителя, реализовать ускоритель с помощью средств высоко-уровненного синтеза, выполнить его отладку.

## 1 Теоритические основы

При выполнении лабораторной работы будет использоваться ускоритель вычислений на **Xilinx Alveo**.

# 1.1 Методология ускорения вычислений на основе ПЛИС

Ускорение вычислительных алгоритмов с использованием программируемых логических интегральных схем (ПЛИС) имеет ряд преимуществ по сравнению с их реализацией на универсальных микропроцессорах, или графических процессорах. В то время, как традиционная разработка программного обеспечения связана с программированием на заранее определенном наборе машинных команд, разработка программируемых устройств - это создание специализированной вычислительной структуры для реализации желаемой функциональности.

Микропроцессоры и графические процессоры имеют предопределенную архитектуру с фиксированным количеством ядер, набором инструкций, и жесткой архитектурой памяти, и обладают высокими тактовыми частотами и хорошо сбалансированной конвейерной структурой. Графические процессоры масштабируют производительность за счет большого количества ядер и использования параллелизма SIMD/SIMT (Рисунок 1.1). В отличие от них, программируемые устройства представляют собой полностью настраиваемую архитектуру, которую разработчик может использовать для размещения вычислительных блоков с требуемой функциональностью. В таком случает, высокий уровень производительности достигается за счет создания длинных конвейеров обработки данных, а не за счет увеличения количества вычислительных единиц. Понимание этих преимуществ является необходимым условием для разработки вычислительных устройств и достижения наилучшего уровня ускорения.

# Микропроцессор СРО —— func1 — func2(a) — func2(b) — func2(c) — func3 —— Графический процессор ПЛИС СРО —— func1 — func2 — func2 — func3 СРО —— func1 — func2 — func3 From func2(a) — func2 — func3 — fu

Рисунок 1.1 – Принципы организации вычислений на различных платформах

Методологию создания ускорителей на ПЛИС с применением средств синтеза высокого уровня (High Level Synthesis, HLS) можно представить в виде трех этапов:

- создание архитектуры приложения;
- ullet разработка ядра аппаратного ускорителя на языках  ${
  m C/C}++;$
- анализ производительности и выявление способов ее повышения.

# 1.2 Оптимизация времени обработки и пропускной способности

Существует несколько подходов к оптимизации.

#### 1.2.1 Конвейерная обработка циклов

Полагая, что одна итерация цикла занимает более одного такта (фаза выборки данных, фаза вычисления, фаза записи результата) в таком варианте может быть организован конвейер выполнения. Для этого необходимо поместить в тело цикла прагму < HLS PIPELINE>

Без конвейерной обработки каждая последующая итерация цикла начинается в каждом третьем такте. При конвейерной обработке цикл может начинать последующие итерации цикла менее чем за три такта, например, в каждом втором такте или в каждом такте. Для указания конкретного значения интервала запуска заданий используется свойство Initiation inteval (II). Например: #pragma HLS PIPELINE II = 1

Стоит отметить, что конвейерная обработка цикла приводит к разворачиванию любых циклов, вложенных внутрь конвейерного цикла. Если внутри цикла существуют зависимости по данным, может оказаться невозможным достичь запуска новой итерации в каждом такте, и результатом может быть больший интервал инициации.

#### 1.2.2 Разворачивание циклов

Разворачивание циклов является общепризнанным механизмом снижения времени выполнения циклов. Этот механизм может быть описан самим разработчиком вручную, если он просто повторит вычисления и сократит количество итераций цикла. С помощью прагмы <HLS UNROLL> компилятор v++ позволяет запустить механизм автоматического разворачивания цикла, частично или полностью.

#### 1.2.3 Потоковая обработка

Реализация механизма потоковой обработки (#pragma HLS DATAFLOW) также опирается на представление вычислительных действий в виде многостадийного конвейера. Однако, в то время как директива конвейеризации (#pragma HLS PIPELINE) используется для реализации конвейера выполнения операций внутри функций или циклов, потоковая обработка данных позволяет сформировать конвейер из более крупных вычислительных блоков: нескольких функций или нескольких последовательных циклических конструкций. Таким образом, директива HLS DATAFLOW позволяет сформировать вычислительный конвейер на уровне задач. Для этих целей компилятор HLS Vitis выполнит анализ зависимостей по данным между задачами и реализует структуру обрабатывающих блоков и FIFO очередей между ними.

### 2 Выполнение лабораторной работы

Для изучения технологии будут выполнены следующие задания.

# 2.1 Функции ядра по индивидуальному варианту

В листинге 2.1 представлен листинг программы без оптимизаций. Также в листинге 2.1 представлена конвейрная оптимизация прогаммы, а в листинге 2.3 находится оптимизация частично развернутым циклом. В листиге 2.4 – конвейрная реализация с частично развернутым циклом.

Листинг 2.1 – Код программы (без изменений)

```
extern "C" {
1
 2
            void var019(int* c, const int* a, const int* b, const int
               len)
3
            {
                int tmpA;
4
5
                int tmpB;
6
                int tmpC;
7
8
                for(int i = 0; i < len; i++)
9
                {
10
                     tmpA = a[i];
                     tmpB = b[i];
11
12
                     for (int j = 0; j < 8; j++)
13
14
                     {
                         tmpA = a[i] \& 0x7;
15
                         tmpB = b[i] \& 0x7;
16
                         tmpC = (tmpA + tmpB) & 0x7;
17
18
19
                         tmpA = tmpA >> 4;
                         tmpB = tmpB >> 4;
20
                         tmpC = tmpA < < 4;
21
22
                     }
23
24
                     c[i] = tmpC;
```

```
25 }
26 }
27 }
```

Листинг 2.2 – Код программы (конверная)

```
extern "C" {
1
2
           void var019 pipelined(int* c, const int* a, const int* b,
               const int len)
3
           {
                #pragma HLS PIPELINE
4
5
6
                int tmpA;
7
                int tmpB;
8
                int tmpC;
9
10
                for (int i = 0; i < len; i++)
11
                {
12
                     tmpA = a[i];
                     tmpB = b[i];
13
14
                     for (int j = 0; j < 8; j++)
15
16
                     {
                         tmpA = a[i] \& 0x7;
17
                         tmpB = b[i] & 0x7;
18
                         tmpC = (tmpA + tmpB) \& 0x7;
19
20
21
                         tmpA = tmpA >> 4;
22
                         tmpB = tmpB >> 4;
                         tmpC = tmpA < < 4;
23
                     }
24
25
                     c[i] = tmpC;
26
                }
27
           }
28
29
       }
```

#### Листинг 2.3 – Код программы (частично развернутый цикл)

```
extern "C" {

void var019_unrolled(int* c, const int* a, const int* b, const int len)
```

```
{
 3
 4
                #pragma HLS UNROLL
 5
6
                int tmpA;
 7
                int tmpB;
8
                int tmpC;
9
10
                for(int i = 0; i < len; i++)
                {
11
12
                     tmpA = a[i];
                     tmpB = b[i];
13
14
                     for (int j = 0; j < 8; j++)
15
16
                     {
17
                          tmpA = a[i] \& 0x7;
                          tmpB = b[i] & 0x7;
18
19
                          tmpC = (tmpA + tmpB) \& 0x7;
20
21
                          tmpA = tmpA >> 4;
22
                          tmpB = tmpB >> 4;
                          tmpC = tmpA < < 4;
23
24
                     }
25
                     c[i] = tmpC;
26
                }
27
            }
28
       }
29
```

Листинг 2.4 – Код программы (конвейрный с частично развернутым циклом)

```
extern "C" {
1
2
           void var019 pipe unroll(int* c, const int* a, const int* b,
              const int len)
           {
3
               #pragma HLS DATAFLOW
4
5
6
               int tmpA;
7
               int tmpB;
8
               int tmpC;
9
10
               for(int i = 0; i < len; i++)
```

```
{
11
                       tmpA \ = \ a \ [\ i \ ];
12
                       tmpB = b[i];
13
14
                       for (int j = 0; j < 8; j++)
15
                       {
16
                            tmpA = a[i] & 0x7;
17
                            tmpB = b[i] & 0x7;
18
                            tmpC = (tmpA + tmpB) & 0x7;
19
20
                            tmpA = tmpA >> 4;
21
                            tmpB = tmpB >> 4;
22
                            tmpC = tmpA < < 4;
23
                       }
24
25
26
                       c\left[\:i\:\right]\:=\:tmpC\:;
                 }
27
             }
28
        }
29
```

#### 2.2 Режим Emulation-SW

На рисунке 2.1 представлен результат работы приложения в режиме **Emulation SW**.

Рисунок 2.1 – Результаты работы приложения в режиме Emulation-SW

#### 2.3 Режим Emulation-HW

На рисунке 2.2 представлена копия экрана **Assistant View** для **Emulation- HW**, а на рисунке 2.3 представлен результат работы приложения в режиме **Emulation-HW**. А также на рисунке 2.4 представлена схема отладчика **Vivado**.



Рисунок 2.2 – Assistant View для Emulation-HW



Рисунок 2.3 – Результаты работы приложения в режиме Emulation-HW



Рисунок 2.4 – Схема отладчика Vivado для Emulation-HW

#### 2.4 Режим HardWare

На рисунке ?? представлен результат работы приложения в режиме **HardWare** Также на рисунке 2.5 представлен снимок экрана вкладки **Summary**, на рисунке 2.6 – вкладки **System Diagram**, на рисунке 2.7 – вкладки **Platform Diagram**. При этом на рисунках 2.8–2.9 представлены снимки экрана **HLS Synthesis** для каждой из функций.



Рисунок 2.5 – Вкладка Summary



Рисунок 2.6 – Вкладка System Diagram



Рисунок 2.7 – Вкладка Platform Diagram



Рисунок 2.8 – Вкладка HLS Synthesis для var019\_no\_pragmas



Рисунок 2.9 – Вкладка HLS Synthesis для var019 pipe unroll



 DATE:
 Sat Dec 25 01:15:07 2021
 VERSION:
 2020.2 (Build 3064766 on Wed Nov 18 09:12:47 MST 2020)
 PROJECT:
 var019 unrolled
 Solution:
 colution:
 colution:

Рисунок 2.11 – Вкладка HLS Synthesis для var019 unrolled

#### 2.5 Обоснование результатов и выводы

Как видно из результов, наибольшее время выполнения у цикла без оптимизаций. При этом наименьшее время было достигнуто при развернутом цикле. Это связано с тем, что все развернутые итерации выполняются параллельно, при этом уменьшается количество итераций.

## Заключение

В данной лабораторной работе были рассмотрены и изучены технологии синтеза аппаратных устройств ускорения вычислений по языкам высокого уровня.