

# Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

# «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»

(национальный исследовательский университет)» (МГТУ им. Н.Э. Баумана)

| ФАКУЛЬТЕТ | «Информатика и системы управления»                        |
|-----------|-----------------------------------------------------------|
| КАФЕДРА   | «Программное обеспечение ЭВМ и информационные технологии» |

# РАСЧЕТНО-ПОЯСНИТЕЛЬНАЯ ЗАПИСКА *К ВЫПУСКНОЙ КВАЛИФИКАЦИОННОЙ РАБОТЕ НА ТЕМУ:*

Методы трансляции машинного кода для x86-процессоров в код для ARM-процессоров.

| Студент группы ИУ7-83Б |                 | М. Ю. Нитенко  |
|------------------------|-----------------|----------------|
|                        | (Подпись, дата) | (И.О. Фамилия) |
| Руководитель ВКР       |                 | А. А. Оленев   |
|                        | (Подпись, дата) | (И.О. Фамилия) |
| Нормоконтролер         |                 |                |
|                        | (Подпись, дата) | (И.О. Фамилия) |

## РЕФЕРАТ

Расчетно-пояснительная записка 23 с., 6 рис., 0 табл., X ист., X прил. КЛЮЧЕВЫЕ СЛОВА

## СОДЕРЖАНИЕ

| BI                        | ВВЕДЕНИЕ                         |                                          | 5  |
|---------------------------|----------------------------------|------------------------------------------|----|
| 1                         | Технологическая часть            |                                          | 6  |
|                           | 1.1                              | Выбор средств разработки                 | 6  |
|                           |                                  | 1.1.1 Выбор языка программирования       | 6  |
|                           |                                  | 1.1.2 Сборка программного обеспечения    | 6  |
|                           | 1.2                              | Требования к вычислительной системе      | 7  |
|                           | 1.3                              | Структура программного обеспечения       | 8  |
|                           | 1.4                              | Распространение программного обеспечения | 8  |
|                           | 1.5                              | Дополнительные утилиты                   | 8  |
|                           | 1.6                              | Вывод                                    | 10 |
| 2 Исследовательская часть |                                  |                                          |    |
|                           | 2.1                              | Описание используемых данных             | 11 |
|                           | 2.2                              | Результаты исследования                  | 12 |
|                           | 2.3                              | Тестирование на надежность               | 16 |
|                           | 2.4                              | Вывод                                    | 16 |
| 3 <i>A</i>                | ЗАКЛЮЧЕНИЕ                       |                                          |    |
| CI                        | СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ |                                          |    |
| П                         | приложение а                     |                                          |    |

#### **ВВЕДЕНИЕ**

В 2019 году процессоры архитектуры ARM составляли 34% от рынка процессоров, при этом занимая 90% рынка мобильных процессоров [1]. С появлением процессоров М1 компании Apple большое число людей стали пользоваться компьютерами на основе архитектуры ARM в качестве персональных компьютеров, часто у пользователей появляется необходимость использовать программное обеспечение с закрытым исходным кодом, что не позволяет их перекомпилировать под необходимую архитектуру самостоятельно.

Для запуска программ собранных под архитектуру x86 необходим или статический транслятор, такой как Rosetta 2, или виртуальная машина поддерживающая необходимую архитектуру, или динамический транслятор для пользовательского режима. Rosetta 2 не транслирует программы не предназначенные для macOS, для запуска программ созданных для Windows или Linux нужно использовать виртуальную машину. Еще одно ограничение статической трансляции — наличие самомодифицирующегося кода и динамических библиотек, таким образом использование только статической трансляции не запустит любую программу. [2]

Использование трансляции по своей природе несет дополнительные издержки при выполнении программы, как в памяти, так и в скорости выполнения. Цель этой работы — исследование причин дополнительных издержек и попытка нахождения пути устранения этих издержек.

Для достижения поставленной цели необходимо решить следующие задачи:

- реализовать оптимизирующий проход над промежуточным представлением;
- встроить полученную реализацию в динамический транслятор FEX;
- исследовать результаты работы оптимизирующего прохода;
- исследовать корректность работы оптимизирующего прохода.

#### 1 Технологическая часть

В данном разделе описываются средства разработки программного обеспечения, требования к вычислительной системе. Приводится структура разработанного приложения.

#### 1.1 Выбор средств разработки

Из рассмотренных в аналитическом разделе трансляторов FEX лучше прочих подходит для реализации алгоритма, так как в нем присутствует СЕП.

#### 1.1.1 Выбор языка программирования

Динамический транслятор FEX написан на языке C++, в нем используются разные библиотеки, например ядро транслятора FEXCore это библиотека реализующая непосредственно динамическую трансляцию. FEXCore также написан на C++ и не предусматривает расширений с помощью внешних модулей, поэтому для того чтобы ее модифицировать надо писать код на C++.

#### 1.1.2 Сборка программного обеспечения

Для сборки проекта используется система сборки CMake. Для компиляции реализации алгоритма необходимо добавить имя файла в соответствующий CMakeLists txt.

Для сборки всего проекта используется ninja. На листинге 3 указана конфигурация сборки проекта.

Листинг 1: Конфигурация сборки проекта

```
CC=clang CXX=clang++ cmake -DCMAKE_INSTALL_PREFIX=/usr \
-DCMAKE_BUILD_TYPE=Release -DENABLE_LTO=True \
-DBUILD_TESTS=False -DCMAKE_CXX_COMPILER_LAUNCHER=ccache \
-DENABLE_CLANG_FORMAT=False -G Ninja ..
```

Оптимизирующий проход создан на основе версии 2204, коммит 37f1e55ed5dc7a35ba9bf875e250de0b75581a22.



Рисунок 1 – Диаграмма зависимостей userspace эмулятора FEXLoader

Вносимые в проект изменения относятся к FEXCore Base.

#### 1.2 Требования к вычислительной системе

Для запуска программного обеспечения требуется исходный код динамического транслятора FEX. Так как алгоритм реализует оптимизацию доступа к памяти с сохранением корректного выполнения многопоточных приложений для прироста в скорости требуется процессор с поддерживаемой архитектурой со слабым доступом к памяти и несколькими ядрами, то есть оптимизирующий проход будет приводить к росту производительности не только на ARM, но и, например, RISC-V.

Для разработки и сборки проекта использовался ноутбук на основе процессора RK3399, архитектуры ARM. Несмотря на это разработка не привязана к конкретной архитектуре, теоретически разработку можно вести на любой архитектуре имеющий набор инструментов для кросс-компиляции под архитектуру ARM.

#### 1.3 Структура программного обеспечения

Разработанное ПО реализовано как оптимизирующий проход над промежуточным представлением.

При инициализации транслятора вызывается функция AddDefaultPasses, внутри которой вызываются функции InsertPass регистрирующие оптимизирующие проходы в определенном порядке. Функция InsertPass принимает на вход std::unique\_ptr<Pass> — указатель на экземпляр класса прохода. У класса обязательно должен быть метод Run принимающий на вход IREmitter и возвращающий bool — был ли изменен код во время прохода.

Разработанный проход зависит от StaticRegisterAllocationPass, во время этого прохода статически выделяются регистры, на основе этих регистров и идет оптимизация доступа памяти.

Отключить все оптимизирующие проходы можно с помощью аргумента -O или -o0.

#### 1.4 Распространение программного обеспечения

Программное обеспечение распространяется в виде патча сформированного командой git format-patch. Для применения патча к проекту можно, например, использовать git am.

#### 1.5 Дополнительные утилиты

Для анализа генерируемого кода нужно анализировать скомпилированный код, такой возможности у FEX нет, поэтому была проведена модификация функции Context::CompileBlock которая компилирует и запускает блок. Перед запуском вся область запускаемой памяти сохраняется в бинарный файл.

Листинг 2: Сохранение скомпилированного блока

```
--- a/External/FEXCore/Source/Interface/Core/Core.cpp
    +++ b/External/FEXCore/Source/Interface/Core/Core.cpp
2
    @@ -1001,6 +1001,15 @@ namespace FEXCore::Context {
    }
6
         FILE *fp;
9
         std::string filename = "Core Block other " + \
10
            std::to string((uint64 t)CodePtr) + ".cdmp";
11
         fp = fopen(filename.c str(), "wb");
12
         fwrite((void*)CodePtr, DebugData->HostCodeSize, 1, fp);
13
         fclose(fp);
         printf("block dumped %s\n", filename.c str());
15
    if (IRCaptureCache.PostCompileCode(
17
    Thread,
    CodePtr,
19
20
    2.36.0
21
22
```

Обработка сохраненной памяти затем выполнялась при помощи objdump — в итоге получался код на ассемблере.

После анализа скомпилированного кода были сделаны выводы по основным факторам замедляющим выполнение скомпилированного кода, таких как барьерный доступ к памяти.

## 1.6 Вывод

В данном разделе были описаны средства разработки программного обеспечения, требования к вычислительной системе. Была дана структура разработанного приложения.

#### 2 Исследовательская часть

В рамках дипломной работы было проведено исследование изменения результатов бенчмарка nbench с разработанным проходом. Результаты исследования представлены в этом разделе.

#### 2.1 Описание используемых данных

Для проведения исследования используется бенчмарк nbench скомпилированный при помощи дсс в два разных бинарных файла: с флагом -O0 и с флагом -O3.

В бенчмарке nbench реализовано 9 тестов:

- Numeric sort сортировка массива 32-х битных чисел. Оценивается производительность работы с целыми числами.
- String sort сортировка массива символов. Проверяется скорость работы с памятью.
- Bitfield выполняет различные битовые операции. Например: очистить или выставить n бит, инвертировать число. Оценивается скорость выполнения таких операций.
- Emulated floating-point небольшой эмулятор для работы с числами с плавающей запятой. Хорошо оценивает общую производительность.
- Fourier coefficients рассчитывает коэффициенты Фурье. Оценивает производительность FPU, при этом память использует не активно.
- Assignment algorithm решение задачи о назначениях. Работает с массивом, на результат влияет скорость последовательного доступа к памяти.
- Huffman compression алгоритм Хаффмана. Операции с байтами, битами и с целыми числами. Считается хорошей оценкой общей производительности.
- IDEA encryption алгоритм шифрования. Оценивает скорость исполнения кода.

— LU Decomposition — алгоритм решения линейных уравнений. Работает с числами с плавающей запятой, использует только фундаментальные операции (+, -, \*, /).

В итоге получаются INTEGER INDEX и FLOATING-POINT INDEX — комбинированный результат бенчмарков.

Каждый бенчмарк запускается 5 раз, затем рассчитывается среднеквадратическое отклонение и доверительный интервал с уровнем доверия 0.95. Если длина полуинтервала меньше 1% от абсолютного значения среднего, то замер времени считается успешным, иначе проводятся дополнительные замеры.

Динамический транслятор FEX запускается на SOC Rockchip RK3399, Exynos 8895 и Apple M1. Система работающая на RK3399 работает под управлением Linux; Exynos — Android, сам запуск производится через chroot в окружение Debian; Apple M1 — виртуальная машина с Ubuntu.

Из-за того что SOC RK3399 и Exynos 8895 используют архитектуру big.LITTLE у них одинаковые «малые» ядра — Cortex A53. Больших различий между этими ядрами нет, поэтому в тестах использовались результаты работы этого ядра на RK3399. Раздельно представлены результаты бенчмарков для их «больших» ядер — Cortex A72 для RK3399 и Mongoose M2 для Exynos 8895.

Замеры времени выполнения проводились на версии FEX-2204.

#### 2.2 Результаты исследования

На рисунках 2-6 представлены результаты замеров скорости выполнения nbench с использованием алгоритма и без.





Рисунок 3 – nbench FOURIER O0



Рисунок 4 – nbench IDEA O0



Рисунок 5 – nbench HUFFMAN O0



Рисунок 6 – nbench O3

Таким образом по результатам замеров видно что проход работает только на не оптимизированном бенчмарке (собранном с флагом -ОО), также стоит заметить что для Apple M1 рост в производительности на выделенных бенчмарках меньше.

На ОЗ рост производительности незначителен, это связано с тем что регистр RBP, при оптимизации, используется в качестве регистра общего назначения.

Рост в производительности составил:

- Cortex A53 производительность в среднем выше в 0.42 процента, для FOURIER — прирост 1 процент, IDEA — 2.7 процента, HUFFMAN — меньше процента;
- Cortex A72 производительность в среднем выше в 1.77 процента, для FOURIER — прирост 7.5 процента, IDEA — 12.2 процента, HUFFMAN - 4.2 процента;
- Mongoose M2 производительность в среднем выше в 1.29 процента, для FOURIER — прирост 4.4 процента, IDEA — 6.8 процента, HUFFMAN - 5.3 процента;
- M1 Firestorm производительность в среднем выше в 1.76 процента,

для FOURIER — прирост 4.5 процента, IDEA — меньше процента, HUFFMAN — 5.7 процента;

Более высокий рост производительности для старых ядер связан с затратностью барьерных операций с памятью, новые поколения ядер уменьшают затратность таких операций. У Cortex A53, как было выяснено в аналитическом разделе, разница в скорости выполнения программ с барьерным доступом к памяти и без него мала, поэтому для этого ядра результаты меньше.

#### 2.3 Тестирование на надежность

Главной причиной разработки алгоритма по оптимизации доступа к памяти являлась слабая модель архитектуры ARM, что при трансляции многопоточных приложений приводило к ошибкам.

Для проверки корректной работы прохода использовался tst-cond16.c — тест библиотеки libc. Этот тест создает 8 потоков которые проводят операции с мьютексами. Стандартная версия транслятора и версия с оптимизирующим проходом этот тест проходит, без барьерных инструкций и с безусловной заменой барьерных операций связанных с регистром RBP тест не проходит.

#### 2.4 Вывод

В результате исследования было установлено, что проход увеличивает производительность отдельных бенчмарков и в целом повышает скорость выполнения транслированного кода, но только если исходный код был собран без оптимизаций.

Также было частично доказано что барьерные инструкции доступа к памяти сильнее влияют на ранее выпущенные ядра ARM.

#### ЗАКЛЮЧЕНИЕ

В рамках этой работы:

- был реализован оптимизирующий проход над промежуточным представлением;
- проход был встроен в динамический транслятор FEX;
- проведено исследование результатов работы оптимизирующего прохода;
- проведено исследование корректность работы оптимизирующего прохода.

Таким образом цель работы — нахождения и устранение издержек трансляции была достигнута.

#### СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

- 1. Arm Limited Roadshow Slides Q1 2020 [Электронный ресурс]. Режим доступа: https://group.softbank/system/files/pdf/ir/presentations/2020/arm-roadshow-slides\_q1fy2020\_01\_en.pdf, свободный (24.11.2021)
- 2. Probst, Mark. Fast Machine-Adaptable Dynamic Binary Translation. 2001.

#### ПРИЛОЖЕНИЕ А

Листинг 3: Проход оптимизации доступа к памяти

```
#include <FEXCore/Core/X86Enums.h>
       #include <FEXCore/IR/IR.h>
2
       #include <FEXCore/IR/IREmitter.h>
       #include <FEXCore/IR/IntrusiveIRList.h>
4
       #include <array>
6
       #include <iostream>
8
       #include "Interface/Core/OpcodeDispatcher.h"
10
       #include "Interface/IR/PassManager.h"
11
       namespace FEXCore::IR {
12
13
14
           enum RBP STATE {
               NOT CHANGED = (0b000 << 0),
               STACK = (0b001 << 0),
16
               NOT STACK = (0b010 << 0),
18
           };
19
20
           struct BlockInfo {
               int State = NOT CHANGED;
21
               std::set<OrderedNode*> StackNodes;
22
               std::set<OrderedNode*> UnStackNodes;
23
               std::vector<OrderedNode*> Predecessors;
24
               bool Visited = false;
25
26
           };
27
           class StackAccessTSORemovalPass final : public Pass {
28
29
               public:
               bool Run(IREmitter* IREmit) override;
30
31
32
               void CalculateControlFlowInfo(IREmitter* IREmit);
33
               int CalculateComplexState(const OrderedNode* TargetNode,
34
               const IRListView& CurrentIR);
35
               std::unordered map<NodeID, BlockInfo> OffsetToBlockMap;
36
           };
37
38
           static bool HitsRegister(const int Register, IREmitter* IREmit,
39
           IROp Header* Op) {
40
               std::queue<IROp Header*> values{};
41
               values.push(Op);
42
43
               while (!values.empty()) {
44
```

```
IROp Header* ValOp = values.front();
45
                    values.pop();
46
47
                    switch (ValOp->Op) {
48
                        case IR::OP_ADD:
49
                        case IR::OP SUB:
50
                        case IR::OP OR:
51
52
                        case IR::OP_AND: {
                            values.push(IREmit->GetOpHeader(ValOp->Args[0]));
53
                            values.push(IREmit->GetOpHeader(ValOp->Args[1]));
55
56
                            break;
57
                        case IR::OP LOADREGISTER: {
58
                            auto LocalOp = ValOp->CW<IR::IROp LoadRegister>();
59
60
                            if (LocalOp->Offset ==
61
                            offsetof(FEXCore::Core::CPUState, gregs[Register]) &&
62
                            LocalOp->Class == GPRClass) {
63
                                return true;
64
65
66
                            break;
67
68
                        default: {
69
70
                            break;
72
                    }
73
74
               /* never hit the RSP register, so it's not a stack value being
75
               * loaded. */
76
               return false;
77
           }
78
79
           void StackAccessTSORemovalPass::CalculateControlFlowInfo(IREmitter* IREmit) {
80
               IRListView CurrentIR = IREmit->ViewIR();
81
82
               for (auto [BlockNode, BlockHeader] : CurrentIR.GetBlocks()) {
83
                    BlockInfo* CurrentBlock =
84
85
                    &OffsetToBlockMap.try emplace(CurrentIR.GetID(BlockNode)).first->second;
                    for (auto [CodeNode, IROp] : CurrentIR.GetCode(BlockNode)) {
86
                        switch (IROp->Op) {
87
                            case IR::OP CONDJUMP: {
                                auto Op = IROp->CW<IR::IROp CondJump>();
90
                                {
91
                                     auto Block =
92
93
                                     &OffsetToBlockMap.try emplace(Op->TrueBlock.ID()).first->second;
                                     Block->Predecessors.emplace back(BlockNode);
94
                                }
95
```

```
96
                                  {
97
                                      auto Block = &OffsetToBlockMap.try emplace(Op->FalseBlock.ID())
98
                                      .first->second;
99
                                      Block->Predecessors.emplace_back(BlockNode);
100
101
102
103
                                 break;
104
105
                             case IR::OP JUMP: {
                                  auto Op = IROp->CW<IR::IROp Jump>();
108
                                      auto Block =
109
                                      OffsetToBlockMap.try emplace(Op->Header.Args[0].ID()).first;
110
                                      Block->second.Predecessors.emplace back(BlockNode);
111
112
113
                                 break;
114
115
                             case IR::OP_STOREREGISTER: {
116
                                 IROp_StoreRegister* Op = IROp->CW<IR::IROp_StoreRegister>();
117
                                  if (Op->Offset == offsetof(FEXCore::Core::CPUState,
118
                                 gregs[FEXCore::X86State::REG RBP]) &&
119
                                 Op->Class == GPRClass) {
120
121
                                      if (HitsRegister(FEXCore::X86State::REG RSP, IREmit,
                                      IREmit->GetOpHeader(Op->Value))) {
122
                                          CurrentBlock->State = STACK;
                                          CurrentBlock->StackNodes.emplace(CodeNode);
124
                                      } else {
125
                                          CurrentBlock->State = NOT STACK;
126
                                          CurrentBlock->UnStackNodes.emplace(CodeNode);
127
128
129
                                 break;
130
131
                             default:
132
133
                             break;
134
135
136
                }
137
            }
138
139
            // returns the combined state of all the predecessors and the block itself
140
           int StackAccessTSORemovalPass::CalculateComplexState(
           const OrderedNode* TargetNode, const IRListView& CurrentIR) {
                auto TargetPair = OffsetToBlockMap.find(CurrentIR.GetID(TargetNode));
142
                if (TargetPair == OffsetToBlockMap.end()) {
143
144
                    std::cout << "TargetPair not found in offsets!" << std::endl;</pre>
                    return NOT STACK;
145
                }
146
```

```
147
                BlockInfo* TargetBlock = &TargetPair->second;
148
149
                if (TargetBlock->Visited || TargetBlock->Predecessors.size() == 0 ||
150
                TargetBlock->State != NOT_CHANGED) {
151
                    return TargetBlock->State;
152
153
154
                TargetBlock->Visited = true;
155
                int ResultingState = STACK;
156
                for (auto i : TargetBlock->Predecessors) {
157
158
                    // only call if predecessor is not visited?
                    if (i == TargetNode) {
159
                        continue;
160
161
                    int PredecessorState = CalculateComplexState(i, CurrentIR);
162
163
                    if (PredecessorState == NOT_CHANGED) {
164
                        ResultingState = NOT CHANGED;
165
                    } else if (PredecessorState == NOT STACK) {
166
                        ResultingState = NOT_STACK;
167
                        break;
168
169
170
                }
171
172
                TargetBlock->State = ResultingState;
173
174
                return TargetBlock->State;
175
176
           bool StackAccessTSORemovalPass::Run(IREmitter* IREmit) {
177
                CalculateControlFlowInfo(IREmit);
178
179
                IRListView CurrentIR = IREmit->ViewIR();
180
                bool Changed = false;
181
182
                for (auto [BlockNode, BlockHeader] : CurrentIR.GetBlocks()) {
183
                    auto CurrentBlockPair = OffsetToBlockMap.find(CurrentIR.GetID(BlockNode));
184
                    if (CurrentBlockPair == OffsetToBlockMap.end()) {
185
                         std::cout << "Block not found in offsets" << std::endl;</pre>
186
187
                         continue;
188
189
                    int StackStatus = STACK;
                    BlockInfo* CurrentBlock = &CurrentBlockPair->second;
                    for (auto CodeNode : CurrentBlock->Predecessors) {
192
                         int PredecessorState = CalculateComplexState(CodeNode, CurrentIR);
193
194
195
                         if (PredecessorState != STACK) {
                             StackStatus = PredecessorState;
196
                             break;
197
```

```
198
199
200
                    for (auto [CodeNode, IROp] : CurrentIR.GetCode(BlockNode)) {
201
                        if (CurrentBlock->StackNodes.contains(CodeNode)) {
202
                             StackStatus = STACK;
203
204
205
                        if (CurrentBlock->UnStackNodes.contains(CodeNode)) {
                             StackStatus = NOT STACK;
206
207
                        if (IROp->Op == IR::OP LOADMEMTSO && StackStatus == STACK) {
209
                             if (HitsRegister(FEXCore::X86State::REG RBP, IREmit,
                             IREmit->GetOpHeader(IROp->Args[0])) ||
210
                             HitsRegister(FEXCore::X86State::REG RSP, IREmit,
211
                             IREmit->GetOpHeader(IROp->Args[0]))) {
212
                                 IROp->Op = IR::OP LOADMEM;
213
                                 Changed = true;
214
215
                        }
216
                        if (IROp->Op == IR::OP STOREMEMTSO && StackStatus == STACK) {
217
                             if (HitsRegister(FEXCore::X86State::REG_RBP, IREmit,
218
                             IREmit->GetOpHeader(IROp->Args[1])) ||
219
                             HitsRegister(FEXCore::X86State::REG RSP, IREmit,
220
                             IREmit->GetOpHeader(IROp->Args[1]))) {
221
                                 IROp->Op = IR::OP_STOREMEM;
222
223
                                 Changed = true;
224
226
227
                    CurrentBlock->Visited = true;
228
                    CurrentBlock->State = StackStatus;
229
230
231
                return Changed;
232
            }
233
234
            std::unique_ptr<Pass> CreateStackAccessTSORemovalPass() {
235
                return std::make unique<StackAccessTSORemovalPass>();
236
237
238
        } // namespace FEXCore::IR
```