

# Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

# «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»

(национальный исследовательский университет)» (МГТУ им. Н.Э. Баумана)

| ФАКУЛЬТЕТ | «Информатика и системы управления»                        |
|-----------|-----------------------------------------------------------|
| КАФЕДРА   | «Программное обеспечение ЭВМ и информационные технологии» |

# РАСЧЕТНО-ПОЯСНИТЕЛЬНАЯ ЗАПИСКА *К ВЫПУСКНОЙ КВАЛИФИКАЦИОННОЙ РАБОТЕ НА ТЕМУ:*

Методы трансляции машинного кода для x86-процессоров в код для ARM-процессоров.

| Студент группы ИУ7-83Б |                 | М. Ю. Нитенко  |
|------------------------|-----------------|----------------|
|                        | (Подпись, дата) | (И.О. Фамилия) |
| Руководитель ВКР       |                 | А. А. Оленев   |
|                        | (Подпись, дата) | (И.О. Фамилия) |
| Нормоконтролер         |                 |                |
|                        | (Подпись, дата) | (И.О. Фамилия) |

# РЕФЕРАТ

Расчетно-пояснительная записка 59 с., 10 рис., 3 табл., X ист., X прил. КЛЮЧЕВЫЕ СЛОВА

# СОДЕРЖАНИЕ

| BI | ВЕДЕ | НИЕ     |                                                 | 10 |
|----|------|---------|-------------------------------------------------|----|
| 1  | Ана  | литичес | ская часть                                      | 12 |
|    | 1.1  | Постан  | новка задачи                                    | 12 |
|    | 1.2  | Методі  | ы трансляции                                    | 12 |
|    |      | 1.2.1   | Интерпретация                                   | 12 |
|    |      | 1.2.2   | Рекомпиляция                                    | 13 |
|    |      | 1.2.3   | Эмуляция высокого уровня                        | 13 |
|    |      | 1.2.4   | Сравнение методов трансляции                    | 13 |
|    | 1.3  | Динамі  | ические трансляторы                             | 14 |
|    |      | 1.3.1   | QEMU                                            | 14 |
|    |      | 1.3.2   | box64                                           | 14 |
|    |      | 1.3.3   | FEX                                             | 15 |
|    |      | 1.3.4   | Сравнение динамических трансляторов             | 17 |
|    | 1.4  | Сущес   | твующие оптимизации трансляции                  | 19 |
|    |      | 1.4.1   | Поддержка специфичных для архитектуры библиотек | 19 |
|    |      | 1.4.2   | Оптимизации кода                                | 21 |
|    |      | 1.4.3   | Распространение констант                        | 21 |
|    |      | 1.4.4   | Устранение мертвого кода                        | 21 |
|    |      | 1.4.5   | Устранение загрузок контекста                   | 22 |
|    |      | 1.4.6   | Устранение хранения                             | 22 |
|    |      | 1.4.7   | Сжатие инструкций                               | 22 |
|    |      | 1.4.8   | Статическое выделение регистров                 | 23 |
|    |      | 1.4.9   | Устранение временных регистров                  | 23 |
|    |      | 1.4.10  | Анализ живости                                  | 23 |
|    |      | 1.4.11  | Сравнение оптимизаций трансляции                | 23 |
|    |      | 1.4.12  | Использование блоков трансляции                 | 24 |
|    | 1.5  | Поддер  | ожка самомодифицирующегося кода                 | 26 |
|    | 1.6  | Поддер  | ожка TSO                                        | 27 |
|    |      | 1.6.1   | Регистр RBP                                     | 30 |
|    | 1.7  | Вывод   |                                                 | 32 |
|    |      |         |                                                 |    |

| 2          | Кон    | структорская часть                                            | 33 |
|------------|--------|---------------------------------------------------------------|----|
|            | 2.1    | Архитектура программного обеспечения                          | 33 |
|            | 2.2    | Используемые структуры данных                                 | 33 |
|            | 2.3    | Алгоритм оптимизации динамической трансляции доступа к памяти | 34 |
|            | 2.4    | Алгоритм построения графа выполнения блоков                   | 35 |
|            | 2.5    | Алгоритм расчета распространенного состояния стека            | 35 |
|            | 2.6    | Вывод                                                         | 36 |
| 3          | Texi   | нологическая часть                                            | 37 |
|            | 3.1    | Выбор средств разработки                                      | 37 |
|            |        | 3.1.1 Выбор языка программирования                            | 37 |
|            |        | 3.1.2 Сборка программного обеспечения                         | 37 |
|            | 3.2    | Требования к вычислительной системе                           | 38 |
|            | 3.3    | Структура программного обеспечения                            | 39 |
|            | 3.4    | Распространение программного обеспечения                      | 39 |
|            | 3.5    | Дополнительные утилиты                                        | 39 |
|            | 3.6    | Вывод                                                         | 41 |
| 4          | Исс    | ледовательская часть                                          | 42 |
|            | 4.1    | Описание используемых данных                                  | 42 |
|            | 4.2    | Результаты исследования                                       | 43 |
|            | 4.3    | Тестирование на корректность                                  | 47 |
|            | 4.4    | Вывод                                                         | 47 |
| 3 <i>A</i> | КЛЮ    | ОЧЕНИЕ                                                        | 48 |
| Cl         | пис    | ОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ                                  | 49 |
| П          | РИЛС   | ОЖЕНИЕ А                                                      | 51 |
| П          | РИЛС   | д эинэжо                                                      | 56 |
| П          | РИ.Л ( | ожение в                                                      | 58 |

#### ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ

Транслятор — программа или техническое средство, выполняющие трансляцию программы. [1]

Трансляция программы — преобразование программы, представленной на одном языке программирования, в программу на другом языке и в определенном смысле равносильную первой. [1]

Статическая трансляция (Ahead-of-time (AOT)) — трансляция проводящаяся до начала выполнения программы.

Динамическая трансляция (Just-in-time (JIT)) — трансляция выполняемая непосредственно во время выполнения программы.

Интерпретация — трансляция и выполнения каждого предложения исходного языка машинной программы перед трансляцией и исполнением следующего предложения. [2]

Блок трансляции — непрерывная последовательность инструкций программы выделенная для трансляции.

Промежуточное представление — это специальный код используемый внутри компилятора или виртуальной машины для представления исходного кода. Предназначен для дальнейшей обработки, такой как оптимизация и трансляция в машинный код.

Статическое единственное присваивание (СЕП) — промежуточное представление в котором каждой переменной значение присваивается один раз, переменные исходной программы разбиваются на версии, обычно с помощью добавления суффикса, таким образом, что каждое присваивание осуществляется уникальной версии переменной.

Эмуляция системы — это совокупность логических и технических средств и ресурсов, направленных на полную имитацию технического устройства выбранной пользователем системы для максимально точного воспроизведения всех процессов, происходящих внутри эмулируемой системы.

Эмуляция режима пользователя — режим эмуляции поддерживающий запуск пользовательских приложений, не эмулирует полноценную систему, а использует ядро запускающей системы для выполнения необходимых системных задач.

RISC — это вычислительная машина с упрощенной системой команд, которая обеспечивает увеличение скорости декодирования команд. [3]

Пролог — машинный код в начале функции (процедуры, подпрограммы), выполняющий предваряющие действия по подготовке стека потока и регистров с целью их дальнейшего использования в теле функции. [2]

Эпилог — машинный код в конце функции (процедуры, подпрограммы), восстанавливающий резервирование пространства стека до начального состояния; восстанавливающий регистры до состояния, предшествовавшего вызову функции и производящий возврат управления из функции. [2]

#### **ВВЕДЕНИЕ**

В 2019 году процессоры архитектуры ARM составляли 34% от рынка процессоров, при этом занимая 90% рынка мобильных процессоров [4]. С появлением процессоров М1 компании Apple большое число людей стали пользоваться компьютерами на основе архитектуры ARM в качестве персональных компьютеров, часто у пользователей появляется необходимость использовать программное обеспечение с закрытым исходным кодом, что не позволяет их перекомпилировать под необходимую архитектуру самостоятельно.

Программы собранные под архитектуру x86 не работают на таких компьютерах, необходим или статический транслятор, такой как Rosetta 2, или виртуальная машина поддерживающая необходимую архитектуру. Rosetta 2 не транслирует программы не предназначенные для macOS, для запуска программ созданных для Windows или Linux нужно использовать виртуальную машину. Еще одно ограничение статической трансляции — наличие самомодифицирующегося кода и динамических библиотек, таким образом использование только статической трансляции не запустит любую программу. [5]

Использование трансляции по своей природе несет дополнительные издержки при выполнении программы, как в памяти, так и в скорости выполнения. Цель этой работы — исследование причин дополнительных издержек и попытка нахождения пути устранения этих издержек.

Для достижения поставленной цели необходимо решить следующие задачи:

- описать инструменты и технологии используемые для трансляции;
- проанализировать издержки трансляции;
- реализовать оптимизирующий проход над промежуточным представлением;
- встроить проход в динамический транслятор FEX;
- провести исследование результатов работы оптимизирующего прохо-

да;

провести исследование корректности работы оптимизирующего прохода.

#### 1 Аналитическая часть

Блоки трансляции до того как описал!!!!!!!!!!!!!!

В данном разделе производится анализ предметной области, приводятся методы трансляции, рассматриваются существующие оптимизации трансляции и рассматриваются существующие проблемы.

#### 1.1 Постановка задачи

Как сделать так чтобы x86 код запускался на ARM без перекомпиляции. Как обеспечить совместимость софта на бинарном уровне, в процессе этого исследования изучить методы выбрать какой-то оптимальный из них и посмотреть не можешь ли ты его улучшить.

!!!!!!!!!!!!!!!!!!!!!!

Задача

Было бы неплохо ее достигнуть.

еще написать про ир пассы!!!!!!!!!!!!!!

write

# 1.2 Методы трансляции

Рассмотрим существующие методы трансляции, такие как интерпретация, рекомпиляция и эмуляция высокого уровня, все они имеют свои преимущества и недостатки

# 1.2.1 Интерпретация

Под интерпретацией понимается реализация каждой команды процессора в виде кода на языке высокого уровня. Такой подход обеспечивает высокую точность исполнения, так как обычно описывает все, даже самые малые, изменения в состоянии процессора. Из рассматриваемых методов имеет самую маленькую скорость выполнения, так как исполняющему код процессору приходится постоянно разбирать транслируемый код и выполнять его при помощи вызовов функций.

#### 1.2.2 Рекомпиляция

Под рекомпиляцией понимается преобразование машинного кода одной архитектуры в другую. Таким образом после рекомпиляции процессор выполняет родной для себя код без необходимости вызова функций. Не все машинные инструкции имеют точные аналоги на другой архитектуре, так что необходимо хранить дополнительные данные, например ARM не рассчитывает все флаги архитектуры х86 и их необходимо сохранять отдельно. По скорости рекомпиляция быстрее интрепретации.

#### 1.2.3 Эмуляция высокого уровня

Под эмуляцией выского уровня понимается подмена каких-либо высокоуровневых функций на их эквиваленты для архитектуры хоста. Например, при эмуляции приложения использующего библиотеку libc можно заменить все вызовы функций этой библиотеки на вызовы функций библиотеки libc хоста, видимый результат функций одинаков, при этом не нужно транслировать или рекомпилировать эти функции. Так же подменяются, например, вызовы к графическому процессору на эквивалентные, в результат может содержать небольшие ошибки, которые принимаются в угоду скорости выполнения. Данный метод не подходит для эмуляции всей системы, однако может сильно повысить производительность если таких вызовов много.

# 1.2.4 Сравнение методов трансляции

Эмуляция высокого уровня сама по себе не может обеспечить эмуляцию всей системы, однако в связке с рекомпиляцией или интерпретацией повышает производительность последних. Интерпретация используется в случаях когда нужно точно испольнять команды процессора, рекомпиляция также может достигнуть такую точность, но для этого нужно проделать намного больше работы.

хорошо бы табличку!!!!!!!!!!!!!!

#### 1.3 Динамические трансляторы

Как уже было упомянуто выше для запуска приложений собраных под иную платформу нужно использовать трансляцию. В данном разделе рассматриваются поддерживающие ARM динамические трансляторы QEMU, box64 и FEX. Достоинство динамических трансляторов — скорость запуска программы, так как трансляции происходит во время выполнения, нет необходимости ждать окончания, например, рекомпиляции.

#### **1.3.1 QEMU**

QEMU поддерживает эмуляцию как пользовательского режима, так и эмуляцию всей системы. QEMU транслирует машинные инструкции при помощи промежуточного представления, в качестве промежуточного представления используются «TCG ops», по организации похожие на инструкции архитектур RISC, эти операции сначала оптимизируются, а затем выполняются на хосте, таким образом проще портировать TCG на различные платформы. [8]

В QEMU реализованы инструкции x86, x86-64, x87, MMX и MMXEXT. Пример операции TCG представлен на листинге 1:

Листинг 1: Пример операции TCG

```
add_i32 t0, t1, t2 (t0 <- t1 + t2)
```

#### 1.3.2 box64

box64 — эмулятор пользовательского режима, в отличие от QEMU box64 не может эмулировать полную систему, однако может запускать linux-приложения собранные под x86\_64. box64 проводит динамическую трансляцию без использования промежуточного представления, таким образом при динамической рекомпиляции поддерживаемые инструкции, при помощи макросов С, транслируются в инструкции ARM. box64 также включает в себя эмулятор, написан-

ный на C который работает как интерпретатор, используемый при запуске на архитектуре отличной от ARM. [6]

B box64 реализованы инструкции x86, x86-64, x87 и, частично, MMX, MMXEXT, SSE, SSE2, SSE3.

Каждый блок транслируется в 4 прохода:

- Первый проход считает все количество транслируемых x86 инструкций. Для каждой инструкции выделяется память.
- На втором проходе обрабатываются все инструкции ветвления, проверяется где находится адрес: в этом же блоке или в каком-либо другом. В случае если адрес находится в другом блоке его необходимо связать с текущим. Также рассчитываются флаги процессора, не нужные флаги предлагается не рассчитывать, так как инструкция может использовать/выставлять не все флаги.
- На третьем проходе считается количество необходимых ARM инструкций в блоке.
- На четвертом проходе генерируются необходимые инструкции.

После генерации блока он записывается в таблицу сгенерированных блоков, в которой также содержится отображение эмулированных адресов в физические. [7]

#### 1.3.3 FEX

FEX, как и box64, является эмулятором пользовательского режима, в отличии от box64 FEX используется промежуточное представление вида СЕП. FEX поддерживает не оптимизированную трансляцию в x86 и оптимизированную трансляцию в ARM. В FEX реализованы инструкции x86, x86-64, x87, MMX, SSE1, SSE2, SSE3, SSSE3 и BMI.

Трансляция происходит в 4 этапа:

- Frontend: Декодирование инструкций, при декодировании также определяются границы блоков трансляции и функций.
- OpDispatcher: Перевод инструкций в промежуточное представление.

- IR/Passes: Оптимизация промежуточного представления.
- JIT: Трансляция промежуточного представления в машинные инструкции платформы хоста.

x86 инструкции декодируются в более простые для обработки, например инструкция add имеет большое количество опкодов, хотя по сути там меняются размеры и типы операндов, а не сама операция. Тогда операции add, представленные на листинге 2, попадают в одну категорию.

Листинг 2: Пример декодирования инструкций в FEX

```
00 CO: add al, al
04 O1: add al, 0x1
```

Использование СЕП облегчает оптимизацию кода, например, при устранении бессмысленных присвоений, которые показаны в листинге 3:

Листинг 3: Пример лишнего присваивания

Не сложно понять, что первое присвоение переменной не нужно, однако для транслятора это далеко не так очевидно. Пример использования СЕП на листинге 4:

Листинг 4: Использование СЕП для определения бессмысленных присвоений

```
y1 := 1
y2 := 2
```

x1 := y2

СЕП решает следующие задачи:

- свёртка констант;
- удаление мёртвого кода;
- частичное устранение избыточности;
- снижение стоимости операций;
- распределение регистров.

После трансляции в IR количество инструкций больше изначального в 10-30 раз, так как, например, в соответствии с СЕП для каждого присваивания генерируются новые переменные. 32-х битные инструкции расширяются до 64 бит.

#### 1.3.4 Сравнение динамических трансляторов

Рассмотрим два аспекта динамических трансляторов, скорость и полноту трансляции.

Для замеров скорости использовался однопоточный бенчмарк nbench.



Рисунок 1 – Результаты замеров

Таким образом видно что динамический транслятор box64 достигает 44% скорости целочисленных вычислений и 56% вычислений с плавающей точкой. Используя только критерий скорости, можно сделать вывод что он является лучшим решением для динамической трансляции. Однако, по полноте трансляции он сильно проигрывает двум другим трансляторам: box64 не может транслировать все загружаемые библиотеки, то есть для корректной работы он почти обязательно будет использовать специфичные для архитектуры библиотеки, что целиком обходит проблему именно трансляции. Также, box64 не может рекомпилировать бинарные файлы созданные только на языке ассемблера, он их интерпретирует. Наконец, box64 не поддерживает многие SIMD-операции и не умеет правильно докладывать о доступных расширениях процессора через СРUID. Таким образом box64 достаточно далек от полноценного решения для трансляции. (адский главред)!!!!!!!!!!!!!!!

QEMU достигает 25% скорости целочисленных вычислений и 13% вычислений с плавающей точкой. Низшая производительность по сравнению с box64 связана, в том числе, с тем что QEMU не оптимизирован по ARM, а является универсальным решением для разных платформ. Также стоит заметить что QEMU — единственный из рассмотренных трансляторов который умеет эмулировать систему.

FEX достигает 18% скорости целочисленных вычислений и 33% вычислений с плавающей точкой. FEX разработан для трансляции на архитектуру ARM, предоставляет хорошую поддержку различных операций и умеет правильно докладывать о доступных расширениях процессора через CPUID. Так как внутри используется СЕП-представление он лучше остальных трансляторов подходит для проведения оптимизаций.

Рассмотрим результаты индивидуальных тестов, представленных в таблице ??, чем больше число, тем лучше.

Таблица 1 – Таблица результатов отдельных бенчмарков, итерации в секунду.

| Бенчмарк         | native    | box64     | QEMU     | FEX      |
|------------------|-----------|-----------|----------|----------|
| NUMERIC SORT     | 831.84    | 421.07    | 300.83   | 211.29   |
| STRING SORT      | 413.19    | 209.33    | 57.525   | 25.112   |
| BITFIELD         | 258910000 | 216760000 | 92293000 | 56201000 |
| FP EMULATION     | 370.51    | 111.52    | 102.89   | 41.368   |
| FOURIER          | 56443     | 33655     | 1946.3   | 9898.4   |
| ASSIGNMENT       | 22.622    | 12.22     | 7.1951   | 9.7578   |
| IDEA             | 7196.3    | 2016.5    | 1228.8   | 1660.5   |
| HUFFMAN          | 2396.6    | 859.58    | 625.73   | 566.98   |
| LU DECOMPOSITION | 1261.4    | 401.87    | 91.377   | 280.59   |

Судя по результатам таблицы можно заметить что минимальная производительность для FEX происходит на тесте «STRING SORT» который производит много работы с памятью. Для QEMU таким тестом оказался «FOURIER» — тест зависящий от производительности FPU. Для box64 — «IDEA», тест измеряющий общую производительность.

# 1.4 Существующие оптимизации трансляции

write

rewrite с оверхедом? да?... а надо?...)

Рассматриваемые трансляторы, в основном, не позволяют отключать отдельные аспекты оптимизации, однако в FEX они реализованы как оптимизирующие проходы, так что их можно отключить и замерить влияние на скорость выполнения программ.

# 1.4.1 Поддержка специфичных для архитектуры библиотек

Одним из важных механизмов, позволяющим добиться хорошей производительности, является использование специфичных для архитектуры библиотек, что является частным случаем эмуляции высокого уровня. Такой подход используется в box64 и FEX. Например, в box64 в графически требовательных приложениях производительность близка к 100%, однако в приложениях не использующие сторонние библиотеки (то есть полностью транслируемые) производительность около 50%.

При эмуляции Quake 3 в box64 (графического приложения с повторно вызываемыми функциями) производительность была около 85%.

Необходимые для работы приложения библиотеки либо транслируются, либо используется специфичная для архитектуры библиотека (в таком случае производительность выше). Вызовы функций перехватываются для вызова специфичных для архитектуры функций.

В ЕLF содержатся специальные символы называемые перемещениями, они используются при линковке для установки адреса необходимой функции. При вызове родной функции в качестве адреса выставляется адрес заранее подготовленного кода, он состоит из последовательности байт СС 53 43 и следующими за ней двух указателей. Первый указатель рассматривается как указатель на оберточную функции, а второй как указатель на обертываемую (родную) функцию. Оберточной функции передается структура с состоянием процессора и указатель на вызываемую функцию, эта структура распаковывается и вызывается переданная функция. По завершению работы оберточная функции завершается через гет или гетп.

Поиск необходимой функции осуществляется при помощи файлов находящихся в src/wrapped, их необходимо определять в ручную, так как названия функций не сохраняются после компиляции программы. Сигнатура функции состоит из символов, определяющих тип возвращаемого значения и типов аргументов, разделенных буквой F. Пример сигнатуры показан на рисунке 5.

Рисунок 2 – Пример сигнатуры функции тетсру

После определения функция заносится в таблицу функций библиотеки, а затем находится при помощи разных методов. [13]

В FEX так же существует поддержка специфичных для архитектуры библиотек, но, например, используется другая последовательность байт — 0F 36, реализация похожа на реализацию в box64.

#### 1.4.2 Оптимизации кода

В FEX и QEMU реализованы некоторые оптимизации, свойственные оптимизирующим компиляторам, критерием выбора оптимизаций является скорость работы (так как трансляция динамическая) и эффективность.

box64 является меньшим проектом, поэтому в нем реализовано меньше оптимизаций кода.

#### 1.4.3 Распространение констант

При этом проходе заменяется выражение, которое при выполнении всегда возвращает одну и ту же константу, самой этой константой. Это значение прописывается в инструкцию.

В FEX с такой оптимизацией скорость выполнения увеличивается на 7.5%.

# 1.4.4 Устранение мертвого кода

Устраняется «бессмысленный», не вызываемый код. Например, на листинге 5 представлена бессмысленная операция:

Листинг 5: Пример бессмысленной инструкции

```
and_i32 t0, t0, $0xffffffff
```

При выполнении побитовой операции И, в которой один из аргументов равен максимально возможному для регистра числу, второй аргумент не изменит значение.

В FEX так же устраняются бессмысленные и ненужные операции, с такой оптимизацией скорость выполнения увеличивается на 36%.

#### 1.4.5 Устранение загрузок контекста

В FEX устраняются бесполезные загрузки контекста, например, если идет сохранение контекста, а затем сразу же его загрузка, такая загрузка выполнятся не будет, с такой оптимизацией скорость выполнения увеличивается на 65%.

#### 1.4.6 Устранение хранения

В QEMU удаляются неиспользуемые перемещения данных, например, в листинге 6 представлен пример не оптимизированного хранения:

Листинг 6: Пример не оптимизированных TCG инструкций

```
add_i32 t0, t1, t2
add_i32 t0, t0, $1
mov_i32 t0, $1
```

После оптимизации выполнится только последняя инструкция.

В FEX устраняются бесполезные хранения, не высчитываются неиспользуемые флаги (например, те что будут перезаписаны следующей инструкцией: при операции умножения или деления используют несколько регистров и один из этих регистров будет перезаписан следующей инструкцией), если после ветвления в любом случае перезаписывается какое-либо значение — его можно не хранить.

В FEX с такой оптимизацией скорость выполнения увеличивается на 50%.

# 1.4.7 Сжатие инструкций

Многие x86 инструкции читают или записывают регистры подряд, можно объединять их в пары (и использовать ld2 или st1 и подобные).

Некоторые MMX операции (то есть с операндами в 64 бита) можно объединить в операции с операндами в 128 бит которые смогут использовать целый SIMD-регистр архитектуры ARM.

#### 1.4.8 Статическое выделение регистров

На ARM больше регистров общего назначения чем на x86, таким образом можно установить статическое соотношение между регистрами. Такая оптимизация приводит к тому что нет необходимости сохранять значение регистров в память во время выполнения транслированного кода, что увеличивает скорость выполнения и упрощает трансляцию.

#### 1.4.9 Устранение временных регистров

В FEX, если транслируется блок, который включает в себя весь код функции, и известен используемый двоичный интерфейс, есть возможность исключить временные регистры при сохранении контекста. Также при трансляции целой функции можно убрать загрузки и сохранения в контекст посреди функции и выполнять одно сохранение в конце функции и загрузку в начале.

#### 1.4.10 Анализ живости

В QEMU каждый регистр проверяется на используемость в определенном блоке трансляции. Если регистр не используется в блоке трансляции связанные с ним операции оптимизируются, так как значения этих регистров (и связанное с ними состояние процессора) за блок не могут измениться. Если состояние виртуального процессора меняется, такой блок не будет выполняться пока состояние процессора не будет соответствовать необходимому для блока (например, другой уровень привилегий).

Например, если на x86 регистры SS, DS и SS содержат в себе 0, транслятор не будет генерировать для них смещение.

# 1.4.11 Сравнение оптимизаций трансляции

В таблице 1 перечислены выделенные методы трансляции.

Таблица 2 – Таблица методов оптимизации трансляции.

| Методы оптимизации трансляции                   | QEMU | box64 | FEX |
|-------------------------------------------------|------|-------|-----|
| Промежуточное представление                     | +    | -     | +   |
| Блоки трансляции                                | +    | +     | +   |
| Связывание блоков трансляции                    | +    | +     | +   |
| Поддержка специфичных для архитектуры библиотек | -    | +     | +   |
| Распространение констант                        | +    | -     | +   |
| Устранение мертвого кода                        | +    | -     | +   |
| Устранение загрузок контекста                   | -    | -     | +   |
| Устранение хранения                             | +    | -     | +   |
| Сжатие инструкций                               |      | -     | +   |
| Устранение временных регистров                  |      | _     | +   |
| Анализ живости                                  | +    | -     | +   |

# 1.4.12 Использование блоков трансляции

Блоки трансляции используются в каждом из рассматриваемых трансляторов. Использования блоков позволяет рекомпилировать большие куски кода независимо друг от друга.

В QEMU как блок трансляции выделяется часть кода до момента изменения состояния процессора которое нельзя выяснить на этапе трансляции, например, некоторое ветвление. [9]

В box64, так же как и в QEMU, код разбивается на блоки трансляции, блок заканчивается когда после нее нет других инструкций, например jump, call или геt, и когда на последнюю инструкцию не ссылается ветвление из этого блока. Исключением являются многобайтовые NOP инструкции, которые обрабатываются отдельно, а прочтение неизвестной инструкции останавливает выполнение блока. [6]

В FEX Frontend.cpp разбивает код на блоки трансляции. Блок так же заканчивается при изменении порядка выполнения, однако рассматривается ситуация когда блоки трансляции находятся в одном месте. Некоторые трансляторы заканчивают трансляцию при изменении порядка выполнения, хотя в скомпилированном коде часто встречаются конструкции похожие на листинг 7:

Листинг 7: Пример кода, сгенерированного компилятором

```
test eax, eax
jne .Continue
ret <--- Можно продолжать трансляцию после
безусловного окончания функции
.Continue:
```

Если можно определить адрес условного перехода, то есть возможность продолжить трансляцию. [10]

Одной из важных оптимизаций является связывание различных блоков трансляции. Если не связывать блоки необходимо выходить из цикла выполнения кода, проходить эпилог процедуры и затем искать следующий, необходимый блок.

Например, после выполнения одного блока трансляции QEMU ищет следующий блок, для этого используется PC (эмулируемый program counter) и другая информация о статусе процессора (например регистр CS). Сначала блок ищется в кэше трансляции, если он там не найден он достается из хэш-таблицы и добавляется в кэш. Для поиска нужно выйти из цикла выполнения блока, пройти через эпилог процедуры, найти следующий блок, запустить его, пройдя через пролог процедуры. В качестве оптимизации предлагается связывать несколько блоков трансляции напрямую.

Для этого в конце блока вызывается tcg\_gen\_lookup\_and\_goto\_ptr(), он в свою очередь вызывает helper lookup tb ptr который ищет нужный блок и ге-

нерирует инструкцию goto\_ptr, которая либо продолжит управление в нужном блоке, либо вернется в основной цикл трансляции. Похожая оптимизация используется при ветвлении, если ветвление происходит напрямую, в пределах одной страницы QEMU выполняет поиск блока трансляции на который будет произведено ветвление, а затем сохраняет его адрес в транслированном коде, использование данного метода повышает скорость выполнения на 15%. Таким образом при следующем выполнении этого блока нет необходимости в поиске следующего блока. [9]

В box64 и FEX применяется похожая идея, таким образом сильно снижается время поиска следующего блока при безусловном ветвлении, например в FEX при выполнении 500 миллионов ветвлений поиск блока выполнялся 100 миллионов раз. [11]

#### 1.5 Поддержка самомодифицирующегося кода

Самомодифицирующийся код на x86 представляет особую проблему, так как нет механизма оповещения об изменении кода, в отличие, например, от ARM.

При запуске в режиме пользователя QEMU помечает все страницы с транслированным кодом как защищенные от записи, при попытке записи в них поднимается сигнал SEGV, допускается запись, транслированная страница и связанные с ней блоки помечаются как не валидные. При запуске эмуляции системы программный MMU выполняет защиту от записи и инвалидацию страниц. [9]

В box64 используется похожий механизм, все транслированные страницы помечаются защищенными на запись, при попытке попытке записи страница в которую произведена запись и все последующие помечаются как "грязные". Однако, они не обязательно являются невалидными, при попытке выполнения кода с такой страницы считается CRC32, полученный результат сравнивается с контрольной суммой посчитанной при создании блока, если суммы совпадают блок объявляется валидным и опять защищается от записи, иначе генерируется

#### новый блок. [6]

В FEX не реализована полноценная поддержка самомодифицирующегося кода, по мнению разработчиков подход QEMU и box64 является единственным приемлемым по скорости и планируется использовать его. [12]

#### 1.6 Поддержка TSO

TSO — total store order — таким термином называется организация доступа к памяти в x86.

При трансляции между двоичного кода между платформами следует также учитывать различные модели доступа к памяти, их делят на две группы: слабую и сильную. К слабой модели относятся архитектуры ARM, PowerPC, RISC-V и т.д; к сильной относятся x86/64, специальные режимы работы процессоров архитектуры SPARC и RISC-V и другие. В таблице ?? представлены оптимизаций доступа к памяти на стадии выполнения.

Таблица 3 – Таблица переупорядочиваний обращений к памяти [14]

|                                                      | ARMv7-A/R | RISC-V (WMO) | RISC-V (TSO) | x86 |
|------------------------------------------------------|-----------|--------------|--------------|-----|
| Чтение может быть переставлено после чтения          | Да        | Да           | -            | -   |
| Чтение может быть переставлено после записи          | Да        | Да           | -            | -   |
| Запись может быть переставлена после записи          | Да        | Да           | -            | -   |
| Запись может быть переставлена после чтения          | Да        | Да           | Да           | Да  |
| Атомарные операции могут быть переставлены с чтением | Да        | Да           | -            | -   |
| Атомарные операции могут быть переставлены с записью | Да        | Да           | -            | -   |

Как видно из таблицы, слабые модели памяти включают в себя большее количество перестановок операций. Таким образом дословная трансляция машинных операций многопоточного приложения с большой вероятностью приведёт к некорректным результатам.

Простейшее решением этой проблемы — использование инструкций с барьером. Такие инструкции устанавливают строгую последовательность между обращениями к памяти до и после барьера. Это означает, что все обращения к памяти перед барьером выполнятся до первого обращения к памяти после барьера, если все инструкции доступа к памяти будут выполнятся как инструкции с барьером, невозможна будет ситуация с перестановкой данных.

Использование инструкций с барьером оказывает сильное влияние на производительность ядер с развитой системой внеочередного исполнения, рассмотрим пример программы на ассемблере ARM:

Листинг 8: Простая программа

```
.globl start
     start:
2
                  x0, 58368
         mov
3
         movk
                 x0, 0x540b, 1s1 16
4
                  x0, 0x2, 1s1 32
         movk
5
    loop:
6
         mov
                  x21, #0xffffffffffffec
7
                  x21, sp, x21
         add
                  w20, [x21]
         str
9
10
         sub
                  x0, x0, #1
11
                  x0, 0
12
         cmp
         bne
                  loop
13
14
                  x0, #0
         mov
15
                  w8, #93
         mov
16
```

17 SVC #0

Эта программа 10000000000 раз производит сохранение регистра w20 в область памяти стека. Таким образом на время выполнения программы в сильнее всего влияет операция str w20, [x21]. Проведём замеры выполнения программы с операцией str w20, [x21] и с операцией stlr w20, [x21] — доступом к памяти с барьером. Результаты замеров времени выполнения программы представлены на рисунке 9.



Рисунок 3 – Замеры времени выполнения программы

На рисунке видно что ядро Cortex-A53 не сильно пострадало из-за замены операции чтения на операцию чтения с барьером, это связано с тем что его выпустили в 2012 году без полноценного внеочередного исполнения, только реализовав возможность одновременного исполнения некоторых команд. Так же видно что барьерный доступ к памяти для процессоров Cortex-A72 и Exynos M2 является затратной операцией, время выполнения программы вырастает в 10 и в 5 раз соответственной. Для процессора Apple M1 время выполнения этой программы не изменилось, однако барьерный доступ к памяти в нем также связан

с потерями в производительности. Отношение времени выполнения барьерных инструкций к обычным как правило падает в новых ядрах.

Несмотря на большую потерю в производительности FEX обрабатывает любой доступ к памяти, кроме доступа к памяти через регистр стека, как доступ к памяти с барьером, это простое, но не производительное решение.

В FEX есть возможность отключить все барьерные инструкции. Их отключение приводит к большому приросту в производительности. На рисунке 4 представлены замеры с барьерным доступом к памяти и совсем без него.



Рисунок 4 – Результаты замеров для Cortex A72

Инженеры компании Apple столкнулись с такой же проблемой и решили ее при помощи специального режима работы своего процессора. Этот режим работы не описан в спецификации ARM, в нем процессор придерживается строгой модели памяти, однако этот режим невозможно включить со стороны пользователя без расширений ядра, которые Apple не рекомендует использовать.

# **1.6.1** Регистр RBP

В скомпилированном под x86 с -O0 флагом коде часто для доступа к данным на стеке используется регистр RBP. По изначальной задумке этот регистр

предназначен для работы со стеком, однако современные оптимизирующие компиляторы используют его как дополнительный регистр общего назначение. Рассмотрим программу на языке С:

Листинг 9: Цикл на С

```
int main() {
    const unsigned long upto = 10000000000;
    int j = 2;
    for (unsigned long i = 1; i < upto; i++) {
        j *= i;
    }
    return j;
}</pre>
```

Скомпилированный компилятором дсс без оптимизаций код:

Листинг 10: Фрагмент скомпилированного кода

```
main:
   endbr64
2
   pushq
           %rbp
3
   movq %rsp, %rbp
4
   movabsq
              $1000000000, %rax
5
         %rax, -8(%rbp)
   movq
6
   movl $2, -20(%rbp)
7
   movq $1, -16(%rbp)
```

Как видно из скомпилированного фрагмента, доступ к стеку производится через RBP, такая организация доступа к памяти используется и далее по коду программы. Несмотря на то что доступ производится к памяти стека FEX

не считает такой доступ TSO-безопасным и транслирует его в инструкции доступа к памяти с барьером. Однако нельзя просто считать любой доступ через RBP безопасным, так как он часто используется как регистр общего назначения и трансляция доступа к памяти через него без барьеров может привести к ошибкам.

#### **1.7** Вывод

В этом разделе рассмотрены некоторые методы трансляции применяемые в среде открытого программного обеспечения. Из методов трансляции была выбрана рекомпиляция использующая промежуточное представление вида СЕП, такой подход реализован в FEX, однако он достигает только 18% скорости целочисленных вычислений и 33% вычислений с плавающей точкой, крупные потери в скорости связаны с организацией доступа к памяти, а именно с использованием барьерного доступа к памяти для всех регистров кроме RSP.

По результатом тестов было выяснено что использование барьерных инструкций доступа к памяти сильно замедляет выполнение транслированных программ, таким образом устранение излишних барьеров может привести к большому приросту производительности.

# 2 Конструкторская часть

В данном разделе описываются используемые структуры данных, проводится подробное описание алгоритма оптимизации динамической трансляции доступа к памяти и сопутствующих ему алгоритмов. Проводится проектирование программной реализации алгоритма оптимизации динамической трансляции доступа к памяти.

Алгоритм рассчитан на организацию кода в блоки из которых одна точка выхода в конце блока и одна точка входа — в начале блока.

#### 2.1 Архитектура программного обеспечения

Это оптимизирующий проход, он вызывается как часть модуля FEX бла бла бла

#### 2.2 Используемые структуры данных

BlockInfo — структура хранящая информацию об отдельном блоке транслированного кода. Включает в себя:

- *State* рассчитанное состояние блока, свидетельствует о состоянии регистра RBP, либо регистр не менялся, либо в нем адрес связанный со стеком, либо в нем адрес не связанный со стеком. Может принимать значения: STACK, NOT\_STACK, NOT\_CHANGED.
- *StackNodes* множество операций загружающих стековое значение;
- UnStackNodes множество операций загружающих не стековое значение;
- Predecessors множество блоков трансляции предшествующих этому;
- *Visited* флаг, показывает обработан ли блок. еще существует мапа с блок инфо можно UML

можно еще описать феховские IR block и Node

# 2.3 Алгоритм оптимизации динамической трансляции доступа к памяти

**Входные данные:** Множество блоков транслированного кода IRBlocks.

**Выходные данные:** Множество блоков транслированного кода IRBlocks с оптимизированным доступом к памяти.

# Алгоритм 1 Алгоритм оптимизации динамической трансляции доступа к па-

```
ИТКМ
 1: in \leftarrow множество блоков транслированного кода
 2: out \leftarrow множество блоков транслированного кода с оптимизированным доступом к памяти
 3: ControlFlow \leftarrow построить граф потока выполнения блоков
 4: for i in in do
       StackStatus \leftarrow STACK
       for j in предшевственники i do
 6:
 7:
           PredecessorState \leftarrow рассчитать состояние блока с учетом предшественников
           if CodeNode \neq STACK это что такое then
 8:
               StackStatus \leftarrow PredecessorState
 9:
           end if
10:
       end for
11:
12:
       for CodeNode in строки кода i do
           if CodeNode = инструкция загрузки адреса стека в RBP then
13:
               StackStatus \leftarrow STACK
14:
           end if
15:
16:
           if CodeNode = инструкция загрузки любого значения, кроме стека в RBP then
               StackStatus \leftarrow NOT STACK
17:
           end if
18:
           if StackStatus == STACK and CodeNode = инструкция записи или чтения по адресу
19:
   регистра RBP then
20:
               out \leftarrow заменить барьерную инструкцию на обычную
           end if
21:
22:
       end for
23: end for
```

### 2.4 Алгоритм построения графа выполнения блоков

```
Алгоритм 2 Алгоритм построения графа выполнения блоков
 1: in \leftarrow множество блоков транслированного кода
 2: Predecessors \leftarrow ориентированный граф потока выполнения блоков
 3: State \leftarrow множество состояний блоков
 4: StackNodes \leftarrow множество строк изменяющих содержимое регистра RBP на значение свя-
   занное с RSP
 5: UnStackNodes \leftarrow множество строк изменяющих содержимое регистра RBP на значение
   не связанное с RSP
 6: for i in in do
 7:
       for j in строки i do
           if j — условный переход then
 8:
 9:
              Predecessors \leftarrow i — предшественник блоков куда передается управление
           end if
10:
          if j — безусловный переход then
11:
              Predecessors \leftarrow i — предшественник блока куда передается управление два раз-
12:
   ных предецессора
           end if
13:
           if j — запись регистра RBP then
14:
              if записывается связанное с RSP значение then
15:
                  State \leftarrow в блоке стековое значение
16:
                  StackNodes \leftarrow строка записи стекового значения
17:
18:
              else
                  State \leftarrow в блоке не стековое значение
19:
20:
                  UnStackNodes \leftarrow строка записи не стекового значения
              end if
21:
           end if
22:
       end for
23:
24: end for
```

# 2.5 Алгоритм расчета распространенного состояния стека

Этот алгоритм используется для определения состояния регистра в последующих блоках. Если в блоке 1 была произведена загрузка стекового значения в регистр RBP, а в блоке 2, для которого предок только блок 1, этот регистр не

меняется, то для всех потомков блока 2 следует считать что регистр содержит стековое значение.

# Алгоритм 3 Алгоритм расчета распространенного состояния стека

```
1: TargetBlock \leftarrow блок для которого рассчитывается состояние стека
2: ControlFlow \leftarrow граф потока выполнения блоков
3: ResultingState \leftarrow состояния стека для блока с учетом предыдущих
4: out STACK
5: for i in предшевственники TargetBlock do
       PredecessorState \leftarrow рассчитать распространенное состояние стека для i
       if PredecessorState = NOT CHANGED then
7:
          ResultingState \leftarrow NOT CHANGED
       end if
9:
       if PredecessorState = NOT STACK then
10:
          ResultingState \leftarrow NOT STACK
11:
12:
          break
       end if
13:
```

#### 2.6 Вывод

14: **end for** 

Были описаны используемые структуры данных, дано описание алгоритмов используемых.. Был спроектирован алгоритм оптимизации динамической трансляции доступа к памяти.?

#### 3 Технологическая часть

В данном разделе описываются средства разработки программного обеспечения, требования к вычислительной системе. Приводится структура разработанного приложения.

#### 3.1 Выбор средств разработки

Из рассмотренных в аналитическом разделе трансляторов FEX лучше прочих подходит для реализации алгоритма, так как в нем присутствует СЕП.

### 3.1.1 Выбор языка программирования

Динамический транслятор FEX написан на языке C++, в нем используются разные библиотеки, например ядро транслятора FEXCore это библиотека реализующая непосредственно динамическую трансляцию. FEXCore также написан на C++ и не предусматривает расширений с помощью внешних модулей, поэтому для того чтобы ее модифицировать надо писать код на C++.

#### 3.1.2 Сборка программного обеспечения

Для конфигурации проекта используется CMake. Для компиляции реализации алгоритма необходимо добавить имя файла в соответствующий CMakeLists.txt

Для сборки всего проекта используется ninja. На листинге 13 указана конфигурация сборки проекта.

Листинг 11: Конфигурация сборки проекта

```
CC=clang CXX=clang++ cmake -DCMAKE_INSTALL_PREFIX=/usr \
-DCMAKE_BUILD_TYPE=Release -DENABLE_LTO=True \
-DBUILD_TESTS=False -DCMAKE_CXX_COMPILER_LAUNCHER=ccache \
-DENABLE_CLANG_FORMAT=False -G Ninja ..
```

Оптимизирующий проход создан на основе версии 2204, коммит 37f1e55ed5dc7a35ba9bf875e250de0b75581a22.

Вносимые в проект изменения относятся к FEXCore Base.



Рисунок 5 – Диаграмма зависимостей userspace эмулятора FEXLoader

#### 3.2 Требования к вычислительной системе

Для запуска программного обеспечения требуется исходный код динамического транслятора FEX. Так как алгоритм реализует оптимизацию доступа к памяти с сохранением корректного выполнения многопоточных приложений для прироста в скорости требуется процессор с поддерживаемой архитектурой со слабым доступом к памяти и несколькими ядрами, то есть оптимизирующий проход будет приводить к росту производительности не только на ARM, но и, например, RISC-V.

Для разработки и сборки проекта использовался ноутбук на основе процессора RK3399, архитектуры ARM. Несмотря на это разработка не привязана к конкретной архитектуре, теоретически разработку можно вести на любой архитектуре имеющий набор инструментов для кросс-компиляции под архитектуру ARM.

#### 3.3 Структура программного обеспечения

Разработанное ПО реализовано как оптимизирующий проход над промежуточным представлением.

При инициализации транслятора вызывается функция AddDefaultPasses, внутри которой вызываются функции InsertPass регистрирующие оптимизирующие проходы в определенном порядке. Функция InsertPass принимает на вход std::unique\_ptr<Pass> — указатель на экземпляр класса прохода. У класса обязательно должен быть метод Run принимающий на вход IREmitter и возвращающий bool — был ли изменен код во время прохода.

Разработанный проход зависит от StaticRegisterAllocationPass, во время этого прохода статически выделяются регистры, на основе этих регистров и идет оптимизация доступа памяти.

Отключить все оптимизирующие проходы можно с помощью аргумента -O или -o0.

## 3.4 Распространение программного обеспечения

Программное обеспечение распространяется в виде патча сформированного командой git format-patch. Для применения патча к проекту можно, например, использовать git am.

# 3.5 Дополнительные утилиты

Для анализа генерируемого кода нужно анализировать скомпилированный код, такой возможности у FEX нет, поэтому была проведена модификация функции Context::CompileBlock которая компилирует и запускает блок. Перед запуском вся область запускаемой памяти сохраняется в бинарный файл.

Листинг 12: Сохранение скомпилированного блока

```
--- a/External/FEXCore/Source/Interface/Core/Core.cpp
    +++ b/External/FEXCore/Source/Interface/Core/Core.cpp
2
    @@ -1001,6 +1001,15 @@ namespace FEXCore::Context {
4
    }
6
    +
7
          FILE *fp;
8
          std::string filename = "Core Block other " + \
10
            std::to string((uint64 t)CodePtr) + ".cdmp";
    +
11
          fp = fopen(filename.c str(), "wb");
12
          fwrite((void*)CodePtr, DebugData->HostCodeSize, 1, fp);
13
         fclose(fp);
         printf("block dumped %s\n", filename.c str());
15
    if (IRCaptureCache.PostCompileCode(
17
    Thread,
18
    CodePtr,
20
    2.36.0
21
22
```

Обработка сохраненной памяти затем выполнялась при помощи objdumр — в итоге получался код на ассемблере.

После анализа скомпилированного кода были сделаны выводы по основным факторам замедляющим выполнение скомпилированного кода, таких как барьерный доступ к памяти.

вставить структуры в виде листинга, вставить классы феха?

диаграмма функциональная типа функции кто кого вызывает и можно табличку MPI, документация по функциям

# 3.6 Вывод

В данном разделе были описаны средства разработки программного обеспечения, требования к вычислительной системе. Была дана структура разработанного приложения.

## 4 Исследовательская часть

В рамках дипломной работы было проведено исследование изменения результатов бенчмарка nbench с разработанным проходом. Результаты исследования представлены в этом разделе.

## 4.1 Описание используемых данных

Для проведения исследования используется бенчмарк nbench скомпилированный при помощи дес в два разных бинарных файла: с флагом -O0 и с флагом -O3.

В бенчмарке nbench реализовано 9 тестов:

- Numeric sort сортировка массива 32-х битных чисел. Оценивается производительность работы с целыми числами.
- String sort сортировка массива символов. Проверяется скорость работы с памятью.
- Bitfield выполняет различные битовые операции. Например: очистить или выставить n бит, инвертировать число. Оценивается скорость выполнения таких операций.
- Emulated floating-point небольшой эмулятор для работы с числами с плавающей запятой. Хорошо оценивает общую производительность.
- Fourier coefficients рассчитывает коэффициенты Фурье. Оценивает производительность FPU, при этом память использует не активно.
- Assignment algorithm решение задачи о назначениях. Работает с массивом, на результат влияет скорость последовательного доступа к памяти.
- Huffman compression алгоритм Хаффмана. Операции с байтами, битами и с целыми числами. Считается хорошей оценкой общей производительности.
- IDEA encryption алгоритм шифрования. Оценивает скорость исполнения кода.

— LU Decomposition — алгоритм решения линейных уравнений. Работает с числами с плавающей запятой, использует только фундаментальные операции (+, -, \*, /).

В итоге получаются INTEGER INDEX и FLOATING-POINT INDEX — комбинированный результат бенчмарков.

Каждый бенчмарк запускается 5 раз, затем рассчитывается среднеквадратическое отклонение и доверительный интервал с уровнем доверия 0.95. Если длина полуинтервала меньше 1% от абсолютного значения среднего, то замер времени считается успешным, иначе проводятся дополнительные замеры.

Динамический транслятор FEX запускается на SOC Rockchip RK3399, Exynos 8895 и Apple M1. Система работающая на RK3399 работает под управлением Linux; Exynos — Android, сам запуск производится через chroot в окружение Debian; Apple M1 — виртуальная машина с Ubuntu.

Из-за того что SOC RK3399 и Exynos 8895 используют архитектуру big.LITTLE у них одинаковые «малые» ядра — Cortex A53. Больших различий между этими ядрами нет, поэтому в тестах использовались результаты работы этого ядра на RK3399. Раздельно представлены результаты бенчмарков для их «больших» ядер — Cortex A72 для RK3399 и Mongoose M2 для Exynos 8895.

Замеры времени выполнения проводились на версии FEX-2204.

## 4.2 Результаты исследования

На рисунках 6-10 представлены результаты замеров скорости выполнения nbench с использованием алгоритма и без.

сделать baseline





Рисунок 7 – nbench FOURIER O0



Рисунок 8 – nbench IDEA O0



Рисунок 9 – nbench HUFFMAN O0



Рисунок 10 – nbench O3

Таким образом по результатам замеров видно что проход работает только на не оптимизированном бенчмарке (собранном с флагом -ОО), также стоит заметить что для Apple M1 рост в производительности на выделенных бенчмарках меньше.

На ОЗ рост производительности незначителен, это связано с тем что регистр RBP, при оптимизации, используется в качестве регистра общего назначения.

Рост в производительности составил:

- Cortex A53 производительность в среднем выше в 0.42 процента, для FOURIER — прирост 1 процент, IDEA — 2.7 процента, HUFFMAN — меньше процента;
- Cortex A72 производительность в среднем выше в 1.77 процента, для FOURIER — прирост 7.5 процента, IDEA — 12.2 процента, HUFFMAN — 4.2 процента;
- Mongoose M2 производительность в среднем выше в 1.29 процента, для FOURIER — прирост 4.4 процента, IDEA — 6.8 процента, HUFFMAN - 5.3 процента;
- M1 Firestorm производительность в среднем выше в 1.76 процента,

для FOURIER — прирост 4.5 процента, IDEA — меньше процента, HUFFMAN — 5.7 процента;

У Cortex A53, как было выяснено в аналитическом разделе, разница в скорости выполнения программ с барьерным доступом к памяти и без него мала, поэтому для этого ядра результаты меньше.

## 4.3 Тестирование на корректность

Главной причиной разработки алгоритма по оптимизации доступа к памяти являлась слабая модель архитектуры ARM, что при трансляции многопоточных приложений приводило к ошибкам.

Для проверки корректной работы прохода использовался tst-cond16.c — тест библиотеки libc. Этот тест создает 8 потоков которые проводят операции с мьютексами. Стандартная версия транслятора и версия с оптимизирующим проходом этот тест проходит, без барьерных инструкций и с безусловной заменой барьерных операций связанных с регистром RBP тест не проходит.

#### 4.4 Вывод

В результате исследования было установлено, что проход увеличивает производительность отдельных бенчмарков и в целом повышает скорость выполнения транслированного кода, но только если исходный код был собран без оптимизаций.

Также было частично доказано что барьерные инструкции доступа к памяти сильнее влияют на ранее выпущенные ядра ARM.

### **ЗАКЛЮЧЕНИЕ**

В рамках этой работы (переписать, расширить):

- был реализован оптимизирующий проход над промежуточным представлением;
- проход был встроен в динамический транслятор FEX;
- проведено исследование результатов работы оптимизирующего прохода;
- проведено исследование корректность работы оптимизирующего прохода.

Таким образом цель работы — нахождения и устранение издержек трансляции была достигнута.

Написать про то что еще кое-что можно было бы добавить (например поддержку разных регистров?)

### СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

- 1. ГОСТ 19781-83. Вычислительная техника. Терминология: Справочное пособие. Выпуск 1 / Рецензент канд. техн. наук Ю. П. Селиванов. Москва: Издательство стандартов, 1989. 168 с.
- 2. Першиков В. И. Толковый словарь по информатике / В. И. Першиков, В. М. Савинков Москва: Финансы и статистика, 1991. 543 с.
- 3. Толковый словарь по вычислительным системам / Под ред. В. Иллингуорта и др.: Пер. с англ. А. К. Белоцкого и др.; Под ред. Е. К. Масловского. Москва: Машиностроение, 1990. 560 с.
- 4. Arm Limited Roadshow Slides Q1 2020 [Электронный ресурс]. Режим доступа: https://group.softbank/system/files/pdf/ir/presentations/2020/arm-roadshow-slides\_q1fy2020\_01\_en.pdf, свободный (24.11.2021)
- 5. Probst, Mark. Fast Machine-Adaptable Dynamic Binary Translation. 2001.
- 6. Переписка с разработчиком box64. См. приложение Б
- 7. box64: Inner workings [Электронный ресурс]. Режим доступа: https://box86.org/2021/07/inner-workings-a-high%e2%80%91level-view-of-box86-and-a-low%e2%80%91level-view-of-the-dynarec/, свободный (11.12.2021)
- 8. tcg/README [Электронный ресурс]. Режим доступа: https://gitlab.com/qemu-project/qemu/-/blob/master/tcg/README, свободный (26.12.2021)
- 9. QEMU: Translator Internals [Электронный ресурс]. Режим доступа: https://qemu.readthedocs.io/en/latest/devel/tcg.html, свободный (11.12.2021)

- 10. FEXCore Frontend [Электронный ресурс]. Режим доступа: https://github.com/FEX-Emu/FEX/blob/main/External/FEXCore/docs/Frontend.md, свободный (26.12.2021)
- 11. FEX-Emu: Internals in High Level @ ungleich.ch [Электронный ресурс]. Режим доступа: https://www.youtube.com/watch?v=BYIIwaHfl3E, свободный (26.12.2021)
- 12. Переписка с разработчиком FEX. См. приложение В.
- 13. box64: A deep dive into library wrapping [Электронный ресурс]. Режим доступа: https://box86.org/2021/08/a-deep-dive-into-library-wrapping/, свободный (11.12.2021)
- 14. Paul E. McKenney. Memory Barriers: a Hardware View for Software Hackers. 2010. http://www.rdrop.com/users/paulmck/scalability/paper/whymb.2010.06.07c.pdf
- 15. Memory Reordering Caught in the Act [Электронный ресурс]. Режим доступа: https://preshing.com/20120515/memory-reordering-caught-in-the-act/, свободный (29.04.2022)

#### ПРИЛОЖЕНИЕ А

## Листинг 13: Проход оптимизации доступа к памяти

```
#include <FEXCore/Core/X86Enums.h>
1
       #include <FEXCore/IR/IR.h>
2
       #include <FEXCore/IR/IREmitter.h>
       #include <FEXCore/IR/IntrusiveIRList.h>
4
5
       #include <array>
6
       #include <iostream>
8
       #include "Interface/Core/OpcodeDispatcher.h"
10
       #include "Interface/IR/PassManager.h"
11
       namespace FEXCore::IR {
12
13
14
           enum RBP_STATE {
               NOT CHANGED = (0b000 << 0),
               STACK = (0b001 << 0),
16
               NOT STACK = (0b010 << 0),
18
           };
19
20
           struct BlockInfo {
               int State = NOT CHANGED;
21
               std::set<OrderedNode*> StackNodes;
22
               std::set<OrderedNode*> UnStackNodes;
23
               std::vector<OrderedNode*> Predecessors;
24
               bool Visited = false;
25
26
           };
27
           class StackAccessTSORemovalPass final : public Pass {
28
29
               public:
               bool Run(IREmitter* IREmit) override;
30
31
32
               private:
               void CalculateControlFlowInfo(IREmitter* IREmit);
33
               int CalculateComplexState(const OrderedNode* TargetNode,
34
               const IRListView& CurrentIR);
35
               std::unordered map<NodeID, BlockInfo> OffsetToBlockMap;
36
           };
37
38
           static bool HitsRegister(const int Register, IREmitter* IREmit,
39
           IROp Header* Op) {
40
               std::queue<IROp Header*> values{};
41
               values.push(Op);
42
43
               while (!values.empty()) {
44
```

```
IROp Header* ValOp = values.front();
45
                    values.pop();
46
47
                    switch (ValOp->Op) {
48
                        case IR::OP_ADD:
49
                        case IR::OP SUB:
50
                        case IR::OP OR:
51
52
                        case IR::OP_AND: {
                            values.push(IREmit->GetOpHeader(ValOp->Args[0]));
53
                            values.push(IREmit->GetOpHeader(ValOp->Args[1]));
55
56
                            break;
57
                        case IR::OP LOADREGISTER: {
58
                            auto LocalOp = ValOp->CW<IR::IROp LoadRegister>();
59
60
                            if (LocalOp->Offset ==
61
                            offsetof(FEXCore::Core::CPUState, gregs[Register]) &&
62
                            LocalOp->Class == GPRClass) {
63
                                return true;
64
65
66
                            break:
67
68
                        default: {
69
70
                            break;
72
                    }
73
74
               /* never hit the RSP register, so it's not a stack value being
75
               * loaded. */
76
               return false;
77
           }
78
79
           void StackAccessTSORemovalPass::CalculateControlFlowInfo(IREmitter* IREmit) {
80
               IRListView CurrentIR = IREmit->ViewIR();
81
82
               for (auto [BlockNode, BlockHeader] : CurrentIR.GetBlocks()) {
83
                    BlockInfo* CurrentBlock =
84
                    &OffsetToBlockMap.try emplace(CurrentIR.GetID(BlockNode)).first->second;
85
                    for (auto [CodeNode, IROp] : CurrentIR.GetCode(BlockNode)) {
86
                        switch (IROp->Op) {
87
                            case IR::OP CONDJUMP: {
                                auto Op = IROp->CW<IR::IROp CondJump>();
90
                                {
91
                                     auto Block =
92
93
                                     &OffsetToBlockMap.try emplace(Op->TrueBlock.ID()).first->second;
                                     Block->Predecessors.emplace back(BlockNode);
94
                                }
95
```

```
96
                                  {
97
                                      auto Block = &OffsetToBlockMap.try emplace(Op->FalseBlock.ID())
98
                                      .first->second;
99
                                      Block->Predecessors.emplace_back(BlockNode);
100
101
102
103
                                 break;
104
105
                             case IR::OP JUMP: {
                                  auto Op = IROp->CW<IR::IROp Jump>();
108
                                      auto Block =
109
                                      OffsetToBlockMap.try emplace(Op->Header.Args[0].ID()).first;
110
                                      Block->second.Predecessors.emplace back(BlockNode);
111
112
113
                                 break;
114
115
                             case IR::OP_STOREREGISTER: {
116
                                 IROp_StoreRegister* Op = IROp->CW<IR::IROp_StoreRegister>();
117
                                  if (Op->Offset == offsetof(FEXCore::Core::CPUState,
118
                                 gregs[FEXCore::X86State::REG RBP]) &&
119
                                 Op->Class == GPRClass) {
120
121
                                      if (HitsRegister(FEXCore::X86State::REG RSP, IREmit,
                                      IREmit->GetOpHeader(Op->Value))) {
122
                                          CurrentBlock->State = STACK;
                                          CurrentBlock->StackNodes.emplace(CodeNode);
124
                                      } else {
125
                                          CurrentBlock->State = NOT STACK;
126
                                          CurrentBlock->UnStackNodes.emplace(CodeNode);
127
128
129
                                 break;
130
131
                             default:
132
133
                             break;
134
135
136
                }
137
           }
138
139
            // returns the combined state of all the predecessors and the block itself
140
           int StackAccessTSORemovalPass::CalculateComplexState(
           const OrderedNode* TargetNode, const IRListView& CurrentIR) {
                auto TargetPair = OffsetToBlockMap.find(CurrentIR.GetID(TargetNode));
142
                if (TargetPair == OffsetToBlockMap.end()) {
143
144
                    std::cout << "TargetPair not found in offsets!" << std::endl;</pre>
                    return NOT STACK;
145
                }
146
```

```
147
                BlockInfo* TargetBlock = &TargetPair->second;
148
149
                if (TargetBlock->Visited || TargetBlock->Predecessors.size() == 0 ||
150
                TargetBlock->State != NOT_CHANGED) {
151
                    return TargetBlock->State;
152
153
154
                TargetBlock->Visited = true;
155
                int ResultingState = STACK;
156
                for (auto i : TargetBlock->Predecessors) {
157
158
                    // only call if predecessor is not visited?
                    if (i == TargetNode) {
159
                        continue;
160
161
                    int PredecessorState = CalculateComplexState(i, CurrentIR);
162
163
                    if (PredecessorState == NOT_CHANGED) {
164
                        ResultingState = NOT CHANGED;
165
                    } else if (PredecessorState == NOT STACK) {
166
                        ResultingState = NOT_STACK;
167
                        break;
168
169
170
                }
171
172
                TargetBlock->State = ResultingState;
173
174
                return TargetBlock->State;
175
176
           bool StackAccessTSORemovalPass::Run(IREmitter* IREmit) {
177
                CalculateControlFlowInfo(IREmit);
178
179
                IRListView CurrentIR = IREmit->ViewIR();
180
                bool Changed = false;
181
182
                for (auto [BlockNode, BlockHeader] : CurrentIR.GetBlocks()) {
183
                    auto CurrentBlockPair = OffsetToBlockMap.find(CurrentIR.GetID(BlockNode));
184
                    if (CurrentBlockPair == OffsetToBlockMap.end()) {
185
                         std::cout << "Block not found in offsets" << std::endl;</pre>
186
187
                         continue;
188
189
                    int StackStatus = STACK;
                    BlockInfo* CurrentBlock = &CurrentBlockPair->second;
                    for (auto CodeNode : CurrentBlock->Predecessors) {
192
                         int PredecessorState = CalculateComplexState(CodeNode, CurrentIR);
193
194
195
                         if (PredecessorState != STACK) {
                             StackStatus = PredecessorState;
196
                             break;
197
```

```
198
199
200
                    for (auto [CodeNode, IROp] : CurrentIR.GetCode(BlockNode)) {
201
                        if (CurrentBlock->StackNodes.contains(CodeNode)) {
202
                             StackStatus = STACK;
203
204
205
                        if (CurrentBlock->UnStackNodes.contains(CodeNode)) {
                             StackStatus = NOT STACK;
206
207
                        if (IROp->Op == IR::OP LOADMEMTSO && StackStatus == STACK) {
209
                             if (HitsRegister(FEXCore::X86State::REG RBP, IREmit,
                             IREmit->GetOpHeader(IROp->Args[0])) ||
210
                             HitsRegister(FEXCore::X86State::REG RSP, IREmit,
211
                             IREmit->GetOpHeader(IROp->Args[0]))) {
212
                                 IROp->Op = IR::OP LOADMEM;
213
                                 Changed = true;
214
215
                        }
216
                        if (IROp->Op == IR::OP STOREMEMTSO && StackStatus == STACK) {
217
                             if (HitsRegister(FEXCore::X86State::REG_RBP, IREmit,
218
                             IREmit->GetOpHeader(IROp->Args[1])) ||
219
                             HitsRegister(FEXCore::X86State::REG RSP, IREmit,
220
                             IREmit->GetOpHeader(IROp->Args[1]))) {
221
                                 IROp->Op = IR::OP_STOREMEM;
222
223
                                 Changed = true;
224
226
227
                    CurrentBlock->Visited = true;
228
                    CurrentBlock->State = StackStatus;
229
230
231
                return Changed;
232
            }
233
234
            std::unique_ptr<Pass> CreateStackAccessTSORemovalPass() {
235
                return std::make unique<StackAccessTSORemovalPass>();
236
237
238
        } // namespace FEXCore::IR
```

#### ПРИЛОЖЕНИЕ Б

Hi. Thanks for your interest in Box! I have answered your question below, to make things easier to read.

As a general design principle for Box, I try to get the Dynarec not too complex, but still trying to have decent translated code. Also, I try to be able to get back to an x86 instruction from an ARM generated code to be able to handle Signal properly.

Sebastien.

Le mer. 8 d=C3=A9c. 2021 =C3=A0 13:34, Mikhail Nitenko <mnitenko@gmail.com>= a =C3=A9crit :

> Hello!

>

- > I=E2=80=99m a final-year student interested in dynamic binary translation=
- > specifically in x86 to ARM. I am writing a bachelor thesis about it
- > and wanted to explore the current optimizations related to
- > translation and wanted to write to you since your project seems to be
- > quite advanced.

>

- > I read the =C2=ABInner workings=C2=BB and =C2=ABA deep dive into library = wrapping=C2=BB
- > articles and wondered about some things, specifically:
- > \* How do you determine where the translation block ends? You said
- > =C2=ABthere are a lot of possibilities here=C2=BB, from reading QEMU docs=
- > would imagine that one of them would be a CPU state change that is
- > impossible to determine ahead of time.

>

A block is a contiguous array of x86 instructions. A block ends when the last instruction has no "next" instruction (like a jump, call or ret), and when that instruction is not referenced by a jump from the current block. There are a few exception: multi-bytes NOP are handled, and an unknown instruction stop the block unconditionally

- \* How much memory is allocated for each x86 instruction during pass 0?
- > Is there some kind of table that determines that?

>

The memory is dynamically allocated in pass 0. So it will use as much memory as needed.

\* JITs (mono) and self-modifying code. I know that emulating
> self-modifying code in x86 is difficult, QEMU for example detects
> writes to pages and invalidates translated code at that page and all
> pages that follow, are you doing the same? Is there some document that
> I can read to learn about problems related to JIT (mono, which I
> assume is open-source .NET)?

I'm doing something similar, yes. All pages from which x86 code has been translated are write protected. Once a write occurs, all blocks generated from this page are marked dirty, and the jump table from those blocks are invalidated (to avoid automatic jump from block to block to this one). Once x86 code wants to run a "dirty" block, a crc32 of the memory is runned and compared to the crc computed when creating the block. depending if it's the same or non, the block is marked as clean (and the page protected again) or deleted and a new one is generated (and the page also protected again)

\* Am I correct in understanding that dynarec is used to translate x86 > instructions into ARM instructions and x86 emulation is code in C that > emulates an instruction?

Box86 and Box64 include an Interpreter, coded in C, that can interpret x86 code on any architecture, and a Dynarec, actually only available for ARM. The Dynarec is coded in C also, with very little assembly file (just the prolog / epilog of a function call basically). The Dynarec will use "Emitter", (ab)using C macro, to generate actual arm opcodes.

> Also, maybe you would be able to point me to some other resource
> where I learn more about translation optimizations? Any help would be
> greatly appreciated!

You should have a look at FEX project. This project has a huge emphasis on the dynarec and code translation optimisation

57

#### приложение в

Oh, hey there.

For your specific questions. The pass manager is purely a construct that manages some pass classes and ensures optimization passes are run over the IR in correct order.

This can be found here:

https://github.com/FEX-Emu/FEX/blob/main/External/FEXCore/Source/Interface/IRPassManager.cpp

The same equivalent can be found in other compiler projects like LLVM.

Self-modifying code is currently semi-nonworking under FEX.

We have three modes of operation:

No SMC - Assumes zero code invalidation, highly dangerous.

mmap based invalidation - On mmap and munmap, ensure any overlapping executable regions get code invalidated. Fixes issues where libraries are loaded and need invalidation

per-instruction validation - This is the worst case situation, we emit an instruction check at every.single. emulated instruction. Very /very/ slow, only for debugging purposes.

We have plans to implement write protecting based invalidation but haven't had the time to get around to it. It's pretty much the only good way of detecting SMC.

The full list of passes can be seen in the PassManager link with `AddDefaultPasses`, `AddDefaultValidationPasses`, and `InsertRegisterAllocationPass`.

With implementations living at:

https://github.com/FEX-Emu/FEX/tree/main/External/FEXCore/Source/Interface/IR

Unlike a compiler, we've got some heavy deadline constraints for how long we can take optimizing the code, and luckily the code will have run through a compiler that does most of that anyway.

Some of the more "hidden" optimizations come from around the IR optimization. Our IR is designed to look like AArch64 to some extent, which means we don't really need something like a high level IR then a machine level IR to get close to "optimal".

Additionally some of the memory allocations and container functions around the IR optimize around code size limits, forward only temporary allocator for smart CPU cache behaviour, linked lists that the elements are packed tightly in most cases so forward data fetching that the CPU does will be optimal.

I should also say that I'm not fully happy about FEX's codegen yet either. There's a /lot/ of room for improvement since we miss a bunch of optimization opportunities.

Probably some other various bits.

One of the big things that can help is our AOT compilation. We have some minor work towards both x86->IR AOT and I'm in the process of writing IR->Code AOT.

With AOT we can throw heavier optimizations at the IR that we can't do in JIT time. Which will improve long term performance of the application.

Currently our code generates a /bunch/ of redundant register moves for example. ARM CPUs that have really good renaming support will be inordinately faster than expected.

Some of the things to learn more about translation optimizations mostly looks like reading compiler optimization techniques and picking optimizations that don't take quadratic time complexity like that. So anything compiler theory can help out JITs. There are of course domain specific optimizations, which are what would help JITs the most.

For applications using x87, you can optimize that to not use a softfloat emulation for example.