

# Санкт-Петербургский государственный университет Кафедра системного программирования

# Интеграция SCR1 в платформу LiteX для запуска на Colorlight i9

МУКОВЕНКОВ Роман Сергеевич, группа 23.Б11-мм

Научный руководитель: ст. преподаватель кафедры ИАС, Смирнов К. К.

Санкт-Петербург 2025

#### Введение

- Применение FPGA для верификации ASIC
- Использование HDL для описания аппаратных систем с возможностью перепрограммирования
- Преимущества: высокая производительность благодаря параллелизму, конвейеризации и минимальным накладным расходам
- Популярность RISC-V архитектур на HDL и возможность коммерческого использования SCR1 благодаря открытой лицензии Solderpad Hardware

#### Синтез SCR1

- Первый российский микроконтроллер МІК32 АМУР использует SCR1
- Существует по крайней мере четыре отлаженных СнК от компании Syntacore и один от Луконенко Никиты Игоревича, студента третьего курса кафедры системного программирования
- Были созданы с помощью ручного или полуручного подбора компонентов: контроллера памяти, мостов между шинами, UART модуля
- Используют написанный Syntacore bootloader: sc-bl
- А что если нам хочется полностью автоматизировать подбор компонентов для всех FPGA «в один клик»? Для этого нам нужен LiteX

## Преимущества LiteX перед ручным методом

- Написан на Python, имеет библиотеку компонентов, как у проприетарных инструментов вендоров
- Можно описывать свою SoC на Python и добавлять компоненты из этой библиотеки
- Далее, процессор и FPGA абстрагируются
- Поддержка порядка 198 плат, абстрагированных в LiteX, при успешной абстракции процессора
- Будем писать часть, отвечающую за абстракцию ресурсов процессора SCR1, проверим запуском на Colorlight i9

#### Постановка задачи

**Целью** работы является запуск ядра SCR1 на плате Colorlight i9

#### Задачи:

- Изучить работу платформы LiteX в объёме, необходимом для успешной интеграции SCR1
- Рассмотреть работу уже интегрированного в платформу LiteX ядра VexRiscv для проверки взаимодействия Colorlight i9 и платформы LiteX
- Реализовать описание SCR1 в LiteX в соответствующем Python файле, подготовить исходные файлы для синтеза
- Интегрировать базовую версию обработчика прерываний, называемого IPIC, в LiteX

В конце мы запустим SCR1 с LiteX firmware!

# Что требуется сделать



# LiteX для абстрагирования процессоров



# Какие инструменты доступны?

- Плата Colorlight i9 содержит ECP5 LFE5U-45F от Lattice
- Выбран open-source toolchain (Yosys + nextpnr) ввиду его доступности



#### Демо на VexRiscv

- Для проверки работы платформы для Colorlight i9 синтезировано и отправлено ядро VexRiscv
- Команды:
  - ▶ colorlight\_i9.py --build сборка битстрима
  - ▶ colorlight\_i9.py --load загрузка через JTAG
  - ▶ litex\_term /dev/ttyUSBX терминал взаимодействия через UART
  - ▶ litex\_term /dev/ttyUSBX --kernel=<file>.bin послать firmware через UART
- Результат: светодиод мигает, через UART появляется меню LiteX BIOS, доступны команды (Hello World на языке C, анимация ASCII-«пончика», управление LED)



#### Подготовка исходных файлов

- Yosys не полностью поддерживет SystemVerilog, в отличие от Verilog!
- Попытка синтезировать исходные файлы с ограниченной поддержкой вне LiteX
  - ▶ Заменить синтаксический сахар (return заменяет присвоение значения имени функции и завершает её)
  - ▶ Убрать косметику (endfunction : <название\_функции>)
  - ▶ Вставить «неконстантные» параметры (использование в range)
- struct packed вне собственного модуля выдавало непонятную ошибку, связанную с range.
  - ▶ Были собраны исходные файлы Yosys с отладочными сообщениями, чтобы понять, почему какой-то assert падал
  - ▶ K сожалению, typedef struct packed не поддерживались вне своего модуля. Менять логику было крайне проблематично. О проблеме известно, но решение ломает другое использование https://github.com/YosysHQ/yosys/issues/4653
- Был опробован synlig другой парсер для Yosys, но ничего не определялось из include файлов
- Был выбран инструмент sv2v, который транслировал SystemVerilog в Verilog файлы.
- Транслированные файлы переносились в папку pythondata-cpu-scr1, где устанавливались с помощью pip install .

#### Интеграция SCR1 в LiteX

- Структура класса процессора:
  - ▶ Наследование от класса LiteX CPU
  - Архитектура rv32i, m и с extensions
- Подключение шин AXI:
  - ▶ Две независимые шины для инструкций и данных
  - ▶ Сопряжение сигналов АХІ:
    - ★ AW/AR/W/B/R каналы
    - ⋆ Поддержка burst-транзакций
  - ▶ К сожалению, синтезировать прямую поддержку АХІ не получилось
  - ▶ Поэтому в SCR1 LiteX используется Wishbone bridge
  - ▶ Параметр —bus-bursting ни на что не влиял
- Память:
  - Адресы основных компонентов:
    - \* main\_ram: 0x10000000
    - ★ CSR и I/O: 0xff000000
    - ★ ROM: 0xfffc0000 (адрес сброса)
    - ★ SRAM: 0xfff00000
    - ★ TCM: 0×f0000000

## Интеграция обработчика прерываний IPIC

- SCR1 использует IPIC (Integrated Programmable Interrupt Controller) для обработки прерываний
- LiteX не имеет реализации IPIC, её надо писать самому. Но интерфейс простой!
- Что было сделано:
  - fork Zephyr RTOS от Syntacore имеет реализацию интерфейса IPIC, также пришлось смотреть в спецификацию
  - Инициализация связывает провод-линии прерываний с логическим представлением в таблице — вектором
  - LiteX автоматически заполняет таблицу прерываний, прерывания таймера пока не поддерживаем: в mie 0x800
  - mstatus.MIE включает глобальные прерывания, при нажатии выполнение переходит в адрес в mtvec
  - ► Сохранение регистров, вызов isr, который берёт вектор из soi и выполняет по этому индексу необходимую функцию
- Результат: UART на FPGA работает, запуск программы с пончиком после некоторых изменений тоже

#### Сравнение использования ресурсов

| Ресурс       | VexRiscv   | SCR1        | FazyRV    | picorv32  | firev      |
|--------------|------------|-------------|-----------|-----------|------------|
| DP16KD       | 49 (45%)   | 100 (92%)   | 39 (36%)  | 41 (37%)  | 39 (36%)   |
| TRELLIS_FF   | 2884 (6%)  | 4138 (9%)   | 1771 (4%) | 2621 (5%) | 2067 (4%)  |
| TRELLIS_COMB | 6465 (14%) | 17407 (39%) | 4167 (9%) | 6442 (5%) | 5351 (12%) |

Таблица: Сравнение использования ресурсов для SCR1 и др. процессоров

- Небольшой поверхностный исследовательский эксперимент!
- Заданные исследовательские вопросы:
  - RQ1 : Насколько конкурентоспособен (ресурсы, пропускная способность памяти, ощущаемая скорость пончика) по сравнению с другими ChK?
  - RQ2 : Насколько влияет конфигурация в LiteX (шина CнK, тип соединения между шинами) на производительность?
    - ⋆ Поможет определить "бутылочные горлышка"!
- Метрики:
  - занимаемые ресурсы;
  - пропускная скорость памяти;
  - ощущаемая скорость пончика.

#### Поверхностное сравнение скоростей процессоров

| Параметр                        | VexRiscv | SCR1    | FazyRV    | picorv32 | firev    |
|---------------------------------|----------|---------|-----------|----------|----------|
| Желаемая частота, МГц           | 60       | 60      | 60        | 60       | 60       |
| Макс. стабильная частота, МГц   | 45.32    | 23.13   | 47.93     | 51.27    | 54.7     |
| Послед. чт. 2 МиБ SDRAM, МиБ/с  | 30.2     | 17.2    | 10        | 17.5     | 24.5     |
| Послед. зап. 2 МиБ SDRAM, МиБ/с | 22.1     | 13.1    | 8.3       | 12.5     | 16.2     |
| Послед. чт. 4 КиБ Flash, МиБ/с  | 2.8      | 2.6     | 2.6       | 1.7      | 3.1      |
| Случ. чт. flash 4 КиБ, МиБ/с    | 1.3      | 0.768   | 0.046     | 0.769    | 0.17     |
| Скорость пончика                | Быстрая  | Средняя | Оч. медл. | Медл.    | Оч. медл |

Таблица: Сравнение скорости SCR1 (shared, wishbone) с др. процессорами

| SCR1               | SDRAM (МиБ/с) |        | ТСМ (МиБ/с) |        | Комб. логика | Триггеры   |
|--------------------|---------------|--------|-------------|--------|--------------|------------|
| Конфигурация       | Чтение        | Запись | Чтение      | Запись | TRELLIS_COMB | TRELLIS_FF |
| shared, wishbone   | 17.2          | 13.1   | 33.6        | 33.6   | 17407 (39%)  | 4138 (9%)  |
| crossbar, wishbone | 20.6          | 14.5   | 34.0        | 32.0   | 15613 (35%)  | 4093 (9%)  |
| crossbar, axi-lite | 21.6          | 15.6   | 40.1        | 42.7   | 17423 (39%)  | 4299 (9%)  |

Таблица: Сравнение производительности и ресурсов различных конфигураций SCR1

## Обсуждение результатов эксперимента

- RQ1 : Процессор SCR1 имеет среднюю производительность по сравнению с другими ядрами, во многом из-за конвертации шин AXI в шины Wishbone, на которых написаны основные компоненты в библиотеке, а также axi-lite. Скорость пончика во многом зависела от наличия модуля быстрого умножения. Только VexRiscv и SCR1 имели данные модули.
- RQ2: Изменение типа соединения памяти и шин с shared на crossbar привело не только к увеличению пропускной способности памяти, но и уменьшению количества используемых ресурсов. К приросту пропускной способности привело и изменение внутреннего стандарта шины с Wishbone на axi-lite, но повысилось количество используемых ресурсов. Оптимизация результата по пропускной скорости памяти и производительности возможна, если добавить в LiteX полную поддержку шины AXI4. Оптимизация результата по ресурсам труднодостижима, но возможна, если пользователю необязательно иметь какой-либо компонент из максимальной конфигурации. К тому же, вариант SCR1 на шине АНВ использует меньшее количество ресурсов. Для разработки автоматического ChK SCR1 на AHB можно переиспользовать данный код.

#### Результаты

#### В результате работы было сделано:

- Изучена работа платформы LiteX в объёме, необходимом для успешной интеграции SCR1
- Рассмотрена работа уже интегрированного в платформу LiteX ядра VexRiscv для проверки взаимодействия Colorlight i9 и платформы LiteX
- Реализовано описание SCR1 в LiteX в соответствующем Python файле, подготовлены исходные файлы для синтеза
- Интегрирована базовая версия обработчика прерываний, называемого IPIC, в LiteX Цель выполнена, SCR1 запущено на Colorlight i9



Рис.: Waveform, сгенерированная LiteX

```
77 07- 07
INFO: SoC:
              / /_/ / _/ -_)> <
INFO:SoC:
            /___/_/\__/\_/_/|_|
INFO:SoC: Build your hardware, easily!
INFO:SoC:Creating SoC... (2025-03-09 17:21:49)
INFO: SoC:-----
INFO:SoC:FPGA device : LFESU-45F-6BG381C.
INFO:SoC:System clock: 60.000MHz
INFO:SoCBusHandler:Creating Bus Handler...
INFO:SoCBusHandler:32-bit wishbone Bus, 4.0GiB Address Space.
INFO:SoCBusHandler:Adding reserved Bus Regions...
INFO:SoCBusHandler:Bus Handler created.
INFO:SoCCSRHandler:Creating CSR Handler...
INFO: SoCCSRHandler: 32-bit CSR Bus, 32-bit Aligned, 16.0KiB Address Space, 2048B Paging, big Ordering (Up to 32 Locations).
INFO:SoccsRHandler:Adding reserved CSRs...
INFO:SoCCSRHandler:CSR Handler created.
INFO:SoCIRQHandler:Creating IRQ Handler...
INFO:SoCIROHandler:IRO Handler (up to 32 Locations).
INFO:SoCIROHandler:Adding reserved IROs...
INFO:SoCIRQHandler:IRQ Handler created.
INFO: SoC:
INFO:SoC:Initial SoC:
INFO:SoC:32-bit wishbone Bus. 4.0GiB Address Space
INFO:SoC:32-bit CSR Bus. 32-bit Aligned. 16.0KiB Address Space. 2048B Paging. big Ordering (Up to 32 Locations).
INFO:SoC:IRO Handler (up to 32 Locations).
INFO:SoC:Controller ctrl added.
INFO:SoC:CPU scr1 added.
INFO:SoC:CPU scr1 adding IO Region 0 at 0xff000000 (Size: 0x00f00000)
INFO:SoCRegion:Region size rounded internally from 0x00f00000 to 0x01000000
INFO:SoCBusHandler:io0 Region added at Origin: 0xff000000, Size: 0x00f00000, Mode: RW, Cached: False, Linker: False,
INFO:SoC:CPU scr1 overriding main_ram mapping from 0x40000000 to 0x10000000.
INFO:SoC:CPU scr1 overriding rom mapping from 0x000000000 to 0xfffc0000
INFO:SoC:CPU scr1 overriding sram mapping from 0x01000000 to 0xffffe000.
INFO:SoC:CPU scr1 setting reset address to 0xfffc0000.
INFO:SoC:CPU scrl adding Bus Master(s).
INFO:SoCBusHandler:cpu_bus0 Bus adapted from AXI 32-bit to Wishbone 32-bit.
INFO:SoCBusHandler:cpu bus0 added as Bus Master.
INFO:SoCBusHandler:cpu_bus1 Bus adapted from AXI 32-bit to Wishbone 32-bit.
INFO:SoCBusHandler:cpu bus1 added as Bus Master.
INFO:SoC:CPU scr1 adding Interrupt(s).
INFO: SoCBusHandler: rom Region added at Origin: 0xfffc0000, Size: 0x00020000, Mode: RX, Cached: True, Linker: False.
INFO:SoCBusHandler:rom added as Bus Slave.
INFO:SoC:RAM rom added Origin: 0xfffc0000, Size: 0x00020000, Mode: RX, Cached: True, Linker: False,
INFO:SoCBusHandler:sram Region added at Origin: 0xffffe000, Size: 0x00002000, Mode: RWX, Cached: True, Linker: False.
INFO:SoCBusHandler:sram added as Bus Slave.
INFO:SoC:RAM sram added Origin: 0xffffe000. Size: 0x00002000. Mode: RWX. Cached: True. Linker: False.
INFO:SoCIROHandler:uart IRO allocated at Location 0.
INFO:SoCIRQHandler:timer8 IRQ allocated at Location 1
INFO: SoCBusHandler: Allocating Cached Region of size 0x00800000...
INFO:SoCRegion:Region size rounded internally from 0xfffffffff to 0x100000000.
INFO:SoCBusHandler:spiflash Region allocated at Origin: 0x00000000, Size: 0x00800000, Mode: RW, Cached: True, Linker: False.
INFO:SoCBusHandler:spiflash added as Bus Slave.
INFO:SoCBusHandler:main ram Region added at Origin: 0x10000000. Size: 0x00800000. Mode: RWX. Cached: True. Linker: False.
INFO:SoCBusHandler:main_ram_added as Bus Slave.
```

Рис.: LiteX подобрал нужные компоненты: IRQ, CSR, Bus, ROM, SRAM, Interconnect



Рис.: Как настроена связь между компьютером и FPGA

```
niest un
Aspeed at Ex16000000 (Sequential, 2.8MiB).
     itializino x25o54 SPI Flash 80x00000000.
PI Flash clk configured to 36 MHz
enspeed at 0 (Sequential, 4.8KiB).
Read speed: 2.6MiB/s
enspeed at 0 (Randon, 4.8KiB)...
Read speed: 784.7KiB/s
          DESTRUCTOR OF THE SECOND OF TH
          cuting booted program at 0x10000000
                          ...... Lifteff! .......
```

Рис.: Консоль взаимодействия LiteX