# Uniwersytet Jagielloński w Krakowie

Wydział Fizyki, Astronomii i Informatyki Stosowanej

# Wojciech Lepich

Nr albumu: 1146600

# Rozpoznawanie cyfr przez sieć neuronową zaimplementowaną na układzie FPGA

Praca licencjacka na kierunku Informatyka

> Praca wykonana pod kierunkiem dr. Grzegorza Korcyla z Zakładu Technologii Informatycznych

# Oświadczenie autora pracy

| Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została   |
|--------------------------------------------------------------------------------------|
| napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny |
| z obowiązującymi przepisami.                                                         |

| Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur |
|------------------------------------------------------------------------------------|
| związanych z uzyskaniem tytułu zawodowego w wyższej uczelni.                       |
|                                                                                    |
|                                                                                    |

| Kraków, dnia | Podpis autora pracy |
|--------------|---------------------|

# Oświadczenie kierującego pracą

Potwierdzam, że niniejsza praca została przygotowana pod moim kierunkiem i kwalifikuje się do przedstawienia jej w postępowaniu o nadanie tytułu zawodowego.

| Kraków, dnia | Podpis kierującego pracą |
|--------------|--------------------------|

# Spis treści

| 1        | Wst | tęp                                | •  |
|----------|-----|------------------------------------|----|
| <b>2</b> | Teo |                                    | 4  |
|          | 2.1 | Architektura FPGA                  | 4  |
|          | 2.2 | Przetwarzanie obrazu               | 4  |
|          |     | 2.2.1 Formaty pikseli              | 4  |
|          | 2.3 | Sieci neuronowe                    | -  |
| 3        | Opi | is projektu                        | 6  |
|          | 3.1 | Zarys projektu                     | 6  |
|          | 3.2 | Platforma                          | 6  |
|          | 3.3 | Sieć neuronowa                     | 6  |
|          | 3.4 | hls4ml                             | 7  |
|          |     | 3.4.1 Idea hls4ml                  | 7  |
|          |     | 3.4.2 Precyzja danych              | 7  |
|          | 3.5 | GStreamer                          | 8  |
|          |     | 3.5.1 Caps filter                  | Ć  |
|          |     | 3.5.2 fpsdisplaysink               | Ć  |
|          |     | 3.5.3 videobox                     | Ć  |
|          |     | 3.5.4 videoconvert                 | Ć  |
|          |     | 3.5.5 videocrop                    | Ć  |
|          |     | 3.5.6 videoscale                   | Ć  |
|          |     | 3.5.7 xlnxvideosrc i xlnxvideosink | 10 |
|          | 3.6 | Używanie sieci                     | 10 |
|          |     | 3.6.1 Generowanie projektu         | 10 |
|          |     | 3.6.2 Funkcja                      | 10 |
|          |     | 3.6.3 Interfejs                    | 10 |
|          |     | 3.6.4 Dostosowanie sieci           | 10 |
|          |     | 3.6.5 Tworzenie biblioteki         | 11 |
|          | 3.7 | Część neuralnet                    | 12 |
|          | 3.8 | Część gstsdxnet                    | 12 |
|          | 3.9 | Małe podsumowanie                  | 12 |
| 4        | Wv  | niki i dyskusja                    | 13 |
|          | 4.1 | Ewaulacja modelu                   | 13 |
|          | 4.2 | Symulacja                          | 13 |
|          | 4.3 | Dane rzeczywiste                   | 13 |
| 5        | Pod | deumowania                         | 1/ |

# 1 Wstęp

Tutaj wstęp

## 2 Teoria

## 2.1 Architektura FPGA

Field-Programmable Gate Array (FPGA) to układy scalone, które mogą być elektronicznie przeprogramowane bez potrzeby demontażu samego układu z urządzenia. W porównaniu do układów ASIC znacznie taniej zaprojektować pierwszy działający układ. Elastyczna natura układów FPGA wiąże się z większym zużyciem powierzchni krzemu, opóźnień oraz zużycia energii. (FPGA architecture: survey and challenges)

Podstawowa struktura układów FPGA składa się z różnych bloków logicznych, które mogą być łączone ze sobą w zależności od wymagań projektowych. Przykładami takich bloków są: DSP (jednostka przeprowadzająca obliczenia dodawania/mnożenia), LUT (Look-Up Table, de facto tablica prawdy dowolnej funkcji boolowskiej), Flip Flop (przechowują wynik LUT), BRAM (Block RAM, pamięć dwuportowa, jest w stanie przechowywać względnie dużą ilość danych).

Układy FPGA przeważnie pracują na kilku-, kilkunastukrotnie niższych częstotliwościach niż CPU. Osiągają wysoką wydajność dzięki masywnemu zrównolegleniu obliczeń.

Dodać przypis

Przypis

#### 2.2 Przetwarzanie obrazu

Cyfrowe przetwarzanie obrazu jest problemem wymagającym dużych mocy obliczeniowych ze względu na ilość danych do przetworzenia. Nieskompresowany kolorowy obraz z pikselami w formacie RGB (po 8 bitów na kolor) o wysokości 720 pikseli i szerokości 1280 pikseli to 22118400 bitów ( $\approx 2,5$ MB). Obraz przetwarzany w czasie rzeczywistym, na przykład z kamery, zwielokrotnia tę liczbę o liczbę klatek na sekundę (przy trzydziestu klatkach na sekundę liczba danych rośnie do około 79 megabajtów na sekundę). Należy również pamiętać, że dane są dwuwymiarowe co jest ważne przy problemach związanych z rozpoznawaniem wzorców, klasyfikacją przedmiotów na obrazie, filtrowania w celu rozmazania lub wyostrzenia obrazów, itp.

### 2.2.1 Formaty pikseli

Jest wiele modeli przestrzeni barw (a co za tym idzie, sposobów kodowania pikseli) między innymi:

- RGB, używany w aparatach, skanerach, telewizorach
- CMYK, używany w druku wielobarwnym
- HSV
- YUV

Składowe dwóch ostatnich przestrzeni barw oddzielają informację o jasności od informacji o kolorach. Model barw YUV składa się z kanału luminacji Y oraz kanałów kodujących barwę U oraz V, są to kolejno składowa niebieska i składowa czerwona. W

projekcie użyty jest format pikseli YUY2 (znany też pod nazwą YUYV), w którym na dwa piksele przypadają 32 bity.



Licząc od najstarszego bitu pierwsze osiem bitów przypada na Y0, to jest luminacja pierwszego piksela, następne osiem bitów na U0, kolejne osiem bitów to luminacja drugiego piksela, a pozostałe bity to składowa czerwona V0. Dla obydwóch pikseli składowe U i V są wspólne. Co istotne w projekcie, łatwo oddzielić luminację, która jest używana w przetwarzaniu obrazu.

#### 2.3 Sieci neuronowe



Sztuczna sieć neuronowa (SSN) jest modelem zdolnym do odwzorowania złożonych funkcji. Najprostsze sieci są zbudowane ze sztucznych neuronów, z których każdy posiada wiele wejść oraz jedno wyjście, które może być połączone z wejściami wielu innych neuronów. Każde z wejść neuronu jest związane ze znalezioną w procesie trenowania wagą. Wartość wyjścia to obliczony wynik funkcji aktywacji z sumy ważonych wejść. Sieć może mieć wiele warstw neuronów ukrytych, których wejściami są wyjścia neuronów z poprzedniej warstwy.

Sieci neuronowe są stosowane w problemach związanych z predykcją, klasyfikacją, przetwarzaniem i analizowaniem danych. Do ich zastosowania nie jest potrzebna znajomość algorytmu rozwiązania danego problemu. Obliczenia w sieciach są wykonywane równolegle w każdej warstwie, dzięki czemu implementacja sieci na układzie FPGA może działać wielokrotnie szybciej niż na CPU, pomimo niższej częstotliwości układu.

Przypis

# 3 Opis projektu

## 3.1 Zarys projektu

Celem projektu jest implementacja systemu do rozpoznawania cyfr w czasie rzeczywistym. Cel zrealizowano poprzez implementację wtyczki GStreamera, wykorzystującej sieć neuronową, na układzie Xilinx Zynq MPSoC oraz stworzenie odpowiedniego potoku danych korzystając z bibliotek GStreamer. Zadaniami spoczywającymi na innych elementach potoku jest obsługa kamery, kadrowanie i skalowanie obrazu oraz wyświetlenie go na końcowym urządzeniu.

### 3.2 Platforma



Sprzęt wykorzystany w projekcie to Xilinx Zynq UltraScale+ MPSoC ZCU104. Na jednym układzie znajduje się czterordzeniowy procesor ARM Cortex-A53, dwurdzeniowy procesor ARM Cortex-R5, układ graficzny Mali-400 oraz zasoby FPGA. Całość projektu została oparta o platformę Xilinx reVISION. Przetwarzane dane dostarczane są z kamery USB, która była dołączona w zestawie z płytą Zynq. Urządzeniem końcowym jest telewizor połączony przewodem HDMI z płytą.

#### 3.3 Sieć neuronowa

Architektura sieci została dobrana uwzględniając dostępne zasoby programowalnej logiki na płycie, a także możliwości sprzętu na którym dokonywana była jej synteza. Dla problemu klasyfikowania obrazów dobrze nadają się sieci splotowe (konwolucyjne, ang. convolutional neural networks — CNN), których przykładem jest popularna sieć LeNet-5. Architektura ta zawiera zarówno w pełni połączone warstwy oraz warstwy splotowe i łączące. Niestety z powodu ograniczeń sprzętowych w pracy nie została użyta ta architektura.

przypis



Model wykorzystany w projekcie posiada 2 warstwy ukryte, posiadające kolejno 12 i 40 neuronów aktywowanych funkcją ReLU, i warstwy wyjściowej złożonej z 10 neuronów z funkcją aktywacji softmax. Do stworzenia sieci wykorzystano bibliotekę TensorFlow. Sieć uczona była na danych z bazy MNIST składającej się łącznie z 70000 przykładów cyfr na obrazach o wielkości 28×28 pikseli, z których każdy przedstawiony jest jako wartość od 0 (kolor czarny) do 255 (kolor biały). Próbki zostały podzielone na zbiór uczący, liczący 60000 próbek, oraz zbiór do testów z pozostałych 10000 cyfr.

Oryginalnie cyfry są białe na czarnym tle co zwiększa dokładność działania sieci (więcej 0 w danych), natomiast trzeba wziąć to pod uwagę przy późniejszym wykorzystaniu sieci, ponieważ docelowo sieć ma rozpoznawać czarne cyfry na białym tle.

przypis

przypis
- badania
własne

### 3.4 hls4ml

#### 3.4.1 Idea hls4ml

Celem projektu hls4ml jest automatyczne przetłumaczenie wytrenowanego modelu, architektury i wag, do projektu syntezy wysokiego poziomu (HLS).



Czerwona część schematu pokazuje ogólną organizację pracy przy projektowaniu odpowiedniego modelu uczenia maszynowego. Niebieska część należy do hls4ml, który tłumaczy dostarczony model z wagami do syntetyzowalnego kodu, który następnie można włączyć do większego projektu lub zaimplementować jako samodzielną część na FPGA. Generowany projekt jest parametryzowany przez plik konfiguracyjny yml zawierający ścieżkę do pliku z zapisanym modelem wraz z wagami, typy danych kodujące wartości wag, nazwę docelowego układu FPGA.

#### 3.4.2 Precyzja danych

Typ danych używany w przekonwertowanym modelu to duże liczby całkowite (ap\_int) oraz liczby stałoprzecinkowe (ap\_fixed). Precyzję obu można ustalić do jednego bita. Obliczenia przeprowadzane na liczbach o mniejszej precyzji są szybsze, natomiast zbyt niska może poskutkować bezużytecznością zsyntetyzowanej sieci. Aby odpowiednio dobrać precyzję wag skorzystano z pythonowej biblioteki hls4ml.profiling.

Program korzystający z funkcji dostarczanych przez tę bibliotekę analizuje plik konfiguracyjny yml oraz model z pliku h5. Wynikiem działania programu jest wykres przedstawiający rozkład wartości wag każdej z warstw modelu otrzymanych w procesie trenowania. Szare pole w tle wykresu przedstawia zakres wartości, które obejmowane są przez precyzję określoną w pliku konfiguracyjnym. Dobrym punktem początkowym jest

wybranie takiej liczby bitów dla każdej z warstw, która obejmuje wszystkie możliwe wagi. Dalsze ustalanie precyzji można wykonać w trakcie analizy wyników symulacji.



Rysunek 1: Rozkład wartości wag modelu

### 3.5 GStreamer



Zsyntetyzowana sieć jest częścią projektu. Potrzebne również dostarczenie danych do sieci oraz przedstawienie wyniku. Do tego celu skorzystano z biblioteki GStreamer, dzięki której można tworzyć grafy z komponentów (pluginów, elementów) przetwarzających media, zarówno audio jak i video. Każdy z elementów grafu składa się z co najmniej jednego źródła (source), lub ujścia (sink), może mieć również wiele wejść i wyjść. W grafie pierwszy element nie może mieć wejść, natomiast konieczne jest aby posiadał co najmniej jedno wyjście. Poprawnie przygotowany graf nie powinien mieć komponentów oferujących źródło, które nie są z niczym połączone. Pluginy mają ujednolicony interfejs, dzięki czemu można w łatwy sposób włączyć do grafu własny elemetn. Wtyczki

charakteryzują się pewnymi własnościami, znanymi jako "caps". Określają one jakie parametry muszą spełniać media, aby zostały przetworzone przez daną wtyczkę. Łączone ze sobą elementy dokonują negocjacji parametrów mediów, takich jak rozdzielczość obrazu, format pikseli, ilość klatek na sekundę oraz innych.

Alfabetycznie czy zgodnie z kolejnością elementów w pipeline?

### 3.5.1 Caps filter

Element precyzujący parametry obrazu, które wymuszają dostosowanie się poprzedniego elementu — na przykład videoscale. Zapisuje się je w postaci ciągu znaków objętych w cudzysłów.

## 3.5.2 fpsdisplaysink

Wtyczka typu sink (mająca tylko ujście), która jako parametr pobiera inną wtyczkę tego typu, np. xlnxvideosink. Jej użycie pozwala na sprawdzenie liczby klatek na sekundę wyświetlanego obrazu.

#### 3.5.3 videobox

Oferuje możliwość osadzenia obrazu w tym o innym rozmiarze rozmiarze wypełniając pozostałą przestrzeń ramką w wybranym kolorze. Własność autocrop oznacza automatyczne obliczenie wielkości ramek na podstawie parametrów określonych przez kolejny element tak, aby obraz przychodzący do videobox był wycentrowany a ramki były tej samej wielkości.

#### 3.5.4 videoconvert

Element mający za zadanie dostosować wszystkie parametry obrazu tak, aby móc połączyć ze sobą dwa niekompatybilne pod względem "caps" elementy. Ta niekompatybilność może być spowodowana na przykład tym, że dwie wtyczki potrzebują innego formatu pikseli i jednocześnie nie oferują możliwości konwersji z jednego formatu na inny.

#### 3.5.5 videocrop

Wtyczka służąca do wykadrowania obrazu w zdefiniowanym obszarze. Wykorzystana została aby otrzymać obraz o tej samej długości i szerokości wynoszącej 224 (co jest ośmiokrotnością 28, czyli długością boku obrazów, którymi wytrenowana została sieć) wycięty ze środka wideo o rozmiarze  $1920 \times 1080$ .

#### 3.5.6 videoscale

Skaluje obraz do wynegocjowanych pomiędzy sąsiadującymi elementami parametrów, przy czym pierwsza próba negocjacji to ta sama wielkość obrazu przy ujściu jak i w źródle, aby skalowanie nie było potrzebne.

#### 3.5.7 xlnxvideosrc i xlnxvideosink

Są to pluginy dostarczone przez firmę Xilinx wraz z platformą reVISION. Obydwa korzystają biblioteki Xilinx video\_lib Pierwszy z nich ułatwia odczytywanie danych ze źródeł, dla których potrzebne byłyby dodatkowe działania. Są to między innymi kamera USB (użyta w projekcie), HDMI, MIPI CSI (sprzętowy interfejs do transmisji obrazów i wideo). Sam element zbudowany jest w oparciu o element v4l2src, dostępny w standardowej instalacji GStreamera. Xlnxvideosink również jest oparty o inny element — kmssink. Zapewnia odpowiednią konfigurację połączenia z wyświetlaczami podłączonymi przez HDMI oraz DisplayPort.

Przypis UG1221, s.32

## 3.6 Używanie sieci

## 3.6.1 Generowanie projektu

Architekturę sieci wraz z wagami zapisano do pliku h5. Stworzono plik konfiguracyjny hls4ml. Następnie na jego podstawie wygenerowano projekt z przekonwertowaną siecią. Wśród wygenerowanych plików znajduje się również kod służący do symulacji działania projektu. Przygotowane zostały pliki z danymi testującymi sieć — 10000 przetworzonych przykładów z bazy MNIST tak, aby cyfry były koloru czarnego, tło białego. Zakres wartości wynosi od 0 do 255.

## 3.6.2 Funkcja

Cała sieć jest przedstawiona jako jedna funkcja. Parametrami tej funkcji są dwie tablice: input [], do której są zapisywane są dane do przetworzenia, oraz output [], do której funkcja zapisuje obliczone predykcje.

Listing 1: Nagłówek funkcji

```
void nn(
unsigned char input1[784],
float output[10]
);
```

#### 3.6.3 Interfejs

Aby móc korzystać z sieci w aplikacji uruchamianej na procesorze ARM zadeklarowano użycie interfejsu IO AXI-4 Lite.

#### 3.6.4 Dostosowanie sieci

W celu poprawienia wyników działania sieci dokonano pewnych usprawnień. Sieć została wytrenowana oryginalnymi danymi, w których piksele tworzące cyfry mają wartości równe 255 lub tej wartości bliskie, a piksele białego są przedtawione jako 0. Ponadto rzeczywiste dane z kamery mogą być zaszumione, przedstawione obiekty zacienione, a same cyfry mogą nie być idealnie czarne.

Przy każdym wywołaniu funkcji sieci dokonywana jest transformacja danych poprzez kod pokazany na listingu 2. Wartość każdego z piksela jest zamieniana na wartość 255 lub 0, zależnie od początkowej jego wartości — dla wartości mniejszych od 140 (kolor szary lub ciemniejszy) przypisany jest kolor biały, wartość 255. Dla pikseli jasnych (od 140 w górę) przypisywana wartość to 0, kolor czarny.

W ten sposób dokonuje się zarówno odpowiedniego przetworzenia danych uwzględniającego sposób wytrenowania modelu, jak również uwydatnienia cyfry oraz pozbycia się szumów obrazu i jasnych cieni.

Listing 2: Transformacja danych.

- input [] tablica z danymi (parametr funkcji)
- input1[] dane przetwarzane przez sieć

#### 3.6.5 Tworzenie biblioteki

No tu zrobić samemu schemat, nieładnie kopiować



Rysunek 2: Schemat tworzenia biblioteki

Zsyntetyzowany moduł sieci został wyeksportowany w środowisku Vivado HLS do paczki IP (Intelectual Property). Następnie poprzez narzędzie sdx\_pack utworzono statyczną bibliotekę gotową do wykorzystania w innym projekcie w środowisku SDSoC

(Software-Defined System on Chip, IDE do pisania aplikacji lub bibliotek uruchamianych na platformach Xilinx MPSoC).

Listing 3: Narzędzie sdx pack

-primary-clk ap\_clk=13.333 \
-target-family zynquplus \
-target-cpu cortex-a53 \

-target-os linux \

Wywołując narzędzie sdx\_pack należy podać plik nagłówkowy funkcji, docelową nazwę biblioteki, mapowanie parametrów funkcji na porty modułu, ścieżkę do pliku component.xml wygenerowanego podczas eksportu do paczki IP, protokół kontroli modułu, odpowiedni zegar, a informacje dotyczące docelowej platformy: nazwę jej rodziny, procesora oraz systemu.

## 3.7 Część neuralnet

Czytanie obrazu, podział na część luma i chroma, wywołanie funkcji sieci, zapis z powrotem, synteza do biblioteki dzielonej "so"

# 3.8 Część gstsdxnet

De facto plugin gstreamera, w którym są wywoływane funkcje z biblioteki dzielonej neuralnet.so,

# 3.9 Małe podsumowanie

# 4 Wyniki i dyskusja

# 4.1 Ewaulacja modelu

Wyniki z samego pythona z danymi testowymi z mnista

## 4.2 Symulacja

Tutaj wyniki z symulacji z danymi testowymi z mnista

## 4.3 Dane rzeczywiste

Wyniki z kamerki. Zdjęcia danych testowych, co wpływa na wynik, czy wszystko rozpoznaje itd,

# 5 Podsumowanie

W projekcie zostało zrobione to i to. Wyszło to tak i tak. Problem sprawiło tamto i owamto. Można to poprawić w ten sposób. Można część funkcjonalności z pipeline przenieść na fpga (w końcu przetwarzanie obrazu na fpga jest szybkie)