

## UNIVERZITET U NOVOM SADU FAKULTET TEHNIČKIH NAUKA KATEDRA ZA ELEKTRONIKU



# Projektovanje, integracija i verifikacija IP jezgra za konvoluciju matrica zasnovanog na FFT algoritmu

Završni rad

Osnovne akademske studije

kandidat Vladimir Vincan, EE5-2015 mentor

dr Vuk Vranjković, docent

Novi Sad, Jul 2020



#### UNIVERZITET U NOVOM SADU • FAKULTET TEHNIČKIH NAUKA 21000 Novi Sad, Trg Dositeja Obradovića 6

Broj:

Datum:

### ZADATAK ZA ZAVRŠNI (BACHELOR) RAD

(Podatke unosi predmetni nastavnik - mentor)

| Vrsta studija:                      | Osnovne akademske studije                  |
|-------------------------------------|--------------------------------------------|
| Studijski program:                  | Energetika, elektronika i telekomunikacije |
| Rukovodilac<br>studijskog programa: | dr Milan Sečujski, vanredni profesor       |

|   | Student: | Vladimir Vincan                           | Broj indeksa: | EE5-2015 |  |  |
|---|----------|-------------------------------------------|---------------|----------|--|--|
|   | Oblast:  | Projektovanje složenih digitalnih sistema |               |          |  |  |
| Ī | Mentor:  | dr Vuk Vranjković, docent                 |               |          |  |  |

NA OSNOVU PODNETE PRIJAVE, PRILOŽENE DOKUMENTACIJE I ODREDBI STATUTA FAKULTETA IZDAJE SE ZADATAK ZA ZAVRŠNI (Bachelor) RAD, SA SLEDEĆIM ELEMENTIMA:

- problem tema rada;
- način rešavanja problema i način praktične provere rezultata rada, ako je takva provera neophodna;
- literatura

#### NASLOV ZAVRŠNOG (BACHELOR) RADA:

Projektovanje, integracija i verifikacija IP jezgra za konvoluciju matrica zasnovanog na FFT algotirmu

#### **TEKST ZADATKA:**

- 1. Izvršiti projektovanje i analizu na sistemskom nivou hardversko-softverskog kodizajn rešenja konvolucije matrica zasnovane na brzim Furijeovim transformacijama.
- 2. Projektovati digitalni sistem za brzu Furijeovu transformaciju matrica.
- 3. Verifikovati projektovani digitalni sistem koristeći UVM metodologiju.
- 4. Razvoj Linuks drajvera za komunikaciju sa projektovanim sistemom i pisanje korisničke aplikacije.

| Rukovodilac studijskog programa: | Mentor rada: |
|----------------------------------|--------------|
|                                  |              |

Primerak za: O-studenta; O-studentsku službu fakulteta



# UNIVERZITET U NOVOM SADU • FAKULTET TEHNIČKIH NAUKA 21000 Novi Sad, Trg Dositeja Obradovića 6

#### KLJUČNA DOKUMENTACIJSKA INFORMACIJA

| Redni broj, <b>RBR</b> :                                        |                          |                                                                                                                                                                               |                                                                                   |  |  |  |
|-----------------------------------------------------------------|--------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--|--|--|
| Identifikacioni broj, IBR:                                      |                          |                                                                                                                                                                               |                                                                                   |  |  |  |
| Tip dokumentacije, <b>TD:</b>                                   |                          | Monografska dokumentacija                                                                                                                                                     |                                                                                   |  |  |  |
| Tip zapisa, <b>TZ:</b>                                          |                          | Tekstualni štampani materijal                                                                                                                                                 |                                                                                   |  |  |  |
| Vrsta rada, VR:                                                 |                          | Završni rad                                                                                                                                                                   |                                                                                   |  |  |  |
| Autor, AU:                                                      |                          | Vladimir Vincan                                                                                                                                                               |                                                                                   |  |  |  |
| Mentor, MN:                                                     |                          | dr Vuk Vranjković, docent                                                                                                                                                     |                                                                                   |  |  |  |
| Naslov rada, NR:                                                |                          | Projektovanje, integracija i verifika<br>matrica zasnovanog na FFT algotirr                                                                                                   |                                                                                   |  |  |  |
| Jezik publikacije, JP:                                          |                          | Srpski                                                                                                                                                                        |                                                                                   |  |  |  |
| Jezik izvoda, <b>JI</b> :                                       |                          | Srpski                                                                                                                                                                        |                                                                                   |  |  |  |
| Zemlja publikovanja, <b>ZP:</b>                                 |                          | Srbija                                                                                                                                                                        |                                                                                   |  |  |  |
| Uže geografsko područje, U                                      | GP:                      | Vojvodina                                                                                                                                                                     |                                                                                   |  |  |  |
| Godina, GO:                                                     |                          | 2020                                                                                                                                                                          |                                                                                   |  |  |  |
| Izdavač, <b>IZ:</b>                                             |                          | Autorski reprint                                                                                                                                                              |                                                                                   |  |  |  |
| Mesto i adresa, MA:                                             |                          | 21000 Novi Sad, Trg Dositeja Obradovića 6                                                                                                                                     |                                                                                   |  |  |  |
| Fizički opis rada, <b>FO:</b><br>(poglavlja/strana/citata/tabel | a/slika/grafika/priloga) | (7/58/19/6/25/0/0)                                                                                                                                                            |                                                                                   |  |  |  |
| Naučna oblast, <b>NO:</b>                                       |                          | Elektronika                                                                                                                                                                   |                                                                                   |  |  |  |
| Naučna disciplina, ND:                                          |                          | Embeded sistemi                                                                                                                                                               |                                                                                   |  |  |  |
| Predmetna odrednica/Ključr                                      | ne reči, PO:             | FPGA, Hardverski akcelerator, Furi                                                                                                                                            | ijeova transformacija, Konvolucija                                                |  |  |  |
| UDK                                                             |                          |                                                                                                                                                                               |                                                                                   |  |  |  |
| Čuva se, ČU:                                                    |                          | i                                                                                                                                                                             | Biblioteka Fakulteta tehničkih nauka<br>21000 Novi Sad, Trg Dositeja Obradovića 6 |  |  |  |
| Važna napomena, VN:                                             |                          | Nema                                                                                                                                                                          |                                                                                   |  |  |  |
| Izvod, <b>IZ:</b>                                               |                          | U ovom završnom radu opisano je projektovanje, verifikacija i integracija IP jezgra za konvoluciju matrica zasnovanog na dvodimenzionalnim brzim Furijeovim transformacijama. |                                                                                   |  |  |  |
| Datum prihvatanja teme, <b>DP:</b>                              |                          |                                                                                                                                                                               |                                                                                   |  |  |  |
| Datum odbrane, <b>DO</b> :                                      |                          |                                                                                                                                                                               |                                                                                   |  |  |  |
|                                                                 | Predsednik:              | dr Rastislav Struharik, vanredni pro                                                                                                                                          | ofesor                                                                            |  |  |  |
| Članovi komisije, <b>KO</b> :                                   | Član:                    | dr Staniša Dautović,<br>vanredni profesor                                                                                                                                     | Potpis mentora                                                                    |  |  |  |
|                                                                 | Član, mentor             | dr Vuk Vranjković, docent                                                                                                                                                     |                                                                                   |  |  |  |



# UNIVERSITY OF NOVI SAD • FACULTY OF TECHNICAL SCIENCES 21000 Novi Sad, Trg Dositeja Obradovića 6

#### KEY WORDS DOCUMENTATION

| Accession number, ANO:                                              |                                                                                                                 |                                                                                                                                                                           |                                |  |  |
|---------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|--|--|
| Identification number, INO:                                         |                                                                                                                 |                                                                                                                                                                           |                                |  |  |
| Document type, <b>DT</b> :                                          |                                                                                                                 | Monographic publication                                                                                                                                                   |                                |  |  |
| Type of record, <b>T3</b> :                                         |                                                                                                                 | Textual material, printed                                                                                                                                                 |                                |  |  |
| Contents code, CC:                                                  |                                                                                                                 | Bachelor thesis                                                                                                                                                           |                                |  |  |
| Author, AU:                                                         |                                                                                                                 | Vladimir Vincan                                                                                                                                                           |                                |  |  |
| Mentor, MN:                                                         |                                                                                                                 | Vuk Vranjković, PhD                                                                                                                                                       |                                |  |  |
| Title, <b>TI:</b>                                                   |                                                                                                                 | Design, Integration and Verification o<br>Convolution based on the FFT Algorit                                                                                            | f an IP Core for Matrix<br>thm |  |  |
| Language of text:, LT:                                              |                                                                                                                 | Serbian                                                                                                                                                                   |                                |  |  |
| Language of abstract, <b>LA</b> :                                   |                                                                                                                 | Serbian                                                                                                                                                                   |                                |  |  |
| Country of publication, CP:                                         |                                                                                                                 | Serbia                                                                                                                                                                    |                                |  |  |
| Locality of publication, LP:                                        |                                                                                                                 | Vojvodina                                                                                                                                                                 |                                |  |  |
| Publication year, PY:                                               |                                                                                                                 | 2020                                                                                                                                                                      |                                |  |  |
| Publisher, <b>PB</b> :                                              |                                                                                                                 | Author's reprint                                                                                                                                                          |                                |  |  |
| Publication place, <b>PP</b> :                                      | cation place, <b>PP:</b> 21000 Novi Sad, Trg Dositeja Obradovića 6                                              |                                                                                                                                                                           |                                |  |  |
| Physical description, <b>PD:</b> (chapters/ pages/ ref. / tables/ p | victures/ graphs/ appendixes)                                                                                   | (7/58/19/6/25/0/0)                                                                                                                                                        |                                |  |  |
| Scientific field, SF:                                               |                                                                                                                 | Electrical engineering                                                                                                                                                    |                                |  |  |
| Scientific discipline, SD:                                          |                                                                                                                 | Embedded systems                                                                                                                                                          |                                |  |  |
| Subject/ Key words, <b>S/KW:</b>                                    |                                                                                                                 | FPGA, Hardware accelerator, Fourier                                                                                                                                       | transform, Convolution         |  |  |
| UC                                                                  |                                                                                                                 |                                                                                                                                                                           |                                |  |  |
| Holding data, <b>HD:</b>                                            | Iolding data, <b>HD:</b> Library of the Faculty of Technical Sciences 21000 Novi Sad, Trg Dositeja Obradovića 6 |                                                                                                                                                                           |                                |  |  |
| Note, N:                                                            |                                                                                                                 | None                                                                                                                                                                      |                                |  |  |
| Abstract, AB:                                                       |                                                                                                                 | This bachelor thesis describes the design, integration and verification o an IP core for matrix convolution based on the two-dimensional fas Fourier transform algorithm. |                                |  |  |
| Accepted by the Scientific Board on, ASB:                           |                                                                                                                 |                                                                                                                                                                           |                                |  |  |
| Defended on, <b>DE</b> :                                            |                                                                                                                 |                                                                                                                                                                           |                                |  |  |
| President:                                                          |                                                                                                                 | Rastislav Struharik, PhD, associate professor                                                                                                                             |                                |  |  |
| Defended board, <b>DB</b> :                                         | Member:                                                                                                         | Staniša Dautović, PhD,<br>associate professor                                                                                                                             | Mentor's signature             |  |  |
|                                                                     | Member, Mentor                                                                                                  | Vuk Vranjković, PhD,<br>assistant professor                                                                                                                               |                                |  |  |

#### Izjava o akademskoj čestitosti

Student: **Vladimir Vincan** Broj indeksa: **EE5-2015** 

Student osnovnih akademskih studija

Autor rada pod nazivom: Projektovanje, integracija i verifikacija IP jezgra za

konvoluciju matrica zasnovanog na FFT algoritmu

#### Potpisivanjem izjavljujem:

- da je rad isključivo rezultat mog sopstvenog istraživačkog rada;
- da sam rad i mišlje
- nja drugih autora koje sam koristio u ovom radu naznačio ili citirao i navedeni u spisku literature/referenci koji su sastavni deo ovog rada;
- da sam dobio sve dozvole za korišćenje autorskog dela koji se u potpunosti/celosti unose u predati rad i da sam to jasno naveo;
- da sam svestan da je plagijat korišćenje tuđih radova u bilo kom obliku (kao citata, parafraza, slika, tabela, dijagrama, dizajna, planova, fotografija, filma, muzike, formula, veb sajtova, kompjuterskih programa i sl.) bez navođenja autora ili predstavljanje tuđih autorskih dela kao mojih, kažnjivo po zakonu (Zakon o autorskom i srodnim pravima, Službeni glasnik Republike Srbije, br. 104/2009, 99/2011, 119/2012), kao i drugih zakona i odgovarajućih akata Univerziteta u Novom Sadu;
- da sam svestan da plagijat uključuje i predstavljanje, upotrebu i distribuiranje rada predavača ili drugih studenata kao sopstvenih;
- da sam svestan posledica koje kod dokazanog plagijata mogu prouzrokovati na predati rad i moj status;
- da je elektronska verzija rada identična štampanom primerku i pristajem na njegovo objavljivanje pod uslovima propisanim aktima Univerziteta.

| Novi Sad, 17.7.2020. | Potpis studenta |
|----------------------|-----------------|
|                      |                 |

# Sadržaj

| Glava | 1 Uvoc  | 1                                                                            | . 1  |
|-------|---------|------------------------------------------------------------------------------|------|
| Glava | 2 Konv  | olucija matrica                                                              | . 2  |
| 2.1   | Kor     | nvolucija u jednoj dimenziji                                                 | . 2  |
| 2.2   | Kor     | nvolucija u dve dimenzije                                                    | . 4  |
| 2.3   | Dis     | kretna Furijeova transformacija u jednoj dimenziji                           | . 5  |
| 2.4   | Dis     | kretna Furijeova transformacija u dve dimenzije                              | . 6  |
| 2.5   | Brz     | a Furijeova transformacija                                                   | . 6  |
| 2.6   | Odı     | nos konvolucije i Furijeove transformacije                                   | .9   |
| Glava | 3 Proje | ktovanje aplikacije na sistemskom nivou                                      | . 10 |
| 3.1   | ESI     | _ Metodologija                                                               | . 10 |
| 3.2   | Spe     | cifikacija i modelovanje                                                     | . 13 |
| 3.3   | Ana     | aliza pre particionisanja                                                    | . 13 |
| 3.4   | Par     | ticionisanje                                                                 | . 14 |
| 3.5   | Imp     | olementacija i analiza modela posle particionisanja                          | . 14 |
| 3.6   | Ana     | aliza modela posle particionisanja                                           | . 16 |
| Glava | 4 Proje | ktovanje hardverskog IP jezgra                                               | . 17 |
| 4.1   | Uvo     | bdbd                                                                         | . 17 |
| 4.    | .1.1    | RT metodologija                                                              | . 17 |
| 4.    | .1.2    | IP jezgro                                                                    | . 19 |
| 4.    | .1.3    | Četvorofazni hendšejk protokol                                               | . 19 |
| 4.2   | Rea     | ılizovana implementacija i diskusija mogućih implementacija                  | . 20 |
| 4.3   | Imp     | olementacija leptir modula (BUTTERFLY)                                       | . 22 |
| 4.    | .3.1    | Definisanje interfejsa.                                                      | . 23 |
| 4.    | .3.2    | Projektovanje upravljačkog modula                                            | . 24 |
| 4.    | .3.3    | Projektovanje modula za obradu podataka                                      | . 25 |
| 4.4   | Imp     | olementacija bloka za brzu Furijeovu transformaciju u jednoj dimenziji (FFT) | . 26 |
| 4.    | .4.1    | Interfejs                                                                    | . 26 |
| 4.    | .4.2    | Projektovanje upravljačkog modula                                            | . 27 |
| 4.    | .4.3    | Projektovanje modula za obradu podataka                                      | . 33 |
| 4.5   | Imp     | olementacija bloka za brzu Furijeovu transformaciju u dve dimenzije (FFT2) . | . 34 |
| 4.    | .5.1    | Definisanje interfejsa.                                                      | . 34 |
| 4.    | .5.2    | Projektovanje upravljačkog modula                                            | . 36 |
| 4.    | .5.3    | Projektovanje modula za obradu podataka                                      | . 38 |
| 4.6   | Inte    | gracija u Zynq platformu                                                     | . 38 |

| 4.7        | Potrošnja hardverskih resursa i frekvencija rada          | 39 |
|------------|-----------------------------------------------------------|----|
| Glava 5 F  | unkcionalna verifikacija projektovanog IP bloka           | 42 |
| 5.1        | Uvod                                                      | 42 |
| 5.2        | Kreiranje verifikacionog plana                            | 44 |
| 5.2.1      | Opis rada dizajna                                         | 44 |
| 5.2.2      | Opis nivoa verifikacije                                   | 45 |
| 5.3        | Razvoj verifikacionog okruženja                           | 45 |
| 5.3.1      | Projektovanje sekvenci, paketa i sekvencera               | 46 |
| 5.3.2      | Projektovanje drajvera                                    | 47 |
| 5.3.3      | Projektovanje monitora i skupljanje pokrivenosti          | 47 |
| 5.3.4      | Projektovanje agenta i konfiguracije                      | 49 |
| 5.3.5      | Projektovanje referentnog modela                          | 49 |
| 5.3.6      | Projektovanje skorborda                                   | 50 |
| 5.3.7      | Projektovanje okruženja                                   | 50 |
| 5.4        | Izvršavanje regresionih testova i skupljanje pokrivenosti | 50 |
| Glava 6 E  | Orajver za platformski uređaj                             | 52 |
| 6.1        | Uvod                                                      | 52 |
| 6.2        | Razvoj platformskog drajvera                              | 53 |
| 6.2.1      | Struktura platform_driver                                 | 53 |
| 6.2.2      | Funkcije fft2_init i fft2_exit                            | 54 |
| 6.2.3      | Funkcije fft2_probe i fft2_remove                         | 54 |
| 6.2.4      | Funkcije fft2_open i fft2_close                           | 54 |
| 6.2.5      | Funkcije fft2_write i fft2_read                           | 55 |
| 6.3        | Razvoj aplikacije                                         | 55 |
| Glava 7 Z  | aključak                                                  | 56 |
| Literatura |                                                           | 57 |

## Slike

| Slika 1 lzgled nizova $f$ i $g$ za P=N=5 i M=3 (preuzeto iz [1])                             | 3    |
|----------------------------------------------------------------------------------------------|------|
| Slika 2 Rekurzivno izvršavanje brze Furijeove transformacije (preuzeto iz [13])              | 7    |
| Slika 3 Leptir operacija (preuzeto iz [13])                                                  | 8    |
| Slika 4 Primer brze Furijeove transformacije za signal sa osam elemenata (preuzeto iz [13])  | 8    |
| Slika 5 Odnos između tradicionalnih i ESL metodologije razvoja elektronskih uređaja (preuzet | o iz |
| [6])                                                                                         | 11   |
| Slika 6 Konvolucija matrica (preuzeto iz [17])                                               | 13   |
| Slika 7 Šematski prikaz virtuelne platforme                                                  | 15   |
| Slika 8 Šematski prikaz podsistema za obradu podataka i upravljačkog podsistema              | 18   |
| Slika 9 Šematski prikaz protokola četvorofaznog hendšejk protokola                           | 20   |
| Slika 10 Šematski prikaz implementiranog IP jezgra za algoritam fft2                         | 21   |
| Slika 11 ASM dijagram leptir bloka                                                           | 24   |
| Slika 12 Modul za obradu podataka unutar leptir bloka                                        | 25   |
| Slika 13 ASM dijagram fft bloka (prvi deo)                                                   | 29   |
| Slika 14 ASM dijagram fft bloka (drugi deo)                                                  | 30   |
| Slika 15 ASM dijagram fft bloka (treći deo)                                                  | 31   |
| Slika 16 ASM dijagram fft bloka (četvrti deo)                                                | 32   |
| Slika 17 Izgled modula za obradu podataka fft bloka (prvi deo)                               | 33   |
| Slika 18 Izgled modula za obradu podataka fft bloka (drugi deo)                              | 34   |
| Slika 19 ASM dijagram fft2 modula                                                            | 37   |
| Slika 20 Modul za obradu podataka fft2 bloka                                                 | 38   |
| Slika 21 Blok dijagram celokupnog sistema                                                    | 39   |
| Slika 22 Prostorna raspodela iskorišćenih resursa                                            | 41   |
| Slika 23 Verifikacioni ciklus, preuzeto iz [20]                                              | 43   |
| Slika 24 Šematski prikaz verifikacionog okruženja                                            | 46   |
| Slika 25 Funkcionalna nokrivenost                                                            | 51   |

## Listing koda

| Listing 1 Pseudo-kod algoritma koji izvršava Soft komponenta15                          |
|-----------------------------------------------------------------------------------------|
| Listing 2 Algoritam za obrtanje redosleda bita27                                        |
| Listing 3 Iterativni algoritam za rekurzivnu podelu niza i pozivanje leptir operacije28 |
| Listing 4 Inferfejs DUT-a44                                                             |
| Listing 5 Format <i>dout_din</i> paketa47                                               |
| Listing 6 Format <i>init</i> paketa47                                                   |
| Listing 7 Pokrivenost ulaznih signala48                                                 |
| Listing 8 Pokrivenost izlaznih signala48                                                |
| Listing 9 Pokrivenost veličine matrice49                                                |
| Listing 10 Skorbord50                                                                   |
| Listing 11 Regresija51                                                                  |
| Listing 13 Strukture platform_driver i of_device_id53                                   |
|                                                                                         |
|                                                                                         |
| Listing tabela                                                                          |
|                                                                                         |
| Tabela 1 Rezultati profajliranja14                                                      |
| Tabela 2 Analiza širine16                                                               |
| Tabela 3 Vremenska analiza39                                                            |
| Tabela 4 Iskorišćenost logičkih kola40                                                  |
| Tabela 5 Iskorišćenost blok memorije40                                                  |
| Tabela 6 Iskorišćenost DSP-jeva40                                                       |

#### Glava 1

#### Uvod

Operacija konvolucije predstavlja bazičan algoritam u velikom broju aplikacija, među kojima se u značajnije predstavnike ubrajaju digitalna obrada slike i konvolucione neuronske mreže. Akceleracija date operacije bi značajno ubrzala algoritme zasnovane na konvoluciji, zato što vreme izvršavanja datih algoritama dominantno zavisi od konvolucije.

Direktna implementacija konvolucije nad diskretnim signalom sa N elemenata ima složenost  $\mathcal{O}(N^2)$ . Korišćenjem brze Furijeove transformacije i osobina koje povezuju konvoluciju sa brzom Furijeovom transformacijom, vremenska složenost algoritma se svodi na  $\mathcal{O}(N \log N)$  [1]. Slično kao i u prethodnom slučaju, veću vremensku složenost, odnosno manju brzinu rada, ima algoritam direktne implementacije konvolucije nad matricom, u odnosu na algoritam zasnovan na brzim Furijeovim transformacijama [2].

Stoga, dati projekat ima za cilj da hardverski ubrza izvršavanje algoritma konvolucije nad matricom, korišćenjem brzih Furijeovih transformacija.

Rad se sastoji iz sledećih celina:

- 1. Prvog, uvodnog poglavlja.
- 2. U drugom poglavlju su objašnjene operacije konvolucije matrica i brze Furijeove transformacije, njihova veza, kao i osobine koje smanjuju složenost implementiranog algoritma.
- 3. U trećem poglavlju je opisan tok projektovanja dizajna na sistemskom nivou. To podrazumeva vremensku i prostornu analizu performansi sistema, kao i particionisanje na hardverski i softverski deo.
- 4. U četvrtom poglavlju su diskutovane moguće implementacije i opisan je projketovani hardverski blok.
- 5. U petom poglavlju je opisan postupak funkcionalne verifikacije projektovanog hardverskog bloka, zasnovanog na UVM metodologiji.
- 6. U šestom poglavlju su opisani implementirani Linuks drajver za projektovani hardverski blok i korisnička aplikacija.

#### Glava 2

#### Konvolucija matrica

#### 2.1 Konvolucija u jednoj dimenziji

Posmatrajmo dva niza, f[n] i g[m], sa brojem elemenata N i M ( $N \ge M$ ) redom. Pomoću njih će biti objašnjena dva osnovna tipa diskretne konvolucije – linearna i kružna.

 Linearna konvolucija se zasniva na proširivanju signala f i g sa nulama i sa leve i sa desne strane, do beskonačnosti, i potom izvršavanje sledeće operacije:

$$h_{\infty}[k] = (f * g)[k] \triangleq \sum_{i=-\infty}^{\infty} f_{\infty}[i] \cdot g_{\infty}[k-i] = (g * f)[k]$$

Pri čemu važi:

$$f_{\infty}[n] = egin{cases} f[n], 0 \leq n \leq N \ 0, ina\check{c}e \ \end{cases}$$
  $g_{\infty}[m] = egin{cases} g[n], 0 \leq m \leq M \ 0, ina\check{c}e \ \end{cases}$ 

Rezultujući signal  $h_{\infty}$  može imati maksimalno N+M-1 nenultih vrednosti. U zavisnosti od toga da li konvolucioni proizvod uključuje sve nenulte članove dobijenog niza  $h_{\infty}$ , razlikujemo tri tipa konvolucionog množenja:

- o **Potpuno množenje** rezultujući niz h će uključivati sve elemente niza  $h_{\infty}$ , koji mogu imati nenultu vrednost. Niz h će posedovati N+M-1 elemenata.
- o **Množenje iste veličine** rezultujući niz h će uključivati samo članove niza  $h_{\infty}$ , kod kojih je centralni element niza g pomnožen sa nekim članom neproširenog niza f. Niz h će posedovati N elemenata.
- **Validno množenje** rezultujući niz h će uključivati samo članove niza  $h_{\infty}$ , kod kojih su svi neprošireni elementi niza g pomnoženi sa neproširenim članovima niza f. Niz h će posedovati N-M+I elemenata.

Dalje u radu će se pod linearnim konvolucionim množenjem podrazumevati potpuno množenje, osim ukoliko ne bude drugačije naznačeno, pošto je algoritam za konvoluciju implementiran pomoću potpunog množenja. Matematički, formula za potpuno konvoluciono množenje se definiše na sledeći način:

$$h[k] \triangleq \sum_{i=\max(0,k-M+1)}^{\min(N-1,k)} f[i] \cdot g[k-i], \quad \forall k \in [0,N+M-2]$$

• Kružna konvolucija se zasniva na "obmotavanju" nizova f i g sa sopstvenim članovima, umesto što se proširuju sa nulom do beskonačnosti. Time se postiže da novodobijeni nizovi f<sub>P</sub> i g<sub>P</sub> budu periodični sa istim periodom P. Konačni nizovi f i g su prošireni sa nulama tek toliko, da bi se zadovoljio uslov da nizovi budu iste periodičnosti (P = N<sub>P</sub> = M<sub>P</sub> ≥ N ≥ M). Drugim rečima, za bilo koji ceo broj k, važi f(k) = f(k mod P) i g(k) = g(k mod P). Na slici 1 se nalazi primer za P=N=5 i M=3.

| $f_2$ | $f_3$ | $f_4$ | $f_0$ | $f_1$ | $f_2$ | $f_3$ | $f_4$ | $f_0$ | $f_1 \mid f_2 \mid$ |
|-------|-------|-------|-------|-------|-------|-------|-------|-------|---------------------|
| 0     | $g_2$ | $g_1$ | $g_0$ | 0     | 0     | $g_2$ | $g_1$ | $g_0$ | 0 0                 |

Slika 1 Izgled nizova f i g za P=N=5 i M=3 (preuzeto iz [1])

Matematički, formula za kružno konvoluciono množenje sa modulom *P* se definiše na sledeći način:

$$h_P[k] = (f *_P g)[k] \triangleq \sum_{i=0}^{P-1} f_P[i] \cdot g_P[k-i] = (g *_P f)[k], \quad \forall k \in \mathbb{Z}$$

Pri čemu važi:

$$f_P[i] = \sum_{p=-\infty}^{\infty} f_{\infty}[i+p\cdot P] = f_{\infty}[i \bmod P], \ \forall i \in \mathbb{Z}$$

$$g_P[i] = \sum_{p=-\infty}^{\infty} g_{\infty}[i+p\cdot P] = g_{\infty}[i \bmod P], \ \forall i \in \mathbb{Z}$$

U slučaju da je moduo kružne konvolucije  $P \ge N + M - 1$ , jednostavno se može pokazati da linearna i kružna konvolucija predstavljaju identičnu operaciju [1]:

$$(f * g)[k] = (f *_P g)[k], ako P \ge N + M - 1$$

Uloga i značaj pojma kružne konvolucije je u tome što ona predstavlja spregu između diskretne Furijeove transformacije i linearne konvolucije signala.

#### 2.2 Konvolucija u dve dimenzije

Celokupna teorija diskutovana za konvoluciju u jednoj dimenziji može biti primenjena i na konvoluciju u više dimenzija. Ovaj rad će biti ograničen na dve dimenzije, odnosno ograničen na konvolucije nad matricama. Linearna konvolucija nad matricama f i g se definiše na sledeći način:

$$h_{\infty}[k_{1}, k_{2}] \triangleq (f * g)[k_{1}, k_{2}]$$

$$= \sum_{i=-\infty}^{\infty} \sum_{j=-\infty}^{\infty} f_{\infty}[i, j] \cdot g_{\infty}[k_{1} - i, k_{2} - j] = (g * f)[k_{1}, k_{2}]$$

Pri čemu važi:

$$\begin{split} f_{\infty}[i,j] &= \begin{cases} f[i,j], 0 \leq i \leq H_1, 0 \leq j \leq W_1, \\ 0, ina\check{c}e \end{cases} \\ g_{\infty}[i,j] &= \begin{cases} g[i,j], 0 \leq i \leq H_2, 0 \leq j \leq W_2, \\ 0, ina\check{c}e \end{cases} \end{split}$$

Potpuna linearna konvolucija će biti matrica veličine  $(H_1+H_2-1, W_1+W_2-1)$ . Kružno konvoluciono množenje nad matricama f i g se definiše na sledeći način:

$$\begin{split} h_P[k_1,k_2] &\triangleq \left(f *_{P_1,P_2} g\right)[k_1,k_2] = \\ &= \sum_{i=0}^{P_H-1} \sum_{j=0}^{P_W-1} f[i,j] \cdot g[k_1-i,k_2-j] = \left(g *_{P_H,P_W} f\right)[k_1,k_2], \\ \forall k_1,k_2 \in \mathbb{Z} \end{split}$$

Pri čemu važi:

$$\begin{split} f_{P_{H},P_{W}}[i,j] &= \sum_{p_{1}=-\infty}^{\infty} \sum_{p_{2}=-\infty}^{\infty} f_{\infty}[i+p_{1}\cdot P_{H},j+p_{2}\cdot P_{W}] \\ &= f_{\infty}[i \ mod \ P_{H},j \ mod \ P_{W}], \quad \forall i,j \in \mathbb{Z} \\ g_{P_{H},P_{W}}[i,j] &= \sum_{p_{1}=-\infty}^{\infty} \sum_{p_{2}=-\infty}^{\infty} g_{\infty}[i+p_{1}\cdot P_{H},j+p_{2}\cdot P_{W}] \\ &= g_{\infty}[i \ mod \ P_{H},j \ mod \ P_{W}], \ \forall i,j \in \mathbb{Z} \end{split}$$

I u dvodimenzionalnom slučaju se može pokazati da kružna i linearna konvolucija predstavljaju identičnu operaciju ukoliko važi da je  $P_H \ge H_1 + H_2$  -1 i  $P_W \ge W_1 + W_2 - 1$ .

#### 2.3 Diskretna Furijeova transformacija u jednoj dimenziji

Diskretna Furijeova transformacija nad diskretnim signalom f[n] dužine N se definiše na sledeći način:

$$F[k] = \mathcal{F}\{f\}[k] \triangleq \sum_{n=0}^{N-1} f[n]e^{-\frac{2i\pi kn}{N}} = \sum_{n=0}^{N-1} f[n]W_N^{kn}$$

Vrednosti kompleksne eksponencijalne funkcije sa kojima se množe odbirci diskretnog signala f[n] nazivaju se rotacioni faktori (eng. *twiddle factor*). Rotacioni faktori imaju sledeće osobine, koje će biti značajni za izvođenje brze Furijeove transformacije:

Kompleksno konjugovana simetričnost

$$W_N^{k(N-n)} = W_N^{-kn} = \left(W_N^{kn}\right)^C$$

Periodičnost

$$W_N^{kn} = W_N^{k(n+N)} = W_N^{(k+N)n}$$

Redundantnost

$$W_N^{2kn} = W_{N/2}^{kn}$$

Inverzna diskretna Furijeova transformacija nad istim signalom se definiše na sledeći način:

$$f[n,m] = \mathcal{F}^{-1}\{F\}[n] \triangleq \frac{1}{N} \sum_{k=0}^{N-1} F[k] e^{\frac{2i\pi kn}{N}} = \frac{1}{N} \left( \sum_{k=0}^{N-1} F[k]^{C} e^{-\frac{2i\pi kn}{N}} \right)^{C}$$

Iz formule za inverznu Furijeovu transformaciju se može zaključiti da Furijeova transformacija nad konjugovanim signalom u frekvencijskom domenu predstavlja inverznu Furijeovu transformaciju. Konjugacija nad rezultujućim signalom nije neophodna, pošto za dati algoritam su značajne samo realne vrednosti inverzne Furijeove transformacije. Korišćenjem date osobine se povećava konciznost koda, i omogućava se korišćenje već realizovane funkcije za direktnu Furijeovu transformaciju, sa neznatnim usporavanjem vremena izvršavanja. U embeded aplikacijama, sa memorijskim ograničenjima, ova osobina se može pokazati veoma korisnom.

#### 2.4 Diskretna Furijeova transformacija u dve dimenzije

Diskretna Furijeova transformacija nad diskretnim višedimenzionalnim signalom f[n] se definiše analogno kao u jednodimenzionalnom slučaju. Formula za Furijeovu transformaciju u dve dimenzije nad matricom f dimenzija (N, M) glasi:

$$F[k,l] = \mathcal{F}\{f\}[k,l] \triangleq$$

$$\triangleq \sum_{n=0}^{N-1} \sum_{m=0}^{M-1} f[n,m] e^{-\frac{2i\pi lm}{M}} e^{-\frac{2i\pi kn}{N}}$$

$$= \sum_{n=0}^{N-1} \sum_{m=0}^{M-1} f[n,m] W_M^{lm} W_N^{kn}$$

$$= \sum_{n=0}^{N-1} \left( \sum_{m=0}^{M-1} f[n,m] W_M^{lm} \right) W_N^{kn}$$

Data jednačina pokazuje kako se pomoću jednodimenzionalne diskretne Furijeove transformacije može dobiti dvodimenzionalna Furijeova transformacija. Prvo se izvrši Furijeova transformacija nad svim kolonama, a potom po svim vrstama, ili obratno, da bi se dobila željena dvodimenzionalna transformacija. Ova osobina je značajna jer pojednostavljuje implementaciju algoritma i može se primeniti na beskonačno dimenzija.

Inverzna Furijeova transformacija u dve dimenzije se može realizovati izvšavanjem dvodimenzionalne Furijeove transformacije nad konjugovanom matricom:

$$f[n,m] = \mathcal{F}^{-1}\{F\}[n,m] = (\mathcal{F}\{F^C\}[n,m])^C$$

#### 2.5 Brza Furijeova transformacija

Postoji veliki broj algoritama koji smanjuju vreme izvršavanja jednodimenzionalne Furijeove transformacije sa  $\mathcal{O}(N^2)$  na  $\mathcal{O}(N\log N)$ , kao što su Kuli-Tukijev Radiks 2 algoritam (eng. Radix 2), Prajm faktor algoritam, Raderov algoritam, Vinogradov algoritam i drugi. U ovom radu će biti implementiran Radiks 2 algoritam u vremenskom domenu, pošto je jedan od najstarijih i najpoznatijih algoritama za brzu Furijeovu transformaciju.

Radiks 2 postiže ubrzanje u odnosu na diskretnu Furijeovu transformaciju izbegavanjem ponovnog računanja određenih izraza. Pripada klasi "zavadi pa vladaj" algoritama (eng. divide and conquer) i kao preduslov neophodno je da broj članova niza bude stepen dvojke. Tokom preprocesiranja, izmenimo redosled članova niza pomoću algoritma za obrtanje redosleda bita. Potom, rekurzivnim ponavljanjem, podelimo članove na parne i neparne, izračunamo brzu Furijeovu transformaciju za oba

novodobijena niza i spojimo rezultate, koristeći osobine korena jedinice (rotacionih faktora) u polju kompleksnih brojeva (slika 2).



Slika 2 Rekurzivno izvršavanje brze Furijeove transformacije (preuzeto iz [13])

U narednih nekoliko koraka će biti izvedene formule za Radiks 2 algoritam brze Furijeove transformacije:

$$F[k] = \mathcal{F}\{f\}[k] = \sum_{n=0}^{N-1} f[n]W_N^{nk} = \sum_{n=0}^{\frac{N}{2}-1} f[2n]W_N^{2nk} + \sum_{n=0}^{\frac{N}{2}-1} f[2n+1]W_N^{(2n+1)k} = \sum_{n=0}^{\frac{N}{2}-1} f[2n]W_N^{2nk} + W_N^k \sum_{n=0}^{\frac{N}{2}-1} f[2n+1]W_N^{2nk}$$

$$k \in [0, ..., N-1]$$

Na osnovu osobine redundantnosti, a potom i periodičnosti rotacionih faktora, formula za Furijeovu transformaciju postaje:

$$F[k] = \sum_{n=0}^{\frac{N}{2}-1} f[2n]W_{N/2}^{nk} + W_N^k \sum_{n=0}^{\frac{N}{2}-1} f[2n+1]W_{N/2}^{nk} = F_p[k] + W_N^k F_n[k]$$

$$k \in [0, \dots, \frac{N}{2}-1]$$

Na osnovu osobine kompleksno konjugovane simetričnosti, redundantnosti i periodičnosti, može se jednostavno, na osnovu već izračunatih vrednost, dobiti vrednost člana F[k+N/2]:

$$F\left[k + \frac{N}{2}\right] = F_p\left[k + \frac{N}{2}\right] + W_N^{k + \frac{N}{2}} F_n\left[k + \frac{N}{2}\right] = F_p[k] - W_N^k F_n[k]$$

$$k \in [0, \dots, \frac{N}{2} - 1]$$

Iz poslednjih jednačina možemo primetiti rekurzivnu prirodu Furijeove transformacije i konačan izgled Radiks 2 algoritma:

$$F[k] = F_p[k] + W_N^k F_n[k]$$
$$F[k+N/2] = F_p[k] - W_N^k F_n[k]$$

One nam omogućavaju da značajno uštedimo broj upotrebljenih operacija. Operacije računanja vrednosti F[k] i F[k+N/2], odnosno množenje neparnog člana sa rotacionim faktorom, sabiranje i oduzimanje sa parnim članom se naziva leptir (eng. *butterfly*) operacija, slika 3.



Slika 3 Leptir operacija (preuzeto iz [13])

Na slici 4 je prikazan postupak dobijanja Furijeove transformacije niza sa osam članova pomoću Radiks 2 algoritma.



Slika 4 Primer brze Furijeove transformacije za signal sa osam elemenata (preuzeto iz [13])

#### 2.6 Odnos konvolucije i Furijeove transformacije

Neka su f i g dva niza veličine N i M, redom, i neka je  $P \ge N + M - 1$  moduo kružne konvolucije. Tada formula koja spaja kružnu konvoluciju sa diskretnom Furijeovom transformacijom glasi:

$$(f *_{P} g)[k] = \mathcal{F}^{-1} \{ \mathcal{F} \{ f_{P} \} \cdot \mathcal{F} \{ g_{P} \} \} [k]$$

Formula se može dokazati računanjem Furijeove transformacije kružne konvolucije signala f i g.

$$\begin{split} \mathcal{F}\{(f*_{P}g)\}[k] &= \sum_{i=0}^{P-1} \left( (f*_{P}g)[i]W_{P}^{ki} \right) = \sum_{i=0}^{P-1} \sum_{j=0}^{P-1} f_{P}[j] \cdot g_{P}[i-j]W_{P}^{ki} \\ &= \sum_{j=0}^{P-1} f_{P}[j]W_{P}^{kj} \sum_{i=0}^{P-1} g_{P}[i-j]W_{P}^{k(i-j)} \\ &= \sum_{j=0}^{P-1} f_{P}[j]W_{P}^{kj} \sum_{i=0}^{P-1} g_{P}[i]W_{P}^{k(i)}, (zbog\ periodičnosti\ g_{P}) \\ &= \mathcal{F}\{f_{P}\}[k] \cdot \mathcal{F}\{g_{P}\}[k] \end{split}$$

Povezivanjem date formule sa odnosom između potpune linearne i kružne konvolucije, dobijemo formulu za računanje potpune linearne konvolucije korišćenjem Furijeovih transformacija:

$$h[k] = \sum_{i=\max(0,k-M+1)}^{\min(N-1,k)} f[i] \cdot g[k-i] = (f *_{P} g)[k] = \mathcal{F}^{-1} \{\mathcal{F}\{f_{P}\}\mathcal{F}\{g_{P}\}\}[k],$$

$$\forall k \in [0,N+M-2]$$

#### Glava 3

#### Projektovanje aplikacije na sistemskom nivou

#### 3.1 ESL Metodologija

ESL (eng. *Electronic System Level*) metodologija predstavlja dizajn metodologiju za razvoj elektronskih uređaja. Zasnovana je na projektovanju modela uređaja na visokom nivou apstrakcije (odnosno na zahtevima poslodavca ili tržišta) i njegovim postepenim profinjavanjem do prostornog rasporeda svih hardverskih komponenti u uređaju i signala koji ih povezuju.

Korišćenje ESL metodologije je motivisano činjenicom da tradicionalne metodologije za razvoj elektronskih uređaja ne uspevaju da ispune zadate zahteve prilikom realizacije složenih elektronskih uređaja [6]:

- Preko 70% dizajniranih elektronskih uređaja ima barem 30% niže performanse od zadatih.
- Preko 30% dizajniranih elektronskih uređaja nema korektno realizovano barem 50% zadate funkcionalnosti.
- Oko 54% projekata zakasni sa rokom realizacije, pri čemu je prosek kašnjenja četiri meseca.
- Oko 13% započetih projekata se prekine pre njihovog završetka.

Među glavnim razlozima za neuspeh realizacije dizajniranih elektronskih uređaja pomoću tradicionalnih metodologija su ograničena mogućnost preglednosti dizajna i kontrole njegovog izvršavanja. Da bi se postiglo povećanje kontrolabilnosti i preglednosti, moraju se meriti karakteristike individualnih signala i logičkih kapija, sa preciznošću reda veličine jedne nanosekunde. Datim nivoima apstrakcije se dobijaju ogromne količine malo korisnih informacija.

ESL metodologija omogućava razvoj elektronskih uređaja na sistemskom nivou, odnosno celokupno izvršavanje dizajna se apstrahuje u formi procesorskih instrukcija, poziva funkcija, pristupa memoriji i slanja paketa podataka. Na datom nivou se najjednostavnije i najbrže particioniše dizajn na hardverske i softverske komponente i biraju IP blokovi. Prednosti ESL metodologije su povećani kvalitet i pouzdanost, realizacija optimalnih dizajnova elektronskih uređaja, smanjenje vremena do plasiranja rešenja na tržište (eng. *time to market*) i mogućnost konkurentnog razvoja softvera i hardvera.



Slika 5 Odnos između tradicionalnih i ESL metodologije razvoja elektronskih uređaja (preuzeto iz [6])

ESL metodologija se sastoji iz sedam koraka:

- 1. **Pisanje specifikacije i modelovanje** predstavlja razvoj dokumenta koji opisuje sistem ili funkcionalnost koju uređaj treba da ispuni, zajedno sa njegovim ograničenjima. Specifikacija na najvišem nivou je često napisana prirodnim jezikom, čime se ostavlja dovoljno prostora da model na sledećem, nižem nivou apstrakcije zadovolji zahtevane uslove bez da bude ograničen na specifičnu implementaciju. Za razliku od specifikacije napisane prirodnim jezikom, specifikacije koje se izvršavaju iskazuju željeno ponašanje na nedvosmislen način iz perspektive crne kutije. S druge strane, implementacije koje se izvršavaju reflektuju miktoarhitekturne odluke. Postoji veliki broj programskih jezika koji se koriste za ESL specifikaciju, u koje se ubrajaju *MATLAB M-Code*, *SystemC* i drugi.
- **2. Analiza pre particionisanja** predstavlja proces upoređivanja karakteristika različitih implementacija. U ključne karakteristike se ubrajaju:
  - Vreme izvršavanja algoritam može biti serijski ili konkurentno realizovan
  - Memorijski zahtevi
  - o Potrošnja najviše utiču spekulativno izvršavanje, keširanje podataka i izbor algoritma
  - Vreme potrebno da bi se plasirao proizvod na tržište kašnjenje može da uzrokuje veoma velike finansijske gubitke

 Složenost – pravljenje kompromisa između performansi i mogućnošću verifikacije rada

Da bi se mogle uporediti karakteristike mogućih implementacija, mogu se vršiti različite analize, kao što su statička, dinamička, algoritamska, i druge. U ovom radu će se vršiti profajliranje koda, na osnovu kojeg će se izvršiti particionisanje hardvera i softvera.

- 3. Particionisanje predstavlja proces raspodele algoritama (ili njihovih delova), definisanih u specifikaciji, na one koji će biti realizovani u softverskim (procesori), odnosno hardverskim komponentama. Pravi se arhitekturni opis jedinica za procesiranje, memoriju i komunikaciju. Hardverska particija donosi izbore vezane za broj korišćenih jezgara (distribuirani sistem) i da li će jezgra biti upravljana aperiodičnim događajima ili periodičnim signalima (klokom). Softversko particionisanje se odnosi na izbor operativnog sistema, biblioteka, tipa procesora (simetrični ili heterogeni), i na nižem procesorskom nivou na niti i procese. Konačno, u slučaju distribuiranog sistema, mora biti izabran algoritam za planiranje (eng. scheduler).
- **4. Analiza i debagovanje nakon particionisanja** predstavlja proces ponovne analize karakteristika i upoređivanja karakteristikama dobijenim u analizi pre particionisanja. Algoritmi koji će biti izvršavani na procesoru su napisani u nekom programskom jeziku (na primer *C*, ili *C*++), dok su algoritmi koji će biti izvršavani u hardveru realizovani u nekom HDL (eng. *Hardware Description Language*) jeziku. U ovom koraku često može doći do ponovnih iteracija između particionisanja i analize nakon particionisanja, sa ciljem optimizacije performansi.
- 5. Verifikacija nakon particionisanja predstavlja proces ispitivanja rada dizajna, sa ciljem da se utvrdi da li je željena funkcionalnost odgovarajućih komponenti pre particionisanja sačuvana nakon particionisanja dizajna. Tipičan tok verifikacije predstavlja planiranje verifikacije, implementacija verifikacionog okruženja i na kraju analiza verifikacionih rezultata. Uz pomoć formalne analize i simulacije, istražuje se prostor stanja u kojem se dizajn može naći. Verifikaciono okruženje se implementira pomoću HLVL (eng. High Level Verification Languages) jezika. Ovo poglavlje će detaljnije biti razjašnjeno u glavi 5.
- 6. Hardversko-softverska implementacija Hardverska implementacija predstavlja proces kreiranja modela koji se mogu sintetizovati do nivoa kapija, i obično se pišu na RT nivou. Postoji pet mogućih hardverskih implementacija, a to su ekstenzibilni procesori (eng. extensible processors), DSP (eng. Digital Signal Processing) koprocesori, VLIW (eng. Very Long Instruction Word) koprocesori, namenski (eng. application specific) koprocesori, i ASIC ili FPGA. Softverska implementacija se može klasifikovati prema vidljivosti sistemskih komponenti (klok, uređaj za

- enkripciju i slično), vremenskim intervalima između susednih događaja, platforme na kojoj se izvršava i vremenskih performansi.
- 7. **Verifikacija implementacije** predstavlja verifikaciju ispravnog rada celokupnog sistema. Može se postići simulacijom mešovitih modela, hardverskom emulacijom, ili realizacijom prototipa pomoću FPGA. Radi lakšeg debagovanja hardvera, često se ugrađuju komponente kao što su JTAG (eng. *Joint Test Action Group*) i ILA (eng. *Integrated Logic Analyzer*) komponente.

#### 3.2 Specifikacija i modelovanje

Konvolucija je operacija dodavanja svakog elementa svojim susedima, pomnoženih sa odgovarajućim koeficijentima. Ako imamo dve 3x3 matrice istih dimenzija, onda konvolucija se definiše na sledeći način:

$$\left(\begin{bmatrix} a & b & c \\ d & e & f \\ g & h & i \end{bmatrix} * \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix}\right) [2,2] = (i \cdot 1) + (h \cdot 2) + (g \cdot 3) + (f \cdot 4) + (e \cdot 5) + (d \cdot 6) + (c \cdot 7) + (b \cdot 8) + (a \cdot 9).$$

Rezultat konvolucije se smešta u novu matricu, na istu poziciju na kojoj se nalazi i centralno polje parčeta originalne slike (pogledati sliku 6, polje [2,2]). Slično se definiše i za veće dimenzije matrica. Formalna matematička definicija konvolucije je data u glavi 2, gde je takođe pokazano kako je Furijeova transformacija povezana sa konvolucijom.



Slika 6 Konvolucija matrica (preuzeto iz [17])

#### 3.3 Analiza pre particionisanja

U ovom koraku je izvršeno upoređivanje performansi različitih algoritama i delova algoritma. Algoritam dvodimenzionalne konvolucije po definiciji, ima mnogo veću vremensku složenost nego na algoritam zasnovan na brzim Furijeovim transformacijama. S druge strane, korišćenje brzih Furijeovih transformacija zahteva preko duplo više memorijskih lokacija, koje su zadužene za skladištenje vrednosti imaginarnih članova matrica i rotacionih faktora. Zbog značajne uštede vremena izvršavanja, izabrana je implementacija zasnovana na brzoj Furijeovoj transformaciji.

Profajliranjem izvornog koda napisanog u C++ jeziku dobijeni su sledeći rezultati odnosa vremena izvršavanja konvolucije matrica i brze Furijeove transformacije za date matrice:

| Veličina matrica | Relativno vreme<br>izvršavanja konvolucije<br>[%] | Relativno vreme<br>izvršavanja brze<br>Furijeove transformacije<br>[%] |  |
|------------------|---------------------------------------------------|------------------------------------------------------------------------|--|
| 8x8              | 34.02                                             | 65.52                                                                  |  |
| 128x128          | 6.24                                              | 93.24                                                                  |  |

Tabela 1 Rezultati profajliranja

Za još veće matrice, odnos vremena izvršavanja brze Furijeove transformacije u dve dimenzije i konvolucije će biti jos veći.

#### 3.4 Particionisanje

Dvodimenzionalna Furijeova transformacija je vremenski najsporiji deo algoritma konvolucije. Zbog toga je odlučeno da se Furijeova transformacija izvršava na hardveru, dok će se konvolucija izvršavati u softveru. Realni brojevi u hardveru će biti predstavljeni sa fiksnom tačkom.

Ciljana platforma u ovom sistemu će biti *Zybo* ploča iz familije *Zynq-7010. Zybo* predstavlja sistem na čipu koji se sastoji iz programabilne logike (FPGA) i procesirajućeg dvojezgrarnog sistema ARM *Cortex A9*. Pošto nije zamišljeno da se ubrzava konvolucija sa paralelizacijom softverske particije, koristiće se samo jedno jezgro procesora. Operativni sistem na ploči će biti *Xilinx Linux Kernel 4.10*.

Matrice koje se obrađuju će biti skladištene u BRAM-u. Direktna komunikacija između softverskog i hardverskog dela će se obavljati preko AXI *Lite* magistrale. Particije će razmenjivati informacije o veličini matrica preko date magistrale, kao i signale za početak i završetak obrade matrica. Softverska particija komunicira sa BRAM-om putem AXI-BRAM kontrolera, dok je hardverska particija direktno povezana putem BRAM interfejsa sa memorijom.

#### 3.5 Implementacija i analiza modela posle particionisanja

Model je implementiran u programskom jeziku *SystemC*. Komponente su instancirane u vidu klasa, i mogu se podeliti na komponente zadužene za skladištenje memorije (BRAM RE i BRAM IM), softversku i hardversku particija (*Hard* i *Soft*) i komponente koje povezuju date module (*Interconnect* i *BRAM Controller*).



Slika 7 Šematski prikaz virtuelne platforme

Sve komponente komuniciraju na nivou transakcija putem TLM (eng. *Transaction Level Modelling*) mehanizma. Komunikacija na nivou transakcija omogućava razdvajanje implementacije protokola od funkcionalnosti koju treba da obavljaju komunikacioni kanali. Na osnovu toga se jednostavno mogu menjati protokoli u skladu sa zahtevima dizajna. Transakcija koja se prenosi putem TLM mehanizma sadrži nekoliko parametara, od kojih su najznačajniji dužina niza koji se šalje (svi podaci su osmobitni), pokazivač na niz i komanda koja je oblika "čitaj" ili "upiši".

Komponenta *Soft* vrši implementaciju konvolucije, odnosno šalje zahteve hardverskom modulu da izvrši dvodimenzionalne Furijeove transformacije nad matricama, obavlja zamenu redosleda matrica u memoriji, kao i jednostavne operacije nad elementima matrica. Pseudo kod je napisan u listingu ispod.

- 1. Slanje zahteva hardverskoj particiji za izvršavanje dvodimenzione Furijeove transformacije nad ulaznom realnom matricom A
- 2. Zamena redosleda obrađene matrice A i matrice B
- 3. Slanje zahteva hardverskoj particiji za izvršavanje dvodimenzione Furijeove transformacije nad ulaznom realnom matricom B
- 4. Množenje elemenata novih matrica A i B i skladištenje na lokaciji matrice B (zove se matrica C) i invertovanje vrednosti imaginarnog dela matrice C
- 5. Slanje zahteva hardverskoj particiji za izvršavanje dvodimenzione Furijeove transformacije nad ulaznom realnom matricom C
- 6. Deljenje svakog elementa sa proizvodom visine i širine matrice C

Listing 1 Pseudo-kod algoritma koji izvršava Soft komponenta

*Hard* komponenta izvršava dvodimenzionalnu Furijeovu transformaciju, koja je opisana u poglavljima 2.4 i 2.5.

Interconnect komponenta služi za rutiranje podataka koji šalje komponenta Soft, i na osnovu prvih osam bita tridesetdvobitne adrese utvrđuje da li da transakciju prosledi memoriji ili direktno u hardverski blok. BRAM kontroler prima transakciju iz Interconnect komponente. Transakcija koja stiže u BRAM kontroler sadrži niz dvostruke dužine, pri čemu prva polovina niza predstavlja lokaciju za podatke koji treba da se učitaju ili upišu u memoriju sa realnim podacima, dok druga polovina niza je rezervisana za memoriju sa imaginarnim podacima. Stoga, može se reći da BRAM kontroler jednu transakciju deli na dva dela, i ponovo sastavlja transakcije nakon uspešnog pisanja ili čitanja.

Memorijske komponente BRAM RE i BRAM IM skladište vrednosti dve kompleksne matrice. Prva polovina memorijskih lokacija je rezervisana za jednu matricu (u početku se to odnosi na matricu A, do zamene redosleda), dok je druga polovina rezervisana za drugu matricu. Da bi se omogućilo istrovremeno upisivanje realnog i imaginarnog dela (i time uštelo na vremenu), realni i imaginarni delovi matrica su razdeljeni u dva BRAM-a.

Ceo sistem se zove virtuelna platforma. Klasa VP (eng. *Virtual Platform*) instancira sve komponente, i spaja odgovarajuće interfejse jedne sa drugima.

#### 3.6 Analiza modela posle particionisanja

Realne vrednosti matrica su reprezentovane sa fiksnom tačkom. Da bi se utvrdila optimalna širina celog dela, i dela iza fiksne tačke, neophodno je izvršiti analizu širine. Napisana su dva koda sa identičnim algoritmom, u C++ i SystemC programskim jezicima, pri čemu se u prvom slučaju koristi reprezentacija realnih brojeva sa pokretnom tačkom, dok u drugom slučaju se koristi reprezentacija sa fiksonom tačkom. Vršena je analiza nad realnim matricama veličine 128x128 proizvoljnih vrednosti, i mereno je odstupanje između odgovarajućih elemenata u rezultujućim matricama.

| Širina <ceolobrojni deo="" deo,="" realni=""></ceolobrojni> | Odstupanje |
|-------------------------------------------------------------|------------|
| <32,12>                                                     | 12288      |
| <32,13>                                                     | 8192.02    |
| <32,14>                                                     | 16384      |
| <32,15>                                                     | 0.0273132  |
| <32,16>                                                     | 0.02348330 |
| <32,17>                                                     | 0.0534661  |
| <32,18>                                                     | 0.118255   |
| <48,18>                                                     | 0.0233966  |
| <48,19>                                                     | 0.023397   |
| <48,20>                                                     | 0.023398   |
| <48,21>                                                     | 0.0234     |

Tabela 2 Analiza širine

Po datim rezultatima, može se zaključiti da širina od 32 bita, sa 16 bita koji se nalaze iza fiksne tačke, predstavlja minimalnu širinu realnih brojeva za matrice veličine 128x128. Za veće matrice bi širina realnih brojeva morala biti još veća.

#### Glava 4

#### Projektovanje hardverskog IP jezgra

#### 4.1 Uvod

#### 4.1.1 RT metodologija

Prevođenje algoritma, odnosno detaljne sekvence akcija ili koraka neophodnih da se reši problem, u digitalno elektronsko kolo, se vrši pomoću RT metodologije. **RT** (eng. *Register Transfer*) **metodologija** predstavlja formalizovani postupak pomoću kojega se vrši mapiranje varijabli u registre, i sekvenci koraka nad varijablama u manipulacije nad registrima i signalima (RT operacije). RT metodologija podrazumeva projektovanje dva podsistema:

- Podsistem za obradu podataka (eng. *Data path*) je modul koji sadrži sve hardverske resurse neophodne da bi se izvršili svi koraci definisani algoritmom i koji će biti izvršeni u datom IP jezgru, svih memorijskih resursa neophodnih da bi se skladištile varijable algoritma, kao i mreže za rutiranje koja na željeni način povezuje date hardverske komponente. Podsistem za obradu podataka se sastoji iz:
  - o Mreže za rutiranje ulaznih podataka dato kombinaciono digitalno elektronsko kolo rutira ulazne signale i vrednosti memorijskih elemenata sa odgovarajućim funkcionalnim jedinicama. Uglavnom je realizovano pomoću multipleksera.
  - Mreže za rutiranje rezultata dato kombinaciono digitalno elektronsko kolo rutira izlaze funkcionalnih jedinica sa odgovarajućim memorijskim elementima. Uglavnom se realizuje pomoću multipleksera.
  - Funkcionalnih jedinica sastoje se iz svih aritmetičkih, logičkih i relacionih operatora implementiranih u obliku kombinacionih mreža.
  - Memorijskih elemenata koji skladište sve podatke koji se koriste u toku izvršavanja algoritma. Najčešće su implementirani pomoću registara, mada mogu se koristiti registarske banke, jednopristupne i višepristupne memorije, FIFO (eng. first in first out) baferi i drugi elementi.
- Upravljački podsistem (eng. *Control path*) je modul čija je uloga da upravlja redosledom operacija koje se izvršavaju unutar podsistema za obradu podataka i signalima koji se u datom trenutku skladište u memoriji, u skladu sa koracima definisanim algoritmom. Upravljački podsistem se stoga najčešće realizuje kao konačni automat stanja.

Konačni automat stanja (eng. Finite State Machine, FSM), predstavlja digitalno elektronsko kolo sa unutrašnjim stanjima. Tokom vremena FSM

menja stanje u kom se nalazi, u zavisnosti od trenutnog stanja i ulaznih signala. Sastoji se iz logike za generisanje narednog stanja, registra stanja i izlazne logike. Grafička reprezentacija konačnog automata stanja se može vršiti pomoću ASM (eng *Algorithmic State Machine*) dijagrama.



Slika 8 Šematski prikaz podsistema za obradu podataka i upravljačkog podsistema

Projektovanje digitalnog sistema koji treba da izvršava željeni algoritam, odnosno podsistema za obradu podataka i upravljačkog podsistema, pomoću RT metodologije, se sastoji iz pet koraka:

- 1. Eliminacija naredbi ponavljanja sve naredbe ponavljanja unutar algoritma se moraju zameniti sa odgovarajućim *if-goto* naredbama.
- 2. Definisanje interfejsa digitalnog sistema koji se projektuje analizom algoritma neophodno je utvrditi ulazne i izlazne promenljive (signale), kao i širine datih signala.
- 3. Projektovanje upravljačkog podsistema na osnovu algoritma je neophodno kreirati odgovarajući ASM dijagram, kao i razmotriti potencijalne optimizacije.
- 4. Projektovanje podsistema za obradu podataka sastoji se iz četiri koraka:
  - a. Identifikacija svih RT operacija koje postoje unutar ASM dijagrama, i dimenzionisanje registara koji će biti pridruženi datim operacijama.
  - b. Grupisanje RT operacija prema odredišnim registrima.
  - c. Za svaku grupu operacija, izvršavaju se tri koraka:
    - i. Formira se odredišni registar.

- ii. Formiraju se kombinacione mreže koje implementiraju sve funkcionalne transformacije signala u datoj grupi.
- iii. Dodaju se multiplekserska i rutirajuća kola ispred odredišnog registra ukoliko je on asociran sa većim brojem RT operacija.
- d. Dodaju se kombinacione mreže koje formiraju izlazne statusne signale.
- 5. Pisanje HDL modela na osnovu ASM dijagrama dobijenog u trećem koraku može se napisati odgovarajući HDL model upravljačkog podsistema, a na osnovu blog dijagrama formiranog u četvrtom koraku može se napisati HDL model podsistema za obradu podataka. Konačno, objedinjavanjem datih modela, dobija se HDL model kompletnog digitalnog elektronskog kola koje implementira željeni algoritam.

#### 4.1.2 IP jezgro

Hardverska IP (eng. *Intellectual Property*) jezgra su digitalni sistemi projektovani korišćenjem RT metodologije, koji enkapsuliraju neku jasno definisanu funkcionalnost. Uglavnom predstavljaju gradivne blokove većih i složenijih sistema na čipu. Da bi se olakšala ponovna upotrebljivost jezgara, za razmenu informacija se koriste standardni interfejsi kao što je AXI (eng. *Advanced eXtensible Interface*), PLB, OPB, LocalLink, i drugi. Na osnovu funkcionalnosti koju IP moduli obavljaju, dele se na:

- Module za skladištenje podataka u ovu grupu spadaju IP jezgra koja implementiraju mehanizme za skladištenje podataka, kao što su SRAM, DRAM, ROM, Flash, FIFO, i drugi.
- Module za prenos podataka u ovu grupu spadaju IP jezgra koja implementiraju i međusobno prevode različite komunikacione protokole, kao što su AXI, PLB, PCIe, Ethernet, I<sup>2</sup>C, SPI, i drugi.
- Module za obradu podataka u ovu grupu spadaju IP jezgra koja vrše obradu podataka, odnosno algoritme kao što su filtriranje (FIR i IIR filtri), unitarne transformacije (FFT, DCT, DWT...), kompresiju, enkripciju i zaštitno kodovanje podataka, i druge često korišćene specifične algoritme.
- Procesorske module u ovu grupu spadaju IP jezgra koja takođe vrše obradu
  podataka, i zapravo pripadaju prethodnoj grupi, ali su složeniji i moguće je
  implementirati proizvoljni algoritam pomoću njih, pa se stoga uglavnom
  posmatraju odvojeno. Osnovni tipovi procesorskih modula su skalarni,
  superskalarni, VLIW, vektorski, višejezgarni i konfigurabilni procesori.

#### 4.1.3 Četvorofazni hendšejk protokol

Četvorofazni hendšejk protokol (eng. *Four-Phase Handshake Protocol*) se koristi za sinhronu i asinhronu razmenu informacija između različitih modula. Protokol se sastoji iz pošaljioca i primaoca (eng. *talker* i *listener*) koji komuniciraju putem signala za zahtev i potvrdu (eng. *request* i *acknowledge*).

Redosled operacija se može podeliti na četiri koraka (otuda naziv četvorofazni):

- 1. Ukoliko su signali za zahtev i potvrdu na niskom logičkom nivou, pošaljilac može da uspostavi komunikaciju, odnosno aktivira signal za zahtev.
- 2. Kada primalac primeti da je signal za zahtev na visokom logičkom nivou, aktivira signal za potvrdu.
- 3. Kada pošaljilac primeti da je signal za potvrdu na visokom logičkom nivou, deaktivira signal za zahtev.
- 4. Kada primalac primeti da je signal za zahtev na niskom logičkom nivou, deaktivira signal za potvrdu.



Slika 9 Šematski prikaz protokola četvorofaznog hendšejk protokola

#### 4.2 Realizovana implementacija i diskusija mogućih implementacija

Algoritam za dvodimenzionalnu Furijeovu transformaciju matrica je ekvivalentan izvršavanju algoritma za jednodionu Furijeovu transformaciju prvo nad svim redovima, a potom nad svim kolonama matrice. IP jezgro komunicira sa dva spoljašnja BRAM-a (eng. *Block Random Access Memory*) u koje su smešteni realni i imaginarni deo matrice, kao i sa procesorom pomoću AXI *Lite* interfejsa, koji mu šalje veličinu matrice i zahtev za početak rada. Unutar FFT modula se nalazi unutrašnji dvopristupni BRAM (jedan pristup za čitanje i jedan pristup za pisanje) u koji se skladišti trenutni red ili kolona, nad kojim se vrši jednodimenzionalna Furijeova transformacija. Moduli FFT2, FFT i BUTTERFLY komuniciraju preko četvorofaznog hendšejk protokola. U ovakvoj konfiguraciji, modul FFT2 ima jedinu ulogu kao konektor između BRAM-a i FFT modula, pri čemu mora da vodi računa o trenutnom redu ili koloni nad kojim se vrši obrada. FFT modul u toku izvršavanja više puta poziva BUTTERFLY modul, koji izvšava leptir operaciju nad dva kompleksna broja. Unutar BUTTERFLY modula se nalazi ROM (eng. *Read Only Memory*) iz kojih se čitaju vrednosti rotacionih faktora.



Slika 10 Šematski prikaz implementiranog IP jezgra za algoritam fft2

Postoji nekoliko mogućih razlika u implementaciji koji su razmatrani:

- Korišćenje AXI *Full* interfejsa umesto **BRAM** interfejsa za transport članova realnog i imaginarnog dela kompleksne matrice izabran je BRAM isključivo zbog jednostavnosti implementacije. AXI *Full* interfejs bi mogao da obavlja daleko kompleksniju komunikaciju između komponenti koja za potrebe ovog projekta nisu potrebne.
- Korišćenje unutrašnje memorije za skladištenje međurezultata umesto čuvanja samo jedne vrste ili kolone matrice, bilo je moguće uopšte ne implementirati unutrašnju memoriju, ili skladištiti i realni i imaginarni deo matrice unutar IP jezgra (dve matrice iste veličine). U prvom slučaju, obavljanje komunikacije sa spoljašnjim BRAM-om bi značajno usporilo vreme izvršavanja. U drugom slučaju, zauzimanje dodatne memorije bi veoma uticalo na ukupnu veličinu matrice koja se može obrađivati, jer su resursi na ploči ograničeni. Izabrana je realizacija sistema u kojem se čuva vrednost samo jedne vrste odnosno kolone matrice, kao optimalan odnos između vremena izvršavanja i korišćenja hardverskih resursa.
- Korišćenje dvofaznog umesto **četvorofaznog hendšejk protokola** za *start* i *ready* signale između različitih modula i za pristup memoriji iako je dvofazni hendšejk protokol jednostavniji za realizaciju i neznatno brži, izabran je četvorofazni protokol zbog jasnijeg praćenja rada algoritma i eventualnog otklanjanja grešaka u implementaciji celog algoritma. Dodatno, korišćenje protokola za pristup memoriji povećava sigurnost rada, jer dobijamo povratnu informaciju da se vrednost u memoriju zaista i upisala. U slučaju paralelizacije i korišćenja većeg broja istih modula (na primer više *fft* ili *butterfly* modula), može se jednostavnije realizovati modul za arbitraciju i raspoređivanje (eng. *scheduling*) zahteva za upis vrednosti u memoriju.
- Računanje rotacionih faktora umesto čitanja iz ROM-a računanje rotacionih faktora podrazumeva implementaciju modula za računanje sinusa i kosinusa, ili skladištenje vrednosti sinusa i kosinusa za različite vrednosti ulaznog signala. U oba slučaja bi se vreme izvšavanja celog algoritma značajno povećalo (u prvom pogotovo), dok bi se u drugom slučaju svakako

morale skladištiti vrednosti u memoriju, čime nikakva dobit ne bi bila postignuta.

- Pajplajnovanje leptir operacije pajplajnovanjem izvršavanja date operacije povećavamo broj stanja kroz koja algoritam mora proći (samim tim i ukupan broj taktova), ali smanjujemo trajanje jednog takta, čime se efektivno postiže ubrzanje izvršavanja algoritma. U ovom radu su međusobno zavisne operacije maksimalno pajplajnovane, dok se nezavisne operacije izvršavaju u istom taktu.
- Računanje logaritma veličine niza (matrice) u najjednostavnijoj hardverskoj realizaciji bi se zahtevalo korišćenje memorije velike veličine zarad jednog registra koji se neće menjati tokom izvršavanja algoritma. Izabrano je da se logaritam računa u softveru i da se šalje u IP jezgro putem AXI *Lite* interfejsa.

#### 4.3 Implementacija leptir modula (BUTTERFLY)

Kao što je već opisano, uloga leptir modula je da izvrši leptir operaciju:

$$F[k] = F_p[k] + W_{size}^k F_n[k]$$

Prethodna jednačina je predstavljena u kompleksnom obliku. Raščlanjivanjem na realni i imaginarni deo dobijemo sledeće formule:

$$topRE_o = topRE_i + botRE_i * wCOS[k] - botIM_i * wSIN[k]$$

$$topIM_o = topIM_i + botRE_i * wSIN[k] + botIM_i * wCOS[k]$$

$$botRE_o = topRE_i - botRE_i * wCOS[k] + botIM_i * wSIN[k]$$

$$botIM_o = topRE_i - botRE_i * wSIN[k] - botIM_i * wCOS[k]$$

Pri čemu važi:

$$wCOS[k] = cos(-2\pi \frac{k}{size})$$
$$wSIN[k] = sin(-2\pi \frac{k}{size})$$

Rotacioni faktori wCOS i wSIN su realizovani kao ROM memorija unutar leptir bloka, i potrebno ih je ukupno N/2, pri čemu N predstavlja broj elemenata niza, zbog osobine simetričnosti.

Radi povećavanja maksimalne frekvencije rada algoritma na FPGA ploči, pajplajnovano je izvršavanje leptir operacije, pa se vrednosti sabiranja i množenja izvršavaju u različitim taktovima (prvo množenja, pa suma proizvoda, i potom dodavanje vrednosti  $topRE_i$  i  $topIM_i$ ).

#### 4.3.1 Definisanje interfejsa

#### • <u>Ulazni interfejs</u>

topRE\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja gornji realni ulaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

topIM\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja gornji imaginarni ulaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

botRE\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja donji realni ulaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

botIM\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja gornji realni ulaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

k – tipa STD\_LOGIC\_VECTOR ( $\log 2c(FFT\_SIZE/2)$ -1 downto 0) – označava trenutnu vrednost rotacionog faktora  $W_{2size}^k$ .

size – tipa STD\_LOGIC\_VECTOR ( $\log 2c(\log 2c(\text{FFT\_SIZE/2})-1 \text{ downto } 0)$ ) – predstavlja logaritam veličine niza za koji se trenutno računa Furijeova transformacija. Zajedno sa veličinom k u potpunosti opisuje trenutnu vrednost rotacionog faktora  $W_{2size}^k$ .

#### • Izlazni interfejs

topRE\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja gornji realni izlaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

topIM\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja gornji imaginarni izlaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

botRE\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja donji realni izlaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED\_POINT\_WIDTH.

botIM\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja gornji realni izlaz unutar leptir bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED\_POINT\_WIDTH.

#### • Komandni interfejs

start – tipa STD\_LOGIC – kontroliše početak rada leptir bloka

#### • Statusni interfejs

ready – tipa STD\_LOGIC - ukazuje da li je leptir blok trenutno aktivan

#### 4.3.2 Projektovanje upravljačkog modula

ASM dijagram ima četiri stanja. U prvom (*idle*) stanju se čeka na instrukciju za početak obrade ulaznih signala (*start*), signal *ready* je na visokom logičkom nivou. U drugom (*s2*) stanju se vrši množenje rotacionih faktora sa donjim ulaznim signalima leptir bloka, i spušta se *ready* signal na nisku logičku vrednost. U trećem (*s3*) se stanju vrši sabiranje pomnoženih signala. U četvrtom (*s4*) stanju se sabiraju vredosti gornjih ulaznih signala sa rezultujućim donjim signalima. Konačno, ponovo se ulazi u početno (*idle*) stanje i podiže se *ready* signal na visok logički nivo.



Slika 11 ASM dijagram leptir bloka

#### 4.3.3 Projektovanje modula za obradu podataka

U datom sistemu postoji šest registara – četiri što skladište vrednosti množenja, i dva što skladište vrednosti zbira proizvoda. Množači se aktiviraju u drugom stanju, nakon što se detektuje da je aktivan start signal. Nakon što se izvrši množenje, odnosno u trećem stanju, vrši se sabiranje proizvoda i njegovo memorisanje u registre *botRE* i *botIM*. U petom stanju se vrši sabiranje vrednosti ulaznih signala *topRE\_i* i *topIM\_i* sa registrima *botRE* i *botIM* i prosleđuje na izlaz. Dakle, ovaj modul je realizovan kao Murov automat i zahteva se konstantna vrednost ulaznih signala tokom trajanja izvršavanja datog modula.



Slika 12 Modul za obradu podataka unutar leptir bloka

# 4.4 Implementacija bloka za brzu Furijeovu transformaciju u jednoj dimenziji (FFT)

#### 4.4.1 Interfejs

#### • <u>Ulazni interfejs</u>

data\_i\_addr\_o – tipa STD\_LOGIC\_VECTOR (ld(FFT\_SIZE)-1 downto 0) - predstavlja adresu člana niza dužine *size* koja se trenutno učitava.

dataRE\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja realni ulaz unutar *fft* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

dataIM\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja imaginarni ulaz unutar *fft* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

data\_rd\_o – tipa STD\_LOGIC – označava da li *fft* blok zahteva učitavanje narednog člana niza.

data\_rd\_i – tipa STD\_LOGIC – označava da li su vrednosti dataRE\_i i dataIM i stabilne i spremne da budu učitane u unutrašnju memoriju.

log2s – tipa STD\_LOGIC\_VECTOR (ld(ld(FFT\_SIZE))-1 downto 0), predstavlja celobrojnu vrednost logaritma veličine niza koji se obrađuje.

size – tipa STD\_LOGIC VECTOR (ld(FFT\_SIZE)-1 downto 0), predstavlja veličinu niza koji se obrađuje.

#### • Izlazni interfejs

data\_o\_addr\_o – tipa STD\_LOGIC\_VECTOR (ld(FFT\_SIZE)-1 downto 0) - predstavlja adresu člana niza dužine *size* koja se trenutno učitava.

dataRE\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja realni izlaz iz *fft* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

dataIM\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja imaginarni izlaz iz *fft* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

data\_wr\_o – tipa STD\_LOGIC – označava da li *fft* blok zahteva upis člana niza u spoljašnju memoriju i da li su vrednosti dataRE\_o i dataIM\_o stabilne

data\_wr\_i – tipa STD\_LOGIC – označava da li su vrednosti dataRE\_i i dataIM i učitane u spoljašnju matričnu memoriju.

#### • Komandni interfejs

start – tipa STD\_LOGIC – kontroliše početak rada fft bloka

#### • Statusni interfejs

ready – tipa STD\_LOGIC - ukazuje da li je fft blok trenutno aktivan

#### 4.4.2 Projektovanje upravljačkog modula

Blok za jednodimenzionalnu Furijeovu transformaciju se sastoji iz dvadeset stanja, koji se mogu podeliti na dve celine: deo za permutovanje članova ulaznog niza korišćenjem algoritma za obrtanje redosleda bita (eng. *bit reversal*) i učitavanje niza – prvih šest stanja, kao i deo za rekurzivnu podelu niza na parne i neparne članove i izvršavanje leptir operacija nad članovima – preostalih trinaest stanja (*idle* je dvadeseto stanje).

U **neaktivnom** (*idle*) **stanju** se kontinualno u registre skladište ulazne vrednosti dužine i logaritma dužine niza, dok god je *start* signal na niskom nivou. Kad *start* signal postane aktivan, učitane vrednosti dužine niza ostaju nepromenjene do kraja izvršavanja Furijeove transformacije.

Algoritam za **obrtanje redosleda bita** funkcioniše na sledeći način. Pretpostavimo da je širina adresnog porta 12 bita, a da za trenutni niz koji se obrađuje se koristi 9 bita. U tom slučaju će se poslednjih sedam bita obrnuti, dok će prva tri ostati nepromenjena, odnosno biće na niskoj logičnoj vrednosti (na primer: 0001 1100 1100 →0000 0110 0111). Podaci sa obrnute adrese se učitavaju u memoriju.

```
for (int jj = 0; jj < size; ++jj){
  int reversed = 0;
  int temp = jj;
  for (int kk = 0; kk < log2s-1; ++kk){
    reversed = reversed << 1;
    reversed = reversed | (temp&1);
    temp = temp >> 1;
  }
  dataRE[jj] = dataRE_i[reversed];
  dataIM[jj] = dataIM_i[reversed];
}
```

Listing 2 Algoritam za obrtanje redosleda bita

Upravljački modul algoritma za obrtanje redosleda bita se sastoji iz stanja BS (bit reversal), L1, L2, REV (reverse), WDR1 (wait data read 1) i RD (read). U stanju BS se inicijalizuje promenljiva jj na nulu, i čeka da se spusti start signal na nisku logičku vrednost. U stanju L1 se inicijalizuju promenljive reversed, temp i kk (linije 2, 3 i 4 listinga), u stanju L2 se ažuriraju vrednosti promenljivih reversed i temp (linije 5, 6 i 7 listinga), a u stanju REV se utvrđuje da li je cela adresa, odnosno promenljiva obrnula redosled bita. Ukoliko jeste, nastavlja se sa učitavanjem realnih i imaginarnih članova niza. U stanju WDR1 se šalje zahtev za čitanje iz memorije sve dok se ne dobije potvrdan odgovor da su stigli podaci na ulazne portove. U stanju RD se upisuju vrednosti sa ulaza u unutrašnju memoriju (linije 9 i 10 listinga), i ukoliko su svi podaci upisani nastavlja se sa glavnim delom Furijeove transformacije, inače se vraća na početak (stanje BS) i inkrementuje vrednost registra jj.

Iterativni algoritam za **rekurzivnu podelu niza** na parne i neparne članove i **pozivanje leptir operacije** nad tekućim elementima je prikazan u listingu 2 i izvršava operacije kao na slici 4. Napisan je u iterativnom obliku (dokazano je da svaki rekurzivni algoritam može biti napisan u iterativnom obliku, Čerč-Tjuringova teza) zato što RT metodologija ne omogućava mapiranje rekurzivnih funkcija na hardver.

```
for (int i=0; i < log2size-1; ++i){</pre>
  int m2 = 1 << i;
  for (int j=0; j < m2; ++j){
    for (int k=j; k < size; k+=m2<<1){</pre>
      double topRE = dataRE[k];
      double topIM = dataIM[k];
      double bottomRE = dataRE[k+m2];
      double bottomIM = dataIM[k+m2];
      butterfly(
        topRE,
        topIM,
        bottomRE,
        bottomIM,
        dataRE+k,
        dataIM+k,
        dataRE+k+m2,
        dataIM+k+m2,
        j << (log2size-i-2)</pre>
    }
  }
```

**Listing 3** Iterativni algoritam za rekurzivnu podelu niza i pozivanje leptir operacije

Upravljački modul algoritma za rekurzivnu podelu niza se sastoji iz stanja MAIN, L3, L4, SRA (set read address), L5, WBR0 (wait butterfly ready 0), WBR1 (wait butterfly ready 1), DB1, DB2, DB3, DB4 (do butterfly), WDW0 (wait data write 0) i WDW1 (wait data write 1). U stanju MAIN se inicijalizuje vrednost i registra. U stanju L3 se inicijalizuju vrednosti j i m2 registra. U stanju L4 se inicijalizuje vrednost k registra. U stanju SRA se postavljaju adrese za učitavanje vrednosti iz memorije koji treba da se obrađuju u leptir operaciji, a potom se u stanju L5 učitane vrednosti prosleđuju portovima leptir modula i drži se start signal na visokom logičkom nivou, sve dok leptir modul ne potvrdi da je primio naredbu. U stanju WBR0 se čeka potvrda od leptir bloka da je primio start signal, a u WBR1 se čeka potvrda da je leptir blok završio obradu podataka koji se potom upisuju u unutrašnju memoriju. U stanjima DB1, DB2, DB3 i DB4 se utvrđuje da li su registri i, j ili k došli do maksimalnih dozvoljenih vrednosti unutar petlji. Ukoliko je registar i došao do maksimalne vrednosti, podaci se upisuju u matricu pomoću stanja WDW0 i WDW1.



Slika 13 ASM dijagram fft bloka (prvi deo)



Slika 14 ASM dijagram fft bloka (drugi deo)



Slika 15 ASM dijagram fft bloka (treći deo)



Slika 16 ASM dijagram fft bloka (četvrti deo)

#### 4.4.3 Projektovanje modula za obradu podataka

U fft bloku postoji dvadeset tri registra, ne računajući unutrašnju memoriju u kojoj se skladište sve vrednosti imaginarnog i realnog niza koji se obrađuje. Signali dataRE\_o\_r, dataIM\_o\_r, data\_o\_addr\_r, data\_i\_addr\_r, data\_wr\_i i data\_rd\_o su diretkno povezani sa odgovarajućim izlaznim portovima. Veličine registara direktno zavise od širine ulaznih signala u registre, i veličine mogu biti DATA\_WIDTH, ld(FFT\_SIZE), ili ld(ld(FFT\_SIZE)).



Slika 17 Izgled modula za obradu podataka fft bloka (prvi deo)



Slika 18 Izgled modula za obradu podataka fft bloka (drugi deo)

# 4.5 Implementacija bloka za brzu Furijeovu transformaciju u dve dimenzije (FFT2)

#### 4.5.1 Definisanje interfejsa

# • <u>Ulazni interfejs</u>

Data\_i\_addr\_o – tipa STD\_LOGIC\_VECTOR (ld(FFT\_SIZE)-1 downto 0) - predstavlja adresu člana niza dužine *size* koja se trenutno učitava.

dataRE\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja realni ulaz unutar *fft2* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED\_POINT\_WIDTH.

dataIM\_i – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja imaginarni ulaz unutar *fft2* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED POINT WIDTH.

data\_rd\_o – tipa STD\_LOGIC – označava da li *fft2* blok zahteva učitavanje narednog člana niza.

data\_rd\_i – tipa STD\_LOGIC – označava da li su vrednosti dataRE\_i i dataIM i stabilne i spremne da budu učitane u spoljašnju memoriju matrice.

log2w – tipa STD\_LOGIC\_VECTOR (ld(ld(FFT\_SIZE))-1 downto 0), predstavlja celobrojnu vrednost logaritma širine matrice koja se obrađuje zaokruženu na gore.

log2h – tipa STD\_LOGIC\_VECTOR (ld(ld(FFT\_SIZE))-1 downto 0), predstavlja celobrojnu vrednost logaritma visine matrice koja se obrađuje zaokruženu na gore.

width – tipa STD\_LOGIC VECTOR (ld(FFT\_SIZE)-1 downto 0), predstavlja širinu matrice koji se obrađuje.

height – tipa STD\_LOGIC VECTOR (ld(FFT\_SIZE)-1 downto 0), predstavlja visinu matrice koji se obrađuje.

#### • <u>Izlazni interfejs</u>

data\_o\_addr\_o – tipa STD\_LOGIC\_VECTOR (ld(FFT\_SIZE)-1 downto 0) - predstavlja adresu člana niza dužine *size* koja se trenutno učitava.

dataRE\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja realni izlaz iz *fft2* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED\_POINT\_WIDTH.

dataIM\_o – tipa STD\_LOGIC\_VECTOR (WIDTH-1 downto 0) – predstavlja imaginarni izlaz iz *fft2* bloka. Vrednost je predstavljena sa fiksnom tačkom širine FIXED\_POINT\_WIDTH.

data\_wr\_o – tipa STD\_LOGIC – označava da li *fft2* blok zahteva upis člana niza u spoljašnju memoriju i da li su vrednosti dataRE\_o i dataIM\_o stabilne na izlazu.

data\_wr\_i – tipa STD\_LOGIC – označava da li su vrednosti dataRE\_i i dataIM i učitane u spoljašnju memoriju matrice.

#### • Komandni interfejs

start – tipa STD\_LOGIC – kontroliše početak rada fft2 bloka

#### • <u>Statusni interfejs</u>

ready – tipa STD\_LOGIC - ukazuje da li je fft2 blok trenutno aktivan

#### 4.5.2 Projektovanje upravljačkog modula

Blok za dvodimenzionalnu Furijeovu transformaciju ima ulogu da bude most između memorija u kojima su uskladištene imaginarna i realna matrica, i bloka za jednodimenzionalnu Furijeovu transformaciju. Drugim rečima, *fft2* blok mora da pamti i vodi računa koji se red, odnosno kolona u matricama trenutno obrađuje, kao i da omogući komunikaciju između memorija i *fft* bloka.

Upravljački modul se sastoji iz deset stanja – IDLE, WSO (wait start 0), L1, L2, HS (horizontal start), WHR (wait horizontal ready), HU (horizontal update), VS (vertical start), WVR (wait vertical ready), VU (vertical ready).

U **neaktivnom** (*idle*) **stanju**, slično kao i u slučaju sa jednodimenzionalnom Furijeovom transformacijom, kontinualno se u registre skladište ulazne vrednosti visine i širine matrica, i njihovih logaritama, dok god je *start* signal na niskom logičkom nivou. Kad *start* signal postane aktivan, učitane vrednosti dužine niza ostaju nepromenjene do kraja izvršavanja dvodimenzionalne Furijeove transformacije. U stanju **WS0** se čeka na spuštanje *start* signala, da bi se započelo obrađivanje podataka (u skladu sa četvorofaznim hendšejk protokolom), i podešava se signal registar *i\_r* na nisku logičku vrednost, što označava da se trenutno obrađuju redovi matrica (*i\_r* ukazuje da li se kolone ili redovi obrađuju).

U stanju **L1** se inicijalizuje vrednost *j* registra, koji označava broj reda ili kolone koji se trenutno obrađuje u *fft* bloku. U stanju **L2** se proverava da li je *fft* blok spreman da obrađuje sledeći niz. Ukoliko jeste, podaci o veličini i start signal se šalju u **HS** (**VS**) stanju. U stanju **WHR** (**WVR**) se vrši transformacija adrese sa jednodimenzionalnog niza na matricu, kao i obostrano prosleđivanje podataka. U stanja **HU** i **VU** se ulazi tek nakon što je obrađen čitav niz, i tu se proverava da li su svi nizovi (horizontalni ili veritikalni) obrađeni. Ukoliko jesu, nakon HU stanja se podiže signal *i\_r* na logički visok nivo, kao indikator da treba da se krene sa obradom vertikalnih nizova. Nakon VU stanja se završava za obradom matrice i vraća u *idle* stanje.



Slika 19 ASM dijagram fft2 modula

#### 4.5.3 Projektovanje modula za obradu podataka

Modul za obradu podataka *fft2* bloka se sastoji iz devet registara. Četiri registra skladište ulazne podatke, odnosno širinu i visinu matrica, kao i njihove logaritme. Veličine tih registara su ld(FFT\_SIZE\*FFT\_SIZE) i ld(ld(FFT\_SIZE\* FFT\_SIZE)). Dva registra služe da skladište veličinu niza koji će biti obrađivan u bloku *fft*, kao i njegov logaritam, i veličina tih registara je ld(FFT\_SIZE) i ld(ld(FFT\_SIZE)). Indikator *i\_r* je jednobitni registar, dok je iterator *j\_r* veličine ld(FFT\_SIZE).



Slika 20 Modul za obradu podataka fft2 bloka

# 4.6 Integracija u Zynq platformu

Nakon završetka projektovanja IP jezgra, mogu se povezati sve komponente u jedinstven sistem, prikazano na slici ispod, i pristupiti generisanju binarnog koda na osnovu kojeg će se programirati FPGA. Sistem se sastoji iz *Zynq7* procesora, dva *true dual-port* BRAM-a povezana preko dvopristupnog BRAM interkonekta sa procesorom, i IP jezgra za dvodimenzionalnu Furijeovu transformaciju. IP jezgro je direktno povezano sa memorijom i *Zynq7* procesorom pomoću BRAM i AXI *Lite* interfejsa redom, pri čemu IP jezgro koristi port B od memorija, dok BRAM interkonekt koristi port A. BRAM interkonekt je takođe povezan sa procesorom preko AXI *Lite* interfejsa.



Slika 21 Blok dijagram celokupnog sistema

## 4.7 Potrošnja hardverskih resursa i frekvencija rada

Nakon obavljanja vremenske (eng. timing) analize, dobijamo sledeće rezultate:

| Setup time (Worst Slack):  | 6.143ns |
|----------------------------|---------|
| Hold time (Worst Slack):   | 0.026ns |
| Pulse Width (Worst Slack): | 9.020ns |

Tabela 3 Vremenska analiza

Drugim rečima, kad se saberu prethodne vrednosti vremena, minimalno trajanje jedne periode klok signala iznosi 15.189ns, odnosno maksimalna frekvencija rada ploče iznosi 65.837MHz.

Potrošeni hardverski resursi su prikazani u tabelama 4,5 i 6. Na njima se može primetiti da je najveća iskorišćenost LUT-ova (preko trećine), dok je najmanja iskorišćenost blok memorije (6.67%). Na slici 22 je prikazan prostorni raspored iskorišćenih resursa.

| +                      | + |      | +     | + | +                 |
|------------------------|---|------|-------|---|-------------------|
| Site Type              |   | Used | Fixed |   | Available   Util% |
| +                      | + |      | +     | + | +                 |
| Slice LUTs             |   | 6047 | 0     |   | 17600   34.36     |
| LUT as Logic           |   | 5992 | 0     |   | 17600   34.05     |
| LUT as Memory          |   | 55   | 0     |   | 6000   0.92       |
| LUT as Distributed RAM |   | 0    | 0     |   | 1 1               |
| LUT as Shift Register  |   | 55   | 0     |   | 1 1               |
| Slice Registers        |   | 4683 | 0     |   | 35200   13.30     |
| Register as Flip Flop  |   | 4683 | 0     |   | 35200   13.30     |
| Register as Latch      |   | 0    | 0     |   | 35200   0.00      |
| F7 Muxes               |   | 330  | 0     |   | 8800   3.75       |
| F8 Muxes               |   | 0    | 0     |   | 4400   0.00       |
| +                      | + |      | +     | + | +                 |

Tabela 4 Iskorišćenost logičkih kola

| +        |           |     | + |       | +    |       | +        | +     |
|----------|-----------|-----|---|-------|------|-------|----------|-------|
| Site     | Туре      | Use | d | Fixed | Avai | lable | l        | Jtil% |
| +        |           |     | + |       | +    |       |          | +     |
| Block RA | M Tile    |     | 4 | 0     | I    | 60    |          | 6.67  |
| RAMB36   | /FIFO*    |     | 4 | 0     | 1    | 60    |          | 6.67  |
| RAME     | 36E1 only |     | 4 |       | I    | I     |          | - 1   |
| RAMB18   | 3         | (   | 0 | 0     | I    | 120   |          | 0.00  |
| +        |           |     | + |       | +    |       | <b>.</b> | +     |

Tabela 5 Iskorišćenost blok memorije

| +  |              | + |      |       | +         | ++    |
|----|--------------|---|------|-------|-----------|-------|
| I  | Site Type    | I | Used | Fixed | Available | Util% |
| +  |              | + | +    |       | +         | ++    |
| DS | iPs .        |   | 16   | 0     | 80        | 20.00 |
|    | DSP48E1 only |   | 16   |       | l         | 1 1   |
| +  |              | + |      |       | +         | ++    |

Tabela 6 Iskorišćenost DSP-jeva

40



Slika 22 Prostorna raspodela iskorišćenih resursa

#### Glava 5

# Funkcionalna verifikacija projektovanog IP bloka

#### 5.1 Uvod

Savremena IP jezgra predstavljaju veoma složene uređaje, i sastoje se iz ogromnog broja komponenti, u koje se ubrajaju registri, memorijski blokovi, i kombinaciona logika. Da bi se u potpunosti utvrdio ispravan rad takvih IP jezgara, neophodno je proveriti da li će sva moguća unutrašnja stanja i ulazni podaci uzrokovati generisanje ispravnog rešenja. Usled ograničene moći računara, takve provere su najčešće neisplative. Neophodno je uskladiti proces verifikacije sa finansijskim i vremenskim zahtevima, da bi se dobio proizvod traženog kvaliteta. Kao posledica, većina savremenih digitalnih uređaja poseduje greške koje nije lako pronaći.

Funkcionalna verifikacija je proces koji ima za cilj utvrđivanje da li će dizajn raditi u skladu sa zadatim funkcionalnim specifikacijama, pre nego što zamišljeni uređaj bude fabrikovan. Cena otklanjanja greške je višestruko manja ukoliko je greška otkrivena tokom verifikacije, nego prilikom testiranja proizvedenih uređaja. Proces funkcionalne verifikacije počinje od napisane funkcionalne specifikacije dizajna, i sastoji se iz šest koraka koji se zajedno zovu verifikacioni ciklus:

- 1. **Kreiranje verifikacionog plana** on opisuje šta i na koji način treba da bude verifikovano. Verifikacioni plan se sastoji iz više poglavlja koja detaljno odgovaraju na pitanja kao što su: kakvi će se testovi i metode verifikacije koristiti, koji su softverski i hardverski resursi neophodni, koliko je verifikacionih inžinjera potrebno, kako raspodeliti njihov posao tokom vremena, koje funkcionalnosti treba da budu verifikovane, koji su uslovi završetka verifikacije, i tako dalje.
- 2. Razvoj verifikacionog okruženja predstavlja softverski kod koji emulira neposredno okruženje dizajna, i koje ima mogućnost provere ispravnosti rezultata. Razni alati olakšavaju proveru ispravnosti rada dizajna, sa već implementiranim funkcionalnostima kao što je analiza strukturne pokrivenosti. Verifikaciono okruženje se može razviti tako da omogućava različite metode verifikacije hardvera, u koje se ubrajaju okruženja zasnovana na zlatnim vektorima, referentnim modelima, deterministički, formalni, i drugi.
- 3. **Debagovanje dizajna i verifikacionog okruženja** u toku izvršavanja testova se pronalaze razlike između očekivanih rezultata verifikacionog okruženja i stvarnih rezultata dizajna, sa ciljem da se utvrde i uklone uzroci tih razlika.
- 4. **Izvršavanje regresionih testova** predstavlja ponovno izvršavanje testova nakon ispravljanja otkrivenih grešaka, zbog mogućeg nastanka novih problema.

- 5. **Debagovanje proizvedenog hardvera** nakon fabrikacije hardvera, proces debagovanja je mnogo učinkovitiji zbog razlike u brzini između pravog hardvera i njegovog simulatora. Moguće je pronaći greške u ovom koraku, međutim primarni cilj je otkrivanje greški pre fabrikacije s obzirom na veliku cenu otklanjanja takvih greški.
- 6. **Izvršavanje eskejp analize** (eng. *escape analysis*) ukoliko su uočene greške nakon fabrikacije, neophodno je utvrditi zbog čega nisu detektovane tokom simulacije, sa ciljem da bi se takvi propusti otklonili u budućim projektima.



**Slika 23** Verifikacioni ciklus, preuzeto iz [20]

U ovom projektu nije posebno opisan korak debagovanja dizajna i verifikacionog okruženja zbog male složenosti projekta. Takođe, nisu rađeni koraci debagovanja proizvedenog hardvera i izvršavanja eskejp analize jer proizlaze van projektnih zahteva.

# 5.2 Kreiranje verifikacionog plana

#### 5.2.1 Opis rada dizajna

U ovom projektu je verifikovana funkcionalnost modula za dvodimenzionalnu Furijeovu transformaciju bez enkapsuliranih interfejsa za AXI komunikaciju. Interfejs verifikovanog modula je prikazan u listingu 4. Vrednosti ulaznih parametara *width* i *height* moraju biti stepeni dvojke. Parametri *log2w* i *log2h* su zavisini i predstavljaju logaritme *width* i *height*. Pokretanje uređaja počinje sa četvorofaznim hendšejk protokolom između signala *start* i *ready* (pogledati poglavlje 4.1.3), dok su prethodno pomenuta četiri parametra aktivna i ne menjaju vrednost. Sve vrednosti datih parametara treba da budu umanjene za jedan – na primer, ako je matrica veličine 4x8, treba da budu prosleđene vrednosti 3 i 7, dok prosleđene vrednosti logaritama treba da budu 1 (log<sub>2</sub>4=2) i 2(log<sub>2</sub>8=3).

Pomoću prvih pet signala u listingu 4 (od *data\_i\_addr\_o* do *data\_rd\_i*) se vrši upis vrednosti u unutrašnju memoriju dizajna iz spoljašnje memorije (BRAM-ova), dok se sa preostalih pet signala (od *data\_o\_addr\_o* do *data\_wr\_i*) vrši upisivanje u spoljašnju memoriju.

```
data i addr o : out STD LOGIC VECTOR (log2c(FFT SIZE*FFT SIZE)-1 downto 0);
dataRE_i : in STD_LOGIC_VECTOR (DATA_WIDTH-1 downto 0);
dataIM i : in STD LOGIC VECTOR (DATA WIDTH-1 downto 0);
data_rd_o : out STD_LOGIC;
data rd i : in STD LOGIC;
data o addr o : out STD LOGIC VECTOR (log2c(FFT SIZE*FFT SIZE)-1 downto 0);
dataRE_o : out STD_LOGIC_VECTOR (DATA_WIDTH-1 downto 0);
dataIM_o : out STD_LOGIC_VECTOR (DATA_WIDTH-1 downto 0);
data wr o : out STD LOGIC;
data_wr_i : in STD_LOGIC;
log2w : in STD_LOGIC_VECTOR (log2c(log2c(FFT_SIZE))-1 downto 0);
width : in STD_LOGIC_VECTOR (log2c(FFT_SIZE)-1 downto 0);
log2h : in STD_LOGIC_VECTOR (log2c(log2c(FFT_SIZE))-1 downto 0);
height : in STD_LOGIC_VECTOR (log2c(FFT_SIZE)-1 downto 0);
start : in STD_LOGIC;
ready : out STD LOGIC);
```

DUT (eng. *Design Under Test*) obavlja jednodimenzionalnu Furijeovu transformaciju prvo nad svim vrstama matrice, a potom kolonama. Redosled slanja podataka iz matrice će biti opisan u sledećem primeru matrice veličine 4x4, bez gubljenja opštosti za matrice proizvoljne veličine:

$$\begin{bmatrix} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12 \\ 13 & 14 & 15 & 16 \end{bmatrix}$$

Verifikaciono okruženje mora prvo da pošalje prvi red (1, 2, 3, 4), pa nakon što primi Furijeovu transformaciju datog reda (na primer 21, 22, 23, 24 - pogledati matricu ispod), šalje drugi red (5, 6, 7, 8), i tako dalje do poslednjeg reda (13, 14, 15, 16). Dobija se sledeća matrica koja mora da se obradi po kolonama:

$$\begin{bmatrix} 21 & 22 & 23 & 24 \\ 25 & 26 & 27 & 28 \\ 29 & 30 & 31 & 32 \\ 33 & 34 & 35 & 36 \end{bmatrix}$$

Na isti način, sad se šalju vrednosti (21, 25, 29, 33), pa (22, 26, 30, 34), sve do poslednje kolone. Vrednosti koje se na kraju dobiju od IP jezgra, predstavljaju dvodimenzionalnu Furijeovu transformaciju matrice.

### 5.2.2 Opis nivoa verifikacije

Projektovani fft2 modul je jednostavan i zahteva verifikaciju samo na najvišem nivou hijerarhije. Dodatno, intermedijerni rezultati automatski predstavljaju rezultate modula na nižim nivoima hijerarhije (jednodimenzionalne Furijeove transformacije – modula fft). Stoga, zamišljeno je da se vrši isključivo provera ispravnosti rada modula fft2 sa različitim vrednostima veličine matrica, od 2x2 do 64x64 (širina i visina se mogu razlikovati), pri čemu će vrednosti elemenata matrica imati potpuno proizvoljne vrednosti.

# 5.3 Razvoj verifikacionog okruženja

Verifikaciono okruženje u ovom projektu je zasnovano na UVM (eng. *Universal Verification Methodology*). **UVM** predstavlja standardizovanu verifikacionu metodologiju sa razvijenim softverskim bibliotekama u *SystemVerilog* jeziku. Svako verifikaciono okruženje razvijeno pomoću UVM se sastoji iz nekoliko međusobno povezanih komponenti sa jasno definisanom ulogom. Komponente su međusobno povezane preko TLM komunikacije.

Šematski prikaz realizovanog verifikacionog okruženja je prikazano na slici 24. Sastoji se iz sledećih komponenti: test, okruženje (eng. *environment*), sekvenci, sekvencera, paketa (eng. *sequence item*), monitora, drajvera, agenata, skorborda, referentnog modela i konfiguracije.



Slika 24 Šematski prikaz verifikacionog okruženja

#### 5.3.1 Projektovanje sekvenci, paketa i sekvencera

Sekvence predstavljaju objekte u kojima se nalazi celokupna informacija o logičkim pobudama koje će biti prosleđene testiranom dizajnu (DUT-u). Sekvencer prosleđuje sekvence drajveru i kontroliše prosleđivanje jedne ili više sekvenci ka drajveru. Informacija koja se u jednom trenutku šalje naziva se paket.

Analizom interfejsa modula *fft2*, prikazanom u listingu 4, konstruisana su dva formata paketa, nazvana *init\_transaction* (listing 5) i *dout\_din\_transaction* (listing 6). Paket *init\_transaction* služi da prosleđuje veličinu matrice, start i ready signale, dok *dout\_din\_transaction* služi da prosleđuju vrednosti i adrese podataka.

```
class fft2_dout_din_transaction extends uvm_sequence_item;

// fields
  rand logic [$clog2(FFT_SIZE*FFT_SIZE) - 1 : 0] data_i_addr_o;
  rand logic [$clog2(FFT_SIZE*FFT_SIZE) - 1 : 0] data_o_addr_o;
  rand logic [DATA_WIDTH - 1 : 0] dataRE_i;
  rand logic [DATA_WIDTH - 1 : 0] dataRE_o;
  rand logic [DATA_WIDTH - 1 : 0] dataIM_i;
  rand logic [DATA_WIDTH - 1 : 0] dataIM_o;
  rand logic data_rd_i;
  rand logic data_rd_i;
  rand logic data_wr_i;
```

Listing 5 Format dout\_din paketa

```
class fft2_init_transaction extends uvm_sequence_item;

// fields
  rand logic [$clog2($clog2(FFT_SIZE)) - 1 : 0] log2w;
  rand logic [$clog2(FFT_SIZE) - 1 : 0] width;

rand logic [$clog2($clog2(FFT_SIZE)) - 1 : 0] log2h;
  rand logic [$clog2(FFT_SIZE) - 1 : 0] height;

rand logic start;
```

Listing 6 Format init paketa

Početak testa počinje slanjem proizvoljnih vrednosti širine i visine matrice (width i height), i.njihovih logaritama (log2w i log2h). Potom se šalju potpuno proizvoljne vrednosti podataka iz din sekvencera u dout drajver. Nakon što je fft2 modul horizontalno obradio matricu, povratne vrednosti se skladište u privremeni fajl preko dout monitora. Potom, podatke iz privremenog fajla čita din sekvencer, i započinje vertikalnu obradu matrice.

#### 5.3.2 Projektovanje drajvera

Uloga drajvera je da emulira signale koji će biti poslati uređaju. Direktno je povezan na interfejs od dizajna. Za razliku od sekvencera, koji se bavi slanjem podataka na visokom nivou, drajver treba da dobijene podatke na visokom nivou prosledi dizajnu koristeći postojeći interfejs. To uglavnom podrazumeva softversku emulaciju protokola, odnosno u slučaju *fft2* modula implementiran je četvorofazni hendšejk protokol. *Din* drajver emulira čitanje iz memorije (BRAM-ova), *dout* drajver emulira pisanje u memoriju, a *init* drajver emulira slanje veličine matrice i signala za početak obrade (*start*).

#### 5.3.3 Projektovanje monitora i skupljanje pokrivenosti

Monitor je pasivna komponenta, uloga mu je da osluškuje i nadgleda signale. Skupljene informacije o signalima prosleđuje ostalim komponentama. Dodatno,

moguće je implementirati da se u njima vrši skupljanje pokrivenosti i provera vrednosti. U ovom projektu se u monitorima vrši skupljanje pokrivenosti.

*Din* monitor skuplja ulazne podatke dizajna. Referentnom modelu prosleđuje ulazne podatke za horizontalnu Furijeovu transformaciju, dok skorbordu prosleđuje signal data\_i\_addr\_o.

*Dout* monitor skuplja izlazne podatke dizajna. Skorbordu prosleđuje sve pristigle informacije. Rezultate horizontalne Furijeove transformacije upisuje u privremeni fajl koji će kasnije biti ponovo prosleđeni dizajnu preko *din* sekvenci.

*Init* monitor skuplja podatke o visini, širini i njihovim logaritmima, i prosleđuje ih referentnom modelu.

U *din* i *dout* monitorima se skuplja pokrivenost ulaznih i izlaznih dataRE i dataIM signala (listinzi 7 i 8), sa ciljem da se utvrdi nad kolikim rasponom vrednosti je dizajn testiran. Nije se proveravala pokrivenost adresa (signali *data\_i\_addr\_o* i *data\_o\_addr\_o*), iz razloga što su ti podaci zavisni. Vrednosti adresa treba da pristižu okruženju po tačno određenom algoritmu (poglavlje 2.5 – *bit reversal*), čija se ispravnost proverava u skorbordu.

U *init* monitoru se proverava pokrivenost logaritma širine i visine matrice (matrice mogu biti isključivo veličine 2<sup>n</sup>). Pošto nije planirano pokretanje IP jezgra nad matricama većim od 32x32, izabrano je da se meri pokrivenost za veličine matrica od 2x2 (n=1) do 32x32 (n=5). Dodatno, proverava kao i njihov *cross coverage*, pošto matrice ne moraju biti kvadratne, već proizvoljne veličine u datom opsegu (listing 9).

```
covergroup cg_fft2_din;
  option.per_instance = 1;

  cp_dataRE_i : coverpoint tr_collected.dataRE_i;
  cp_dataIM_i : coverpoint tr_collected.dataIM_i;
endgroup : cg fft2 din;
```

Listing 7 Pokrivenost ulaznih signala

```
covergroup cg_fft2_dout;
   option.per_instance = 1;

   cp_dataRE_o : coverpoint tr_collected.dataRE_o;
   cp_dataIM_o : coverpoint tr_collected.dataIM_o;
endgroup : cg fft2 dout;
```

**Listing 8** Pokrivenost izlaznih signala

```
covergroup cg_fft2_init;
  option.per_instance = 1;

  cp_log2w : coverpoint tr_collected.log2w {
      bins range[5] = {[1:5]};
  }
  cp_log2h : coverpoint tr_collected.log2h{
      bins range[5] = {[1:5]};
  }
  cx_log : cross cp_log2h, cp_log2w;

endgroup : cg fft2 init;
```

Listing 9 Pokrivenost veličine matrice

#### 5.3.4 Projektovanje agenta i konfiguracije

Agent je klasa koja enkapsulira drajver, monitor i sekvencer. Omogućava apstraktniji prisitup i olakšava ponovno korišćenje datih komponenti.

Konfiguracioni objekat sadrži sve podatke neophodne da bi se konfigurisao testbenč. Pomoću konfiguracije je odrediti broj korišćenih agenata, koji će agenti biti pasivni (instancira se samo monitor) ili aktivni (sve tri komponente se instanciraju), da li će biti *master* ili *slave* uređaji, i tako dalje.

U ovom projektu su realizovani aktivni agenti *din*, *dout*, i *init* (kao što je objašnjeno u poglavlju 5.3.2). Od podešavanja moguće je konfigurisati da li će se skupljati pokrivenost.

#### 5.3.5 Projektovanje referentnog modela

Referentni model predstavlja model verifikovanog sistema (DUT-a) koji je napisan na visokom nivou apstrakcije. Treba da obavlja istu funkcionalnost kao i verifikovani sistem. Pošto je referentni model napisan na visokom nivou apstrakcije, manja je šansa da nastane greška u kodu. Referentni model se koristi kao referenca (po tome je dobio i naziv) koja služi za poređenje odziva dobijenih iz DUT-a. Ukoliko postoji razlika u odzivu između DUT-a i referentnog modela, to znači da u nekom modelu postoji greška.

U ovom projektu je realizovan referentni model na nivou transakcija. Algoritam opisan u poglavlju 2, realizovan u poglavlju 3 u programskim jezicima C++ i SystemC, je reimplementiran u jeziku SystemVerilog. Sastoji se iz tri bitne celine: butterfly, fft i run.

• Funkcija butterfly vrši operacije kompleksnog sabiranja, oduzimanja i množenja po sledećem algoritmu (pogledati poglavlje 2.5), gde top i bot predstavljaju promenljive kompleksne matrice, a  $W_N^k$  rotacioni faktor.

$$top\_next = top + W_N^k bot$$
  
 $bot\_next = top - W_N^k bot$ 

- Funkcija *fft* obavlja jednodimenzionalnu Furijeovu transformaciju. Drugim rečima, ona vrši iteraciju kroz jednu kolonu ili vrstu kompleksne matrice, i odabira elemente po šablonu prikazanom na slici 4 u drugom poglavlju.
- Funkcija *run* obavlja dvodimenzionalnu Furijeovu transformaciju. To podrazumeva iterativno pozivanje jednodimenzionalne Furijeove transformacije prvo nad svim vrstama pa svim kolonama matrice.

#### 5.3.6 Projektovanje skorborda

Skorbord vrši proveru vrednosti dobijenih iz monitora i referentnog modela.

Implementirano je da se upoređuju vrednosti četiri signala – dataRE\_o i dataIM\_o (izlazni podaci iz DUT-a), kao i data\_i\_addr\_o i data\_o\_addr\_o (adrese sa kojih se učitavaju, odnosno na kojim se upisuju podaci u spoljašnjem BRAM-u). Signali dataRE\_o, dataIM\_o i data\_o\_addr\_o se prosleđuju iz *dout* monitora, dok se signal data\_i\_addr\_o prosleđuje iz *din* monitora. Iz tog razloga referentni model poseduje dva porta za TLM komunikaciju (listing 10).

**Listing 10** Skorbord

#### 5.3.7 Projektovanje okruženja

Klasa *environment* instancira i enkapsulira sve prethodno opisane komponente, za razliku od agenta koji samo enkapsulira drjver, monitor i sekvencer. Uloga okruženja i agenta je isključivo organizaciona. Slika okruženja je prikazana na slici 19.

#### 5.4 Izvršavanje regresionih testova i skupljanje pokrivenosti

U jednom testu je moguće dobiti samo jednu vrednost za visinu i širinu i to je usko grlo za pokrivenost. Stoga, prilikom obavljanja testova najviše je potrebno voditi računa o pokrivenosti visine i širine. Eksperimentalno je potvrđeno da je 100 testova dovoljno da se dobije stopostotna pokrivenost za sve upite. U listingu 11 je prikazan kod za pokretanje regresionih testova, dok je na slici 25 prikazana funkcionalna pokrivenost nakon obavljenih testova.

```
# regression
for {set i 0} {$i < $num seeds} {incr i 1} {
   vsim -c fft2 test top -novopt -coverage \
       +UVM VERBOSITY=UVM LOW \
        +UVM TESTNAME=fft2 test simple \
        -sv seed random
    # coverage save -assert -directive -cvg \
       -codeAll fft2-coverage-$i.ucdb
    # coverage save -assert -directive -cvg \
        -codeAll -onexit fft2-coverage-$i.ucdb
   onbreak {resume}
   run -all
   onbreak {resume}
   coverage save -assert -directive -cvg \
       -codeAll fft2-coverage-$i.ucdb
}
```

Listing 11 Regresija



Slika 25 Funkcionalna pokrivenost

#### Glava 6

# Drajver za platformski uređaj

#### 6.1 Uvod

**Linuks** (eng. *Linux*) je jedan od najpoznatijih i najviše korišćenih računarskih operativnih sistema današnjice. Veliku popularnost su mu donele činjenice da je besplatan, nije u posedstvu nijedne kompanije, razvijen je u skladu sa principima slobodnog softvera (eng. *Open Source*), što znači da svako ko poseduje kod može da ga menja i distribuira, i konstantno je održavan i unapređivan od strane velikog broja programera širom sveta.

**Drajveri** (eng. *Driver*) imaju specijalnu ulogu u Linuksovom jezgru (kernelu). Oni predstavljaju softverski sloj koji leži između aplikacije i hardvera. Potpuno kriju detalje funkcionisanja hardvera, i enkapsuliraju ga sa dobro definisanim interfejsom. Drugim rečima, drajveri predstavljaju spregu između hardvera i softvera (aplikacije), i olakšavaju komunikaciju između njih. S obzirom da postoji veliki broj različitih vrsta hardverskih uređaja, broj drajvera je takođe veoma veliki. Tempo pojavljivanja novih hardverskih uređaja i zastarevanja postojećih garantuje nepresušnu potrebu za drajverima. Osobina modularnosti omogućava da Linuksovo jezgro na datom računarskom ili embeded sistemu poseduje isključivo drajvere koji su mu potrebni.

Danas, povezivanje hardverskih komponenti sa procesorom se uglavnom vrši pomoću magistrala koje imaju mogućnost automatskog detektovanja periferijskih uređaja (na primer grafičkih i mrežnih karti). Kernel, prilikom podizanja sistema, komunicira sa uređajima na magistrali, uzima sve neophodne informacije i enumeriše ih. Sa druge strane, postoji veliki broj uređaja koji nisu povezani sa procesorom pomoću magistrala, pa ih procesor ne može automatski otkriti. Takvi uređaji se nazivaju **platformski uređaji**. Platformski drajveri, dakle, predstavljaju drajvere napisane za platformske uređaje.

Ukoliko u sistemu postoje platformski uređaji, neophodno je kernelu dati sve neophodne informacije o njima, što se može postići na više načina, međutim u ovom projektu je korišćena metoda sa stablom uređaja. **Stablo uređaja** (eng. *Device Tree*) predstavlja strukturu podataka u kojoj se nalaze sve neohpodne informacije o hardverskim resursima i koja se prosleđuje kernelu prilikom podizanja sistema. Razdvajanjem informacija o uređajima od kernela, izbegnuti su problemi kao što su zahtevi sa ponovnim kompajliranjem kernela prilikom nastanka bilo kakvih hardverskih promena i opisivanje uređaja unutar koda kernela.

U ovom projektu je korišćeno razvojno okruženje Petalinuks 2019.2 (eng. *PetaLinux*) za podizanje Linuks operativnog sistema na *Zybo* razvojnoj ploči. Razvijen je drajver za sistem (platformski uređaj) prikazan na slici 17. Pomoću Petalinuksa se generišu četiri osnovne komponente neophodne za ispravan rad Linuksa: Linuks kernel, stablo uređaja, fajl sistem i butlouder (eng. *Bootloader* – zadužen je da kopira stablo uređaja na poznatu adresu u RAM-u). Date komponente je na kraju potrebno prebaciti na memorijsku karticu u *Zybo* ploči.

## 6.2 Razvoj platformskog drajvera

Hardverski sistem koji obavlja dvodimenzionalnu Furijeovu transformaciju je implementiran u poglavlju 3. Da bi aplikacija mogla da koristi dati sistem, realizovan je modul koji ima pristup realnoj i imaginarnoj blok memoriji, i samom IP jezgru. Celokupan drajverski modul se sastoji iz sledećih osam funkcija i strukture *platform\_driver*.

#### **6.2.1** Struktura *platform\_driver*

Struktura *platform\_driver* (prikazana u listingu 12) ima ulogu u inicijalizaciji hardverskog sistema. Sastoji se iz podstrukture "driver", i pokazivača na funkcije *fft2\_probe* i *fft2\_remove*, koje će biti kasnije objašnjene. Struktura *driver* se deli na sledeća polja:

- *name* predstavlja ime drajvera, u ovom projektu makro *DRIVER\_NAME* ima vrednost *FFT2*.
- *owner* predstavlja vlasnika drajvera. Najčešće, kao i u ovom projektu, ima vrednost predefinisanog makroa *THIS\_MODULE*.
- *of\_match\_table* koja pokazuje na strukturu tipa *of\_device\_id* (prikazanu takođe u listingu 13).

Struktura of\_device\_id je niz koji se sastoji iz compatible polja, i njena uloga je da imenuje sve hardverske resurse koje koristi drajver. Imena upisana u strukturu of\_device\_id, treba da se nalaze i u stablu uređaja, na osnovu kojih kernel ima mogućnost da utvrdi fizičke adrese korišćenih resursa i poveže ih sa drajverom. Kao što se može videti, navedena su imena compatible polja od realizovanog IP jezgra za Furijeovu transformaciju (xlnx,fft2), realne i imaginarne blok memorije (xlnx,bram\_re i xlnx,bram\_im).

```
static struct of device id device of match[] = {
  { .compatible = "xlnx,fft2", },
  { .compatible = "xlnx,bram re", },
  { .compatible = "xlnx, bram im", },
  { /* end of list */ }
};
MODULE DEVICE TABLE (of, device of match);
static struct platform driver my driver = {
  .driver = {
    .name = DRIVER NAME,
    .owner = THIS MODULE,
    .of match table = device of match,
  },
  .probe = fft2 probe,
  .remove = fft2 remove,
};
```

**Listing 12** Strukture *platform\_driver* i *of\_device\_id* 

# 6.2.2 Funkcije fft2\_init i fft2\_exit

Funkcija *fft2\_init* se poziva prilikom povezivanja modula sa kernelom pomoću *insmod* komande, dok se *fft2\_exit* funkcija poziva isključivanjem modula iz kernela pomoću "rmmod" komande. Drugim rečima, to su prva i poslednja funkcija koje će biti pozvane tokom života modula u kernelu.

Uloge *fft2\_init* funkcije su sledeće:

- Dinamički da alocira prve slobodne upravljačke brojeve pomoću funkcije *alloc\_chrdev\_region*.
- Da napravi *inode* fajl (eng. *Index Node File*) u /dev direktorijumu za svaki hardverski resurs (kojih u ovom slučaju ima tri, odnosno koliko ima i *compatible* polja dva za blok memorije i jedan za IP jezgro) pomoću naredbe device\_create. Ukoliko je pronađena odgovarajuća *compatible* vrednost u stablu uređaja, nakon *fft2\_init* funkcije će biti pozvana *fft2\_probe* funkcija.
- Da poveže kreirane *inode* fajlove sa funkcionalnostima koje treba da se izvrše prilikom pozivanja neke od funkcija za rad sa fajlovima. To se postiže pomoću c\_dev strukture.
- Ukoliko neka od naredbi ne bude uspešna, sve već izvšene naredbe treba da se ponište.

Uloga *fft2\_exit* funkcije je suprotna od *fft2\_init* funkcije. Njena uloga je da oslobodi upravljačke brojeve i da obriše kreirane *inode* fajlove.

#### 6.2.3 Funkcije fft2\_probe i fft2\_remove

Funkcija *fft2\_probe* služi da se izvrši inicijalizacija i alociranje korišćenih hardverskih resursa. Suprotno tome, funkcija *fft2\_remove* služi da se zaustavi rad i oslobode korišćeni hardverski resursi.

Prilikom poziva funkcije fft2\_probe, obavljaju se redom sledeće naredbe:

- Pribavljaju se podaci o adresnom prostoru uređaja.
- Rezerviše se dati opseg adresa.
- Mapiraju se fizičke adrese na virtuelne.
- Ukoliko je neka naredba bila neuspešna, sve prethodne naredbe se poništavaju.

Pošto se funkcija *fft2\_probe* poziva onoliko puta koliko ima hardverskih resursa, definisana je statička promenljiva *device\_fsm* koja predstavlja konačan automat, odnosno vodi računa o aktuelnom hardverskom resursu treba koji se inicijalizuje.

#### 6.2.4 Funkcije fft2\_open i fft2\_close

Iako postoji mogućnost da date funkcije obavljaju određenu funkcionalnost, u ovom projektu su korišćene isključivo radi debagovanje napisanog koda.

# 6.2.5 Funkcije fft2\_write i fft2\_read

Drajver omogućava da se upisuju dve matrice u memoriju (nazovimo ih A i B), i da se sa jednom komandom izvrše Furijeove transformacije nad obe matrice. Jedna matrica se upisuje na pozicije od 0 do 1023, dok se druga matrica upisuje na pozicije od 1024 do 2047. Upisivanje vrednosti matrica se vrši u oba *inode* fajla za blok memorije, pomoću komandi formata "pozicija, vrednost". Pozivom komande formata " $w_a$ ,  $h_a$ ,  $w_b$ ,  $h_b$ ", gde su  $w_a$  i  $w_b$  širine matrica, a  $h_a$  i  $h_b$  visine matrica, nad *inode* fajlom za IP jezgro izvršava se sledeće:

- 1. Vrši se Furijeova transformacija nad matricom A.
- 2. Zamenjuju se mesta matrice A i B (IP jezgro koje obavlja Furijeovu transformaciju uvek počinje obradu od pozicije 0).
- 3. Vrši se Furijeova transformacija nad matricom B.
- 4. Ponovo se zamenjuju mesta matrice A i B.

Ukoliko se unese komanda formata "wa, ha, 0, 0", izvršiće se Furijeova transformacija samo jedne matrice, i neće doći do zamene mesta u memoriji.

Čitanje se vrši preko funkcije  $fft2\_read$ , i ispisivaće redom sve vrednosti matrica koje se nalaze u memoriji, u skladu sa zadatim veličinama  $w_a$ ,  $h_a$ ,  $w_b$ ,  $h_b$ .

# 6.3 Razvoj aplikacije

Kao što je već napomenuto, krajnji cilj ovog rada je da se implementira konvolucija matrica korišćenjem brzih Furijeovih transformacija. Aplikacija izvršava sledeće korake:

- 1. Određuje veličinu rezultujuće matrice C po algoritmu *setBitNumber* (najmanji stepen dvojke koji je veći od zbira dva data broja), i proširuje matrice A i B do date veličine sa nulama.
- 2. Upisuje matrice A i B.
- 3. Šalje komandu za početak obrade " $w_a$ ,  $h_a$ ,  $w_b$ ,  $h_b$ ".
- 4. Iščitava ih, vrši kompleksno množenje obrađenih matrica i računa konjugaciju njihovog proizvoda.
- 5. Upisuje konjugovanu matricu.
- 6. Šalje komandu za početak obrade matrice C "w<sub>c</sub>, h<sub>c</sub>, 0, 0".
- 7. Iščitava konjugovanu matricu i deli sve vrednosti sa  $(w_c \cdot h_c)$

Prilikom slanja i i čitanja vrednosti iz drajvera, neophodna je konverzija realnih vrednosti matrica (double) i 32-bitnih podataka sa fiksnom tačkom. U programibilnoj logici je prvih 16 bita rezervisano za ceo deo, dok je drugih 16 bita rezervisano za decimalne vrednosti. Funkcije koje vrše konverziju se zovu int2double i double2int32. Dodatno, vrednosti  $w_a$ ,  $w_b$ , i  $w_c$ , kao i  $h_a$ ,  $h_b$ , i  $h_c$  su jednake nakon proširenja matrica (korak 1). Pošto je maksimalna veličina matrice koja se može obraditi u drajveru veličine 32x32, ulazne matrice A i B ne smeju biti veće od 16x16.

# Glava 7

# Zaključak

U ovom radu je izvršena akceleracija algoritma dvodimenzionalne konvolucije matrica. Softverski i hardverski deo su paticionisani preko ESL metodologije u programskom jeziku *SystemC*. Hardverski blok je uspešno realizovan u VHDL-u, korišćenjem RTL metodologije. Komunikacija sa memorijom je izvršena preko BRAM interfejsa. Ispravna funkcionalnost datog hardverskog modula je verifikovana preko UVM metodologije u *SystemVerilog* jeziku. Linuks drajver je implementiran i testiran na *Zynq* sistemu. Korisnička aplikacija komunicira sa hardverskim modulom preko prethodno pomenutog drajvera, i izvršava softverski deo celokupnog algoritma.

Dalji rad na ovom projektu bi mogao ići u pravcu implementacije hardverskog modula zasnovanog na brojevima sa pokretnom tačkom umesto na brojevima sa fiksnom tačkom, čime se može postići ispravan rad datog modula za veći raspon vrednosti. U tom slučaju je neophodno izmeniti samo blok koji izvršava leptir operaciju. Takođe, moguće je ukloniti četvorofazni hendšejk protokol, čime se broj stanja kroz koja algoritam mora da prođe smanjuje (automatski se smanjuje i vreme izvršavanja). Umesto BRAM interfejsa moguće je koristiti AXI *Stream* ili AXI *Full* interfejs, čime se može smanjiti vreme komunikacije između softverskog, hardverskog i memorijskog podsistema. Dodatna mogućnost za ubrzanje izvršavanja konvolucije predstavlja paralelizacija celokupnog algoritma, i softverskog i hardverskog dela, što u ovom projektu nije razmatrano.

# Literatura

- [1] Jeremy Fix, "Efficient convolution using the Fast Fourier Transform, Application in C++", 2001
- [2] Steven W. Smith, "The Scientist and Engineer's Guide to Digital Signal Processing", 2001
- [3] Pong P. Chu, "RTL Hardware Design Using VHDL", Wiley-Interscience, 2006
- [4] Peter J. Ashended, "The Designer's Guide to VHDL", Morgan Kaufmann, 1996
- [5] Giovanni De Micheli, "Synthesis and Optimization of Digital Circuits", *McGraw Hill, 1994*
- [6] Grant Martin, Brian Bailey, Andrew Piziali, "ESL Design and Verification: A Prescription for Electronic System Level Methodology (Systems on Silicon)" Morgan Kaufmann, 2007
- [7] Brian Bailey, Grant Martin, "ESL Models and their Application: Electronic System Level Design and Verification in Practice" Springer, 2009
- [8] Daniel Gajski, Samar Abdi, Andreas Gerstlauer, Gunar Schirner, "Embedded System Design: Modeling, Synthesis and Verification" Springer, 2009
- [9] Andreas Meyer, "Principles of Functional Verification", *Newnes*. 2003
- [10] Andrew Piziali, "Functional Verification Coverage Measurement and Analysis", *Springer*, 2004
- [11] Chris Spear, Greg Tumbush, "SystemVerilog for Verification" Springer, 2012
- [12] Jonathan Corbet, Alessandro Rubini, Greg Kroah-Hartman, "Linux Device Drivers, Third Edition" O'Reilly, 2005
- [13] <a href="https://www.geeksforgeeks.org/converting-a-real-number-between-0-and-1-to-binary-string/">https://www.geeksforgeeks.org/converting-a-real-number-between-0-and-1-to-binary-string/</a>, pogledano dana 13.9.2019.
- [14] <a href="https://www.geeksforgeeks.org/iterative-fast-fourier-transformation-polynomial-multiplication">https://www.geeksforgeeks.org/iterative-fast-fourier-transformation-polynomial-multiplication</a>, pogledano dana 19.9.2019.
- [15] <a href="http://alwayslearn.com/DFT%20and%20FFT%20Tutorial/DFTandFFT\_FFT\_TwiddleF">http://alwayslearn.com/DFT%20and%20FFT%20Tutorial/DFTandFFT\_FFT\_TwiddleF</a> actor.html, pogledano dana 19.9.2019.
- [16] <a href="https://www.elektronika.ftn.uns.ac.rs/mikroracunarski-sistemi-za-rad-u-realnom-vremenu/wp-content/uploads/sites/99/2018/03/Skripta1.pdf">https://www.elektronika.ftn.uns.ac.rs/mikroracunarski-sistemi-za-rad-u-realnom-vremenu/wp-content/uploads/sites/99/2018/03/Skripta1.pdf</a> pogledano dana 22.10.2019.
- [17] <a href="https://community.arm.com/developer/tools-software/oss-platforms/w/docs/268/device-tree">https://community.arm.com/developer/tools-software/oss-platforms/w/docs/268/device-tree</a> pogledano dana 22.10.2019.

- [18] <a href="https://mc.ai/convolutional-neural-net-in-tensorflow/">https://mc.ai/convolutional-neural-net-in-tensorflow/</a>, pogledano dana 10.7.2020.
- [19] <a href="https://www.comm.utoronto.ca/~dkundur/course\_info/real-time-DSP/notes/7\_Kundur\_FFT.pdf">https://www.comm.utoronto.ca/~dkundur/course\_info/real-time-DSP/notes/7\_Kundur\_FFT.pdf</a>, pogledano dana 13. 7. 2020.
- [20] <a href="https://www.researchgate.net/figure/verification-cycle\_fig35\_303994627">https://www.researchgate.net/figure/verification-cycle\_fig35\_303994627</a>, pogledano dana 17.7.2020.