# Hardverska implementacija Viola-Jones algoritma

Kandidat Risto Pejašinović EE19/2015

# Sadržaj

| Ι  | Vi             | ola-Jones algoritam                                            | 4         |
|----|----------------|----------------------------------------------------------------|-----------|
| 1  | Uvo            | $\mathbf{d}$                                                   | 4         |
|    | 1.1            | Integralna slika                                               | 4         |
|    | 1.2            | AdaBoost i HAAR obeležja                                       | 6         |
|    |                | 1.2.1 HAAR obeležja                                            | 6         |
|    |                | 1.2.2 AdaBoost                                                 | 7         |
|    | 1.3            | Kaskadni klasifikator                                          | 8         |
|    | 1.4            | Invarijantnost veličine                                        | 10        |
|    | 1.5            | Invarijantnost osvetljaja                                      | 11        |
|    | 1.6            | Varijantnost rotacije                                          | 11        |
| 2  | Ope            | nCV modeli                                                     | 12        |
|    | 2.1            | OpenCV model za frontalna lica                                 | 12        |
|    |                |                                                                |           |
| II | D              | rojokat                                                        | 13        |
| 11 | Г.             | rojekat                                                        | тэ        |
| 3  | Saže           | etak                                                           | 13        |
| 4  | Spec           | cifikacije za izršavanje                                       | 14        |
| _  | Брс            | cinkacije za izrsavanje                                        | 1-1       |
| 5  | $\mathbf{Arh}$ | itektura hardvera                                              | <b>15</b> |
|    | 5.1            | Uvod                                                           | 15        |
|    | 5.2            | Interfejsi IP jezgra                                           | 15        |
|    | 5.3            | Modul IMG RAM                                                  | 16        |
|    | 5.4            | Modul rd_addrgen                                               | 16        |
|    |                | 5.4.1 Scale_counter                                            | 17        |
|    |                | 5.4.2 Boundaries                                               | 17        |
|    |                | 5.4.3 Scale_ratio                                              | 17<br>17  |
|    |                | 11                                                             | 19        |
|    |                | 5.4.5 Sweeper                                                  | 20        |
|    |                | 5.4.7 Modul addr_trans                                         | 20        |
|    | 5.5            | Modul ii_gen i sii_gen                                         | 21        |
|    | 0.0            | 5.5.1 Odabir algoritma                                         | 21        |
|    |                | 5.5.2 Sekvencijalna implementacija generatora integralne slike | 21        |
|    |                | 5.5.3 Generator kvadratne integralne slike                     | 22        |
|    | 5.6            | Modul frame_buffer                                             | 23        |
|    | 5.7            | Modul stddev                                                   | 24        |
|    | 5.8            | Modul features_mem                                             | 25        |
|    | 5.9            | Modul classifier                                               | 28        |
|    | 5.10           | Interfejsi                                                     | 30        |

| 6 | PyC | PyGears metodologija                            |    |  |  |  |  |  |  |
|---|-----|-------------------------------------------------|----|--|--|--|--|--|--|
|   | 6.1 | Uvod                                            | 31 |  |  |  |  |  |  |
|   | 6.2 | Poređenje sa RTL metodologijom                  | 31 |  |  |  |  |  |  |
|   | 6.3 |                                                 | 31 |  |  |  |  |  |  |
|   | 6.4 | Gears metodologija                              | 32 |  |  |  |  |  |  |
|   |     | 6.4.1 DTI interfejs                             | 32 |  |  |  |  |  |  |
|   | 6.5 | Tipovi podataka                                 | 33 |  |  |  |  |  |  |
|   |     | 6.5.1 Uint                                      | 34 |  |  |  |  |  |  |
|   |     | 6.5.2 Int                                       | 34 |  |  |  |  |  |  |
|   |     | 6.5.3 Tuple                                     | 34 |  |  |  |  |  |  |
|   |     | 6.5.4 Array                                     | 34 |  |  |  |  |  |  |
|   |     | 6.5.5 Queue                                     | 34 |  |  |  |  |  |  |
|   |     | 6.5.6 Union                                     | 36 |  |  |  |  |  |  |
|   |     | 6.5.7 Unit                                      | 36 |  |  |  |  |  |  |
|   | 6.6 | Čistoća Gear-ova                                | 37 |  |  |  |  |  |  |
|   | 6.7 | Definicija Gear komponenti                      | 37 |  |  |  |  |  |  |
|   |     | 6.7.1 Gear implementiran pomoću SystemVerilog-a | 37 |  |  |  |  |  |  |
|   |     | 6.7.2 Gear implementiram kompozicijom           | 38 |  |  |  |  |  |  |
|   |     |                                                 | 38 |  |  |  |  |  |  |
|   | 6.8 | Python kao jezik za verifikaciju                | 38 |  |  |  |  |  |  |

# Deo I

# Viola-Jones algoritam

# 1 Uvod

Viola-Jones algoritam za detekciju i lokalizaciju objekata na slici osmišljen od strane Paul Viola i Michael Jones 2001. godine [1].

Dugo godina je zbog brze i pouzdane detekcije bio standardan način detekcije lica na slici. Danas je prisutan u velikom broju mobilnih telefona i digitalnih kamera, ali danas postaje polako zamenjen konvolucionim neuronskim mrežama.

Pouzdanost i brzina su postignuti uvođenjem tri ključna doprinosa:

- Integralna slika omogućava brzo izračunavanje obeležja.
- AdaBoost algoritam za učenje, odabiranjem obeležja povećava brzinu i pouzdanost detekcije.
- Kaskadni klasifikator organizovanjem obeležja u kaskadama omogućava brzo odbacivanje pozadine slike.

# 1.1 Integralna slika

Kao jedan od ključnih delova algoritma, integralna slika omogućava izračunavanje zbira piksela svakog pravouganog obeležja u konstantnom vremenu.

Vrednost piksela u integralnoj slici na poziciji x,y je zbir svih piksela koji se nalaze gore i levo od pozicije x,y.

$$ii(x,y) = \sum_{x' \le x, y' \le y} i(x', y')$$
 (1.1)

Gde je ii(x,y) integralna slika, a i(x,y) originalna slika.

| Ulazna slika |   |   |  |  |  |
|--------------|---|---|--|--|--|
| 1            | 1 | 1 |  |  |  |
| 1            | 1 | 1 |  |  |  |
| 1            | 1 | 1 |  |  |  |

1 2 3 2 4 6 3 6 9

Integralna slika

Slika 1.1: Primer integralne slike

Piksele integralne slike je moguće računati u paraleli, ili sekvencijalno. Izbor algoritma za računanje integralne slike značajno utiče na performanse i potrebne hardverske resurse konačne implementacije.

U paralelnoj implementaciji cena je više pristupa memoriji i više potrebnih sabirača, dok je kod sekvencijalne implementacije manja brzina proračunavanja.

Osobina koja integralnu sliku čini pogodnu za korišćenje u Viola-Jones algoritmu je da je za računanje bilo koje pravougaone površine unutar integralne slike potrebno 2 oduzimanja i 1 sabiranje.

| Originalna |                    |   |   |   | Integralna |              |    |    |    |             |
|------------|--------------------|---|---|---|------------|--------------|----|----|----|-------------|
| 5          | 2                  | 3 | 4 | 1 |            | 5            | 7  | 10 | 14 | 15          |
| 1          | 5                  | 4 | 2 | 3 |            | 6            | 13 | 20 | 26 | 30          |
| 2          | 2                  | 1 | 3 | 4 |            | 8            | 17 | 25 | 34 | 42          |
| 3          | 5                  | 6 | 4 | 5 |            | 11           | 25 | 39 | 52 | 65          |
| 4          | 1                  | 3 | 2 | 6 |            | 15           | 30 | 47 | 62 | 81          |
|            | 5+4+2+<br>2+1+3=17 |   |   |   |            | D) -<br>34 - |    |    |    | = S<br>= 17 |

Slika 1.2: Primer računanja površine pravougaonika [2]

Na slici (1.2) je prikazano računanje površine pravougaonika na originalnoj slici i na integralnoj slici. Kao što se može videti za površinu pravougaonika MxN na originalnoj slici nam je potrebno MxN-1 sabiranja.

Dok je kod integralne slike broj operacija 2 oduzimanja i 1 sabiranje i ne zavisi od dimenzija pravougaonika.

$$\sum_{(x,y)\in ABCD} i(x,y) = ii(D) + ii(A) - ii(B) - ii(C)$$
[3] (1.2)

# 1.2 AdaBoost i HAAR obeležja

## 1.2.1 HAAR obeležja

Detekcija na slici se vrši na prozorima manjih dimenzija. Na ovim prozorima računaju se HAAR obeležja koja se sastoje od dva ili više pravougaonika, kao na slici (1.3).

Svako obeležje se računa sabiranjem piksela crnih pravougaonika potom oduzimanjem zbira piksela belih pravougaonika.

Reprezentacija prozora pomoću integralne slike omogućava da se obeležja izračunavaju u konstantnom vremenu.



Slika 1.3: HAAR obeležja [4]

Dimenzije prozora se razlikuju od modela klasifikatora. Jedan često korišćeni model koristi prozor dimezije 24x24.



Slika 1.4: Primer obeležja za detekciju lica [1]

Oblik odabranih obeležja će zavisiti od namene detektora, na slici(1.4) se mogu videti dva tipična obeležja koja su od interesa za detekciju lica.

Prvo obeležje namenjeno je merenju razlike intenziteta regiona čela i očiju. Obeležje koristi činjenicu da je oblast čela svetlija od očiju.

Dok drugo obeležje poredi intenzitet regiona mosta nosa sa očima.

Kako su obeležja od interesa koja se koriste u modelima na slici(1.3). Za datu dimenziju prozora kombinacije svih mogućih varijacija oblika i pozicija datih obeležja čini skup od 160.000 različitih obeležja. Kako je većina ovih obeležja slična i davaće slične rezultate, ovaj broj se može drastično smanjiti korišćenjem algoritma za učenje AdaBoost.

#### 1.2.2 AdaBoost

Kako je već rečeno može se dobiti oko 160.000 obeležja za prozor dimenzije 24x24. Od ovog broja samo neka obeležja mogu dati dobre rezultate prilikom detekcije, kao na slici(1.4) u primeru detektora lica.

Kako bi se odabrao skup korisnih obeležja može se koristiti neki od algoritama mašinskog učenja. Viola i Jones predlažu modifikovani AdaBoost algoritam.

Ideja AdaBoost-a je kombinovanje više *weak learner*-a kako bi se dobila pouzdana detekcija.

Weak learner je kalsifikator koji ima pouzdanost pogađanja malo bolju nego nasumičnu. Odnosno pouzdanost weak learner-a mora biti bar malo iznad 50%.

Kombinacijom ovako dobijenih weak learner-a može se dobiti strong classifier

Kao rezultat AdaBoost algoritma dobićemo skup obeležja, u ovom radu se koristi model sa skupom od 2913 obeležja.

## 1.3 Kaskadni klasifikator

Osnovni princip Viola-Jones algoritma je da se na osnovu svih obeležja u modelu dobije informacija da li se na trenutnom položaju prozora nalazi traženi objekat (npr. lice). Kako na slici većina skeniranih regiona ne sadrži lice, računanje svih obeležja na svakoj poziciji bi bilo suvišno. Tako da je korišćenje jednog jakog klasifikatora neefikasno.

Ideja obrazovanja kaskadnog klasifikatora je da se prozori na kojima se očigledno ne nalazi lice odbace brzo, nakon samo nekoliko izračunatih obeležja.



Slika 1.5: Kaskadni klasifikator [4]

Kako bi se prozori bez lica brzo odbacili predlog je da se jaki klasifikatori grupišu u etape (eng. stage). Svaka etapa treba da bude dobra u odlučivanju da li se na analiziranom prozoru definitivno ne nalazi lice. Ukoliko je to slučaj taj prozor će se brzo odbaciti. Ukoliko rezultat etape ukazuje na to da se na prozoru možda nalazi lice, preći će se na izvršavanje sledeće etape.

Konačno ukoliko sve etape u klasifikatoru na analiziranom prozoru daju rezultat da se možda nalazi lice, može se zaključiti da se na toj poziciji zaista nalazi lice. Zahvaljujući ovome postiže se veoma pouzdan klasifikator sa malim procentnom pogrešno negativnih (eng. false negative) rezultata na krajnjim etapama.

Kao primer u ovom radu će se koristiti model kaskadnog klasifikatora za prepoznavanje lica, sa 25 etapa i 2913 obeležja raspoređenih po etapama.

U prvoj etapi se nalazi samo 9 obeležja, dok taj broj raste do 211 u kasnijim etapama.



Slika 1.6: Procenat prolaska etapa

Na slici(1.6) je prikazana statistika izvršavanja etapa na *Caltech Dataset-u*[5], koji sadrži 450 slika od 27 različitih ljudi pod različitim osvetljenjima, izrazima i pozadinama.

Vrednosti različitih tačaka na grafu predstavlja procenat izvršavanja date etape na svih 450 slika. Prva etapa će se naravno uvek izvršiti, dok će se druga etapa izvršiti samo u 19% analiziranih prozora, druga 9% itd...

Vidimo da je posle pete etape procenat izvršavanja manji od 1%.

# 1.4 Invarijantnost veličine

Kako lica na slikama mogu biti bliže ili dalje kameri odnosno mogu biti različitih dimenzija, potrebno je obezbediti da se ona detektuju nezavisno od veličine.

Pošto su obeležja istrenirana da detektuju samo lica koja su iste dimenzije kao i veličina obeležja potrebno je obezbediti skaliranje slike ili obeležja kako bi mogli da detektujemo lica veća od dimenzije obeležja.

Pri čemu je najmanja dimenzija lica koje je moguće detektovati jednaka dimenziji obeležja.



Slika 1.7: Piramida slike[6]

Ovo je rešeno uvođenjem skaliranja slike. Kao na slici(1.7) prvo je potrebno odraditi detekciju na originalnoj slici, zatim se slika smanjuje sa nekim faktorom i ponovo se vrši detekcija. Skaliranje se vrši sve dok je dimenzija skalirane slike veća od dimenzije obeležja.



Slika 1.8: Različite veličine lica

Na slici(1.8) može se videti rezultat klasifikatora za 3 lica različitih dimenzija.

# 1.5 Invarijantnost osvetljaja

Lica se mogu naći pod raznim osvetljenjima što uzrokuje problem ovom algoritmu.







Slika 1.10: Premalo osvetljaja[5]

Na slikama(1.9, 1.10) su prikazane dve slike koje zbog nepovoljnog osvetljenja nisu detektovane od strane klasifikatora. Slika(1.9) nije detektovana zbog prevelikog osvetljenja lica, dok Slika(1.10) nije detektovana zbog slabog osvetljenja.

Kao delimično rešenje ovog problema uvedeno je računanje standardne devijacije prozora koji se detektuje. Ovo može poboljšati detekciju u nekim slučajevima, ali ne i ekstremnim kao u prethodnom primeru.

# 1.6 Varijantnost rotacije



Slika 1.11: Ne rotirana[5]



Slika 1.12: Rotirana[5]

# 2 OpenCV modeli

OpenCV sadrži alat za treniranje kaskada i detekciju objekata pomoću Viola-Jones algoritma. Takođe dolazi sa istreniranim i testiranim klasifikatorima<sup>1</sup> [7]

Rezultat treniranja se smešta u .xml fajl koji sadrži sledeće informacije:

- Dimenzija obeležja (height, width)
- Broj etapa (stageNum)
- Maksimalan broj obeležja u etapi (maxWeakCount)
- Informacije o etapama (stages)
  - Broj obeležja u etapi (maxWeakCount)
  - Prag etape (stageThreshold)
  - Informacije o obeležjima (weakClassifiers)
    - \* Prag obeležia (internalNodes)
    - \* Vrednosti listova (leafValues)
- Informacije o obeležjima (features)
  - Koordinate i težine tačaka pravougaonika (rects)
     Svako obeležje može imati 2 ili 3 pravougaonika
     Gde su prve 2 vrednosti x i y koordinate gornje leve tačke,
     Treća i četvrta vrednost širina i visina pravougaonika
     Poslednja vrednost težina pravougaonika

# 2.1 OpenCV model za frontalna lica

Često korišćeni model za detekciju lica je haarcascade\_frontalface\_default.xml<sup>2</sup>. Ovaj model se koristi za frontalnu detekciju lica. Neke njegove karakteristike su:

- Dimenzija obeležja: 24x24
- Broj etapa: 25
- Maksimalan broj obeležja u etapi: 211
- Ukupan broj obeležja: 2913

Rezultati detekcije ovog modela mogu se videti na slikama(1.8,1.9,1.10,1.11,1.12) iz sekcije 1.

<sup>&</sup>lt;sup>1</sup>https://github.com/opencv/opencv/tree/master/data/haarcascades

<sup>&</sup>lt;sup>2</sup>https://github.com/opencv/opencv/blob/master/data/haarcascades/haarcascade\_frontalface\_default.xml

## Deo II

# Projekat

# 3 Sažetak

Ovaj projekat sadrži:

- Pisanje specifikacije u Python i C programskom jeziku za izvršavanje i pomoć pri particionisanju i projektovanju hardvera.
- Projektovanje arhitekture hardverskog akceleratora za Viola-Jones algoritam opisam u delu I.
- Pisanje HDL modela za sintezu u System Verilog RTL metodologiji i PyGears³ metodologiji.
- Pisanje verifikacionog okruženja u SystemVerilog UVM<sup>4</sup> i Python PyGears okruženju.
- Poređenje dve metodologije i analiza prednosti i mane obe metodologije.
- Poređenje komercijalnog Questa Sim<sup>5</sup> simulatora i besplatnog open-source Verilator<sup>6</sup> simulatora.
- Implementacija projektovanog IP jezgra na MYIR Z-Turn Board<sup>7</sup> sa Zynq 7020 SoC.
- Pisanje Linux Kernel drajvera i korisničke aplikacije za korišćenje jezgra za detekciju lica na Xilinx Zynq platformi.

<sup>3</sup>https://github.com/bogdanvuk/pygears

<sup>4</sup>https://www.accellera.org/downloads/standards/uvm

<sup>&</sup>lt;sup>5</sup>https://www.mentor.com/products/fv/questa/

<sup>&</sup>lt;sup>6</sup>https://www.veripool.org/wiki/verilator

<sup>&</sup>lt;sup>7</sup>http://www.myirtech.com/list.asp?id=502

# 4 Specifikacije za izršavanje

Kako bi se hardver efikasno projektovao i particionisao potrebno je početi od softverske implementacije na višem nivou apstrakcije.

Jezici visokog nivoa kao što je Python su veoma dobri za ovu namenu.



Slika 4.1: Veza Python modela sa XML modelom i C specifikacijom

Na slici(4.1) prikazana je struktura koda u slučaju Python i C klasifikatora.

Na ulazu se nalazi XML model dobijen treningom pomoću OpenCV opisan u sekciji 2.

Kao jezik za parsiranje XML fajla se koristi Python. Zbog velikog broja Python paketa dostupnih sa gotovim rešenjima za većinu softverskih problema, problem parsiranja XML fajla se može rešiti korišćenjem paketa xmltodict<sup>8</sup>.

Xmltodict parsira XML fajl i skladišti ga u Python dictionary.

Klase CascadeClass, StageClass, FeatureClass i RectClass <sup>9</sup> napisane u Pythonu predstavljaju Python model kaskadnog klasifikatora.

Napisan je i Python specifikacija za isvršavanje koja direktno koristi Python klase za detekciju objekata.

Veza između Python modela i C specifikacije realizovana je preko C Header fajla koji je generisan pomoću Python-a.

<sup>8</sup>https://pypi.org/project/xmltodict/

 $<sup>^9</sup>$ cascade\_classifier/python\_model/cascade.py

# 5 Arhitektura hardvera

## 5.1 Uvod

U ovom poglavlju biće opisana arhitektura hardvera koja je projektovana. Postoje razlike između implementiranih arhitektura u SystemVerilog-u i PyGears-u. Pošto obe metodologije sa sobom nose neke karakteristike koje otežavaju ili olakšavaju određene principe prilikom projektovanja, ove razlike će biti opisane u kasnijim poglavljima.

Iako su razlike između ove dve implementacije male opis u ovom poglavlju će biti bliži implementaciji u PyGears-u koja je novija i ispravljene su neke sistemske greške.

Arhitektura će biti opisana na nivou modula od kojih se sastoji njihovih portova, funkcija koje obavljaju i eventualno kritičnih funkcionalnih i memorijskih jedinica.



Slika 5.1: Arhitektura hardvera kaskadnog klasifikatora

Na slici(5.1) prikazan je uprošćen blok dijagram realizovanog IP jezgra.

# 5.2 Interfejsi IP jezgra

IP jezgro se povezuje pomoću 3 interfejsa:

- Ulazni interfejs **img\_in** sastoji se od 8-bitnog podatka vrednosti piksela slike u *grayscale* formatu (nijanse sive).
- Izlazni interfejs **detect\_addr** ukoliko jezgro detektuje lice na slici postaviće x i y koordinate na ovom interfejsu.
- Izlazni interfejs **irq** je signal koji označava završetak obrade slike i signalizira da je jezgro spremno za novu sliku. Namenjen da se koristi kao prekidni signal za procesor.

## 5.3 Modul IMG RAM

Modul **IMG RAM** je zadužen za skladištenje slike koja se obrađuje. Sastoji se od RAM memorije i brojača za generisanje adrese za upis.

Nakon primljenog podatka na ulazu brojač adrese upisa se poveća za 1.

Skladištena slika je u 8-bitnom formatu i predstavlja grayscale vrednost piksela originalne slike.

Veličina memorije je width \* height \* 8 bit. Za dimenziju slike 240x320 veličina memorije je 614400 bita.

Komunicira sa okolinom pomoću 3 interfejsa:

- Ulazni interfejs **img\_in** ekvivalentan je sa istoimenim interfejsom na višem nivou hijerarhije.
- Ulazni interfejs **rd\_addr** predstavlja linearnu adresu generisanu od strane **rd\_addrgen** modula. Koristi se za čitanje podataka iz RAM memorije.
- Izlazni interfejs **img\_out** predstavlja iščitane podatke iz RAM memorije.

# 5.4 Modul rd\_addrgen

Modul **rd\_addrgen** je zadužen za generisanje adrese za čitanje iz **img\_ram** modula. Blok dijagram ovog modula prikazan je na slici (5.2).



Slika 5.2: Blok dijagram **rd\_addrgen** modula

Pored generisanja adrese pomoću ovog modula je dodatno rešeno i skaliranje slike opisano u sekciji 1.4.

#### 5.4.1 Scale\_counter

Scale\_counter je brojač koji se poveća za jedan kada klasifikator završi obradu slike na trenutnom nivou piramide prikazanoj na slici (1.7) sekciji 1.4.

#### 5.4.2 Boundaries

**Boundaries** kao ulaz dobija trenutni stepen skaliranja **scale\_num** i na osnovu njega na izlazu daje **X** i **Y** granice do kojih **hopper** treba da broji. Ove granice osiguravaju ispravno generisanje adrese, odnosno obezbeđuju da izlazna adresa nikad ne iskoči iz opsega **img\_ram** memorije.

Realizovan je pomoću multipleksera i softverski izračunatih konstantnih vrednosti granica.

#### 5.4.3 Scale\_ratio

Scale\_ratio ima ulogu da dostavi sweeper-u potrebne parametre za računanje skalirane adrese. Realizovan je isto kao i boundaries modul.

## **5.4.4** Hopper

 $\mathbf{Hopper}$  se može zamisliti kao dvostruka ugnježdena for petlja gde iteratori petlje predstavljaju koordinate  $\mathbf{X}$  i  $\mathbf{Y}$ .

Prvo se iterira po X kordinati pa po Y.

```
for(int y = 0; y < boundary_y[scale_num]; y++){
   for(int x = 0; x < boundary_x[scale_num]; x++){
      // Sweeper
   }
}</pre>
```

Primer 5.1: Primer hopper-a u C-u

Na primeru (5.1) prikazana je implementacija **hopper**-a u **C**-u. Može se videti da granice **hopper**-a zavise od promenljivih **boundary\_x** i **boundary\_y** koji se indeksiraju preko **scale\_num** promenljive opisane u sekcijama (5.4.2, 5.4.1).

Na slikama (5.3, 5.4) je prikazan rad hopper-a i sweeper-a. Plavi kružići predstavljaju piksele za koje će rd\_addrgen generisati adresu za trenutno stanje hopper-a.

Gornji levi kružić je koordinata trenutnog položaja hopper-a. Crevnom strelicom je obeleženo iteriranje hopper-a kroz sliku.

Na slici (5.4) može se videti trenutak kada hopper dostiže granicu boundary\_x nakon čega

prelazi u novi red, uvećava Y koordinatu a X koordinatu postavlja na početni položaj.

Nakon što hopper dostigne obe granice boundary\_x i boundary\_y završen je trenutni stepen skaliranja slike i potrebno je uvećati scale\_num za jedan.



Slika 5.3: Način rada **hopper** i **sweeper** komponenti.



Slika 5.4: Prelazak **hopper**-a u novi red.

## 5.4.5 Sweeper

Slično kao hopper i sweeper se može predstaviti kao dve ugnježdene for petlje. Ponovo se prvo iterira po X koordinati pa onda po Y.

```
1
     int x, y;
2
     // hopper
     for(int hop_y = 0; hop_y < boundary_y[scale_num]; hop_y++){</pre>
3
4
        for(int hop_x = 0; x < boundary_x[scale_num]; hop_x++){</pre>
5
          // sweeper
6
          for(y = hop_y; y < hop_y+feature_height; y++){</pre>
            for(x = hop_x; x < hop_x+feature_width; x++){</pre>
7
8
              // scale address
9
               // translate to linear address
            }
10
11
          }
        }
12
     }
13
```

Primer 5.2: Primer **sweeper**-a u **C**-u

Kao što se vidi na primeru (5.2) hopper i sweeper se zajedno mogu predstaviti kao četiri ugnježdene for petlje.

Sweeper će početnu vrednost svojih X i Y promenljivih uzeti od trenutne vrednosti hopper koordinata, zatim će se iterirati feature\_width i feature\_height puta.

Na slikama (5.3, 5.4) prelazak sweeper-a po slici je prikazan horizontalnim i dijagonalnim strelicama. Dok je plavim kružićima predstavljeni pikseli koje sweeper prebriše za jedan položaj hopper-a.

## 5.4.6 Skaliranje adrese

Unutar sweeper-a je implementirano i skaliranje adrese u svrhu skaliranja slike objašnjeno u sekciji 1.4.

Potrebno je množiti adresu sa decimalnim faktorom (npr. 1.2, 1.33), kako je u hardveru množenje sa decimalnim brojevima sa pokretnom tačkom skupa operacija, efikasnije je odraditi množenje sa fiksnom tačkom.

To je odrađeno tako što celobrojni faktor unapred softverski izračunat i smešten u scale\_ratio modul, isto tako je i broj pomeranja u desno dobijene binarne vrednosti unapred poznat. Pa je jednostavno odraditi množenje sa fiksnom tačkom.

Ovako skalirana adresa prikazana je na slici (5.5). Može se videti da će u ovom slučaju svaka četvrta tačka biti preskočena. Na taj način će se dobiti manja slika od originalne, u ovom primeru od početne slike 10 \* 10 dobija se slika 8 \* 8.

Na taj način objekti koji su izgledali veći na originalnoj slici će izgledati manji na skaliranoj slici, što nam je potrebno kako bi dobili invarijantnost veličine opisane u sekciji 1.4.



Slika 5.5: Posledica skaliranja adrese.

#### 5.4.7 Modul addr\_trans

Konačno je potrebno konvertovati adresu predstavljenu koordinatama (y, x) u linearnu adresu, pošto se RAM memorija adresira linearno. Ovo obavlja addr\_trans u hardveru. Translaciju je jednostavno uraditi pomoću seledeće formule.

$$lin\_addr = (y * img\_width) + x \tag{5.1}$$

Gde su y i x koordinate iz sweeper-a a img\_width je parametar koji označava širinu slike.

## 5.5 Modul ii\_gen i sii\_gen

## 5.5.1 Odabir algoritma

Jedan od kritičnih delova Viola-Jones algoritma je generisanje integralne slike opisane u poglavlju 1.1.

Isto tako se ispostavlja da i u hardverskoj implementaciji generisanje integralne slike ima veliki uticaj na performanse i potrebne hardverske resurse sistema.

Kao izbor možemo izabrati sekvencijalni ili paralelni algoritam.

Ukoliko bi se odabrao paralelni algoritam koji može da računa više piksela u paraleli povećanje resursa bi se drastično odrazilo na img\_ram i frame\_buffer memorije. Ali bi dobili bolje performanse sistema.

Kako bi implementacija paralelnog algoritma povećala kompleksnost ne samo ovog modula nego i okolnih komponenti, u ovom projektu on neće biti razmatran.

## 5.5.2 Sekvencijalna implementacija generatora integralne slike

U ovoj arhitekturi odabran je sekvencijalni algoritam generisanja integralne slike koji odgovara jednačini(5.1) iz sekcije 1.1.

Prednosti ovog algoritma u odnosu na paralelni je manji memorijski zahtevi na ulazu i izlazu, potrebno manje funkcionalnih jedinica i unutrašnje memorije. A mana je manja brzina. Konkretno ovaj algoritam može da izračuna jedan piksel svaki takt.



Slika 5.6: Blok dijagram ii\_gen modula

Na slici(5.6) prikazana je uprošćena šema generatora integralne slike.

Na ulazu module je port img\_in koji predstavlja piksele slike pročitane iz img\_ram memorije.

Pikseli u redu se akumuliraju pomoću sabirača i registra unutar accum modula. Na slici je izostavljeno da se registar dreg resetuje posle dolaska poslednjeg piksela u redu slike.

Nakon toga akumulirana vrednost se sabira sa vrednošću FIFO bafera koji sadrži vrednost piksela integralne slike iz predhodnog reda. Zatim prosleđuje na izlaz i ponovo upisuje u FIFO bafer kao vrednost izračunate integralne slike.

Zbog potreba algoritma FIFO bafer je modifikovan na sledeći način:

- Dodat je PRELOAD parametar koji pomera pokazivač za upis na vrednost širine prozora (feature\_width) prilikom reseta. Ovo je potrebno da bi se obezbedilo čitanje nula iz bafera kada se obrađuje prvi red slike.
- FIFO se resetuje kada je završeno računanje celog prozora.

## 5.5.3 Generator kvadratne integralne slike

Generator kvadratne integralne slike je potreban za računanje standardne devijacije prozora što je opisano u sekciji 1.5.

Generisanje kvadratne integralne slike je jednostavno uz gotov generator integralne slike. Potrebno je kvadrirati ulazne piksele i dovesti ih na generator integralne slike kao na slici(5.7).



Slika 5.7: Blok dijagram ii\_gen modula

## 5.6 Modul frame\_buffer

Potrebno je obezbediti da se generisana integralna slika može pročitati od strane klasifikatora u nasumičnom maniru. Kako bi se to obezbedilo potrebno je skladištiti integralnu sliku u lokalnu RAM memoriju.



Slika 5.8: Blok dijagram frame\_buffer-a realizovanog sa 3 jedno-portne RAM memorije.

U ovu svrhu je projektovana komponenta frame\_buffer. Sastoji se od brojača za adresu upisa i RAM memorije. Brojač adrese upisa se inkremetuje za jedan nakon svakog primljenog podatka.

Potrebna veličina RAM memorije je data sledećim vezama:

$$size(bit) = frame\_width * frame\_height * w\_ii$$
 (5.2)

$$w_{-}ii = ceil(log_{2}(frame_{-}width * frame_{-}height * 2^{w_{-}img}))$$
(5.3)

Gde je frame\_width i frame\_height širina i visina obeležja modela, w\_ii je širina magistrale integralne slike, a w\_img ulazna širina magistrale piksela slike.

Radi ubrzavanja rada klasifikatora možemo računati sva tri pravougaonika (1.2.1) u paraleli. Da bi se to obezbedilo potrebno je čitati u istom taktu tri vrednosti iz frame\_buffer memorije. Kako je više-portna memorija skupa i retko se nalazi u FPGA čipovima moguće rešenje je koristiti tri jedno-portne memorije. Ovo će kao rezultat zauzeti tri puta više RAM memorije na čipu.

Alat za sintezu uglavnom može da odradi transformaciju i da od jedne tro-portne memorije napravi tri jedno-portne. Ali se preporučuje da se ekslicitno instancioniraju tri memorije i pridržava Synthesis Guideline-a npr. Xilinx [8]. Primer prikazan na slici(5.8).

#### 5.7 Modul stddev

Računanje standardne devijacije prozora je potrebno kako bi se smanjio uticaj različitog osvetljenja lica na slikama.

Za ovo je zadužen modul stddev. U sledećem primeru prikazano je računanje standardne devijacije u C-u.

```
long calcStddev(long sii[FRAME_HEIGHT][FRAME_WIDTH],
1
2
                      long ii[FRAME_HEIGHT][FRAME_WIDTH]){
3
4
       long mean, stddev;
5
6
       mean = ii[0][0] + ii[FRAME_HEIGHT-1][FRAME_WIDTH-1] - ii
          [O][FRAME_WIDTH-1] - ii[FRAME_HEIGHT-1][O];
7
8
       stddev = sii[0][0] + sii[FRAME_HEIGHT-1][FRAME_WIDTH-1] -
           sii[0][FRAME_WIDTH-1] - sii[FRAME_HEIGHT-1][0];
9
10
       stddev = (stddev * (FRAME_WIDTH-1)*(FRAME_HEIGHT-1));
11
       stddev = stddev - (mean*mean);
       stddev = getSqrt(stddev);
12
13
       return stddev;
14
     }
```

Primer 5.3: Primer računanja standardne devijacije u C-u

Za računanje standardne devijacije potrebni su nam ivice prozora integralne i kvadratne integralne slike, što se vidi u liniji 6 i 8 primera(5.3).

Sabiranjem gornjeg levog i donjeg desnog piksela zatim oduzimanje gornjeg desnog i donjeg levog integralne slike dobijamo sumu piksela celog prozora.

Ako pogledamo primer u C-u vidimo da imamo operacije sabiranja, oduzimanja, kvadriranja promenljivih, zatim množenje sa konstantom.

Sa ovim operacijama većina alata za sintezu nema problem prilikom mapiranja i većina FPGA čipova ima potrebne funkcionalne jedinice.

Konačno potrebno je odraditi kvadratni koren u liniji 12.

Ovo je operacija koju većina alata za automatsku sintezu ne mogu implementirati na FPGA čipovima, pa je potrebno pronaći dobru aproksimaciju.

U ovom projektu je odlučeno koristiti lookup tabelu.

Za unapred definisani opseg vrednosti operanda za korenovanje softverski su izračunate vrednosti kvadratnog korena i smeštene u listu.

Prilikom softverske analize odlučeno je da je 256 vrednosti korena dovoljno za ispravan rad celog sistema, uz minimalan gubitak pouzdanosti.



Slika 5.9: Blok dijagram stddev modula.

Na slici(5.9) prikazan je blok dijagram projektovanog hardverskog modula na osnovu primera(5.3). Operaciju sabiranja piksela unutar prozora obavljaju frame\_sum moduli. Mogu se videti i operator kvadriranja, množenja zatim i oduzimanja kao u prethodnom primeru. Lookup tabela je implementirana kao ROM memorija, nazvana SQRT\_ROM sa 256 lokacija.

#### 5.8 Modul features\_mem

Svako obeležje u modelu se sastoji od najviše tri pravougaonika što je objašnjeno u sekciji 1.2.1.

Svaki pravougaonik je definisan sa četiri koordinate (A, B, C, D) i sa težinom njegove površine.

Zbog uštede memorije u hardverskoj implementaciji, moguće je svaki pravougaonik predstaviti koordinatom jedne njegove tačke zatim širinom i visinom pravougaonika. Ostale tačke je moguće izračunati pomoću ovih podataka.

Na ovaj način se vrši ušteda memorije, ali se uvodi potreba za množačima i sabiračima u hardveru. U ovom slučaju zbog velikog broja obeležja (2913 u testiranom modelu 2.1) ušteda memorije je značajna, a dodatni sabirači i množači ne unose veliku cenu u sistem.



Slika 5.10: Reprezentacija pravougaonika u obeležju.

Sa slike(5.10) mogu se videti potrebni parametri za reprezentaciju pravougaonika.

Kao referentu koordinatu izabrana je tačka A od koje se meri širina i visina pravougaonika kao na slici.

Kako je za adresiranje podatka iz RAM-a potrebna linearna adresa kao što je objašnjeno u sekciji(5.4.7) koordinata tačke A je linearizovana u softveru.

Ostale koordinate moguće je dobiti na sledeći način:

$$B = A * width (5.4)$$

$$D = (A + width) + (height * FRAME_WIDTH)$$
(5.5)

$$C = (A + width) + (height * FRAME\_WIDTH) - width$$
(5.6)

| N       | Packed        | Height | Width  | A linear coord (10bit) |
|---------|---------------|--------|--------|------------------------|
|         | value(20 bit) | (5bit) | (5bit) |                        |
| 0       | 0x1A989       | 9      | 12     | 106                    |
| 1       | 0x1A987       | 7      | 12     | 106                    |
| 2       | 0x39249       | 9      | 18     | 228                    |
| 3       | 0x72926       | 19     | 9      | 458                    |
|         |               |        | •      |                        |
|         | •             | •      |        | •                      |
|         | •             | •      |        |                        |
| feature | 0x088d6       | 22     | 6      | 34                     |
| num - 1 |               |        |        |                        |

Tabela 5.1: Struktura memorije rect\_ROM0 za model 2.1

Na tabeli(5.1) je prikazana strukura zapakovane memorije rect\_ROM

U prvoj koloni N su adrese lokacija, kojih ima features\_num (2913 u modelu 2.1).

U drugoj koloni **Packed value(20 bit)** je zapakovana vrednost memorijske lokacije na adresi u heksadecimalnom zapisu.

U trećoj i četvrtoj koloni se nalaze **height** i **width** raspakovane vrednosti visine i širine pravougaonika.

U poslednjoj koloni se nalazi A linear coord raspakovana vrednost linearne koordinate A.

Pored rect\_ROM memorije potrebna je weight\_ROM memorija koja će čuvati vrednosti težina za svaki pravougaonik.



Slika 5.11: Blok dijagram features\_mem modula.

Na slici(5.11) je prikazan uprošćen blok dijagram features\_mem modula.

Komponenta feature\_counter generiše adresu za čitanje iz ROM memorija.

Postoje po 3 **rect\_ROM** i **weight\_ROM** memorije prethodno opisane, po jedna za svaki pravougaonik u obeležju.

Komponenta **calc\_coords** vrši raspakivanje memorije opisane u tablici(5.1) na način opisan formulama(5.4, 5.5, 5.6).

Konačno može se izračunati potrebna memorija u slučaju modela opisanog u sekciji(2.1).

| $feature\_num$                        | 2913        |
|---------------------------------------|-------------|
| $\mathbf{rect}_{-}\mathbf{num}$       | 3           |
| $\mathbf{w}_{	ext{-}}\mathbf{weight}$ | 3 bits      |
| w_rect                                | 20 bits     |
| TOTAL                                 | 524340 bits |

Tabela 5.2: Veličina memorije features\_mem za model 2.1

# 5.9 Modul classifier

Classifier modul obavlja klasifikaciju prozora, odnosno signalizira da li se na trenutnom prozoru nalazi traženi objekat. Zauzima najviše hardverskih resursa u sistemu i pored ii\_gen(5.5) modula najviše utiče na performanse sistema.



Slika 5.12: Blok dijagram classifier modula.

Sledeći primeri u C-u približno opisuje algoritam rada klasifikatora.

```
1
     int weights [RECT_NUM] [FEATURE_NUM]; //feature weights
     int rects[RECT_NUM][FEATURE_NUM][4]; //unpacked rect_coords
2
3
4
     long weighted_sum_i(int ii[FRAME_HEIGHT][FRAME_WIDTH],
5
                          int f,
                                       // feature_num
6
                          int r){
                                       // rect_num
7
       long sum = ii[rects[r][f][0][1]][rects[r][f][0][0]] +
8
                   ii[rects[r][f][3][1]][rects[r][f][3][0]] -
9
10
                   ii[rects[r][f][2][1]][rects[r][f][2][0]] -
11
                   ii[rects[r][f][1][1]][rects[r][f][1][0]];
12
       sum *= weights[r][f];
13
14
       return sum;
15
     }
16
     long weighted_sum(int ii[FRAME_HEIGHT][FRAME_WIDTH],
17
                        int feature_num){
18
       long sum0 = weighted_sum_i(ii, feature_num, 0);
19
       long sum1 = weighted_sum_i(ii, feature_num, 1);
       long sum2 = weighted_sum_i(ii, feature_num, 2);
20
21
22
       return sum0 + sum1 + sum2;
23
     }
```

Primer 5.4: Weighted\_sum u C-u

Primer 5.4 približno prikazuje algoritam rada weighted\_sum komponente sa slike(5.12). Memorije weights i rects se nalaze u features\_mem komponenti u hardveskoj implementaciji i objašnjene su u sekciji(5.8).

Funkcija weighted\_sum\_i() računa sumu piksela pravougaonika na integralnoj slici. Kao na slici(1.2) na integralnoj slici potrebno je sabrati gornji levi i donji desni piksel zatim oduzeti gornji desni i donji levi piksel.

Pošto svaki pravougaonik ulazi u konačan zbir sa nekom težinom potrebno je pomnožiti sumu pravougaonika sa težinom kao u liniji 12.

Funkcija weighted\_sum() dodatno sabira težinske sume sva tri pravougaonika.

```
int feature_thresholds[FEATURE_NUM];
1
2
     int leaf_val0[FEATURE_NUM];
3
     int leaf_val1[FEATURE_NUM];
4
5
     int leaf_val(long stddev,
6
                    long sum,
7
                    int feature_num){
8
9
       if(sum <= feature_thresholds[feature_num] * stddev)</pre>
10
            return leaf_val0[feature_num];
11
       else
12
            return leaf_val1[feature_num];
13
     }
```

Primer 5.5: Leaf\_val u C-u

Primer(5.5) prikazuje algoritam računanja leaf\_val vrednosti. Memorija feature\_thresholds se nalazi na slici(5.12) pod nazivom feature\_thr ROM. Memorije leaf\_val0 i leaf\_val1 su leafVal0 i leafVal1 na slici(5.12).

Funkcija leaf\_val kao ulaz prima standardnu devijaciju prozora, težinsku sumu sva tri pravougaonika i broj trenutnog obeležja.

Povratna vrednost ove funkcije je sadržaj jedne od memorija leaf\_val0 ili leaf\_val1 za to obeležje.

Ukoliko je težinska suma manja od praga obeležja feature\_threshold pomnoženog sa standardnom devijacijom, povratna vrednost će biti iz memeorije leaf\_val0, u suprotnom povratna vrednost će biti iz memorije leaf\_val1.

# 5.10 Interfejsi

Komunikacija svih unutrašnjih modula i komunikacija IP jezgra sa okolinom realizovana je pomoću **DTI**(data transfer interface)[9] interfejsa.

Korišćenjenjem ovog interfejsa dobijena je robusnija komunikacija između modula zahvaljujući handshaking-u.

Dodatna prednost ovog interfejsa je kompatibilnost sa **AXI-Stream**[10], **Avalon-ST**[11] i sličnim streaming interfejsima. Zahvaljujući tome moguće je povezati ovaj interfejs sa AXI-Stream i Avalon-ST bez dodatnog adaptera.

Interfejs će biti detaljnije objašnjen u PyGears(6) sekciji.

# 6 PyGears metodologija

## 6.1 Uvod

PyGears[12] je open-source projekat koji uvodi Gears metodologiju za projektovanje hardvera i Python Framework koji implementira Gears metodologiju.

Gears metodologija uvodi lako povezivanje i kompozabilnost sistema od manjih funkcionalnih jedinica pod nazivom gear-ovi.

Gear moduli su međusobno povezani DTI interfejsom koji implementira jednostavan handshake protokol. Na ovaj način je omogućeno je lako ponovno korišćenje implementiranih funkcija i jednostavno debagovanje dizajna.

Pisanjem dizajna u Python-u koji je dinamičan jezik i veoma visokog nivoa apstrakcije omogućena je dodatno bolje parametrizovanje, skalabilnost i kompozabilnost dizajna.

Takođe omogućeno je pisanje verifikacije u Python-u na veoma visokom nivou apstrakcije uz korišćenje ogromnog broja besplatno dostupnih Python paketa za većinu problema i algoritama, time je skraćeno vreme i olakšan posao prilikom pisanja referentnih modela.

PyGears konačno obavlja konverziju Python opisa u SystemVerilog opis koji je podržan od strane alata za sintezi i simulaciju.

## 6.2 Poređenje sa RTL metodologijom

PyGears[9] predstavlja alternativu RTL[13] metodologiji za opis hardvera. RTL metodologija pruža standardan način translacije sekvencijalnog algoritma u hadverski opis. Struktura dobijena pomoću RTL metodologije uglavnom se sastoji od **FSMD**(Finite State Machine with Datapath).

Datapath deo koji sadrži funkcionalne i memorijske jedinice i mreže za rutiranje podataka[14] Mašina stanje koja sadrži registre stanja, logiku za izlazne signale i logiku za sledeće stanje.

Kako dizajn implementiran pomoću RTL metodologije postaje kompleksniji i mašina stanja postaje kompleksnija i sadrži više stanja. Pipeline-ovanje, debagovanje ovakvog dizajna može biti veoma teško.

Prednost PyGears metodologije u odnosu na RTL metodologiju najvidljivija je u sistemima koji su Dataflow orijentisani.

# 6.3 Jezici za opis hardvera

Jezici sa opis hardvera koji se danas daleko najviše koriste su Verilog i VHDL, nastali su u 1984. i 1983. godine i daleko su siromašniji po mogućnostima od današnjih jezika višeg nivoa kao što su Python, C++, itd.

Najveća prednost ovih jezika je podrška od strane alata za sintezu i simulaciju, kako se ovi jezici koriste za opis i verifikaciju hardvera preko 30 godina, alati su zreli i detaljno istestirani.

Sve velike kompanije koje proizvode FPGA čipove trenutno ne objavljuju arhitekturu svojih FPGA čipova, pa alati za sintezu i implementaciju zavise od tih kompanija<sup>10</sup>. Zbog toga direktna podrška alata za sintezu i implementaciju za neki novi HDL jezik je nemoguća.

Iz tog razloga većina novih HDL jezika baziranih na Python[16, 9], Scala [17, 18], Haskell[19] generišu konačan HDL kod u Verilog-u, SystemVerilog-u ili VHDL-u pogodnom za simulatore i alate za sintezu.

Dok se ovi jezici uglavnom baziraju na RTL metodologiji i uvode jezik višeg nivoa kao zamenu za standardan HDL. PyGears dodatno izdvaja i uvođenje nove metodologije zvane Gears.

## 6.4 Gears metodologija

Cilj Gears metodologije je da se obezbedi bolja kompozabilnost i ponovno korišćenje napisanih modula.

Kako bi se ovo postiglo uveden je standardan interfejs za komunikaciju između modula.

## 6.4.1 DTI interfejs



Slika 6.1: DTI interfejs[9]

Uveden je interfejs **DTI**(data transfer interface). Podaci se šalju od strane Producer-a prema Consumer-u. Sastoji se od:

- Data linije za podatke, proizvolje širine i proizvoljnog tipa.
- Valid jednobitnog signala kojim Producer signalizira validnost podatka na Data liniji.
- Ready jednobitnog signala kojim Consumer signalizira da je pročitao podatak na Data liniji.

Pomoću Valid i Ready signala realizovan je handshaking protokol.

<sup>&</sup>lt;sup>10</sup>Postoji inicijativa da se dokumentuju FPGA čipovi svih velikih proizvođača u projektu zvanom SymbiFlow[15], kao i alati za sintezu i implementaciju.



Slika 6.2: DTI primer transakcije

Na slici(6.2) prikazan je talasni oblik protokola:

- 1. Producer je postavio podatak na Data liniju i podigao Valid signal na jedinicu. Što označava validan podatak na magistrali.
- 2. Istog trenutka nakon postavljanja Valid signala na jedinicu Consumer može da koristi podatak na magistrali.
- 3. Consumer može koristiti podatak na magistrali potreban broj taktova.
- 4. Kada Consumer završi sa korišćenjem podatka, postavlja Ready signal na jedinicu čime označava ACK(acknowledgment) odnosno signalizira da je završio sa podatkom na magistrali i da je handshake obavljen.
  - Nakon handshake-a Producer može postaviti novi podatak na magistralu.
- 5. Producer ne sme menjati podatak na magistrali sve do pojave ACK od strane Consumera.
- 6. Producer može držati Valid signal na logičkoj nuli i tada se neće obavljati transakcije na magistrali.
- 7. Ne sme postojati kombinaciona putanja od Ready do Valid signala na strani Producera. Odnosno Producer ne sme odlučivati o postavljanju podatka na magistralu na osnovu stanja Consumer-a.
- 8. Može postojati kombinaciona putanja od Valid do Ready signala na strani Consumer-a.

# 6.5 Tipovi podataka

Data linija u DTI interfejsu pored toga što može biti proizvoljne širine može predstavljati i različite kompleksne tipove podataka. Ovim se omogućava bolja kompozicija modula, lakša manipulacija podacima, pregledniji izvorni kod.

Neki od podržanih tipova su:

• Uint[W] 6.5.1

- Int[W] 6.5.2
- Tuple[T1, T2, ..., TN] 6.5.3
- Array[T, N] 6.5.4
- Queue[T, LVL] 6.5.5
- Union[T1, T2, ..., TN] 6.5.6
- Unit 6.5.7

#### 6.5.1 Uint

Uint[W] predstavlja neoznačenu celobrojnu vrednost proizvoljne širine W.

#### 6.5.2 Int

Int[W] predstavlja označenu celobrojnu vrednost proizvoljne širine W.

## 6.5.3 Tuple

Tuple[T1, T2, ..., TN] predstavlja tip sličan strukturi gde polja Tn mogu biti bilo kog tipa.

Koordinate piksela slike mogu se prigodno predstaviti kao Tuple tip.

Na primer Tuple[Uint[ $W_Y$ ], Uint[ $W_X$ ]] ovaj Tuple sadrži dva Uint polja koji predstavljaju X i Y koordinate.

#### 6.5.4 Array

Array[T, N] predstavlja niz od N podataka tipa T.

#### **6.5.5** Queue

Queue[T, LVL] ili red predstavlja transakciju koja sadrži više podataka proizvoljnog tipa T i informaciju o završetku transakcije EOT(end of transaction). Queue može biti proizvoljnog nivoa LVL.

Kao primer Queue[Uint[4], 1](0, 1, 2, 3) predstavlja red od četiri četvorobitna podatka. Rezultujuća Data magistrala biće širine 5 bita, 4 bita za podatak i 1 bit za EOT.



Slika 6.3: Primer transakcije tipa

Kao primer dvodimenzionalna matrica se može predstaviti kao Queue[Uint[4], 2], odnosno red nivoa 2 sa proizvoljnim podatkom u ovom slučajem četvorobitnim neoznačnim brojem.

|   | 0 | 1 | 2  |
|---|---|---|----|
| 0 | 5 | 1 | 9  |
| 1 | 3 | 7 | 11 |
| 2 | 0 | 4 | 15 |

Slika 6.4: Matrice veličine 3x3



Slika 6.5: Transakcija matrice 6.4

Kao što se može videti linija za podatke je u ovom slučaju širine 6 bita, od toga 2 bita su EOT.

Na slici(6.4) u taktovima(3, 6, 9) niži bit EOT-a je na visokom nivou što predstavlja podatak u poslednjoj koloni matrice. U taktovima(7, 8, 9) viši bit EOT-a je na visokom nivou što označava podatke u poslednjoj liniji matrice. Konačno u taktu 9 oba EOT bita su na visokom nivou što označava poslednji podatak u matrici.

#### 6.5.6 Union

Union[T1, T2, ..., TN] je unija koja može prenositi samo jedan od podataka Tn u trenutku. Uz podatak prenosi se i informacija o aktivnom podatku na magistrali.

#### 6.5.7 Unit

Unit je tip koji ne prenosi podatak.



Slika 6.6: Unit tip

# 6.6 Čistoća Gear-ova

Kako bi se gear-ovi lakše povezivali i njihova funkcionalnost i ponašanje bilo razumljivo i predvidljivo dizajneru preporučuje se pisanje "Čistih" gear-ova.

"Čist" gear je onaj čije je inicijalno stanje dobro poznato i koji će se nakon izvršene funkcionalnosti potpuno vratiti u inicijalno stanje.

Čisto kombinacioni gear-ovi su uvek "čisti".

## 6.7 Definicija Gear komponenti

PyGears trenutno podržava tri načina za implementaciju Gear komponenti.

Primer 6.1: Primer definisanja Gear komponente

Primer(6.1) prikazuje definisanje gear komponente.

Dekorator **@gear** označava da je funkcija gear\_name zapravo Gear komponenta, slično kao module ili entity kod Verilog-a i VHDL-a.

Kao parametri funkcije prosleđuju se DTI interfejsi i generički parametri. Delimiter "\*" označava početak generičkih parametara.

Ulazni DTI interfejsi mogu imati proizvoljan naziv i tipove opisane u sekciji(6.5). Parametar može biti bilo koji Python objekat i može imati inicijalnu vrednost dflt.

#### 6.7.1 Gear implementiran pomoću SystemVerilog-a

Jedan od mogućih načina implementacije Gear komponente je pisanje SystemVerilog opisa pa zatim Python wrapper-a za komponentu.

Prilikom pisanja modula na ovaj način potrebno je pobrinuti se da dobijena komponenta poštuje DTI protokol kao i da je "čist" Gear(6.6).

Prilikom pisanja wrapper-a za ovako implementiranu komponentu potrebno je unapred odrediti ReturnType koji će odgovarati izlaznom interfejsu SystemVerilog modula. Takođe deo za implementaciju Gear-a u Python-u može ostati prazan.

Kako postoji velika verovatnoća unošenja bagova u dizajn prilikom ručnog pisanja modula koji poštuje DTI interfejs i koji je "čist", ovaj način implementacije modula nije preporučen.

## 6.7.2 Gear implementiram kompozicijom

Kako PyGears dolazi sa bibliotekom osnovnih funkcionalnih modula, većina potrebnih funkcionalnosti moguće je ostvariti njihovom kompozicijom.

#### 6.7.3 Gear implementiam Python to HDL kompajlerom

Moguće je i pisati opis gear-a u Python-u pomoću HDL kompajlera.

Kao primer prikazan je serialize gear koji kao ulaz prima niz podataka, a na izlazu daje jedan po jedan podatak ulaznog niza, odnosno serializuje podatke.

Primer 6.2: Primer kompajliranog serialize gear-a

Kao primer možemo uzeti niz **Array**[Uint[4], 3](3, 7, 9) za očekivati je da će se na izlazu pojaviti podaci redom 3, 7 pa 9 što je prikazano na primeru 6.7.



Slika 6.7: Serialize gear primer

# 6.8 Python kao jezik za verifikaciju

Pored alata za pisanje opisa hardvera PyGears pruža mogućnost verifikacije i simulacije. Pomoću interfejsa sa besplatnim Verilator simulatorom i SystemVerilog DPI[20] interfejsom za komercijalne simulatore(Questa[21], NCSim[22]), moguće je pisanje verifikacionog

okruženja u Python-u koje komunicira sa ovim simulatorima.

Ovakvo verifikaciono okruženje ima prednosti u odnosu na SystemVerilog ili VHDL okruženje:

- Python je danas široko rasprostranjen i zajednica ima daleko više korisnika nego SystemVerilog ili VHDL. Kao posledica toga dostupno je mnoštvo paketa sa implementiranim algoritmima za većinu problema, tako da je pisanje referentnih modela značajno olakšano korišćenjem gotovih biblioteka.
- Manipulacija kompleksnih tipova podataka je daleko lakša u Python-u od VHDL-a i SystemVerilog-a, tako da je razvoj okruženja daleko brži.
- Verifikaciono okruženje se ne simulira zajedno sa HDL modelom time se dobijaju bolje performanse verifikacije.



Slika 6.8: Python verifikaciono okruženje sa Verilatorom

# Literatura

- [1] P. A. Viola and M. J. Jones, "Rapid object detection using a boosted cascade of simple features," in *CVPR*, 2001.
- [2] A. Jain, "Computer vision face detection," 2016. [Online]. Available: https://vinsol.com/blog/2016/06/28/computer-vision-face-detection/
- [3] K. Cen, "Study of viola-jones real time face detector," 2016.
- [4] O. Jensen, "Implementing the viola-jones face detection algorithm," 2008.
- [5] M. Weber, "Frontal face dataset," 1999. [Online]. Available: www.vision.caltech.edu/ Image\_Datasets/faces/faces.tar
- [6] Z. Ye, "5kk73 gpu assignment 2012," 2012. [Online]. Available: https://sites.google.com/site/5kk73gpu2012/assignment/viola-jones-face-detection
- [7] OpenCV, "Opencv docs." [Online]. Available: https://docs.opencv.org/3.4.3/d7/d8b/tutorial\_py\_face\_detection.html
- [8] Xilinx, "Xst user guide." [Online]. Available: https://www.xilinx.com/support/documentation/sw\_manuals/xilinx10/books/docs/xst/xst.pdf
- [9] B. Vukobratović, A. Erdeljan, and D. Rakanović, "Pygears: A functional approach to hardwaredesign," 2019. [Online]. Available: https://osda.gitlab.io/19/1.3.pdf
- [10] Xilinx, "Axi reference guide." [Online]. Available: https://www.xilinx.com/support/documentation/ip\_documentation/ug761\_axi\_reference\_guide.pdf
- [11] Intel, "Avalon® interface specifications." [Online]. Available: https://www.intel.com/content/dam/www/programmable/us/en/pdfs/literature/manual/mnl\_avalon\_spec.pdf
- [12] B. Vukobratović, "Pygears." [Online]. Available: www.pygears.org
- [13] P. P. Chu, RTL hardware design using VHDL: coding for efficiency, portability, and scalability. John Wiley & Sons, 2006.
- [14] R. Struharik, "Rt metodologija projektovanja složenih digitalnih sistema." [Online]. Available: https://www.elektronika.ftn.uns.ac.rs/projektovanje-slozenih-digitalnih-sistema/wp-content/uploads/sites/120/2018/03/Predavanje-5-RT-Methodology.pdf
- [15] "Symbiflow." [Online]. Available: https://symbiflow.github.io
- [16] J. Decaluwe, "Myhdl: a python-based hardware description language." *Linux journal*, no. 127, pp. 84–87, 2004.

- [17] J. Bachrach, H. Vo, B. Richards, Y. Lee, A. Waterman, R. Avižienis, J. Wawrzynek, and K. Asanović, "Chisel: constructing hardware in a scala embedded language," in *Design Automation Conference (DAC)*, 2012 49th ACM/EDAC/IEEE. IEEE, 2012, pp. 1212–1221.
- [18] "Spinalhdl," https://github.com/SpinalHDL/SpinalHDL, accessed: 2018-08-12.
- [19] C. Baaij, M. Kooijman, J. Kuper, A. Boeijink, and M. Gerards, "C? ash: Structural descriptions of synchronous hardware using haskell," in *Digital System Design: Architectures, Methods and Tools (DSD), 2010 13th Euromicro Conference on.* IEEE, 2010, pp. 714–721.
- [20] Wikipedia, "Systemverilog dpi wikipedia." [Online]. Available: https://en.wikipedia.org/wiki/SystemVerilog\_DPI
- [21] MentorGraphics, "Questa simulator." [Online]. Available: https://www.mentor.com/products/fv/questa/
- [22] Cadence, "Ncsim simulator." [Online]. Available: https://www.cadence.com/content/cadence-www/global/en\_US/home/tools/system-design-and-verification/simulation-and-testbench-verification/incisive-enterprise-simulator.html