

دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران) دانشکده مهندسی کامپیوتر

گزارش پروژه نهایی درس طراحی سیستمهای قابل بازپیکربندی

## طراحی و شبیهسازی شبکه عصبی CNN با هدف تشخیص ارقام دستنویس بهوسیله HLS

نگارش رضا آدینه پور

استاد درس جناب آقای دکتر صاحبالزمانی

بهمن ۳ ۱۴۰



#### سپاس

از استاد گرانقدر خود، جناب آقای دکتر صاحبالزمانی، به خاطر ارائههای بینظیرشان در طول ترم خالصانه تشکر و قدردانی مینمایم. همچنین از جناب آقای دکتر ملکوتی، تدریسیار محترم درس نیز به دلیل راهنماییهای بینظیر و حمایتهای بیدریغ ایشان در طول این پروژه، صمیمانه تشکر مینمایم. بازخوردها و کمکهای سازنده ایشان نقش بسزایی در شکلگیری این پروژه داشته است.

شبکههای عصبی پیچشی یکی از پرکاربردترین مدلها در حوزه یادگیری عمیق هستند که در بسیاری از کاربردها مانند شناسایی تصاویر و پردازش دادههای بصری مورد استفاده قرار میگیرند. با توجه به نیاز روزافزون به پردازش سریع و بهینه، استفاده از سختافزارهایی مانند FPGA به دلیل قابلیت پردازش موازی و توان مصرفی پایین، گزینهای ایدهآل برای پیادهسازی این شبکهها محسوب می شود.

در این پروژه، هدف پیادهسازی یک شبکه عصبی پیچشی برای شناسایی ارقام دستنویس بر روی FPGA با استفاده از روش سنتز سطحبالا است. فرآیند پیادهسازی شامل دو فاز اصلی بود: در فاز نرمافزاری، شبکه مورد نظر آموزش داده شد و وزنهای آن ذخیره گردید. سپس در فاز سختافزاری، وزنهای ذخیرهشده به FPGA نظر آموزش داده های ورودی به شبکه ارسال شدند. نتایج خروجی به منظور ارزیابی عملکرد و صحت شناسایی پردازش شدند. این پیادهسازی ترکیبی از کارایی بالا و انعطافپذیری FPGA را با قدرت یادگیری عمیق ادغام کرده و امکان بهرهوری بیشتر در کاربردهای عملی را فراهم میکند.

كليدواژهها: شبكههاي عصبي، يادگيري عميق، شبكه عصبي پيچشي، FPGA

# فهرست مطالب

| ١ | مقدمه                                     | ١ |
|---|-------------------------------------------|---|
|   | ۱-۱ تعریف مسئله۱                          | ١ |
|   | ۲-۱ اهمیت پژوهش                           | ۲ |
|   | ۱-۳ اهداف پژوهش                           | ٣ |
|   | ۱-۴ ساختار پژوهش                          | ٣ |
| 1 | مفاهيم اوليه                              | ۴ |
|   | ۱-۲ شبکه عصبی CNN شبکه عصبی               | * |
|   | ۲-۲ اجزای اصلی شبکه CNN                   | ۵ |
|   | ۲-۲-۱ لایه کانولوشن                       | ۵ |
|   | ۲-۲-۲ لایه فعالسازی                       | ۵ |
|   | ۲–۲–۳ لایه تجمیع                          | ۵ |
|   | ۲-۲-۴ لایه تمام متصل                      | ۶ |
|   | ۲-۲-۵ لایه خروجی                          | ۶ |
|   | ۳-۲ نحوه عملکرد شبکه CNN نحوه عملکرد شبکه | ٧ |
|   | ۴-۲ ساختار FPGA ساختار ۴-۲                | ٧ |
|   | ۵-۲ اجزای مهم FPGA اجزای مهم              | ٨ |
|   | ۲-۵-۲ بلوکهای منطقی قابلپیکربندی (CLB)    | ٨ |

| ٨  |   |   |   |   |   |   | • |   |   |   |   |   |   |   |   |   |   |   |   | (]                 | R  | 01  | ıt | in | g  | R   | es  | SO  | ur | ce  | s) | ت            | سالا        | اته | نابع  | من  | ۲    | -۵-  | ۲-  |    |      |   |
|----|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|--------------------|----|-----|----|----|----|-----|-----|-----|----|-----|----|--------------|-------------|-----|-------|-----|------|------|-----|----|------|---|
| ٨  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | ( | $(\mathbf{I}_{l})$ | /( | )   | В  | lo | cl | KS) | ) ر | بُح | و- | اخر | یا | رود          | <u>.</u> ور | های | وک    | بلو | ٣    | -۵-  | -۲  |    |      |   |
| ٩  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     | •   |     |    |     | لی | داخ          | ی د         | ەھا | افظ   | >   | 4    | -۵-  | -۲  |    |      |   |
| ٩  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     | •   |     |    |     | Ι  | DS           | Pζ          | هاي | حد    | وا  | ۵    | -۵-  | -۲  |    |      |   |
| ٩  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | •                  |    |     |    |    |    |     |     |     |    | F   | P  | $\mathbf{G}$ | ی 4         | بند | یکر   | ازپ | ، با | بليت | قاب | ۶  | -۲   |   |
| ٩  |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    | •   |    |              |             |     |       | Н   | L    | ار 5 | ابز | ٧  | ۲-۲  |   |
| ١. |   |   |   |   |   |   |   |   |   |   |   |   | • |   |   |   |   |   |   |                    | X  | Gil | in | ιX | 7  | /it | is  | ; ] | HI | LS  | از | اده          | ستف         | ہ ا | راياء | مز  | ١    | -٧-  | ۲-  |    |      |   |
| ١١ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     | ن     | ازي | بەس  | شب   | ، و | حی | طرا  | ٣ |
| ١١ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| ١١ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| ۱۳ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| ۱۵ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              | رامت        |     |       |     |      |      |     |    |      |   |
| 18 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     | ۲  | _₩   |   |
| 18 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     | '  | ,    |   |
| 17 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
|    |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| ١٨ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| 19 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| 19 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| ۲۰ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| ۲۱ |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     |    |      |   |
| 77 | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | •                  | •  | •   | •  | •  | •  | •   |     | •   |    | •   | •  |              |             |     |       | ل . | مدا  | ت    | تس  | ۴  | ۳-۳  |   |
| 78 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    |    |     |    |    |    |     |     |     |    |     |    |              |             |     |       |     |      |      |     | ج  | نتاي | ۴ |
| 78 |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |                    | •  |     |    |    |    |     |     |     |    |     |    |              |             | ٠ ر | بازي  | نەس | بهي  | ون   | بدو | ١  | -۴   |   |

| ٣١ |   |   |   |   |       |   |   |   |   |   |   |   |   |   |   |   |       |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |     |     |     |     |      |      |     | ع          | إج | مر |
|----|---|---|---|---|-------|---|---|---|---|---|---|---|---|---|---|---|-------|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|-----|-----|-----|-----|------|------|-----|------------|----|----|
| 49 |   |   |   |   |       |   |   |   |   |   |   |   |   |   |   |   |       |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   |   | ٢ | دى  | عبن | بم  | و - | ی ۱  | ئير: | جهگ | نتي        |    | ۵  |
| 77 |   |   |   | • | <br>• | • | • |   |   |   | • |   | • | • |   | • |       | • |   | • | • | • |   | • | • | • | • | • |   |   |   |   | • | • | ل | ئام | ے ک | زی  | ،سا | بينه | به   | ٣   | <b>-</b> ۴ |    |    |
| 77 | • | • | • | • | •     | • | ٠ | • | • | • | • | • | • | • | • | • | <br>• | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | • | •   | •   | بنه | به  | مه   | ني   | ۲   | -۴         |    |    |

# فهرست جداول

| ١٢ | معماریهای بررسی شده              | 1-4 |
|----|----------------------------------|-----|
| ۱۲ | اطلاعات مربوط به معماریهای مختلف | ۲-۳ |
| ۲۸ | اطلاعات مربوط به معماريهاي مختلف | 1-4 |

# فهرست تصاوير

| ١  | • |   | • |   |   | • | • |   | • | • | <br> | • |   | • |   |   |   | • | • | • | <br>    | •  | •  |              | [ ' | ١] ( | ى   | ابنا | لبقا | ه و | سئل  | مد         | 1-1 |
|----|---|---|---|---|---|---|---|---|---|---|------|---|---|---|---|---|---|---|---|---|---------|----|----|--------------|-----|------|-----|------|------|-----|------|------------|-----|
| ۲  | • | • | • | • | • | • |   | • | • | • | <br> | • | • | • | • | • | • | • | • |   | <br>    |    | •  |              | [1  | ، [۲ | ٠ى  | ٥بنا | لبقا | ه ط | سئل  | مـ         | ۲-۱ |
| ۴  |   |   |   |   |   |   |   |   | • |   | <br> |   |   |   |   |   |   |   |   |   | <br>•   | [۲ | ]  | $\mathbf{C}$ | ۱N  | که آ | ىبك | ۽ ش  | یک   | ار  | اخت  | س          | 1-7 |
| ۵  |   |   |   |   |   |   |   |   |   |   | <br> |   |   | • |   |   |   |   | • |   | <br>    |    |    |              | ۴   | ن ا  | ۣۺ  | نولو | کا   | ت   | مليا | ع          | 7-7 |
| ۶  |   |   |   |   |   |   |   |   |   |   | <br> |   |   |   |   |   |   |   |   |   | <br>    |    |    | [۵           | ] F | ≀eI  | ւՄ  | ىاز  | لس   | لعا | بع ف | تاب        | ٣-٢ |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | 4-7 |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | ۵-۲ |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | 8-4 |
| ۱۳ |   |   | • |   | • |   |   |   | • | • | <br> | • |   |   |   | • |   |   |   |   | <br>    |    |    |              |     |      |     | بکه  | شب   | ـی  | مار  | <b>L</b> A | 1-4 |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | ۲-۳ |
| ۱۵ |   |   |   |   |   |   |   |   |   |   | <br> |   |   |   |   |   |   |   |   |   | <br>. 1 | Ac | cu | rae          | cy  | . و  | Lo  | SS   | ی    | رها | ودار | نم         | ٣-٣ |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | 4-4 |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | ۵-۳ |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | ۶-۳ |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | ٧-٣ |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | ۸-۳ |
|    |   |   |   |   |   |   |   |   |   |   |      |   |   |   |   |   |   |   |   |   |         |    |    |              |     |      |     |      |      |     |      |            | 9_4 |

| 1-4        | خروجي سنتز بهينه نشده | <br> | <br> | <br> | <br> | <br> |      |  |   | 48 |  |
|------------|-----------------------|------|------|------|------|------|------|--|---|----|--|
| 7-4        | خروجي سنتز نيمه بهينه | <br> | <br> | <br> | <br> | <br> | <br> |  | • | 77 |  |
| <b>4-4</b> | خروجہ سنت یمینه کامل  | <br> | <br> | <br> | <br> | <br> | <br> |  |   | ۲۸ |  |

## فصل ١

#### مقدمه

## ۱-۱ تعریف مسئله

طبقهبندی این از مسائل اصلی در حوزه یادگیری ماشین است که هدف آن تخصیص ورودی ها به یکی از دسته های از پیش تعریف شده می باشد. شبکه های عصبی پیچشی (CNN) به دلیل توانایی بالای خود در استخراج ویژگی های سلسله مراتبی از داده های خام، در بسیاری از مسائل طبقه بندی، از جمله شناسایی تصاویر عملکرد بسیار خوبی داشته اند. مسئله طبقه بندی ارقام دست نویس به عنوان یک مسئله مرجع، نقش مهمی در نشان دادن توانایی شبکه های عصبی در پردازش داده های بصری دارد و به طور گسترده برای ارزیابی روش ها و مدل های مختلف استفاده می شود.



شكل ١-١: مسئله طبقهبندي [١]

 $<sup>^{1}{\</sup>rm Classification}$ 

<sup>&</sup>lt;sup>2</sup>Machine Learning

<sup>&</sup>lt;sup>3</sup>Convolutional Neural Network

با این حال، اجرای مدلهای CNN در کاربردهای عملی چالشهایی مانند پیچیدگی محاسباتی بالا و نیاز به منابع سختافزاری کارآمد را به همراه دارد. در حالی که GPUها به دلیل توان عملیاتی بالا گزینه ای مناسب برای آموزش و استنتاج مدلها هستند، مصرف انرژی بالا و محدودیتهای آنها در کاربردهای نهفته محیطهایی با منابع محدود، آنها را برای برخی کاربردها نامناسب میسازد. در مقابل، FPGAها با قابلیت پردازش موازی، مصرف انرژی کمتر و قابلیت بازپیکربندی گزینه ای ایده آل برای پیاده سازی مدلهای CNN در کاربردهایی هستند که نیاز به پردازش بی درنگ و بهرهوری بالا دارند.



## ۲-۱ اهمیت یژوهش

پیادهسازی شبکههای عصبی پیچشی بر روی FPGA نه تنها به دلیل چالشهای فنی موجود در ترکیب یادگیری عمیق با سخت افزارهای نهفته اهمیت دارد، بلکه از جنبههای کاربردی نیز تأثیر بسزایی دارد. این پروژه امکان استفاده از مدلهای یادگیری عمیق در محیطهایی با منابع محدود و نیاز به مصرف انرژی کم، مانند دستگاههای IoT، سیستمهای صنعتی بی درنگ و تجهیزات پزشکی قابل حمل  $^{0}$  را فراهم می کند. علاوه بر این، FPGAها به دلیل انعطاف پذیری در طراحی و تطبیق پذیری با کاربردهای متنوع، می توانند بستری مناسب برای توسعه سامانه های هوشمند با کارایی بالا باشند. نتایج این پژوهش می تواند راهگشای کوچکی برای پژوهشگران و

 $<sup>^4</sup>$ Inference

 $<sup>^5</sup>$ Embedded

<sup>&</sup>lt;sup>6</sup>Reconfigurability

<sup>&</sup>lt;sup>7</sup>Real-Time

<sup>&</sup>lt;sup>8</sup>High Performance

<sup>&</sup>lt;sup>9</sup>Portable

مهندسان در کاهش هزینههای طراجی، بهبود سرعت پردازش و افزایش بهرهوری سیستمهای مبتنی بر یادگیری عمیق باشد.

## **۱-۳** اهداف یژوهش

هدف اصلی این پژوهش، شتابدهی سختافزاری فاز استنتاج ۱۰ شبکههای عصبی پیچشی با بهینهسازی مصرف توان و انرژی است. با توجه به نیاز روزافزون به پردازش سریع و کارآمد دادهها در کاربردهای بیدرنگ و نهفته، استفاده از FPGA به عنوان بستری مناسب برای تحقق این هدف در اولویت قرار گرفته است. این پروژه به دنبال دستیابی به معماری سختافزاری است که علاوه بر ارائه سرعت بالا در پردازش، مصرف انرژی را به حداقل برساند و قابلیت پیادهسازی در محیطهای محدود به منابع مانند سیستمهای IoT، دستگاههای قابل حمل و کاربردهای صنعتی را فراهم کند.

## ۱-۲ ساختار پژوهش

این پژوهش در ۴ فصل انجام شده است. در فصل ۱ به مقدمه و اهمیت موضوع پژوهش پرداخته شده است. در فصل ۲ به مفاهیم اولیه و پیشنیاز ها پرداخته شده است. در ادامه در فصل ۳ پژوهش به بررسی معماریهای مختلف و طراحی بهترین معماری با هدف کمینه کردن تاخیر و منابع مصرفی و درنهایت شبیهسازی و تست معماری پرداخته شده است.

<sup>&</sup>lt;sup>10</sup>Inference

# فصل ۲ مفاهیم اولیه

## شبکه عصبی CNN

شبکههای عصبی پیچشی (CNN یا Convolutional Neural Networks) نوعی از شبکههای عصبی مصنوعی هستند که به طور خاص برای پردازش دادههای با ساختار شبکهای مانند تصاویر طراحی شدهاند. این شبکهها به دلیل توانایی بالای خود در شناسایی الگوها و ویژگیها، به طور گسترده در مسائلی مانند طبقهبندی تصاویر ۱ و تشخیص اشیاء ۲ استفاده میشوند. CNNها از معماری سلسلهمراتبی ۳ برای استخراج ویژگیها از دادههای ورودی استفاده میکنند و قادرند ویژگیهای سطح پایین (مانند لبهها) تا ویژگیهای سطح بالا (مانند اشكال پيچيده) را به طور خودكار شناسايي كنند.



<sup>&</sup>lt;sup>1</sup>Image Classification

<sup>&</sup>lt;sup>2</sup>Object Detection

<sup>&</sup>lt;sup>3</sup>Hierarchical

## ۲-۲ اجزای اصلی شبکه CNN

## ۲-۲-۱ لایه کانولوشن

این لایه وظیفه استخراج ویژگیها از دادههای ورودی را بر عهده دارد. در این لایه، یک یا چند فیلتر کوچک بر روی دادههای ورودی حرکت کرده و عملیات کانولوشن را انجام میدهند. نتیجه این عملیات ویژگیهای مکانی می است که اطلاعات مهم را حفظ کرده و دادههای غیرضروری را حذف میکند.



### ۲-۲-۲ لایه فعالسازی

پس از هر لایه کانولوشن، از یک تابع فعالساز عیرخطی (مانند ReLU) استفاده می شود. این تابع باعث می شود مدل بتواند روابط پیچیده و غیرخطی را یاد بگیرد. تابع ReLU معمولاً بیشترین استفاده را دارد و با نگهداشتن مقادیر مثبت و صفر کردن مقادیر منفی، سرعت و کارایی مدل را افزایش می دهد.

## ۲-۲-۳ لایه تجمیع

لایه تجمیع<sup>۸</sup> وظیفه کاهش ابعاد دادهها را دارد تا تعداد پارامترها و پیچیدگی محاسباتی کاهش یابد. معمولاً از روش Max Pooling استفاده میشود، که در آن بزرگترین مقدار در هر ناحیه انتخاب میشود. این فرآیند

 $<sup>^4</sup>$ Kernel

<sup>&</sup>lt;sup>5</sup>Spatial Features

<sup>&</sup>lt;sup>6</sup>Activation Function

<sup>&</sup>lt;sup>7</sup>Rectified Linear Unit

<sup>&</sup>lt;sup>8</sup>Pooling



شكل ٢−٣: تابع فعالساز ReLU [۵]

باعث افزایش مقاومت مدل در برابر تغییرات جزئی در دادههای ورودی (مانند انتقال یا چرخش) میشود.



شكل ۴-۲: لايه Max\_pooling شكل

## ۲-۲-۴ لایه تمام متصل

لایه تمام متصل<sup>۹</sup>، ویژگیهای استخراج شده توسط لایههای قبلی را به صورت یک بردار مسطح درمی آیند و به نرونهای خروجی متصل می شوند. این لایه وظیفه تصمیم گیری نهایی (مانند طبقه بندی) را بر عهده دارد.

## ۲-۲-۵ لایه خروجی

این لایه از یک تابع فعالسازی مانند Softmax یا Sigmoid برای تولید خروجی استفاده میکند. خروجی این لایه معمولاً احتمال تعلق ورودی به هر کلاس در مسئله طبقه بندی است.

<sup>&</sup>lt;sup>9</sup>Fully Connected



## ۲-۲ نحوه عملکرد شبکه CNN

CNNها با دریافت دادههای ورودی (مانند تصاویر)، آنها را از طریق لایههای مختلف عبور داده و ویژگیهای مهم را مرحله به مرحله استخراج میکنند. در هر مرحله، ویژگیها پیچیده تر و خاص تر میشوند. لایههای کانولوشنی ویژگیها را استخراج میکنند، لایههای تجمیع ابعاد دادهها را کاهش میدهند و در نهایت، لایههای تمام متصل و خروجی تصمیمگیری نهایی را انجام میدهند. این معماری به CNNها اجازه میدهد تا در کاربردهایی مانند شناسایی چهره، تشخیص اشیاء و تحلیل تصاویر پزشکی عملکردی بسیار دقیق و مؤثر داشته باشند.

## ۲-۲ ساختار FPGA

۱۰ FPGA یک تراشه سختافزاری قابلبرنامهریزی است که به کاربران اجازه میدهد ساختار داخلی آن را پس از تولید تغییر دهند و برای کاربردهای خاص طراحی کنند. این قابلیت بازپیکربندی ایکی از ویژگیهای کلیدی FPGA است که امکان اجرای مجموعهای از عملکردهای منطقی و موازی را با انعطافپذیری بالا فراهم میکند. FPGA از ساختارهایی شامل بلوکهای منطقی قابلپیکربندی (CLB) ۱۲، منابع اتصالات قابلبرنامهریزی، و منابع ورودی خروجی تشکیل شده اند که با یکدیگر کار میکنند تا مدارهای دلخواه را پیاده سازی کنند.

<sup>&</sup>lt;sup>10</sup>Field-Programmable Gate Array

 $<sup>^{11}</sup>$ Reconfigurable

<sup>&</sup>lt;sup>12</sup>Combinational Logic Block

## ۲-۵ اجزای مهم FPGA

## (CLB) بلوکهای منطقی قابلپیکربندی (LB) بلوکهای منطقی قابلپیکربندی

این بلوکها هسته اصلی FPGA هستند و از ترکیب LUT، فلیپفلاپها، و عناصر منطقی تشکیل شدهاند. LUTها امکان پیادهسازی توابع منطقی را فراهم میکنند و فلیپفلاپها برای ذخیره مقادیر استفاده میشوند. با استفاده از CLBها، میتوان انواع گیتهای منطقی و توابع پیچیدهتر را پیادهسازی کرد.



## (Routing Resources) منابع اتصالات ۲-۵-۲

FPGA دارای شبکهای از مسیرهای قابلبرنامهریزی است که بلوکهای منطقی را به یکدیگر و به پورتهای ورودی/خروجی متصل میکند. این منابع شامل سوئیچها و ماتریسهای اتصالات است که امکان تنظیم مسیرهای داده در FPGA را فراهم میکنند.

## (I/O Blocks) بلوکهای ورودی/خروجی $-\Delta-\Upsilon$

این بلوکها مسئول ارتباط FPGA با دنیای خارجی هستند و امکان تبادل داده با سایر دستگاهها را فراهم میکنند. I/Oها برای پشتیبانی از پروتکلهای مختلف ارتباطی قابلپیکربندی هستند.

## ۲-۵-۲ حافظههای داخلی

FPGAها شامل حافظههایی مانند RAM بلوکی۱۳ و حافظههای توزیعشده۱۴ هستند که برای ذخیره دادهها و متغیرها در طول اجرای عملیات استفاده میشوند.

#### DSP واحدهاي DSP

اکثر FPGAهای مدرن دارای واحدهای پردازش سیگنال دیجیتال ۱۵ هستند که برای عملیات ریاضی پیچیده مانند ضرب و جمع بهینه سازی شده اند. این واحدها نقش مهمی در کاربردهایی مانند پردازش سیگنال و یادگیری عمیق ایفا میکنند.

## **FPGA** قابلیت بازییکربندی **FPGA**

FPGAها به کاربران اجازه می دهند مدار داخلی خود را با استفاده از ابزارهای سنتز سخت افزاری مانند Verilog، یا HLS یا HLS تغییر دهند. این قابلیت به معنای انعطاف پذیری بالا برای تغییر یا بهبود طراحی است، حتی پس از ساخت سخت افزار. علاوه بر این، برخی از FPGAها از بازپیکربندی پویا ۱۶ پشتیبانی می کنند که امکان تغییر بخشی از طراحی را در زمان اجرا بدون اختلال در عملکرد سایر بخشها فراهم می کند.

## ۲-۷ ابزار HLS

را میدهد تا کدهای نرمافزاری نوشته شده در زبانهای سطح بالا مانند C++، یا OpenCL را به سختافزار را میدهد تا کدهای نرمافزاری نوشته شده در زبانهای سطح بالا مانند C++ یا OpenCL را به سختافزار FPGA تبدیل کنند. هدف اصلی این ابزار تسهیل فرآیند طراحی سختافزار است، بهگونهای که توسعهدهندگان نیازی به درک عمیق از جزئیات معماری FPGA نداشته باشند. با استفاده از Vitis HLS، طراحیهای سختافزاری به طور خودکار از کدهای سطح بالا استخراج شده و به طراحیهای ۱۷۲۲ که قابلسنتز در FPGA هستند، تبدیل می شوند.

 $<sup>^{13}</sup>$ BRAM

<sup>&</sup>lt;sup>14</sup>Distributed RAM

<sup>15</sup>DSP

<sup>&</sup>lt;sup>16</sup>Dynamic Reconfiguration

<sup>&</sup>lt;sup>17</sup>Register-Transfer Level

#### ۱-۷-۲ مزایای استفاده از Xilinx Vitis HLS

- کاهش زمان توسعه استفاده از زبانهای سطح بالا برای نوشتن کد، به طراحان این امکان را میدهد که زمان بیشتری برای الگوریتمها و منطق طراحی صرف کنند و بهجای پرداختن به جزئیات معماری FPGA، تمرکز بیشتری بر روی ویژگیهای عملکردی داشته باشند.
- ارتقاء عملکرد ابزار Vitis HLS این امکان را فراهم میکند که طراحیهای سختافزاری بهینهسازی شوند، بهویژه در زمینههایی مانند پردازش موازی، سرعت بالا و کارایی انرژی.
- سادگی پیادهسازی بدون نیاز به دانش تخصصی در زمینه زبانهای سختافزاری مانند VHDL یا VHDL یا OpenCL برای ایجاد مدارهای پیچیده استفاده Verilog مهندسان میتوانند به راحتی از++C/C یا کنند.

# فصل ۳

# طراحی و شبیهسازی

هدف در این پروژه پیاده سازی یک شبکه CNN بر روی FPGA با استفاده از ابزار HLS با هدف تشخیص ارقام دست نویس است. بدین منظور پروژه را به دو فاز تقسیم میکنیم:

- ۱. فاز نرمافزاری
- ۲. فاز سختافزاری

که در ادامه هر یک از بخشهای پروژه را با جزئیات توضیح میدهیم.

## ۳-۱ فاز نرمافزاری

## ۳-۱-۳ انتخاب معماری

در ابتدا میبایست بهترین معماری را برای شبکه خود انتخاب کنیم. معیارهایی که در انتخاب معماری به آن توجه شده است بهصورت زیر میباشد:

- دقت شبکه
- خطا۲ شبکه
- حجم پارامترهای ذخیره شده

<sup>&</sup>lt;sup>1</sup>Accuracy

 $<sup>^2</sup>$ Loss

در صورت پروژه بیان شده است که دقت آموزش شبکه میبایست بالای ۹۰ درصد باشد. همچنین به دلیل آنکه قرار است پارامترهای آموزش دیده را در فاز دوم به HLS ببریم و در آنجا بارگزاری کنیم یکی از مواردی که بسیار برای ما اهمیت دارد حجم پارامتر های ذخیره شده در مدل است. بنابر این با توجه به این سه معیار مطرح شده مدل های مختلفی را تست کرده ایم که در جدول زیر آورده شده است.

جدول ۳-۱: معماریهای بررسی شده

| Fully Connected تعداد لايههاي | تابع فعالساز | Stride | اندازه كرنل | تعداد فيلترها | تعداد لايههاي كانولوشن | Max Pooling لايه | Zero Pading لايه | معماري   |
|-------------------------------|--------------|--------|-------------|---------------|------------------------|------------------|------------------|----------|
| (١٢٨ ،۶۴ ،۶۴ ،١٠) ۴           | ReLU         | ١      | ۳x۳         | ٨             | ١                      | خير              | بله              | معماری ۱ |
| ۳ (۱۰، ۶۴، ۱۲۸)               | ReLU         | ١      | ٣x٣         | ٨             | ١                      | خير              | بله              | معماري ۲ |
| ۲ (۱۰ ۱۲۸)                    | ReLU         | ١      | ۳x۳         | ٨             | ١                      | خير              | بله              | معماري ٣ |
| (10) 1                        | ReLU         | ١      | ٣x٣         | ٨             | 1                      | خير              | بله              | معماري ۴ |
| (10) 1                        | ReLU         | ١      | ٧x٧         | ۴             | 1                      | بله              | بله              | معماري ۵ |

بهازای تمامی معماری های جدول ۳-۱ یک بار شبکه آموزش داده شده است و تعداد پارامترهای مدل و حجم آنها بهصورت زیر گزارش میشود:

جدول ۳-۲: اطلاعات مربوط به معماریهای مختلف

| دقت دادههای تست   | دقت دادههای آموزش | حجم مصرفي          | تعداد كل پارامترها      | معماري   |
|-------------------|-------------------|--------------------|-------------------------|----------|
| ·/٩ <b>٧٧</b> ۶   | ·/997 <i>۶</i>    | <b>7</b> MB        | 94444                   | معماري ١ |
| ·/ <b>۹ V</b> ۶ · | °/9969            | ۳/۵۵ MB            | 940114                  | معماري ۲ |
| ·/٩٨·٨            | °/99V°            | ۳٬۵۲ MB            | ٩٢٣٠٩٨                  | معماري ٣ |
| ۰/۹ <b>۷</b> ۵۹   | ۰/۹۸۵۲            | ۲۸ <i>۱/۶</i> ۰ KB | <b>٧</b> ٢ • <b>9</b> • | معماري ۴ |
| ∘/٩ <b>٧</b> ۵٨   | °/9 <b>YY</b> 9   | ۳۱.۴۵ KB           | ۸۰۵۰                    | معماري ۵ |

بنابر این طبق نتایج به دست آمده، معماری شماره ۵ را به عنوان معماری برگزیده انتخاب می کنیم. معماری نهایی شبکه به صورت زیر ارائه می شود:



۳-۱-۳ آموزش شبکه

پس از انتخاب معماری شبکه، نوبت به آموزش شبکه میرسد. بهصورت نرم افزاری شبکه مورد نظر را تعریف کرده و آن را با دادههای مجموعه داده MNIST آموزش میدهیم تا از وزنهای آن در فاز سخت افزاری استفاده کنیم.

کد نوشته شده برای پیاده سازی شبکه بهصورت زیر است:

#### Source Code 3-1: Model Definition

```
2 def define_model() -> Sequential:
      # Define model.
3
      model = Sequential()
4
      model.add(ZeroPadding2D(padding=pad, input_shape=(input_size[0],
          input_size[1], 1), name="padding_layer"))
      model.add(Conv2D(conv_filter_num, conv_kernel_size, activation="relu",
          padding="valid", kernel_initializer="he_uniform",
          input_shape=(30, 30, 1), name="convolution_layer"))
g
      model.add(MaxPooling2D(pool_size, name="max_pooling_layer"))
10
      model.add(Flatten(name="flatten_layer"))
11
      model.add(Dense(10, activation="softmax", name="dense_layer"))
12
      # Compile model.
14
      model.Compile(optimizer=Adam(), loss="categorical_crossentropy",
          metrics=["accuracy"])
      # Return model.
      return model
19
20
```

با كامپايل كردن مدل نوشته شده خروجي شبكه تعريف شده بهصورت زير ميشود:

| Layer (type)                             | Output Shape      | Param # |  |  |  |  |  |  |  |  |  |  |
|------------------------------------------|-------------------|---------|--|--|--|--|--|--|--|--|--|--|
| <pre>padding_layer (ZeroPadding2D)</pre> | (None, 34, 34, 1) | 0       |  |  |  |  |  |  |  |  |  |  |
| convolution_layer (Conv2D)               | (None, 28, 28, 4) | 200     |  |  |  |  |  |  |  |  |  |  |
| max_pooling_layer<br>(MaxPooling2D)      | (None, 14, 14, 4) | 0       |  |  |  |  |  |  |  |  |  |  |
| flatten_layer (Flatten) (None, 784) 0    |                   |         |  |  |  |  |  |  |  |  |  |  |
| dense_layer (Dense)                      | (None, 10)        | 7,850   |  |  |  |  |  |  |  |  |  |  |
|                                          |                   |         |  |  |  |  |  |  |  |  |  |  |

شكل ٣-٢: ساختار شبكه تعريف شده

پس از تعریف ساختار شبکه، شبکه را با استفاده از دیتاست MNIST در Epoch ۵ آموزش میدهیم. که نمودار Sost استفاده از دیتاست Validation و Accuracy و Loss بهصورت شکل (۳-۳») بهدست می آید:

دقت شبکه بر روی دادههای آموزش و تست به ترتیب ۸۷۷۹° و ۸۷۵۸° بهدست آمده است.

همچنین زمان انجام فاز Inference نرمافزاری برای ۱۰۰ داده از مجموعه داده Inference نرمافزاری برای



شکل ۳-۳: نمودارهای Loss و Accuracy

میلی ثانیه بهدست آمده است.

## ۳-۱-۳ ذخیره پارامترها

در نهایت تمامی وزنها و پارامترهای مورد نیاز شبکه برای فاز سختافزاری را در ۳ فایل با نامهای:

- conv\_weights.h
- dense\_weights.h
- definitions.h

ذخیره میکنیم. فایل conv\_weights.h شامل وزنهای به دست آمده از لایه های کانولوشن، فایل conv\_weights.h ذخیره میکنیم. نیز شامل وزنهای لایه Fully Connected و فایل definitions.h شامل برخی از ضرایب ثابت مورد استفاده در فاز سخت افزاری است.

in.dat شامی دادههای تست MNIST شامل تصاویر و Label های مربوط به آن را در دو فایل MNIST در ادامه تمامی دادههای در فایل gen\_data.ipynb شده است.

## ۳-۲ فاز سختافزاری

در این فاز نیاز است کد های همه لایهها را بهصورت سختافزاری در HLS نوشته و با همان معماری فاز نرمافزاری پیادهسازی کنیم.

#### Fix-Point ۱-۲-۳ کردن دادهها

قبل از هرچیزی نیاز است وزنهای Floating-Point ذخیره شده از فاز نرمافزاری را کاهش منابع مصرفی، به fixed.h نوع داده ap\_fixed.h موجود در کتابخانه ap\_fixed.h استفاده میکنیم.

این نوع داده بهصورت زیر استفاده میشود:

ap\_fixed<WL, IWL>

که:

- WL تعداد كل بيتها (كل عرض داده).
- IWL تعداد بیتهای بخش صحیح داده.

به عنوان مثال ميتوان نوشت:

ap\_fixed<16, 8> my\_number;

- 16: طول كل بيتها (بخش صحيح + اعشارى).
  - 8: تعداد بیتهای بخش صحیح.

## ۲-۲-۳ لایه کانولوشن

برای مثال کد لایه کانولوشن به صورت زیر نوشته شده است:

#### Source Code 3-2: HLS Implementation of Convolution Layer

```
void convolution( float pad_img [PAD_IMG_ROWS][PAD_IMG_COLS],
                      int filter,
3
                      hls::stream<float> & conv_to_pool_stream )
4
5 {
      float w_sum = 0.0; // Weighted sum.
6
      // outer loops (r and c) loop over all pooling regions
8
      conv_for_rows: for(int r = 0; r < IMG_ROWS; r += POOL_ROWS)</pre>
9
10
           conv_for_cols: for(int c = 0; c < IMG_COLS; c += POOL_COLS)</pre>
11
12
               // middle loops (pr and pc) loop over all pixels
13
               // in selected pooling region
14
               pool_for_rows: for(int pr = 0; pr < POOL_ROWS; ++pr)</pre>
15
16
                    pool_for_cols: for(int pc = 0; pc < POOL_COLS; ++pc)</pre>
17
18
                        w_sum = 0.0;
19
20
                        // inner loops (kr and kc) loop over all filter
21
      coefficients
                        // applied to neighborhood of selected pixel
22
                        krn_for_rows: for(int kr = 0; kr < KRN_ROWS; ++kr)</pre>
23
24
                             krn_for_cols: for(int kc = 0; kc < KRN_COLS; ++kc)</pre>
25
26
                                             = conv_weights[filter][kr][kc];
27
                                 float w
                                 float pixel = pad_img[r+pr+kr][c+pc+kc];
28
                                 w_sum += w * pixel;
29
                            }
30
                        }
31
32
                        conv_to_pool_stream.write(relu(w_sum + conv_biases[
      filter]));
                    }
34
               }
35
           }
36
      }
37
38 }
```

در این طراحی، کانولوشن چند کاناله را بهصورت چند لایه کانولوشن تک کاناله پیاده سازی کردهایم. در فاز نرم افزاری یک لایه کانولوشن ۴ کاناله داشتیم اما برای راحتی پیاده سازی، در فاز سختافزاری، آن را به ۴ لایه کانولوشن تک کاناله شکسته ایم و آن را بهصورت زیر پیادهسازی کردهایم:

#### Source Code 3-3: HLS Implementation of Convolution Layers

```
void convolutional_layer(float pad_img0 [PAD_IMG_ROWS][
PAD_IMG_COLS],
```

```
float pad_img1 [PAD_IMG_ROWS][PAD_IMG_COLS],
float pad_img2 [PAD_IMG_ROWS][PAD_IMG_COLS],
float pad_img3 [PAD_IMG_ROWS][PAD_IMG_COLS],
hls::stream<float> conv_to_pool_streams [FILTERS])

convolution(pad_img0, 0, conv_to_pool_streams[0]);
convolution(pad_img1, 1, conv_to_pool_streams[1]);
convolution(pad_img2, 2, conv_to_pool_streams[2]);
convolution(pad_img3, 3, conv_to_pool_streams[3]);
}
```

#### Fully Connected 44 7-7-7

كد لايه Fully Connected نيز بهصورت زير نوشته شده است:

#### Source Code 3-4: HLS Implementation of Dense Layer

```
void dense( hls::stream<float> & flat_to_dense_stream,
3
               int filter,
               hls::stream<float> & dense_to_softmax_stream )
5 {
      float flat_value;
      float dense_array[DENSE_SIZE] = { 0 };
      #pragma HLS ARRAY_PARTITION variable=dense_array complete
10
      #pragma HLS PIPELINE II=1
11
12
      dense_for_flat: for(int i = 0; i < FLAT_SIZE / FILTERS; ++i)</pre>
13
14
           flat_value = flat_to_dense_stream.read();
15
16
           for(int d = 0; d < DENSE_SIZE; ++d)</pre>
17
18
               int index = filter * (FLAT_SIZE / FILTERS) + i;
19
               dense_array[d] += dense_weights[index][d] * flat_value;
20
           }
21
      }
22
23
      for(int j = 0; j < DENSE_SIZE; ++j)</pre>
24
25
           dense_to_softmax_stream.write(dense_array[j]);
26
      }
^{27}
28 }
```

#### Flatten لايه ۴-۲-۳

همچنین برای Flat کردن Feature Map های بهدست آمده از خروجی لایههای کانولوشنی، ماژولی بهنام flattening بهصورت زیر تعریف شده است:

#### Source Code 3-5: HLS Implementation of Flatten Layers

```
4 {
     #pragma HLS ARRAY_PARTITION variable=pool_to_flat_stream complete
6
     #pragma HLS ARRAY_PARTITION variable=flat_to_dense_stream complete
     flat_for_rows: for(int r = 0; r < POOL_IMG_ROWS; ++r)</pre>
9
10
         flat_for_cols: for(int c = 0; c < POOL_IMG_COLS; ++c)</pre>
11
12
            #pragma HLS UNROLL
13
14
            flat_to_dense_stream.write(pool_to_flat_stream.read());
15
         }
16
     }
17
18 }
```

## ۲−۲-۳ ماژول اصلی (Top Module)

تاپ ماژول طراحی بهنام CNN بهصورت زیر تعریف شده است:

#### Source Code 3-6: HLS Implementation of CNN Top Module

```
void cnn(float img_in[IMG_ROWS][IMG_COLS], float prediction[DIGITS])
3 {
      /***** Pre-processing data. ******/
4
5
      float pad_img0[PAD_IMG_ROWS][PAD_IMG_COLS] = { 0 };
6
      normalization_and_padding(img_in, pad_img0);
      #if 0
9
          #ifndef __SYNTHESIS__
10
               printf("Padded image.\n");
11
               print_pad_img(pad_img);
12
          #endif
13
      #endif
14
15
      /* Allow parallelism cloning the padded image. */
16
      float pad_img1[PAD_IMG_ROWS][PAD_IMG_COLS];
17
      float pad_img2[PAD_IMG_ROWS][PAD_IMG_COLS];
      float pad_img3[PAD_IMG_ROWS][PAD_IMG_COLS];
19
20
      float value;
21
      clone_for_rows: for(int i = 0; i < PAD_IMG_ROWS; ++i)</pre>
23
          clone_for_cols: for(int j = 0; j < PAD_IMG_COLS; ++j)</pre>
25
26
               pad_img1[i][j] = pad_img0[i][j];
27
               pad_img2[i][j] = pad_img0[i][j];
28
               pad_img3[i][j] = pad_img0[i][j];
29
          }
30
      }
31
32
33
      /* Parallel executions start here. */
34
      dataflow_section(pad_img0, pad_img1, pad_img2, pad_img3, prediction);
35
36 }
```

#### **P-Y-۳** ماژول **Data Flow**

برای مشخص کردن جریان انجام محاسبات در Top Module، ماژولی بهنام dataflow\_section تعریف شده است که کد آن به صورت زیر ارائه می شود:

#### Source Code 3-7: HLS Implementation of Data flow Module

```
/*
10
      An array to collect the convolution results:
11
      FILTERS resulting feature maps, one for each filter.
13
14
      hls::stream<float, IMG_ROWS * IMG_COLS>
15
      conv_to_pool_streams[FILTERS];
16
17
      // Convolution with relu as activation function.
18
      convolutional_layer(pad_img0, pad_img1, pad_img2, pad_img3,
19
     conv_to_pool_streams);
20
      #if 0
21
      #ifndef __SYNTHESIS__
22
      // Print results.
23
      print_features(conv_to_pool_streams);
24
      #endif
25
      #endif
26
27
      /***** Maxpooling layer. ******/
      hls::stream<float, POOL_IMG_ROWS * POOL_IMG_COLS>
      pool_to_flat_streams[FILTERS];
30
31
      max_pooling_layer(conv_to_pool_streams, pool_to_flat_streams);
32
      #if 0
      #ifndef __SYNTHESIS__
      print_pool_features(pool_to_flat_streams);
      #endif
      #endif
      /***** Flatten layer. ******/
      hls::stream<float, FLAT_SIZE / FILTERS> flat_to_dense_streams[FILTERS
41
      flattening_layer(pool_to_flat_streams, flat_to_dense_streams);
42
      /***** Dense layer. ******/
      hls::stream<float, DENSE SIZE> dense to softmax streams [FILTERS];
      dense_layer(flat_to_dense_streams, dense_to_softmax_streams);
46
      /****** Softmax. ******/
      dense layer soft max(dense to softmax streams, prediction);
50 }
```

ماژولهای دیگری برای انجام عملیاتهایی مانند Normalization ،Pooling ،Zero Padding و ... تعریف شده است که به علت طولانی نشدن گزارش آورده نشده است.

## ۳-۳ سنتز مدل

درنهایت ماژول CNN را سنتز میکنیم. گزارشات سنتز شبکه در شکلهای « $\Upsilon$ - $\Upsilon$ » و « $\Upsilon$ - $\Delta$ » و « $\Upsilon$ - $\Delta$ » آورده شده است.



شکل ۳-۴: منابع مصرفی پساز سنتز (الف)



شکل ۳-۵: منابع مصرفی پساز سنتز (ب)

## ۳-۳ تست مدل

درنهایت فایل test bench ای برای طراحی نوشته شده است که ۱۰۰ تصویر ابتدایی را از فایل تصاویر تولید شده در فاز قبل را بخواند و برای پردازش به شبکه بدهد. و خروجی شبکه میزان دقت تشخیص اعداد و زمان مصرف شده به ازای تمام فرایند می باشد.

برای مثال، شبکه ما ۱۰۰ تصویر ابتدایی از مجموعه دادههای تست دیتاست MNIST را با دقت ۱۰۰٪ تشخیص میدهد «شکل ۲-۷»:

شبکه ما فاز Inference را به ازای ۱۰۰ تصویر در ۴/۴۵ میلیثانیه انجام داده است. درصورتی که در فاز نرم افزاری همین تعداد تصویر در مدت زمان ۳۹/۹۷ میلیثانیه انجام شده است.



شکل ۳-۶: منابع مصرفی پساز سنتز (ج)



شکل ۲-۳: Accuracy پیشبینی بهازای ۱۰۰ تصویر

هرچه تعداد تصاویر را زیاد کنیم دقت شبکه کم میشود. برای مثال به ازای ۵۰۰ تصویر دقت تشخیص شبکه ۹۹ درصد بهدست می آید.



شکل Accuracy :۸-۳ پیشبینی بهازای ۵۰۰ تصویر

#### در این حالت شبکه ۵ تصویر زیر را به اشتباه تشخیص داده است:



شکل ۳-۹: تشخیصهای اشتباه شبکه مقادیری که شبکه برای هر خروجی اشتباه بهدست آورده است نیز بهصورت زیر ارائه می شود:

Prediction for C: Prediction for B: Prediction for A:

2: 0.000006 2: 0.078408 2: 0.000000

3: 0.000007 3: 0.048098 3: 0.806685

5: 0.002049 5: 0.000003 5: 0.037086

6: 0.006413 6: 0.000000 6: 0.000001

8: 0.047987 8: 0.271232 8: 0.003560

9: 0.016075 9: 0.006006 9: 0.150075

#### Prediction for E: Prediction for D:

0: 0.000000 0: 0.000006

1: 0.000000 1: 0.005681

2: 0.137538 2: 0.000050

4: 0.000000 4: 0.000271

5: 0.000000 5: 0.037680

6: 0.000000 6: 0.000232

7: 0.000023 7: 0.000000

9: 0.000001 9: 0.000077

# نصل ۴

# نتايج

در این فصل به بررسی نتایج به دست آمده از سنتزهای مختلف می پردازیم. مدل توضیح داده شده در فصل قبل را در سه حالت مختلف سنتز کرده و خروجی به دست آمده را از نظر تاخیر و منابع مصرفی با هم مقایسه می کنیم.

## ۱-۴ بدون بهینهسازی

در این قسمت از هیچ Pragmaای برای بهینهسازی کد استفاده نشده است. منابع مصرفی و تاخیر ها برای این حالت به صورت شکل «۲-۱» گزارش می شود.



شكل ۴-۱: خروجي سنتز بهينه نشده

در این حالت تاخیر در بدترین (بیشترین) حالت نسبت به دوحالت دیگر قرار دارد اما منابع مصرفی (LUT) ها، و Flip Flop ها و ... در کمترین مقدار خود قرار دارند.

## ۲-۴ نیمه بهینه

در این حالت صرفا با استفاده از دو پراگما:

- 1. #pragma HLS PIPELINE
- 2. #pragma HLS UNROLL

حلقهها را Unrollمیکنیم و ساختاری Pipeline طور در محاسبات حلقهها ایجاد کنیم. در این حالت، میزان منابع مصرفی نسبت به حالت قبل، افزایش داشته است اما تاخیر کلی مدار کاهش چشمگیری پیدا کرده است. خروجی این حالت بهصورت شکل «۲-۲» گزارش می شود.



شكل ۴-۲: خروجي سنتز نيمه بهينه

## ۳-۴ بهینهسازی کامل

درنهایت در آخرین گام بهینهسازی، پراگماهای دیگری مثل:

- 1. #pragma HLS ARRAY\_PARTITION variable=X complete
- 2. #pragma HLS ARRAY\_PARTITION variable=X block factor=4 dim=1

را به طراحی اضافه میکنیم تا با شکستن ورودی ماژولهای مختلف (که عمدتا ماتریسهای بزرگی هستند) با اجزاء کوچکتر، سریعتر محاسبات را انجام دهند اما با انجام این کار بهصورت حسی نیز افزایش منابع مصرفی توجیح می شود. خروجی های ارائه شده در شکل «۲-۳» این حرف را تایید میکند. منابع مصرفی به ضدت افزایش پیدا کرده است. و در مقابل آن تاخیر نه تنها بهتر نشده است، بلکه مقدار بسیار کمی افزایش یافته است.

این پدیده را اینطور میتوان توجیح نمود که ابزار سنتز درتلاش برای سنتز مدار و Schedule کردن مدار تولیدی بوده است اما بهدلیل منابع محدود در این مدل FPGA انتخاب شده ابزار نتوانسته است به درستی فرآیند سنتز، جایابی و مسیریابی را بهدرستی انجام دهد؛ بنابراین تاخیر کمی نسبت به حالت قبل زیاد شده است.



شكل ۴-۳: خروجي سنتز بهينه كامل

توضیحات این سه قسمت در جدول زیر خلاصه میشود:

جدول ۴-۱: اطلاعات مربوط به معماری های مختلف

| ميزان افزايش منابع | مبزان بهبود تاخير | تعداد LUT                                                                                                                                                                                                                                                                                                                      | تاخير (ns) | مدل            |
|--------------------|-------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------|----------------|
| _                  | _                 | <b>Y9 Y9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y 9 Y Y 9 Y Y Y Y Y Y Y Y Y Y</b> | ۴,۶۵۰      | بدون بهینهسازی |
| \/° 8 %            | Y/° Y %           | 74111                                                                                                                                                                                                                                                                                                                          | ۲٫۲۰۰      | نيمه بهينه     |
| ۵٫۷۱ ٪             | 1/97 %            | 424.41                                                                                                                                                                                                                                                                                                                         | 7,7790     | بهينه كامل     |

ذکر این نکته الزامی است که؛ واژه بهینه کامل و نیمه بهینه از بابت مصرف pragma ها استفاده شده است و نه از بابت خروجی منابع مصرفی و تاخیر. با توجه به گزارشات به دست آمده، مدل نیمه بهینه عملکرد بهتری را از دو مدل دیگر هم از نظر تاخیر و هم از نظر منابع مصرفی داشته است.

<sup>&</sup>lt;sup>1</sup>Resource

ای با پارتنامبر xc7z010-c1g400-1 ای با پارتنامبر xc7z010-c1g400-1 استفاده شده است.

<sup>&</sup>lt;sup>3</sup>Placement

<sup>&</sup>lt;sup>4</sup>Routing

# فصل ۵

# نتیجهگیری و جمع بندی

این پژوهش به بررسی و پیادهسازی شبکههای عصبی CNN بر روی سختافزار FPGA با هدف بهبود سرعت پردازش و کاهش مصرف انرژی در فاز استنتاج پرداخته است. شبکههای عصبی پیچشی به دلیل توانایی بالا در استخراج ویژگیهای سلسلهمراتبی از دادههای خام، بهویژه در مسائل طبقهبندی تصاویر، عملکرد بسیار خوبی دارند. با این حال، اجرای این مدلها در کاربردهای عملی با چالشهایی مانند پیچیدگی محاسباتی بالا و نیاز به منابع سختافزاری کارآمد مواجه است. در این راستا، FPGAها به دلیل قابلیت پردازش موازی، مصرف انرژی کمتر و انعطافپذیری در طراحی، گزینهای ایدهآل برای پیادهسازی مدلهای CNN در کاربردهای بیدرنگ و محیطهای با منابع محدود محسوب میشوند.

در این پژوهش، ابتدا معماری مناسب برای شبکه عصبی پیچشی با توجه به معیارهای دقت، خطا و حجم پارامترها انتخاب شد. سپس، مدل انتخاب شده با استفاده از مجموعه داده MNIST آموزش داده شد و پارامترهای آن برای پیاده سازی سخت افزاری ذخیره گردید. در فاز سخت افزاری، کدهای مربوط به لایههای مختلف شبکه (مانند کانولوشن، Pooling، Pooling و Connected Fully به زبان C نوشته شده و با استفاده از ابزار HLS بر روی FPGA پیاده سازی شدند. در نهایت، مدل سنتز شده و عملکرد آن از نظر تاخیر و منابع مصرفی مورد ارزیابی قرار گرفت.

نتایج نشان داد که استفاده از تکنیکهای بهینهسازی مانند Pipeline و Unroll میتواند به طور چشمگیری تاخیر پردازش را کاهش دهد، هرچند که این بهبود با افزایش منابع مصرفی همراه است. در این پژوهش، مدل نیمه بهینه که از ترکیب این تکنیکها استفاده کرده بود، بهترین عملکرد را از نظر تعادل بین تاخیر و منابع مصرفی ارائه داد. این مدل توانست فاز استنتاج را برای ۱۰۰ تصویر در مدت زمان ۴/۴۵ میلی ثانیه انجام دهد، در حالی که همین فرآیند در فاز نرمافزاری ۳۹/۹۷ میلی ثانیه طول کشید. همچنین، دقت شبکه در تشخیص ارقام دستنویس به ۱۰۰٪ برای ۱۰۰ تصویر اول و ۹۹٪ برای ۵۰۰ تصویر رسید.

در مجموع، این پژوهش نشان داد که پیادهسازی شبکههای عصبی پیچشی بر روی FPGA میتواند به عنوان یک راه حل کارآمد برای کاربردهای بی درنگ و محیطهای با منابع محدود مورد استفاده قرار گیرد. با این حال، انتخاب استراتژیهای بهینهسازی مناسب و تعادل بین تاخیر و منابع مصرفی از جمله چالشهای اصلی در این زمینه است که نیاز به بررسیهای بیشتر دارد. نتایج این پژوهش میتواند به عنوان پایهای برای توسعه سیستمهای هوشمند با کارایی بالا و مصرف انرژی کم در آینده مورد استفاده قرار گیرد.

## **Bibliography**

- [1] A. Vidhya. Beginner-friendly project: Cat and dog classification using cnn, 2021. Accessed: 2025-01-23.
- [2] InAccel. Gpus vs fpgas: Which one is better in dl and data centers applications?, 2020. Accessed: 2025-01-23.
- [3] W. contributors. Convolutional neural network. https://en.wikipedia.org/wiki/Convolutional\_neural\_network, 2025. Accessed: 2025-01-23.
- [4] IndoML. Student notes: Convolutional neural networks (cnn) introduction, 2018. Accessed: 2025-01-23.
- [5] SuperDataScience. Convolutional neural networks (cnn) step 1b: Relu layer, n.d. Accessed: 2025-01-23.
- [6] P. with Code. Max pooling, n.d. Accessed: 2025-01-23.
- [7] A. I. Aramendia. Convolutional neural networks (cnns): A complete guide, n.d. Accessed: 2025-01-23.

#### Abstract

Convolutional Neural Networks (CNNs) are among the most widely used models in the field of deep learning, particularly in applications such as image recognition and visual data processing. Given the growing demand for fast and efficient processing, hardware platforms like FPGA have become an ideal choice for implementing these networks due to their parallel processing capabilities and low power consumption.

In this project, the goal was to implement a Convolutional Neural Network for handwritten digit recognition on an FPGA using High-Level Synthesis (HLS). The implementation process consisted of two main phases: In the software phase, the network was trained, and its weights were stored. In the hardware phase, the stored weights were transferred to the FPGA, and the input data was fed into the network. The outputs were then processed to evaluate the performance and accuracy of recognition. This implementation combines the high efficiency and flexibility of FPGA with the power of deep learning, enabling enhanced productivity in practical applications.

Keywords: Neural Networks, Deep Learning, CNN, FPGA



Amirkabir University of Technology (Tehran Polytechnic)

Department of Computer Engineering

Reconfigurable Systems Design Final Project Report

## Design and Simulation of CNN Neural Network for Hand Written Digit Recognition Using HLS

By:

Reza Adinepour

Supervisor:

Prof. Saheb Zamani

Jan 2025