# طراحی سیستمهای قابل بازپیکربندی دکتر صاحبالزمانی



دانشگاه صنعتی امیر کبیر ( پلی تکنیک تهران ) دانشکده مهندسی کامپیوتر

رضا آدینه پور ۴۰۲۱۳۱۰۵۵

تمرین سری چهارم

۲۶ آذر ۱۴۰۳

# طراحی سیستمهای قابل بازپیکربندی



نمرین سری چهارم

رضا آدینه پور ۴۰۲۱۳۱۰۵۵

## ----- سوال اول

با ذكر دليل بيان كنيد جملات زير صحيح هستند يا خير.

• نگاشت فناوری (technology mapping) میتواند بر اساس نوع شبکه ورودی به دو دسته ترکیبی یا ترتیبی طبقهبندی شود.

### پاسخ

رست.

این گزاره درست است. بر اساس آنکه شبکه ورودی چه باشد نیاز است تا مشخص شود که فرایند نگاشت قرار است از چه نوعی باشد تا بر اساس آن منابع را اختصاص دهد.

• هدف اصلى نگاشت فناوري FPGA فقط كمينهسازي مساحت اشغال شده توسط جداول جستجو است.

### پاسخ

#### نادرست.

علاوه بر کمینهسازی مساحت (یا تعداد LUT) های مصرفی، کمینهسازی تاخیر سیگنال ها (افزایش سرعت)، افزایش قابلیت مسریابی (Routability) و کاهش توان مصرفی نیز حزء اهداف نگاشت فناوری است.

• نگاشت فناوری FPGA عمدتاً از جداول جستجو (LUT) برای عملیات خود استفاده میکند و فقط شامل نگاشت LUT است.

## پاسخ

در ست

چون در FPGAها Logic Elementها متشکل است از LUTها، بنابر این در فرایند نگاشت فناوری در FPGAها فقط از LUTها استفاده می شود. FPGAها فقط از  ${
m LUT}$ ها برایند نگاشت فناوری در  ${
m LUT}$ 

• شبیه سازی پس از چیدمان (post-layout) اطلاعات کمتری نسبت به شبیه سازی قبل از سنتز ارائه می دهد.

## پاسخ

#### نادر ست.

در شبیه سازی پس از چیدمان، اطلاعات کامل طرح (شامل طول سیمها، تعداد سوییچهای موجود در مسیر)، تأخیرهای دقیق (حداکثر فرکانس کلاک) درنظر گرفته می شوند. این اطلاعات در شبیه سازی قبل از سنتز مبتنی بر توصیف منطقی مدار (RTL) است و فاقد اطلاعات فیزیکی دقیق است.

صفحه ۱ از ۱۳

• Chortle-d برای بهینهسازی مساحت طراحی شده است.

### پاسخ

#### درست.

این الگوریتم از یک رویکرد مبتنی بر DAG (Directed Acyclic Graph) استفاده میکند تا گرههای منطقی مدار را به گرههایی با اندازههای کوچکتر (LUTهای کمتر در FPGA) نگاشت کند. در این فرآیند، تمرکز اصلی بر کاهش تعداد گرههای نهایی (که به معنای کاهش مساحت است) میباشد.

• الگوریتم نگاشت ترتیبی میتواند فلیپفلاپها را در طول فرآیند نگاشت جابجا کند.

## پاسخ

#### درست.

قابلیت جابجایی فلیپفلاپها در نگاشت ترتیبی (با استفاده از Retiming) یکی از ابزارهای اصلی بهینهسازی است و امکان طراحیهای کاراتر و بهینهتر را فراهم میآورد.

• الگوریتم FlowMap تأخیر سیگنالها را در طراحیهای نگاشت شده حداقل میکند.

### پاسخ

#### درست.

FlowMap گرههای یک مدار منطقی را به گرههای کوچکتر (مانند LUTها در FPGA) تقسیم میکند، به گونهای که طولانی ترین مسیر بحرانی (Critical Path) کمترین تأخیر ممکن را داشته باشد.

• بهینهسازی برای مساحت در نگاشت منجر به کاهش تأخیر نیز میشود.

## پاسخ

#### نادرست.

این گزاره هم میتواند درست باشد و هم نادرست. اگر بهینهسازی برای مساحت به معنای کاهش تعداد منابع سختافزاری مورد استفاده (مانند تعداد ها LUT یا گیتها) باشد گزاره نادرست است. اما اگر کاهش مساحت به معنای حذف منطق غیرضروری یا ساده تر کردن مدار باشد، مسیرهای بحرانی نیز ممکن است کوتاه تر شوند، که منجر به کاهش تأخیر میشود و گزاره درست است.

• کارایی مسیریابی مستقل از جایابی در طراحیهای FPGA است.

## پاسخ

#### نادرست.

طراحیها درون FPGA به شدت به Placement وابسته است. تصمیمات مربوط به جایابی میتوانند تأثیر زیادی بر کارایی مسیریابی داشته باشند.

• در شبیه سازی تبرید (simulated annealing)، کاهش هزینه همیشه منجر به پذیرش یک حرکت می شود.

صفحه ۲ از ۱۳

### پاسخ

درست.

در شبیه سازی تبرید، کاهش هزینه ( $\Delta cost < 0$ ) همیشه منجر به پذیرش حرکت می شود، زیرا هدف الگوریتم یافتن نقطه بهینه با کمترین هزینه است. این ویژگی یکی از اصول اساسی این الگوریتم است که به آن اجازه می دهد به تدریج به سمت بهینه سازی حرکت کند.

• تابع هزینه در VPR بر اساس طول مسیر و تراکم میباشد.

# پاسخ

درست.

تابع هزینه در VPR یک ترکیب وزندار از طول مسیر و تراکم است. این ترکیب به طراح اجازه میدهد که بسته به نیاز، روی کاهش تأخیر یا جلوگیری از تراکم بیشتر تمرکز کند.

صفحه ۳ از ۱۳ دکتر صاحبالزمانی

# **ــــ** سوال دوم

در کلاس درس، مدار زیر را با هدف حداقل کردن تأخیر به صورت دستی روی LUTهای ۴ ورودی نگاشت کردهاید. الگوریتم FlowMap را روی این گراف اجرا کنید و مراحل آن را نشان دهید و نتیجه نگاشت را رسم کنید. هر مستطیل نماینده یک گیت است.



**شكل ١**: شكل سوال ٢

صفحه ۴ از ۱۳

# **—** سوال سوم

سه نمونه مختلف از الگوریتمهای مورد استفاده در نگاشت تکنولوژی FPGA (غیر از الگوریتمهای تدریسشده) را به طور خلاصه توضیح دهید (برای هر کدام یک پاراگراف) و سپس بررسی کنید که چگونه میتوان آنها را بر اساس توابع هدف و انواع شبکههای ورودی طبقهبندی کرد.

### پاسخ

الگوریتم های مورد بررسی بهصورت زیر است:

Performance driven technology mapping for lookup-table based FP- .\
[\] GAs using the general delay model

در این مقاله، الگوریتمی کارآمد برای نگاشت فناوری مبتنی بر عملکرد برای معماریهای FPGA مبتنی بر lookup-table با استفاده از مدل تأخیر عمومی ارائه داده شده است. از آنجا که این الگوریتم هیچ محدودیتی بر مقادیر مجاز تأخیر لبهها اعمال نمیکند، میتواند از اطلاعات تأخیری که در مرحله جایابی تولید میشود استفاده کرده و فرآیند نگاشت فناوری را در یک حلقه تکراری به صورت هوشمند هدایت کند.

این الگوریتم از مجموعهای از وزنهای گره برای اندازهگیری میزان بحرانی بودن گرهها در یک شبکه بولین استفاده میکند. سپس یک جستجوی عمق اول هدایتشده به کار میرود تا یک ترتیب توپولوژیکی از گرهها تولید شود و این ترتیب برای هدایت مرحله خوشه بندی استفاده می شود. یکی از ویژگیهای مهم این الگوریتم این است که به طور خودکار از مسیرهای همگرا در شبکه استفاده میکند.

[Y] Placement-Driven Technology Mapping for LUT-Based FPGAs .Y

این مقاله به مطالعه مسئله نگاشت فناوری مبتنی بر جایابی برای معماریهای FPGA مبتنی بر ای معماریهای Lookup به منظور بهینهسازی عملکرد مدار پرداخته شده است. کارهای اولیه در حوزه نگاشت فناوری برای Lookup و Chortle-d بر بهینهسازی عمق راه حل نگاشت شده تمرکز داشتند، بدون اینکه FPGA مانند Bias-Clus ،Flowmap-d و طوره بازی بعدی مانند تأخیر اتصالات بینگرهای را در نظر بگیرند. کارهای بعدی مانند کارهای تأخیر اتصالات را حین نگاشت مد نظر قرار دادند، اما اثرات راه حل نگاشت آنها بر جایابی نهایی را لحاظ نکردند. این مقاله به تعامل بین مراحل نگاشت و جایابی تمرکز دارد. ابتدا، اطلاعات مربوط به تأخیر اتصالات از جایابی تخمین زده میشود و در فرآیند برچسبگذاری استفاده میگردد. سپس یک راه حل نگاشت مبتنی بر جایابی که هم تراکم سلولهای Global و هم تراکم سلولهای Local را در نظر میگیرد، توسعه داده میشود. در نهایت، یک مرحله Legalization و جایابی دقیق برای پیادهسازی طراحی انجام میشود.

LUT-based FPGA technology mapping under arbitrary net-delay  $\cdot r$  [r] models

در این مقاله، مسئله نگاشت فناوری مبتنی بر LUT در FPGA تحت مدل تأخیر شبکه دلخواه بررسی شده است. ایده موجود در FlowMap را تعمیم داده شده و الگوریتمی کارآمد توسعه داده شده است که تضمین میکند راه حل نگاشت بهینه از نظر تأخیر برای شبکههای عمومی ارائه شود، به شرط آنکه تأخیر هر شبکه قبل از فرآیند نگاشت مشخص باشد. با محاسبه کارآمد k—Feasible Cut با حداقل ارتفاع برای هر گره در شبکه، میتوان نگاشت بهینه برای هر گره را محاسبه کرد و در نتیجه، راه حل نگاشت بهینه برای کل شبکه را با استفاده از برنامه ریزی پویا به دست آورد.



References

[1] Anmol Mathur and C. L. Liu, "Performance driven technology mapping for lookup-table

صفحه ۵ از ۱۳

based FPGAs using the general delay model," ACM/SIGDA Workshop on Field Programmable Gate Arrays, 1994. [Link]

- [2] Joey Y. Lin, Ashok Jagannathan, and Jason Cong, "Placement-driven technology mapping for LUT-based FPGAs," *Proceedings of the 2003 ACM/SIGDA Eleventh International Symposium on Field-Programmable Gate Arrays*, pp. 121–126, 2003. [Link]
- [3] Jason Cong, Yuzheng Ding, Tong Gao, and Kuang-Chien Chen, "LUT-based FPGA technology mapping under arbitrary net-delay models," *Computers & Graphics*, vol. 18, no. 4, pp. 507–516, 1994. Published by Elsevier. [Link]

صفحه ۶ از ۱۳

# سوال چهارم

یک مثال از مداری را بزنید که برای مرحله اول Chortle-crf، روش first-fit جواب بهتری نسبت به best-fit میدهد.

صفحه ۷ از ۱۳

# سوال پنجم

مفهوم برش k-feasible در نگاشت فناوری FPGA را توضیح دهید و مزایای استفاده از آن در بهینهسازی طراحی را در یک پاراگراف شرح دهید.

## پاسخ

برش k—feasible cut در نگاشت فناوری FPGA به مفهومی اشاره دارد که در آن یک گره در شبکه بولین به همراه تمام گرههای پیشین آن به یک برش تقسیم میشود، به طوری که تعداد گرههای موجود در این برش حداکثر k باشد. این مفهوم زمانی کاربرد دارد که طراحی مدار برای FPGAهای مبتنی بر LUT انجام میشود، جایی که هر LUT میتواند حداکثر kورودی داشته باشد. در این روش، گرههای موجود در برش به ورودی های یک LUT نگاشت می شوند. از مزایا مفهوم می توان به موارد زیر اشاره نمود:

استفاده از برش -kقابل قبول در نگاشت فناوری موجب بهینهسازی تأخیر و کاهش عمق مدار می شود، زیرا الگوریتم می تواند به طور موثری مسیرهای بحرانی را شناسایی و نگاشت کند. این روش همچنین به دلیل محدود کردن تعداد گرهها در برش، بهرهوری منابع FPGA را افزایش می دهد و استفاده بهینه از LUTها را ممکن می سازد. به علاوه، الگوریتمهای مبتنی بر Flow Map مانند Flow Map به طور کارآمد و در زمان چند جمله ای عمل کرده و راه حلهای بهینه را با تضمین درستی و عملکرد تولید می کنند.

صفحه ۸ از ۱۳

# سوال ششم - پروژه عملی

در ادامه پروژه قبلی دو لایه مخفی کاملاً متصل را به سیستم خود متصل کنید. علاوه بر این یک لایه خروجی با ۱۰ نورون نیز برای خروجی شبکه در نظر گرفته و به شبکه متصل شود.

- ۱. عملکرد شبکه کاملاً متصل را به صورت مستقل بررسی کنید.
- ۲. در صورتی که شبکه مشابه در پایتون آموزش داده شده و وزنهای آن برای تست شبکه در نظر گرفته شود، %۱۰ امتیاز بیشتر برای بخش پروژه در نظر گرفته میشود.
- ۳. در صورتی که کل شبکه (شامل لایههای کانولووشن و کاملاً متصل) در پایتون آموزش داده شده و وزنهای آن برای تست شبکه در نظر گرفته شود گرفته شود گرفته شود.

در صورت انجام «۲» یا «۳» نیازی به انجام بخش «۱» نمیباشد.

صفحه ۹ از ۱۳ دکتر صاحبالزمانی

#### باسخ

در این پروژه قصد داریم تا پروژههای قبلی را با اضافه نمودن یک لایه Fully Connected به آن تکمیل کرده و یک شبکه عصبی CNN را پیادهسازی کنیم. بدین منظور پروژه را به دو فاز تقسیم میکنیم:

- ١. فاز نرمافزاري
- ۲. فاز سختافزاری

فاز نرم افزاری: در مرحله اول ابتدا بهصورت نرم افزاری شبکه مورد نظر را تعریف کرده و آن را با دادههای مجموعه داده MNIST آموزش میدهیم تا از وزنهای آن در فاز سخت افزاری استفاده کنیم. بدین منظور شبکه ای با معماری زیر را تعریف میکنیم:



شکل ۲: معماری شبکه مورد نظر

کد نوشته شده برای پیاده سازی شبکه بهصورت زیر است:

صفحه ۱۰ از ۱۳

#### Listing 1: Model Definition 2 def define\_model() -> Sequential: # Define model. model = Sequential() model.add(ZeroPadding2D(padding=pad, input\_shape=(input\_size[0], input\_size[1], 1), name="padding\_layer")) model.add(Conv2D(conv\_filter\_num, conv\_kernel\_size, activation="relu", padding="valid", kernel\_initializer="he\_uniform", input\_shape=(30, 30, 1), name="convolution\_layer")) 9 model.add(MaxPooling2D(pool\_size, name="max\_pooling\_layer")) 10 model.add(Flatten(name="flatten\_layer")) 11 model.add(Dense(10, activation="softmax", name="dense\_layer")) 12 # Compile model. 13 model.Compile(optimizer=Adam(), loss="categorical\_crossentropy", 14 metrics=["accuracy"]) # Return model. return model 17

## پاسخ

با كامپايل كردن مدل نوشته شده خروجي شبكه تعريف شده بهصورت زير ميشود:



شكل ٣: ساختار شبكه تعريف شده

پس از تعریف ساختار شبکه، شبکه را با استفاده از دیتاست MNIST در Epoch ۵ آموزش میدهیم. که نمودار Loss و Validation شبکه برای دادههای Train و Validation به صورت زیر به دست می آید:

صفحه ۱۱ از ۱۳



شكل ۴: نمودارهای Loss و Accuracy

دقت شبکه بر روی دادههای آموزش و تست به ترتیب ۰/۹۸۱۷ و ۰/۹۸۰۱ بهدست آمده است. همچنین زمان انجام فاز Inference نرم افزاری برای ۱۰۰ داده از مجموعه داده ۴۶/۸۰۷۲، ۳NNIST میلی ثانیه بهدست آمده است.

در نهایت تمامی وزنها و پارامترهای مورد نیاز شبکه برای فاز سختافزاری را در ۳ فایل با نامهای:

• conv\_weights.h

0.05

- dense\_weights.h
- definitions.h

ذخیره میکنیم. فایل conv\_weights.h شامل وزنهای بهدست آمده از لایههای کانولوشن، فایل fully Connected نیز شامل وزنهای لایه Fully Connected و فایل definitions.h شامل برخی از ضرایب ثابت مورد استفاده در فاز سخت افزاری است.

در ادامه تمامی دادههای تست MNIST شامل تصاویر و Label های مربوط به آن را در دو فایل in.dat و out.dat ذخیره میکنیم. مراحل انجام به طور کامل در فایل gen\_data.ipynb مشخص شده است.

صفحه ۱۲ از ۱۳

پاسخ

فاز نرمافزاری: در این فاز

صفحه ۱۳ از ۱۳