به نام خدا



# فاز سوم پروژه

طراحی سیستم های دیجیتال

استاد فلاحتى

اعضای تیم:

سهيل نظري

عليرضا حقى

مهدی سعادت بخت

نیمسال دوم سال تحصیلی ۱۴۰۰\_۱۴۰۱ دانشگاه صنعتی شریف

دانشكده مهندسي كامپيوتر

# فهرست مطالب

| 3 | توضيحات پروژه                                                      |
|---|--------------------------------------------------------------------|
| 3 | چکیده                                                              |
| 4 | مقدمه                                                              |
| 4 | FSM and ASM                                                        |
| 6 | الگوريتم ضرب ماتريس                                                |
| 7 | مرحله اول و دوم (پارتیشن بندی ماتریس به ساب بلاکهای سایز $np*np$ ) |
| 7 | مرحله سوم (ضرب ساببلاکها در هم و سپس جمع آنها با هم)               |
| 8 | مرحله چهارم (شیفت دادن ماتریس a به راست و ماتریس b به پایین)       |
| 8 | ضرب ماتريس                                                         |
| 9 |                                                                    |
|   |                                                                    |
| 9 | Synthesis schematic                                                |

### توضيحات پروژه

یک واحد پردازشی ضرب دو ماتریس را با استفاده از الگوریتم تقسیم و حل پیاده سازی کردهایم. در این طراحی مولفههای ماتریس مطابق با استاندارد IEEE754 دریافت می شوند. این طراحی با استفاده از تقسیم و حل به گونهای انجام شده که انجام عملیات ضرب ماتریس به صورت موازی و بهینه انجام شود.

### چکیده

با توجه به محاسبات سنگین محاسباتی ماتریسی در حوزههای مختلف، پردازش موازی ضرب ماتریسها در راستای کمینه کردن میزان انرژی و مساحت مورد استفاده اهمیت ویژهای پیدا کرده است.

Verilog در این پروژه، بنابر دغدغهی الزام ضرب موازی ماتریسها، به طراحی یک مدل تقریبا بهینه با استفاده از زبان برنامهنویسی O(p) بر اساس مساحت و تعداد ماژولها رسیدهایم. در مدل ما از  $O(\frac{n^3}{p})$  واحدهای محاسباتی استفاده شده است که قادر است در کدهای ما کلاک محاسبات موازی دو ماتریس را انجام دهد که در این جا p بیانگر مجذور تعداد واحدهای پردازش موازی است. کدهای ما کاملا قابل سنتز است و این امر بهوسیلهٔ نرمافزار سنتز Vivado صورت گرفته است. همچنین صحت کد و کارایی آن توسط آزمایش کنندهای توسط صورت گرفته است. نکتهی حائز اهمیت دیگر مدل ما، پارامتریک بودن است که می توان به وسیلهٔ آن برای هر ابعاد دلخواه و هر تعداد دلخواه پردازنده آن را در نظر گرفت که در آن تعداد پردازنده مربع کامل است و ابعاد بر مجذور پردازندهها بخش پذیر است.

### مقدمه

### FSM and ASM

در این بخش ما شمایی کلی از حالت و وضعیتهای محاسباتی ممکن برای ماژول ضربکننده نشان میدهیم که از ۷ حالت تشکیل شده است:



با استفاده از طراحی FSM انجام شده یک ماژول کنترلر تعریف کرده ایم که به وسیله آن استیتهای مختلف ماشین ما تغییر کرده و سه بیت کنترلی برای خواندن، جمع کردن و شیفت دادن در اختیار داریم که میان استیتها مقادیرشان را تنظیم میکنیم. نکتهٔ دیگر این است که ماشین کنترلی مد نظر از نوع Moore است. بنابراین به ورودی برای حرکت بین حالات حساس نیست.

### تکه کد ریست و استارت در استیت صفر:

```
always @(posedge clk, posedge reset)
begin
    if (state == 0)
    begin
        nx_state = 1;
        enable_read = 1;
    end
    if(reset == 1)
        | state <= 0;
    else
        | state <= nx_state;
end</pre>
```

### تكه كد انتقال ميان استيتها و ست كردن بيتهاى كنترلى:

```
always @(state)
always
begin
if(!reset)
begin
if(enable)
case(s
                   case(state)
0:
                                      nx_state = 1;
enable_read = 1;
                                      enable_read = 1;
nx_state = 2;
                                enable_read = 0;
enable_sum = 1;
nx_state = 3;
end
                                    enable_sum = 0;
enable_shift = 1;
                                       nx_state = 4;
                                begin
                                     nx_state = 5;
shifted = shifted + 1;
                                      out_ready = 1;
nx_state = 6;
                               begin

out_ready = 0;

nx_state = 0;
                          default:
begin
                                    out_ready = 0;
enable_shift = 0;
enable_sum = 0;
enable_read = 0;
                                       nx_state = 0;
                   nx_state = state;
```

# الگوريتم ضرب ماتريس

الگوریتم کلی بدین شکل است که هر دو ماتریس n \* n را به  $p^2$  ماتریس با ابعاد  $\frac{n}{p} * \frac{n}{p}$  تقسیم میکنیم. سپس در طی p مرحله با استفاده از شیفت و ضرب اجزای متناظر ماتریسهای به دست آمده و در نهایت جمع آنها جواب نهایی حاصل می شود. در عکس پایین نیز شبه کدی برای الگوریتم ارائه شده است  $p^2$  را تعداد پردازنده ها است).

عملیاتهای ضرب دو ماتریس به شکل تقسیم و حل به ۵ مرحله تقسیم میشود که به شکل زیر است.

# Implementation

- Consider two square matrices A and B of size n that have to be multiplied:
  - 1. Partition these matrices in square blocks p, where p is the number of processes available.
  - Create a matrix of processes of size p<sup>1/2</sup> x p<sup>1/2</sup> so that each process can maintain a block of A matrix and a block of B matrix.
  - 3. Each block is sent to each process, and the copied sub blocks are multiplied together and the results added to the partial results in the C sub-blocks.
  - 4. The A sub-blocks are rolled one step to the left and the B sub-blocks are rolled one step upward.
  - 5. Repeat steps 3 y 4 sqrt(p) times.

ما در یک ماژول به اسم array-divider این مراحل را با استفاده از جنریتورها پیادهسازی کردهایم. تکهکد مراحل مختلف به ترتیب آمدهاند. در این بخش بهواسطهٔ جنریتورها توانستیم برنامهٔ کاملا کارا و پارامتریک که هیچ وابستگی به متغیر و عدد ثابتی ندارد را پیادهسازی کنیم که هر چند منجر به پیچیدگیهای قابل ملاحظهای در پیادهسازی کد شد.

# مرحله اول و دوم (پارتیشن بندی ماتریس به ساب بلاکهای سایز $\frac{n}{p} * \frac{n}{p}$ )

# مرحله سوم (ضرب ساببلاکها در هم و سپس جمع آنها با هم)

### مرحله چهارم (شیفت دادن ماتریس a به راست و ماتریس b به پایین)

مرحله پنجم نیز در تصاویر نشان داده است. همانdور که می بینید داخل یک حلقه به اندازه  $\sqrt{p}$  قرار دارند.

## ضرب ماتریس

یکی دیگر از بخشهای مورد نیاز برای پیادهسازی ضرب موازی ماتریسها، ضرب دو ماتریس با ابعاد دلخواه است که در آن برای ضرب دو ماتریس n\*n از  $O(n^3)$  واحد ضرب و واحد جمع استفاده شده است که delay که در این عملیات وجود دارد برابر است با n برابر delay یک واحد جمع کننده به علاوهٔ یک واحد ضرب کننده. هر چند اگر بهینه تر پیادهسازی کرد، می توان این delay را به  $O(\log(n))$  بار delay جمع کننده و یک delay ضرب کننده رساند که با توجه به بزرگ تر شدن n می توان به شکل قابل توجهی سرعت کلاک را کمتر کرد و در غیر این صورت می توان سرعت کلاک را پایین نگه داشت ولی تعداد دورهایی که کلاک در استیت ضرب کردن است بنابر آزمایشات زمانی به دست آورد.

#### سنتز

ما با استفاده از ابزار سنتز Vivado طراحی خود در وریلاگ را سنتز کرده و کدهای ماکاملا سنتزپذیر بوده و خروجیهای آن به شکل زیر میباشد.

### **RTL Schematic**



### Synthesis schematic



ما با استفاده از روش تقسیم و حل و همچنین موازیسازی عملیاتهای پیدا کردن هر یک از درایههای ماتریس خروجی در توان مصرفی نهایی قطعه خود صرفه جویی بسیاری انجام داده ایم. طبق آزمایشها و محاسباتی که بر روی این قضیه انجام شده است، جدولهای زیر برای سه الگوریتم مختلف انجام این کار نشان داده شده است.



Fig. 4 a EDP of different multipliers at 180 nm technology node. b EDP comparison of Barun multiplier at 180 and 45 nm technology nodes

#### **EDP**

The proposed work uses energy-delay product (EDP), where energy the total energy consumption of cores and delay is the amount of time for executing applications.