

دانشگاه صنعتی شریف

دانشكده مهندسي كامپيوتر

# طراحی سیستمهای دیجیتال

پروژهی پایانی درس: ضرب کنندهی ماتریسی با استاندارد 754 IEEE

استاد: دكتر فرشاد بهاروند

عماد زین اوقلی، مازیار شمسی پور، بردیا محمدی، جواد هزاره، پویا یوسفی

۲۳ تیر ۱۴۰۰

# فهرست مطالب

| 1 | مقدمه  |                                           | ٣  |
|---|--------|-------------------------------------------|----|
|   | 1.1    | تعريف الگوريتم                            | ٣  |
|   |        | قراردادهای ریاضی                          | ۴  |
|   | ٣.١    | نحوهی عملکرد از نظر مساحت و تایمینگ       | ۵  |
|   |        | استاندارد IEEE 754 ماستاندارد             | ۵  |
|   |        | كاربردها                                  | ۶  |
|   |        | مراجع مورد استفاده                        | ۶  |
| ۲ | توصيف  | <i>ف</i> معماری سیستم                     | ٧  |
|   | 1.7    | اینترفیسهای سیستم و قرارداد استفاده از آن | ٧  |
|   |        | ۱.۱.۲ ساختار کلی حافظه                    | ٧  |
|   |        | ۲.۱.۲ خانهی اول حافظه                     | ٩  |
|   |        | ٣.١.٢ خانهی دوم حافظه                     | ٩  |
|   |        | ۴.۱.۲ نحوهی دسترسی به حافظه               | ١. |
|   |        | ۵.۱.۲ ریست آسنکرون                        | ١. |
|   |        | ۶.۱.۲ کلاک سختافزار کلاک سختافزار         | ١. |
|   | ۲.۲    | ساختار درختی سیستم                        | 11 |
|   | ٣.٢    | توصيف ماژولها                             | ١٢ |
|   | 4.7    | شماتیک کلی سختافزار                       | ۲۳ |
| ٣ | روند ث | شبیهسازی و نتایج حاصل                     | 74 |
|   | 1.4    | توصيف TestBenchها                         | 44 |
|   | ۲.۳    | توصیف روند کلی شبیهسازی                   | 44 |
|   | ٣.٣    | توصيف Golden Model                        | 74 |
|   | ۴.۳    | مقایسهی خروجیهای نهایی با Golden Model    | 74 |
| ۴ | پیادہ، | سازی و نتایج حاصل                         | 74 |

شرح وظايف

#### ۱ مقدمه

### ١.١ تعريف الگوريتم

الگوریتم مورد استفاده الگوریتم ضرب ماتریسی Cannon میباشد در این الگوریتم با تقسیم کردن ماتریسهای ورودی و خروجی به بلاکهای k\*k که در آن k عدد ثابتی میباشد میخواهیم با داشتن تعدادی پردازنده که به صورت موازی کار میکنند عملیات ضرب ماتریسی را بهبود ببخشیم. به طور مثال ماتریسها زیر را در نظر بگیرید:

$$A = \begin{bmatrix} A_{11} & A_{12} & \dots & A_{1\mu} \\ \vdots & \ddots & & \vdots \\ A_{\lambda 1} & A_{\lambda 2} & \dots & A_{\lambda \mu} \end{bmatrix} \quad B = \begin{bmatrix} B_{11} & B_{12} & \dots & B_{1\gamma} \\ \vdots & \ddots & & \vdots \\ B_{\mu 1} & B_{\mu 2} & \dots & B_{\mu \gamma} \end{bmatrix}$$
 (1)

که در آن هر  $A_{ij}B_{ij}$  یک بلاک k\*k میباشد. (توجه میکنیم که سایز ماتریسها اگر بخش پذیر به k\*k نباشد با اضافه کردن صفر آن را بخش پذیر میکنیم) با این اوصاف طبق قاعده ی ضرب بلوکی میدانیم که بلاک  $C_{ij}$  در ماتریس جواب از رابطه ی زیر محاسبه می شود.

$$C_{ij} = \sum_{x=0}^{\mu} A_{ix} B_{xj} \tag{Y}$$

با داشتن تعداد تعداد مشخصی ضرب کننده ی ماتریسی k\*k میتوانیم به طور موازی با استفاده از آنها و پخش کردن  $C_{ij}$  ها بین پردازنده های مختلف حاصل نهایی  $A \times B$  را محاسبه کنیم. در ادامه ی این گزارش از علائم ریاضی ای استفاده می شود که در اینجا به شرح آنها می پردازیم.

### ۲.۱ قراردادهای ریاضی

ورودی الگوریتم مورد استفاده ماتریسهای مستطیلی  $A_{mr}$  و  $A_{mr}$  و  $A_{mr}$  خواهند بود و بنابراین ماتریس خروجی به صورت  $A_{ij}$  خواهد بود. با این حال در هر کجای گزارش که از عبارت  $A_{mr} \times B_{rn} = C_{mn}$  به صورت  $A_{mr} \times B_{rn} = C_{mn}$  استفاده شد منظور بلاک  $A_{mr} \times A_{mr}$  ستون  $A_{mr}$  و سطر  $A_{mr}$  استفاده شد منظور بلاک  $A_{mr} \times A_{mr}$  ستون  $A_{mr}$  به صورت زیر باشد: شدن این موضوع به مثال زیر توجه میکنیم، فرض کنید ماتریس  $A_{mr}$  به صورت زیر باشد:

$$A_{mr} = \begin{bmatrix} a_{00} & a_{01} & \dots & a_{0r} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m0} & a_{m1} & \dots & a_{mr} \end{bmatrix}$$

حال اگر این ماتریس را به بلوکهای k\*k تقسیم کنیم و در صورت لزوم درایههای نهایی را صفر قرار دهیم ماتریسی به فرم زیر خواهیم داشت:

$$A^* = \begin{bmatrix} A_{00} & A_{01} & \dots & A_{0\mu-1} \\ \vdots & \vdots & \ddots & \vdots & 0 \\ A_{\lambda-10} & A_{\lambda-11} & \dots & A_{\lambda\mu-1} \\ \hline 0 & & & 0 \end{bmatrix}$$

که لازم است که توجه داشته باشیم که وقتی ماتریسها را به فرم بلوکی مینویسیم مقادیر زیر را تعریف میکنیم:

$$\mu = \left\lceil \frac{r}{k} \right\rceil \tag{7*}$$

$$\lambda = \left\lceil \frac{m}{k} \right\rceil$$
 (۳ب)

$$\gamma = \left\lceil \frac{n}{k} \right\rceil$$
 (ج٣)

$$\theta = \lceil \frac{\lambda \gamma}{\# \text{Matrix Processors}} \rceil$$
 (۳۵)

از این نمادها به کرّات در طول گزارش استفاده خواهد شد. توجه میکنیم که علت اینکه سقف این حاصل تقسیمها را در نظر گرفتیم همان است که اگر اندازه ی ماتریسها بر k بخش پذیر نباشند با اضافه کردن صفر به انتهای آن باعث بخش پذیری می شویم.

### ۳.۱ نحوهی عملکرد از نظر مساحت و تایمینگ

از آنجایی که هر ضرب کننده ی ماتریسی در حدود  $k^3$  کلاک سایکل زمان میبرد و محاسبه ی هر بلوک از آنجایی که هر ضرب کننده ی بار به ضرب ماتریسی نیاز دارد. همچنین برای محاسبه ی تمام بلوک ها باید  $C_{ij}$  با توجه به معادله ۲ به  $\mu$  بار به ضرب ماتریسی نیاز دارد. همچنین برای محاسبه ی تمام بلوک باید  $\lambda \gamma$  بار محاسبات بالا را انجام دهیم با این حال اگر فرض کنیم که تعداد پردازنده ها  $\mu$  باشد آنگاه می توانیم ببینیم که تعداد کلاک سایکل ها تقریبا برابر با عبارت زیر است:

$$\frac{\lambda \gamma \mu k^2}{\text{#number of PU}} = \frac{\lambda \gamma \mu k^2}{p} \tag{(*)}$$

همچنین تعداد رجیسترهایی که هر واحد ضربکننده ماتریس مربعی نیاز دارد از  $O(k^2)$  میباشد. و بنابراین تعداد تمام رجیسترهایی که مورد نیاز است از  $O(pk^2)$  میباشد.

### ۴.۱ استاندارد ۴.۲

محاسبات در این پروژه از استاندارد IEEE 754 - Single-precision floating-point پیروی میکند که به طور مختصر به شرح آن میپردازیم.

در این استاندارد اعداد اعشار با سه بخش sign ، fraction ، exponent مشخص می شوند که سهم هر یک از آنها مانند مثال زیر است:



و هر عدد طبق فرمول زیر به این نمایش در میآید:

value = 
$$(-1)^{sign} \times 2^{(E-127)} \times (1 + \sum_{i=1}^{23} b_{23-i} 2^{-i})$$
 (3)

### ۵.۱ کاربردها

محاسبات ماتریسی، در سیستمهای پردازش تصویر، در سیستمهای مخابراتی MIMO ،در سیستم های مخابراتی که از روش OFDM برای ارسال اطالاعات استفاده می کنند و همچنین در سیستم های رادار و سونار که مراحل آشکارسازی و تخمین را به کمک اطاعاتی که از آرایه ای از سنسورها جمع آوری شده انجام می دهند، کاربرد فراوانی دارند. واحد ضرب ماتریس در برنامه های پردازش سیگنال دیجیتال مانند تصویربرداری دیجیتال، پردازش سیگنال، گرافیک رایانه ای و چندرسانه ای استفاده می شود. بنابراین بسیار مهم است که مساحت کمتری اشغال کند، سریع کار کند و انرژی کمی مصرف کند. در این پروژه، به چگونگی محاسبه ی ضرب ماتریس ها و پیاده سازی آن، به عنوان یک بخش از مباحث محاسبات ماتریسی پرداخته شده است.

### ۶.۱ مراجع مورد استفاده

### References

- [1] Abhishek Kumar : Scalability of Parallel Algorithms for Matrix Multiplication
- [2] Patricia Ortega : Parallel Algorithm for Dense Matrix Multipication
- [3] Ju-wook Jang, Seonil Choi and Viktor K. Prasanna: Area and Time Efficient Implementations of Matrix Multiplication on FPGAs
- [4] Cannon's algorithm, Wiki-pedia https://en.wikipedia.org/wiki/Cannon%27s\_algorithm

### ۲ توصیف معماری سیستم

### ۱.۲ اینترفیسهای سیستم و قرارداد استفاده از آن

به طور کلی و از نگاه بالا سختافزار از یک حافظه و و کمک\_پردازنده ی ضرب ماتریسی تشکیل شده است که پردازنده برای استفاده از میتواند ورودی ها را درون حافظه قرار داده و خروجی ها را نیز از آن بخواند(I/O Mapped).

برای استفاده از این کمک\_پردازنده قراردادهایی در نحوهی استفاده از مموری وجود دارد که باید به آن توجه شود.

#### ۱.۱.۲ ساختار کلی حافظه

ساختار كلى حافظه به صورت زير خواهد بود:

| Config                    |
|---------------------------|
| Status                    |
| $A_{11}$                  |
| $A_{12}$                  |
| :                         |
| $A_{\lambda\mu} \ B_{11}$ |
| $B_{11}$                  |
| $B_{12}$                  |
| :                         |
| $B_{\mu\gamma}$           |
|                           |
| $C_{11} \ C_{12}$         |
| $C_{12}$                  |
| i i                       |
| $C_{\lambda\gamma}$       |
|                           |

جدول ۱: شماتیک حافظه

که در آن هر یک از  $A_{ij}, B_{ij}, C_{ij}$ ها یک بلوک k\*k خواهند بود و باید آنها را به صورت سطری در خانههای پشت سر هم حافظه نوشت.

Matrix Multiplier - Co-processor'

برای مثال اگر ماتریسهای B, A به صورت زیر باشند:

$$A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}, B = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix}$$

و ماتریس خروجی به صورت  $C = \begin{bmatrix} 22 & 28 \\ 48 & 64 \end{bmatrix}$  خواهد بود. در صورتی که k=2 و به عبارتی واحدهای درونی ضرب کنندههای ماتریس مربعی ما توانایی ضرب بلوکهای 2\*2 را داشته باشند؛ CPU باید

آن را به صورت زیر در حافظه قرار دهد و همچنین بلوکهای خروجی را از بخشهای مشخص شده استخراج کند: : نکته حائز توجه دیگر نقطهی شروع ماتریسهای خروجی میباشد که تنها کافیست

| Config                                  |
|-----------------------------------------|
| Comig                                   |
| Status                                  |
| 1                                       |
| ۲                                       |
| k                                       |
| ۵                                       |
| ٣                                       |
| •                                       |
| 9                                       |
| •                                       |
| 1                                       |
| ۲                                       |
| ٣                                       |
| k                                       |
| ۵                                       |
| ۶                                       |
| •                                       |
| •                                       |
|                                         |
| 77                                      |
| 7 Y X Y X Y X Y X Y X Y X Y X Y X Y X Y |
| ۴۸                                      |
| 94                                      |
|                                         |
|                                         |

جدول ۲: شماتیک حافظه برای مثال داده شده

توجه شود که به جز دو خانه ی اول حافظه بقیه ی خانه ها به صورت یکسان بین ماتریس های ورودی و ماتریس خروجی تقسیم شده است. یعنی اگر اندازه ی کل مموری را N در نظر بگیریم  $\lceil \frac{N-2}{3} \rceil$  خانه به خروجی اختصاص پیدا میکند.

#### ۲.۱.۲ خانهی اول حافظه

CPU باید اولین خانهی حافظه را که مربوط به کانفیگ میباشد به صورت زیر از اعداد پر کند:

| $\theta$  | $\mu$     | $\gamma$  | λ         |
|-----------|-----------|-----------|-----------|
|           | $\sim$    |           |           |
| $8\ bits$ | $8\ bits$ | $8\ bits$ | $8\ bits$ |

که مقادیر این پارامترها در معادله  $\mathbf{r}$  مشخص شده است و همچنین باید توجه شود که مقدار  $\mathbf{\theta}$  نیز از رابطه ی زیر محاسبه می شود:

برای مثال فرض کنیم که ماتریسهای  $A_{55}$ ،  $A_{55}$  در اختیار داشته باشیم. همچنین 4 پردازنده ضرب ماتریسی 3\*3 در اختیار داشته باشیم، پارامترهای مد نظر به صورت زیر محاسبه خواهند شد:

$$\lambda = \lceil \frac{m}{k} \rceil = \lceil \frac{5}{3} \rceil = 2$$

$$\gamma = \lceil \frac{m}{k} \rceil = \lceil \frac{5}{3} \rceil = 2$$

$$\mu = \lceil \frac{m}{k} \rceil = \lceil \frac{5}{3} \rceil = 2$$

$$\theta = \lceil \frac{\lambda \gamma}{\text{#Matrix Processors}} \rceil = \lceil \frac{4}{4} \rceil = 1$$

و بنابراین خانهی اول حافظه در هنگامی که کمک\_پردازنده دستور شروع به کار را دریافت میکند باید به صورت زیر باشد:

| 00000001   00000010   00000010   0000001 |
|------------------------------------------|
|------------------------------------------|

#### ۳.۱.۲ خانهی دوم حافظه

همچنین دومین خانهی حافظه که مربوط به Status میباشد مطابق شکل زیر میباشد.

وظیفه ی CPU این است که بعد از قرار دادن ورودی ها و تنظیم کردن CPU مقدار بیت CPU مقدار بیت CPU وظیفه ی CPU را فعال کند و بعد از این که بیت Acknowledge را از طرف کمک پردازنده دریافت کرد و CPU به کارش ادامه دهد بعد از تمام شدن عملیات ضرب ماتریسی بیت CPU فعال می شود و CPU می می تواند بلاک های ماتریس خروجی را از مکانی که در مموری مربوط به خروجی ها می باشد استخراج کند.

#### ۴.۱.۲ نحوهی دسترسی به حافظه

برای دسترسی به حافظه تمامی ماژولهای موجود در سیستم و همچنین CPU از یک Round-Robin برای دسترسی به حافظ<sup>۲</sup> را تغییر دهد باید Arbiter استفاده میکنند، با این تفسیر که ماژولی بخواهد خطهای متصل به حافظ<sup>۲</sup> را تغییر دهد باید از Arbiter اجازه ی دسترسی بگرد. و اگر Arbiter سیگنال Arbiter مربوط به آن ماژول را فعال کرد اجازه ی نوشتن روی حافظه در اختیار آن ماژول قرار میگیرد. برای روشنتر شدن این موضوع خوب است به شماتیک زیر توجه کنید:



شکل ۱: Arbiter

### ۵.۱.۲ ریست آسنکرون

سختافزار دارای یک سیگنال reset آسنکرون میباشد که تمام رجیسترهای درونش را صفر میکند.

### ۶.۱.۲ کلاک سختافزار

تمامی ماژولهای این سختافزار از جمله مموری و تمام ماژولهای واحد حسابکنندهی ضرب ماتریسی به صورت سنکرون عمل میکنند و CDC در این سختافزار اتفاق نمیافتد.

 $<sup>{\</sup>rm Memory}\,\,{\rm Bus}^{\intercal}$ 

ابتدا ساختار درختی سختافزار طراحی شده را میبینیم و سپس به مفسراً دربارهی نقش و عملکرد هر یک از ماژولهای مربوطه صحبت خواهیم کرد.

### ۲.۲ ساختار درختی سیستم



شکل Design Hierarchy : ۲

### ٣.٢ توصيف ما وولها

### Memory •



شکل ۳: Memory Schematic

واحد حافظه سختافزار که مطابق با استانداردی که در بخشهای قبل مفسراً دربارهی آن توضیح دادیم میباشد.این واحد توانایی آدرس دهی به هر کلمه را دارد(Word Addressable). هر کلمهی آن یک عدد ممیز شناور با استاندار IEEE 754 - Single Precision میباشد.

خواندن و نوشتن در آن این حافظه به منظور بهبود عملکرد زمانی به گونهایست که در هر بار دسترسی به حافظه به تعداد k کلمه در آن نوشته یا از آن خوانده می شود.

هر ماژول دیگر در سخت افزار یا بیرون سخت افزار برای دسترسی به باس ورودیهای مموری باید از Arbiter اجازه گرفته باشد یعنی مطابق شکل ۱ باید سیگنال Request خود را فعال کند و سپس منتظر بماند که سیگنال Grant دریافت شود و بعد از آن میتواند عملیاتهای نوشتن و خواند روی حافظه را انجام دهد.

از آنجایی که Config و Status مکررا مورد نیاز ماژولها در برنامه قرار میگیرد تصمیم گرفتیم که Arbiter که خواندن و نوشتن این دو (البته فقط نوشتن در Status) بدون نیاز داشتن به اجازه ی Main Controller و توسط توسط عیده.



شکل ۴ : Arbiter Schematic

همانطور که برای Memory توضیح دادیم این واحد نقش پخش کردن اجازه ی دسترسی به مموری را بین ماژولها دارد در شکل ۱ این موضوع مشخص است. مقدار پهنای ورودی و خروجی این ماژول متناسب با تعداد ماژولهای دیگریست که اجازه ی دسترسی به حافظه را میخواهند. برای روشن شدن عملکرد این ماژول به FSM زیر توجه کنید:



شکل ۵: Arbiter Fsm

همانگونه که از این FSM مشخص میباشد هر گاه یکی سیگنالهای Request فعال باشد Arbiter به حالت Grant میرود و برای ماژولی که درخواست داده و اولویت بالاتری دارد Grant به حالت Grant میرود و برای ماژولی که الله Hot-Bit ، Grant میباشد. وقتی که سیگنال Grant گرنت فعال شد Arbiter منتظر میماند که همان ماژولی که Grant را دارد Request خود را قطع کند. بعد از آن دوباره در صورتی که Request داشتن ماژول دیگری به حالت تولید Grant میرود و در غیر این صورت به حالت اولیه بازگشته و منتظر میماند تا Request یکی از ماژولها فعال شود.

### Main Control Unit •



شكل ۶: Main CU Schematic

این واحد وظیفه ی پخش کردن بلاکهای  $C_{ij}$  بین پردازندهها را دارد به نمودار حالت زیر توجه میکنیم:



شکل ۲: Main CU Fsm

با یک شدن بیت آخر خانهی status در حافظه، این واحد کار خود را آغاز کرده و به پردازنده مرکزی acknowledge می دهد که کار خود را آغاز کرده است.

در حالت بعدی به سراغ خواندن اطلاعات ماتریسهای ضرب شونده از خانه config در حافظه رفته و این اطلاعات را در رجیسترهای میانی خود ذخیره میکند. پس از آن شروع به پخش کردن بلوکهای ماتریسها میان پردازندهها کرده که این کار نیز به این صورت انجام میشود که منتظر سیگنال acknowledge از طرف پردازنده مورد نظر میماند و اگر این سیگنال را دریافت کند به سراغ پردازنده بعدی میرود. این کار را تا زمانی ادامه میدهد که به تمامی پردازندهها یک بلوک اختصاص یابد.

پس از اختصاص بلوکها به تمامی پردازنده ها به حالت بعدی رفته و منتظر می ماند تا پردازنده ها کار خود را تمام کنند. با تمام شدن کار تمامی پردازنده ها، سیگنال result\_ready یک شده و در این حالت اگر بلوکی برای اختصاص دادن باقی مانده بود، دوباره به حالت S\_Scatter برگشته و تخصیص را انجام می دهد و در غیر اینصورت به حالت بعدی، یعنی S\_Change\_Status رفته و مطابق قرارداد، بیت اول خانهی status حافظه را یک می کند که نشان می دهد کار ضرب ماتریس ها تمام شده و نتیجه نیز در حافظه نوشته شده است و پردازنده ی مرکزی می تواند خروجی را استخراج کند.

#### Processor •

طراحی سیستمهای دیجیتال



شکل ۱۹ Processor Fsm شکل

این واحد وظیفه دارد که با دریافت یک i,j و سیگنالهای ورودی دیگر مقدار  $C_{ij}$  را محاسبه کرده و در حافظه ذخیره کند.

در واقع این واحد که متشکل از Register File در واقع این واحد که متشکل از Multiplier میباشد وظیفهی برقراری اتصالات بین این ماژولها را دارد تا کارهای زیر به درستی انجام شود:

- بهدری بدهد (I) با توجه به معادله ۲ آدرس  $A_{ix}$  و  $A_{ix}$  از Control Unit بگیرد و به مموری بدهد Write سپس متناسب با این اندیسها آدرسی برای Register File ایجاد کرده و سیگنال Enable آن را فعال کند تا Register File به درستی این ماتریسها را از حافظه بخواند.
- Control Unit را از Start و  $B_{xj}$  شد باید سیگنال  $A_{ix}$  Register File بعد از اینکه (II) بعد از اینکه و به Square Matrix Multiplier بدهد.
- Register را در کلاکهای مورد نیاز Square Matrix Multiplier را در کلاکهای مختلف از III) دادههای مورد نیاز File خوانده تا عملیات ضرب ماتریس مربعی  $A_{ix} \times B_{xj}$  به درستی انجام شود.
  - بعد از اتمام ضرب حاصل را با مقادیر قبلی که در رجیستر فایل برای  $C_{ij}$  بود جمع بزند. (IV)
- Main بعد از اینکه عملیاتهای بالا به اندازه  $\mu$  بار تکرار شد سیگنال مناسبی برای (V) بعد از اینکه عملیاتهای بالا به اندازه و Control Unit ارسال کند تا در صورت نیاز Control Unit محاسبه ی بلوک دیگری را به این پراسسور اختصاص دهد.

#### Control Unit •



شکل ۹: CU Fsm

این ماژول وظیفه ی کنترل سیگنالها هنگام محاسبه ی معادله ۲ را دارد. در واقع این ماژول با پیاده کردن دیاگرام حالت زیر مقدار x را تغییر می دهد و هر بار  $A_{ix}$ ,  $B_{xj}$  جدید را از حافظه می خواند و سپس آن را به واحد ضرب کننده ی ماتریسی می دهد و پس از اینکه جواب نهایی حاضر شد آن را در حافظه می نویسد.



شکل ۲۰: CU Fsm

همانطور که مشخص است این واحد بعد از دریافت اندیسهای اصلی i,j از Arbiter اجازه همانطور که مشخص است این واحد بعد از دریافت کردن آن به اندازهای در حالت Receive نوشتن در Address Bus را میخواهد و بعد از دریافت کردن آن به اندازهای در حالت میماند تا  $B_{xj}$  و  $B_{xj}$  به طور کامل در رجیستر فایل نوشته شوند و این کار را به اندازه  $B_{xj}$  بار تکرار میکند تا نهایتا  $C_{ij}$  محاسبه شود.

### Matrix Multiplier •



شكل Square Matrix Multiplier Schematic : ۱۱

این واحد دو ماتریس k\*k را با توجه به نمودار حالت زیر ابتدا از رجیستر فایل میخواند و سپس در هم ضرب میکند:



شكل Square Matrix Multiplier Fsm : ۱۲

در حالت اول با دریافت بیت in\_Ready که از طرف واحد کنترلی فرعی می آید مشخص می شود که باید مراحل ضرب کردن را آغاز کند. با آمدن این بیت در دو حالت Take B و Take A این سطر و می ماند تا یک سطر و یک ستون را در یافت کند سپس در مرحله ی Operation این سطر و ستون را به واحدهای کوچکتری که مربوط به ضرب سطر و ستون می باشند میدهد و این کار را تا زمانی که تمام درایه ها را محاسبه کند ادامه می دهد. و نهایتا خروجی را در مرحله ی کوون رجستر فایل می ریزد.

#### Index To Address Transformer •



شکل ۱۳۳ Index To Address Transformer Schematic :۱۳

 $A_{ix}$  این واحد با داشتن کانفیگ و همچنین ورودیهای مشخص کننده ی دیگر باید بتوانند آدرس  $A_{ix}$  یا و یا  $C_{ij}$  را پیدا کند بیتهای ورودی این واحد شامل اندیس سطر و ستون و  $C_{ij}$  بیت دیگر که مشخص میکند باید آدرس کدام یک از  $C_{ij}$  را پیدا کند.

روشن است که عملکرد این واحد به قرار داد اولیهای که برای حافظه و کانفیگ گذاشتیم به شدت وابسته خواهد شد و میتوان آن را تنها با توجه به حالتهای مختلف برای i\_Type محاسبه کرد.

#### Column Processor •



شکل ۲۰ Column Processor Schematic

 $B_{xj}$  این واحد به منظور محاسبه ی ضرب یک سطر از ماتریس  $A_{ix}$  در یک ستون از ماتریس طراحي شده است.



شکل Column Processor Fsm : ۱۵

هر موقع واحد Square Matrix Multiplier دادههای این واحد را فراهم کند بیت Square Matrix Multiplier را برایش فعال میکند سپس این واحد نیز دادهها را ابتدا در اختیار واحد ضرب کنندهی سطری می دهد و بعد از آماده شدن پاسخ آن داده ها را در اختیار واحد جمع کننده قرار می دهد و در نهایت این داده ها را در محل مناسبی در Register File می ریزد.

### Column Multiplier •



شکل Column Multiplier Schematic :۱۶

وظیفه ی این واحد جمع کرد این است که حاصل ضرب نقطه ای یک سطر از  $A_{ix}$  و یک ستون از را محاسبه کرده و این مقدار را نگه داشته تا column\_processors بتواند از آن استفاده  $B_{xj}$ کند.



شکل Column Multiplier Fsm : ۱۷

همانطور که از نمودار حالت مشخص است این واحد تا زمانی که r از نمودار حالت مشخص است این واحد تا باشد ضرب کردن را تکرار میکند و بعد از آن به حالت s\_Done میرود.

### Column Adder •



شکل Column Adder Schematic :۱۸

# این واحد وظیفهی جمع کردن یک ستون در ورودی را دارد.



شکل Column Adder Fsm : ۱۹

همانطور که میتوان از این نمودار حالت دید نحوه ی عملکرد این واحد به گونه ایست که با دریافت سیگنال  $\operatorname{in\_ready}$  دریافت سیگنال  $\operatorname{ready}$  در حالت جمع کردن بلاک ها قرار میگیرد و این کار را تا زمانی که  $\operatorname{r\_counter}$  از  $\operatorname{k}$ کمتر باشد ادامه می دهد.

## ۴.۲ شماتیک کلی سختافزار

در این بخش بعد از سنتز به وسیلهی XilinX شماتیک کلی سخت افزار را استخراج کردیم که به صورت زیر میباشد.



شکل ۲۰: شماتیک نهایی Top Module

- ۳ روند شبیه سازی و نتایج حاصل
  - ۱.۳ توصیف TestBench ها
  - ۲.۳ توصیف روند کلی شبیهسازی
  - ۳۰۳ توصیف Golden Model
- ۴.۳ مقایسهی خروجیهای نهایی با Golden Model

# ۴ پیادهسازی و نتایج حاصل

با استفاده از نرم افزار ISE سنتز انجام گرفت که نتایج آن در ادامه گزارش آمده است. به کمک سنتز موفق تعداد ثبات های استفاده شده، تعداد ها LUT و حداقل تعداد کلاک به طوری که سیستم دچار مشکلات زمان بندی نشود را به دست می آید.