## به نام خدا



# طراحی سیستمهای دیجیتال

گزارش پروژه

**دانشکده مهندسی کامپیوتر** دانشگاه صنعتی شریف

فرشاد بهاروند

اعضای گروه:

عماد زیناوقلی، مازیار شمسیپور، بردیا محمدی جواد هزاره، پویا یوسفی

نيم سال دوم ٠٠\_٩٩

## فهرست

١



## شرح وظايف



#### مقدمه

#### تعريف الگوريتم

الگوریتم مورد استفاده الگوریتم ضرب ماتریسی Cannon میباشد در این الگوریتم با تقسیم کردن ماتریسهای ورودی و خروجی به بلاکهای k\*k که در آن k عدد ثابتی میباشد میخواهیم با داشتن تعدادی پردازنده که به صورت موازی کار میکنند عملیات ضرب ماتریسی را بهبود ببخشیم. به طور مثال ماتریسها زیر را در نظر بگیرید:

$$A = \begin{bmatrix} A_{11} & A_{12} & \dots & A_{1\mu} \\ \vdots & \ddots & & \vdots \\ A_{\lambda 1} & A_{\lambda 2} & \dots & A_{\lambda \mu} \end{bmatrix} \quad B = \begin{bmatrix} B_{11} & B_{12} & \dots & B_{1\gamma} \\ \vdots & \ddots & & \vdots \\ B_{\mu 1} & B_{\mu 2} & \dots & B_{\mu \gamma} \end{bmatrix}$$
(1)

که در آن هر  $A_{ij}B_{ij}$  یک بلاک k\*k میباشد. (توجه میکنیم که سایز ماتریسها اگر بخش پذیر به k نباشد با اضافه کردن صفر آن را بخش پذیر میکنیم) با این اوصاف طبق قاعده می ضرب بلوکی میدانیم که بلاک  $C_{ij}$  در ماتریس جواب از رابطه ی زیر محاسبه می شود.

$$C_{ij} = \sum_{x=0}^{\mu} A_{ix} B_{xj} \tag{Y}$$

با داشتن تعداد تعداد مشخصی ضرب کننده ی ماتریسی k\*k میتوانیم این به طور موازی با استفاده از آنها حاصل نهایی  $A \times B$  را محاسبه کنیم.



#### قراردادهای ریاضی

توجه میکنیم که در ادامه ی این گزارش و توضیحات لازمه در نظر میگیریم که ماتریسهای ورودی  $A_{mr} \times B_{rn} = C_{mn}$  خواهند بود و بنابراین ماتریس خروجی به صورت  $B_{rn} \times B_{rn} = C_{mn}$  خواهد بود. همچنین لازم است که توجه داشته باشید که وقتی ماتریسها را به فرم بلوکی می نویسیم مقادیر زیر را تعریف میکنیم:

$$\mu = \left\lceil \frac{r}{k} \right\rceil \tag{14}$$

$$\lambda = \left\lceil \frac{m}{k} \right\rceil$$
 (ب۳)

$$\gamma = \left\lceil \frac{n}{k} \right\rceil$$
 (ج۳)

از این نمادها به کرّات در طول گزارش استفاده خواهد شد. توجه میکنیم که علت اینکه سقف این حاصل تقسیمها را در نظر گرفتیم همان است که اگر اندازه ی ماتریسها بر k بخش پذیر نباشد با اضافه کردن صفر به انتهای آن باعث بخش پذیری می شویم.

### نحوهی عملکرد از نظر مساحت و تایمینگ

از آنجایی که هر ضرب کننده ی ماتریسی در حدود  $k^3$  کلاک سایکل زمان میبرد و محاسبه ی هر بلوک  $C_{ij}$  با توجه به i به به بار به ضرب ماتریسی نیاز دارد. همچنین برای محاسبه ی تمام بلوک ها باید i بار محاسبات بالا را انجام دهیم با این حال اگر فرض کنیم که تعداد پردازنده ها i باشد آنگاه می توانیم ببینیم که تعداد کلاک سایکل ها تقریبا برابر با عبارت زیر است:

$$\frac{\lambda\gamma\mu k^2}{\text{#number of PU}} = \frac{\lambda\gamma\mu k^2}{p} \tag{\ref{f}}$$



#### استاندارد 754 IEEE

محاسبات در این پروژه از استاندارد Single-precision floating-point - 754 - Single-precision floating-point پیروی میکند که به طور مختصر به شرح آن میپردازیم. در این استاندارد اعداد اعشار با سه بخش sign ، fraction ، exponent مشخص میشوند که سهم هر یک از آنها مانند مثال زیر است:



و هر عدد طبق فرمول زیر به این نمایش در میآید:

value = 
$$(-1)^{sign} \times 2^{(E-127)} \times (1 + \sum_{i=1}^{23} b_{23-i} 2^{-i})$$
 (5)

مراجع مورد استفاده



## توصیف معماری سیستم

### اینترفیسهای سیستم و قرارداد استفاده از آن

به طور کلی سختافزار از یک حافظه و بخش محاسبه ی ضرب ماتریسی تشکیل شده است که پردازنده می تواند ورودی ها را درون حافظه قرار داده و خروجی ها را نیز از آن بخواند. (I/O Map). با این حال قراردادهایی در نحوه ی استفاده از مموری وجود دارد که باید به آن توجه شود. ساختار کلی حافظه به صورت زیر خواهد بود:

| Config              |  |  |  |  |  |  |
|---------------------|--|--|--|--|--|--|
| Status              |  |  |  |  |  |  |
| $A_{11}$            |  |  |  |  |  |  |
| $A_{12}$            |  |  |  |  |  |  |
| ÷                   |  |  |  |  |  |  |
| $A_{\lambda\mu}$    |  |  |  |  |  |  |
| $B_{11}$            |  |  |  |  |  |  |
| $B_{12}$            |  |  |  |  |  |  |
| :                   |  |  |  |  |  |  |
| $B_{\mu\gamma}$     |  |  |  |  |  |  |
|                     |  |  |  |  |  |  |
| $C_{11}$            |  |  |  |  |  |  |
| $C_{12}$            |  |  |  |  |  |  |
| :                   |  |  |  |  |  |  |
| $C_{\lambda\gamma}$ |  |  |  |  |  |  |
|                     |  |  |  |  |  |  |

جدول ۱: شماتیک حافظه

که در آن هر یک از  $A_{ij}, B_{ij}, C_{ij}$ ها یک بلوک k \* k خواهند بود و باید آنها را به صورت سطری در خانههای پشت سر هم حافظه نوشت. برای مثال اگر ماتریس A به صورت زیر باشد:

$$A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}$$

و در صورتی که k=2 و به عبارتی بلوکها 2\*2 باشند CPU باید آن را به صورت زیر در حافظه قرار دهد:



| Config |
|--------|
| Status |
| ١      |
| ۲      |
| ۴      |
| ۵      |
| ٣      |
| •      |
| ۶      |
| •      |
| :      |
| ·      |
|        |

به عبارتی وظیفهی بلوک کردن ماتریس و همچنین صفر قرار دادن خانههای اضافی به عهدهی CPU خواهد بود.

همچنین CPU باید اولین خانهی حافظه را که مربوط به کانفیگ میباشد به صورت زیر از اعداد یر کند:

$$\theta \mid \mu \mid \gamma \mid \lambda$$

که هر کدام  $\Lambda$ بیت خواهند بود و مقادیر این پارامترها در  $\ref{eq:constraint}$  مشخص شده است و البته باید توجه داشته باشید که مقدار  $\theta$  نیز از رابطه ی زیر محاسبه می شود:

$$\theta = \frac{\lambda \gamma}{\text{#Matrix Processors}} \tag{9}$$

همچنین دومین خانهی حافظه که مربوط به Status میباشد مطابق شکل زیر میباشد.

| MP Ready | CPU Acknowledge |  | MP Acknowledge | CPU Ready |
|----------|-----------------|--|----------------|-----------|
|----------|-----------------|--|----------------|-----------|

وظیفه ی CPU این است که بعد از قرار دادن ورودی ها و تنظیم کردن CPU مقدار بیت CPU Ready را از طرف ضرب بیت CPU Ready را از طرف ضرب کننده ی ماتریسی دریافت کرد به کارش ادامه دهد بعد از تمام شدن عملیات ماتریسی بیت کننده ماتریس فعال می شود و CPU می تواند بلاک های ماتریس خروجی را از مکانی که در مموری مربوط به خروجی ها می باشد استخراج کند.

با این تفاسیر تنها ورودی لازم به سختافزار ریست آسنکرون میباشد. و با استفاده از مموری سختافزار میتواند ورودیها را از حافظه خوانده و آنها را محاسبه کند.



#### كلاك سختافزار

تمامی ماژولهای این سختافزار از جمله مموری و تمام ماژولهای واحد حسابکنندهی ضرب ماتریسی به صورت سنکرون عمل میکنند و CDC در این سختافزار اتفاق نمیافتد.

### دیاگرامهای بلوکی سختافزار

این سخت افزار شامل ماژولهای زیر میباشد:

- Memory
  - Arbiter •
- Main Control Unit
  - Control Unit •
  - Processor Unit •
- Matrix Multiplier
  - Matrix Adder •
- Index To Address Transformer •

در اینجا به توصیف ورودی خروجی هر یک از آنها و نحوهی اتصال آنها میپردازیم و در بخش بعد نحوهی عملکرد هر یک را توضیح میدهیم:

| 1 bit  |                                     |                   | output o_Config         | 32 bit          |
|--------|-------------------------------------|-------------------|-------------------------|-----------------|
| 4.64   | input i_Data_Ready<br>input i Grant |                   | output o_Grant_Request  | 1 bit           |
| 4 64   | input i Clock                       |                   | output o_Memory_Address |                 |
| 32 bit | input io_Memory_Data                |                   | output o_Row_Index      | index_width bit |
| 1 bit  | i_Indexes_Received                  |                   | output o_Column_Index   | index_width bit |
| 1 bit  | i_Result_Read                       |                   | Output o_Indexes_Ready  | 1 bit           |
|        |                                     | Main Control Unit | output o_Write_Enable   |                 |
|        |                                     | Main Control Onit |                         |                 |
|        |                                     |                   |                         |                 |
|        | reset                               |                   |                         |                 |

شکل ۱: Main Control Unit





شکل ۲: Control Unit



شکل ۳: Memory

#### توصيف ماژولها

- Memory: واحد مموری سختافزار که مطابق با استانداردی که ابتدا آورده شده است. این واحد شامل یک باس خروجی داده است که ماژولها میتوانند از آن استفاده کنند. همچنین دارای یک باس ورودی و باس آدرس میباشد که Arbiter تعیین میکند که کدام ماژول حق استفاده از این باس ها و همچنین حق استفاده از این باس ها و همچنین حق استفاده از دارد.
- Arbiter این واحد نقش پخش کردن اجازه ی دسترسی به مموری را بین ماژولها دارد،
   به FSM زیر توجه کنید:



شکل ۴: Arbiter Fsm

نحوه ی عملکرد این ماژول به این صورت است که یک صف بااهمیت از ماژولهایی که آن وصل هستند را نگه می دارم و در صورتی که ورودی Request آن یک باشد به بااهمیت ترین ماژول متصل به خود اجازه ی دسترسی به حافظه را می دهد. سپس آن ماژول می تواند از مموری استفاده کند.

- Main Control Unit
  - Control Unit •
  - Processor Unit •
  - Matrix Multiplier
    - Matrix Adder •
- Index To Address Transformer •

#### ساختار درختي سيستم

### انشكده مهندسي كامپيوتر طراحي سيستم هاى ديجيتال گزارش پروژه

روند شبیهسازی و نتایج حاصل

توصيف TestBenchها

توصیف روند کلی شبیهسازی

توصيف Golden Model

مقایسهی خروجیهای نهایی با Golden Model