



## پیادهسازی پردازنده ARM

گردآورندگان: دکتر علیرضا یزدانپناه مهندس ادریس نصیحتکن مهندس مرضیه رستگار

### اهداف

- ۱- یادگیری مفاهیم اصلی معماری کامپیوتر
  - ۲- یادگیری مفاهیم خط لوله در پردازنده
- ۳- تاثیرات اجزای مختلف پردازنده در کارایی آن و نحوه افزایش آن
  - ۴- یادگیری طراحی سخت افزار
  - ۵− نحوه کدنویسی Verilog با قابلیت سنتز
  - ۶- نحوه عیبیابی و تست مدارهای سخت افزاری طراحی شده

### توضيحات كلى

- ۱- در این آزمایش باید یک پردازنده ARM ساده که دارای ۱۳ دستور العمل اصلی است، پیادهسازی گردد.
- ۲- معماری اصلی این پردازنده را طراحی و کد Verilog آن را (با توضیحات کامل) به طور سنتزشدنی نوشته شود.
- ۳- ابتدا کد را با استفاده از ModelSim شبیه سازی و نتایج آن را در آزمایشگاه نشان دهید. سپس کد را با استفاده از Quartus II سنتز کنید (نتایج اجرای برنامه برروی برد باید در گزارش کار بیاید).
  - ۴- برای هر قسمت از این پردازنده (هر ماژول) باید یک ماژول تست نوشته و آن را شبیهسازی و تست نمایید.
  - ۵- پس از طراحی تمامی ماژولهای پردازنده، ماژولها را به یکدیگر متصل نمایید و کل پردازنده را شبیهسازی و تست نمایید.
- ۶- برای تست نهایی پردازنده یک ماژول سطح بالا (Testbench) طراحی کنید که کد دودویی یک عملیات (مانند حاصلجمع دو عدد) را
   داخل Program ROM یا قرار دهید و آن را خط به خط اجرا نمایید. تا در نهایت جواب نهایی حاصل شود.

### توضیحات یباده سازی به صورت مجازی

۱- پردازنده به صورت کامل برروی نرم افزار ModelSim پیاده سازی شود و زمان اجرا در آن محاسبه شود.





۲- برای گرفتن گزارش های سخت افزاری پردازنده برروی نرم افزار Quartus II سنتر کنید و گزارش های سخت افزاری مانند تعداد المان های منطقی و ... را براساس آن گزارش کنید. (مدل FPGA مورد استفاده را در گزارش ذکر کنید)

۳- مباحث مربوط به پیاده سازی روی برد در شرایط مجازی حذف شده است.

#### مقدمه

ARM نوعی از معماری پردازندههای کامپیوتری است که بر طبق طراحی RISC CPU و توسط کمپانی بریتانیایی ARM Holding طراحی شدهاست. معماری ARM که دستورالعملهای ۳۲ بیتی را پردازش می کند از دهه ۱۹۸۰ تا به امروز در حال توسعه است.

شرکت ARM Holding تولیدکننده پردازنده نیست و در عوض گواهی استفاده از معماری ARM را به دیگر تولیدکنندگان نیمه هادی می فروشد. کمپانیها نیز به راحتی تراشههای خود را براساس معماری ARM تولید می کنند. از جمله شرکتهایی که پردازنده خود را براساس معماری ARM تولید می کنند. از جمله شرکتهایی که پردازنده خود را براساس معماری ARM تولید می کنند می توان به اپل در تراشههای Ax سامسونگ در پردازندههای Exynos انویدیا در تگرا و کوالکام در پردازندههای Snapdragon اشاره کرد.

تا سال ۲۰۱۷ بیش از ۱۰۰ میلیارد پردازنده ARM در جهان مورد استفاده قرار گرفته است. در ۴ سال منتهی به ۲۰۱۷، ۲۲ میلیارد از این پردازندهها در گوشیهای همراه، ۱۸ میلیارد در سیستمهای نهفته، ۷ میلیارد در مصارف صنعتی و ۳ میلیارد در دستگاههای خانگی مورد استفاده قرار گرفته است.

در جدول ۱ نسلهای مختلف معماری ARM لیست شده است. معماری ARMv1 که ساده ترین پردازنده ارائه شده توسط این شرکت است از نوع in-order و دارای یک خط لوله  $^{7}$  مرحله ای شامل واکشی دستور  $^{7}$ ، کدگشایی دستور  $^{6}$  و اجرا  $^{6}$  است. در نسلهای مختلف پردازنده ARM براساس میزان کارایی مورد نیاز معماریهای متفاوتی ارائه شده است که برای مطالعه بیشتر می توانید به لینک http://infocenter.arm.com/help/index.jsp

| Instruction set | Core      | C            | ores        | Profile |
|-----------------|-----------|--------------|-------------|---------|
| Architecture    | bit-width | Arm Holdings | Third-party |         |
|                 |           |              |             |         |
|                 |           |              |             |         |
| ARMv1           | 32[a 1]   | ARM1         |             | Classic |

<sup>&</sup>lt;sup>1</sup>Apple

<sup>&</sup>lt;sup>2</sup>Samsung

<sup>&</sup>lt;sup>3</sup>Nvidia

<sup>&</sup>lt;sup>4</sup>Tegra

<sup>&</sup>lt;sup>5</sup>Qualcomm

<sup>&</sup>lt;sup>6</sup>Pipeline

<sup>&</sup>lt;sup>7</sup>Instruction Fetch (IF)

<sup>&</sup>lt;sup>8</sup>Instruction Decode (ID)

<sup>&</sup>lt;sup>9</sup>Execute





| ARMv2     | 32[a 1] | ARM2, ARM250, ARM3                                                                                                          | Amber, STORM Open Soft Core[40]                                                                                                                                                              | Classic         |
|-----------|---------|-----------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------|
| ARMv3     | 32[a 2] | ARM6, ARM7                                                                                                                  |                                                                                                                                                                                              | Classic         |
| ARMv4     | 32[a 2] | ARM8                                                                                                                        | StrongARM, FA526, ZAP<br>Open Source Processor<br>Core[41]                                                                                                                                   | Classic         |
| ARMv4T    | 32[a 2] | ARM7TDMI,<br>ARM9TDMI, SecurCore<br>SC100                                                                                   |                                                                                                                                                                                              | Classic         |
| ARMv5TE   | 32      | ARM7EJ, ARM9E,<br>ARM10E                                                                                                    | XScale, FA626TE, Feroceon, PJ1/Mohawk                                                                                                                                                        | Classic         |
| ARMv6     | 32      | ARM11                                                                                                                       |                                                                                                                                                                                              | Classic         |
| ARMv6-M   | 32      | ARM Cortex-M0, ARM<br>Cortex-M0+, ARM Cortex-<br>M1, SecurCore SC000                                                        |                                                                                                                                                                                              | Microcontroller |
| ARMv7-M   | 32      | ARM Cortex-M3,<br>SecurCore SC300                                                                                           |                                                                                                                                                                                              | Microcontroller |
| ARMv7E-M  | 32      | ARM Cortex-M4, ARM<br>Cortex-M7                                                                                             |                                                                                                                                                                                              | Microcontroller |
| ARMv8-M   | 32      | ARM Cortex-M23,[42]<br>ARM Cortex-M33[43]                                                                                   |                                                                                                                                                                                              | Microcontroller |
| ARMv7-R   | 32      | ARM Cortex-R4, ARM<br>Cortex-R5, ARM Cortex-<br>R7, ARM Cortex-R8                                                           |                                                                                                                                                                                              | Real-time       |
| ARMv8-R   | 32      | ARM Cortex-R52                                                                                                              |                                                                                                                                                                                              | Real-time       |
| ARMv7-A   | 32      | ARM Cortex-A5, ARM<br>Cortex-A7, ARM Cortex-<br>A8, ARM Cortex-A9,<br>ARM Cortex-A12, ARM<br>Cortex-A15, ARM Cortex-<br>A17 | Qualcomm Krait/Scorpion,<br>PJ4/Sheeva, Apple Swift                                                                                                                                          | Application     |
| ARMv8-A   | 32      | ARM Cortex-A32                                                                                                              |                                                                                                                                                                                              | Application     |
|           | 64/32   | ARM Cortex-A35,[48]<br>ARM Cortex-A53, ARM<br>Cortex-A57,[49] ARM<br>Cortex-A72,[50] ARM<br>Cortex-A73[51]                  | X-Gene, Nvidia Project Denver 1/2, Cavium Thunder X[52][53][54], AMD K12, Apple Cyclone/Typhoon/Twister/H urricane/Zephyr/Monsoon/M istral, Qualcomm Kryo, Samsung M1/M2/M3 ("Mongoose")[55] | Application     |
| ARMv8.1-A | 64/32   | TBA                                                                                                                         | ThunderX2[58]                                                                                                                                                                                | Application     |
| ARMv8.2-A | 64/32   | ARM Cortex-A55,[59]<br>ARM Cortex-A75,[60]<br>ARM Cortex-A76[61],<br>Cortex-A65, Neoverse E1,<br>Neoverse E1                | Nvidia Carmel, Samsung<br>M4[62]                                                                                                                                                             | Application     |





| ARMv8.3-A | 64/32 | TBA | Apple Vortex/Tempest | Application |
|-----------|-------|-----|----------------------|-------------|
| ARMv8.4-A | 64/32 | TBA |                      | Application |
|           | 64/32 | TBA |                      | Application |
| ARMv8.5-A |       |     |                      |             |

جدول ۱- لیست خانواده های پردازندهی ARM

برای پیادهسازی در درس **آزمایشگاه معماری کامپیوتر دانشگاه تهران معماری پردازنده ۱** ARM968E-S از خانواده ARM9 از خانواده برای پیادهسازی در درس آزمایشگاه معماری کامپیوتر، آشنایی با یک پردازنده جدید و ISA<sup>۱۰</sup> متفاوت انتخاب شده است. ARM9E با هدف مروریبر مطالب ارائه شده در درس معماری کامپیوتر، آشنایی با یک پردازنده جدید و ARM946E-S ،ARM926EJ-S متفاوت انتخاب شده است. خانواده پردازنده ARM946E-S ،ARM926EJ-S به بازار عرضه شد و شامل پردازنده از سال ۱۹۰۹ میشود. پردازنده ARM968E-S در سال ۲۰۰۴ مبتنی بر معماری دستورات ARM968E-S ارائه شد. این پردازنده از نوع in-order بوده و دارای خط لوله ۵ مرحلهای و از لحاظ معماری شباهت زیادی به ARMاک

### مشخصات يردازنده

- ۱- یهنای خط داده: ۳۲ بیت
- ۲- تعداد مراحل خط لوله: ۵ مرحلهای
  - ۳- تعداد دستورات: ۱۳ دستور
  - ۴- میزان تاخیر انشعاب: ۲ مرحله
- ۵- ۱۶ ثبات همه منظوره ( ثبات ۱۵ به منظور PC استفاده می شود و ثبات ۱۴ نیز به عنوان Link Register
- آدرسدهی برحسب بایت و فضای آدرس دستورات (Instructions) و داده (Data) تفکیک شده میباشد.
   آدرس ۰ تا ۲۰۲۳ به Program ROM اختصاص دارد و آدرس ۲۰۲۴ به بعد به RAM تعلق دارد.)
- ۷- تمامی پرشها از نوع محلی تعریف شده است و پس از پرش مقدار رجیستر شمارنده دستور به شکل زیر خواهد بود. PC=PC+ (signed\_immed\_24<<2) +4
- ۸- قابلیت تشخیص و جلوگیری هازاد دادهای (Hazard Detection Unit) دارد و واحد ارسال به جلو (Forwarding Unit) ندارد.

٤

<sup>&</sup>lt;sup>10</sup>Instruction Set Architecture





# مجموعه دستورات پردازنده

پردازنده ای که در این آزمایش طراحی و پیاده سازی می گردد، یک پردازنده ARM ساده شده است که دارای ۱۲ دستور العمل اصلی است. این پردازنده قابلیت انجام علمیات های ریاضی (ADD, ADC, SUB,SBC)، عملیاتهای منطقی (AND, ORR, EOR)، عملیاتهای مقایسه ۲ رکستان خواندن و نوشتن در حافظه (LD, ST)، عملیات پرش (B) را دارد. لیست عملیات ها به همراه جزئیات آنها در جدول ۲ آورده شده است. دستور NOP به عنوان یک دستور پیاده سازی نمی شود.

|      | <b>.</b>             |                        |       |       |    |         | Bits |        |          |                 |
|------|----------------------|------------------------|-------|-------|----|---------|------|--------|----------|-----------------|
|      | R-type<br>structions | Description            | 31:28 | 27:26 | 25 | 24:21   | 20   | 19:16  | 15:12    | 11:00           |
| 111. | structions           |                        | Cond. | Mode  | I  | OP-Code | S    | Rn     | Rd       | shifter operand |
| 0    | NOP''                | No<br>Operation        | 1110  | 00    | 0  | 0000    | 0    | 0000   | 0000     | 00000000000     |
| 1    | MOV                  | Move                   | cond  | 00    | I  | 1101    | S    | 0000   | Rd       | shifter operand |
| 2    | MVN۱۲                | Move NOT               | cond  | 00    | I  | 1111    | S    | 0000   | Rd       | shifter operand |
| 3    | ADD                  | Add                    | cond  | 00    | I  | 0100    | S    | Rn     | Rd       | shifter operand |
| 4    | ADC                  | Add with<br>Carry      | cond  | 00    | I  | 0101    | S    | Rn     | Rd       | shifter operand |
| 5    | SUB                  | Subtraction            | cond  | 00    | I  | 0010    | S    | Rn     | Rd       | shifter operand |
| 6    | SBC                  | Subtract<br>with Carry | cond  | 00    | I  | 0110    | S    | Rn     | Rd       | shifter operand |
| 7    | AND                  | And                    | cond  | 00    | I  | 0000    | S    | Rn     | Rd       | shifter operand |
| 8    | ORR                  | Or                     | cond  | 00    | I  | 1100    | S    | Rn     | Rd       | shifter operand |
| 9    | EOR                  | Exclusive OR           | cond  | 00    | I  | 0001    | S    | Rn     | Rd       | shifter operand |
| 10   | CMP                  | Compare                | cond  | 00    | I  | 1010    | 1    | Rn     | 0000     | shifter operand |
| 11   | TST <sup>\\\\\</sup> | Test                   | cond  | 00    | I  | 1000    | 1    | Rn     | 0000     | shifter operand |
| 12   | LDR                  | Load<br>Register       | cond  | 01    | 0  | 0100    | 1    | Rn     | Rd       | offset_12       |
| 13   | STR                  | Store<br>Register      | cond  | 01    | 0  | 0100    | 0    | Rn     | Rd       | offset_12       |
| 14   | В                    | Branch                 | cond  | 10    | 1  | 0       |      | signed | _immed_2 | 24              |

جدول ۲- لیست دستورهای پردازنده

همانگونه که در جدول ۲ ملاحظه می شود هر دستور ISAی پردازنده ARM دارای بخشهای مختلفی است این بخشها شامل موارد زیر است:

۱۱ نکته: در پردازنده ARM دستور NOP پیاده سازی نمی شود و در صورت نیاز از دستورات دیگر مانند AND یک عدد با خود آن استفاده می شود.

۱<sup>۲</sup> در پردازنده ARM مقدار فوری همواره به صورت بدون علامت درنظر گرفته می شود. برای مقداردهی اعداد منفی از MVN استفاده می شود. این دستور مقدار shifter operand را مکمل ۱ می گیرد و در رجیستر مقصد ذخیره می کند.

۳ دستور TST برای مقایسه مقادیر منطقی مورد استفاده قرار می گیرد. این دستور عملیات AND را اجرا می کند و رجیستر وضعیت را به روزرسانی می کند. دستور TST رجیستر مقصد ندارد.





Mode: دسته دستور را تعیین می کند. تمامی دستورات محاسباتی در دسته 00 قرار می گیرند. دستورات حافظه در دستهی 01 و دستورات پرش در دسته 10 قرار دارند. در این پردازنده ها دستورات ارتباط با پردازندهی کمکی<sup>۱۴</sup> نیز در نظر گرفته شده است که Mode آن برابر 11 است. OP-Code: کد دستورالعمل برای تعیین نوع دستور است. Mode به همراه OP-Code برای تشخیص دستورات در نظر گرفته می شود.

I: نشاندهنده فوری بودن عملوند دوم است، در صورت یک بودن داده دوم فوری در نظر گرفته می شود.

S: در صورت یک بودن S دستورات محاسباطی پس از اجرا ثبات وضعیت (state register) به روز می کنند.

Cond: در پردازندههای ARM تمامی دستورات به صورت شرطی اجرا میشوند. در جدول ۳ لیست حالت های اجرای دستورات ذکر شده است. در صورتی که یک دستور به صورت غیرشرطی اجرا شود مقدار بیتهای شرط برابر 1110 خواهد بود. در صورتی که شرط برقرار نباشد دستور همانند NOP هیچ کاری انجام نخواهد داد. مقدار 1111 نیز در نسلهای مختلف پردازنده های ARM به صورت متفاوتی اجرا می شود که در پردازنده مورد نظر در آزمایشگاه نیازی به پیاده سازی آن نیست.

| Opcode<br>[31:28] | Mnemonic extension | Meaning                           | Condition flag state                                                              |
|-------------------|--------------------|-----------------------------------|-----------------------------------------------------------------------------------|
| 0000              | EQ                 | Equal                             | Z set                                                                             |
| 0001              | NE                 | Not equal                         | Z clear                                                                           |
| 0010              | CS/HS              | Carry set/unsigned higher or same | C set                                                                             |
| 0011              | CC/LO              | Carry clear/unsigned lower        | C clear                                                                           |
| 0100              | MI                 | Minus/negative                    | N set                                                                             |
| 0101              | PL                 | Plus/positive or zero             | N clear                                                                           |
| 0110              | VS                 | Overflow                          | V set                                                                             |
| 0111              | VC                 | No overflow                       | V clear                                                                           |
| 1000              | НІ                 | Unsigned higher                   | C set and Z clear                                                                 |
| 1001              | LS                 | Unsigned lower or same            | C clear or Z set                                                                  |
| 1010              | GE                 | Signed greater than or equal      | N set and V set, or<br>N clear and V clear (N == V)                               |
| 1011              | LT                 | Signed less than                  | N set and V clear, or N clear and V set (N != V)                                  |
| 1100              | GT                 | Signed greater than               | Z clear, and either N set and V set, or<br>N clear and V clear $(Z == 0, N == V)$ |
| 1101              | LE                 | Signed less than or equal         | Z set, or N set and V clear, or<br>N clear and V set (Z == 1 or N != V)           |
| 1110              | AL                 | Always (unconditional)            | -                                                                                 |
| 1111              | -                  | See Condition code 0b1111         |                                                                                   |

جدول ۳- کد شرط دستورات

Rd: نشاندهنده آدرس ثبات مقصد است. این آدرس در دستور STR به عنوان یکی از مقداری که باید در حافظه ذخیره شود مورد استفاده قرار می گیرد.

٦

<sup>16</sup> Co-Processor



0xF

## دستور کار آزمایشگاه معماری کامپیوتر بخش سخت افزار، دانشکده برق و کامپیوتر، دانشگاه تهران آزمایش اول: پیاده سازی پردازنده ARM



Rn: همواره به عنوان یکی از عملوندهای دستورات مورد استفاده قرار می گیرد.

shifter operand: برای عملوند شیفت در پردازنده ARM به سه شکل زیر پیادهسازی شده است:

۱- ۳۲ بیت عدد فوری (32-bit immediate) :

7 6 5 4 3 2 1 0

در این حالت مقدار بیت I برابر یک است. عدد ۸ بیتی immed\_8 در یک ظرف ۳۲ بیت قرار می گیرد سپس به اندازه دو برابر rotate\_imm به راست چرخانده می شود (شکل ۱).

| 31 | 28   | 27 | 26 | 25 | 24    | 21 | 20 | 19 |    | 16 | 15 |    | 12 | 11   | 8      | 7 |         | 0 |
|----|------|----|----|----|-------|----|----|----|----|----|----|----|----|------|--------|---|---------|---|
|    | cond | 0  | 0  | 1  | opcod | e  | s  |    | Rn |    |    | Rd |    | rota | te_imm |   | immed_8 |   |

شكل ۱: دستورالعمل از نوع ۳۲ بيت عدد فورى 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0 0x0 1 0 7 6 5 4 3 2 0x1 3 2 1 0 0x2 5 4 3 2 1 0 0x3 7 6 5 4 3 2 1 0 0x4 7 6 5 4 3 2 1 0 0x5 7 6 5 4 3 2 1 0 0x6 7 6 5 4 3 2 1 0 0x7 7 6 5 4 3 2 1 0 0x8 7 6 5 4 3 2 1 0 0x9 7 6 5 4 3 2 1 0 0xA 7 6 5 4 3 2 1 0 0xB 7 6 5 4 3 2 1 0 0xC 7 6 5 4 3 2 1 0 0xD 7 6 5 4 3 2 1 0 0xE

شکل ۲: نحوه چرخش عدد فوری





### ۲- شیفت فوری (Immediate shifts):

در این حالت بیت I و بیت چهارم دستورالعمل نیز صفر برابر صفر است. عملوند دوم از رجیستر خوانده می شود. سپس عدد خوانده شده براساس حالت شیفت (shift) به مقدار shift\_imm شیفت داده می شود (شکل ۳). حالت های شیفت در جدول زیر قرار دارد.

| وضعيت شيفت | توضيحات                | مقدار |
|------------|------------------------|-------|
| LSL        | Logical shift left     | 00    |
| LSR        | Logical shift right    | 01    |
| ASR        | Arithmetic shift right | 10    |
| ROR        | Rotate right           | (11)  |

جدول ۴- وضعیت شیفت در دستورات شیفت فوری

| 31 | 2    | 8 2 | 27 | 26 | 25 | 24 2   | 21 | 20 | 19 |    | 16 | 15 |    | 12 | 11        | 7 | 6  | 5   | 4 | 3 |    | 0 |
|----|------|-----|----|----|----|--------|----|----|----|----|----|----|----|----|-----------|---|----|-----|---|---|----|---|
|    | cond |     | 0  | 0  | 0  | opcode |    | s  |    | Rn |    |    | Rd |    | shift_imm |   | sh | ift | 0 |   | Rm |   |

### شكل ٣: دستورالعمل از نوع شيفت فورى

#### ۳- شیفت ثباتی (Register shifts):

در این حالت بیت I برابر صفر است و عملوند دوم از رجیستر خوانده می شود. پس از آن عدد خوانده شده براساس حالت شیفت (shift) به مقدار رجیستر Rs شیفت داده می شود (شکل ۴). در پردازنده مورد استفاده در آزمایشگاه نیازی به پیاده سازی این حالت نیست.

| 31   | 28 | 27 | 26 | 25 | 24    | 21 | 20 | 19 |    | 16 | 15 | 12 | 11 |    | 8 | 7 | 6  | 5   | 4 | 3 |    | 0 |
|------|----|----|----|----|-------|----|----|----|----|----|----|----|----|----|---|---|----|-----|---|---|----|---|
| cond | I  | 0  | 0  | 0  | opcod | e  | s  |    | Rn |    | Rd |    |    | Rs |   | 0 | sh | ift | 1 |   | Rm |   |

شكل ۴: دستورالعمل از شيفت ثباتي





# معماری پردازنده



شکل ۵- معماری کلی پردازنده ARM ساده شده





# ثباتهای عمومی<sup>۱۵</sup>

Register File در پردازنده ARM شامل ۱۹ ثبات ۳۲ بیت می شود که کاربردهای زیر را دارند:

- ثبات ۱۰ تا ۱۲ ثباتهای عمومی پردازنده میباشند که در همه کاربردها استفاده میشوند.
- ثبات ۱۳ به عنوان اشاره گر پشته ۱<sup>۲</sup> مورد استفاده قرار می گیرند. دستورات پشته مانند push و pop از این ثبات استفاده می کنند.
- ثبات ۱۶ به عنوان آدرس بازگشت پس از دستور BL استفاده می شود. دستور BL یا Branch and Link معادل دستور Call در یر دازنده های دیگر است.
- ثبات ۱۵ به عنوان شمارنده برنامه مورد استفاده قرار می گیرد. در معماری ارائه شده در آزمایشگاه برای سادگی این رجیستر به مرحله واکشی دستور ۱۷ منتقل شده است.

# ثبات وضعیت<sup>۱۸</sup>

در پردازنده MRM یک ثبات برای نگهداری وضعیت کلی پردازنده در نظر گرفته شده است. این رجیستر Mode اجرای پردازنده و فضعیت اجرای دستورات در پردازنده را بیان می کند $^{19}$ . بیتهای N (منفی بودن)، Z (صفر بودن)، C (رقم نقلی) و V (سرریز $^{19}$ ) برای بررسی شرط مورد استفاده قرار می گیرد. در پیاده سازی پردازنده مورد نظر آزمایشگاه معماری کامپیوتر فقط بیتهای  $^{19}$  C و  $^{19}$  پیاده سازی می شود. نوشتن در ثبات وضعیت با لبه پایین رونده انجام می شود.

| 3 | 31 | 30 | 29 | 28 | 27 | 26 25 | 24 | 23 20    | 19 | 16      | 15 |          | 10 | 9 | 8 | 7 | 6 | 5 | 4      | 0 |
|---|----|----|----|----|----|-------|----|----------|----|---------|----|----------|----|---|---|---|---|---|--------|---|
| ] | N  | Z  | С  | V  | Q  | Res   | J  | RESERVED |    | GE[3:0] |    | RESERVED |    | Е | A | Ι | F | Т | M[4:0] |   |

شكل ع- ثبات وضعيت

<sup>\</sup>o Register file

<sup>&</sup>lt;sup>17</sup> Stack pointer

W Instruction Fetch (IF)

<sup>1</sup>A Status Register

۱۹ برای مطالعه جزئیات این رجیستر به بخش ARM Architecture Reference Manual از A2.5 مراجعه کنید.

Y. Overflow or Underflow





## خط لوله پردازنده

### • مرحله واکشی

در مرحله واکشی دستورالعمل به یک ثبات برای نگه داری شماره برنامه (PC) نیاز است. همانطور که در شکل ۱ دیده می شود، این ثبات با توجه به نوع دستور، با PC+4 یا آدرس پرش(Branch Address) جایگزین می شود. همچنین از یک حافظه دستور العمل ناهمگام (Instruction Memory) برای نگهداری دستورالعملها استفاده می شود. در شکل زیر نمونه ای از ورودی و خروجی های مرحله واکشی و رجیستر پس از آن نشان داده شده است.

#### مرحله کد گشایی

در مرحله کدگشایی میبایست دستور به صورت کامل دیکد گردد، سیگنالهای کنترلی ایجاد و مقادیر رجیستر خوانده شود. برای پیاده سازی مرحله کد گشایی انجام مراحل زیر الزامیست

۱- ایحاد مجموعه ثباتهای عمومی

یک آرایه ۱۵ تایی با ثباتهای ۳۲ بیتی، که دارای یک پورت نوشتن همگام با  $\frac{|_{_{_{}}}}{|_{_{}}}$  و دو پورت خواندن ناهمگام است. **نکته:** در این پردازنده ثبات شماره صفر همواره مقدار 0 را در خود نگهداری می کند.

لیست پورتها مجموعه ثباتها در زیر نشان داده شده است.

```
module RegisterFile (
input clk, rst,
input[3:0] src1, src2, Dest_wb,
input[31:0] Result_WB,
input writeBackEn,
output [31:0] reg1,reg2
);
```

#### ۲- تکمیل مرحله کدگشایی

در این مرحله دستور به صورت کامل کدگشایی می گردد به گونهای که دیگر در هیچ مرحلهای به Op-code نیازی نخواهد بود. از قسمتهای اصلی این بخش پیادهسازی Control Unit به منظور ایجاد تمامی سیگنالهای کنترلی پردازنده است. در مرحله کد گشایی همچنین کارهایی مانند تعیین سیگنال پرش، تعیین ورودی اول و دوم ALU، خواندن از رجیستر یا ارسال داده Immediate و تعیین آدرس رجیستر مقصد می بایست انجام گردد. در شکل زیر نمونه ای از ماژول کدگشایی و رجیستر بعد از آن نشان داده شده است.





```
module ID_Stage (
 2
         input clk, rst,
 3
          //from IF Reg
         input[31:0] Instruction,
 4
 5
         //from WB stage
 6
         input[31:0] Result WB,
                                                       module ID Stage Reg (
 7
         input writeBackEn,
                                                            input clk, rst, flush,
                                                            input WB EN IN, MEM R EN IN, MEM W EN IN,
 8
         input[3:0] Dest wb,
                                                   3
                                                   4
                                                            input B_IN, S_IN,
 9
          //from hazard detect module
                                                   5
                                                            input[3:0] EXE CMD IN,
10
         input hazard,
                                                   6
                                                            input[31:0] PC_IN,
11
         //from Status Register
                                                            input[31:0] Val_Rn_IN, Val_Rm_IN,
12
         input[3:0] SR,
                                                   8
                                                            input imm IN.
13
         //to next stage
                                                            input[11:0] Shift operand IN,
14
         output WB_EN, MEM_R_EN, MEM_W_EN,B,S,
                                                  10
                                                            input[23:0] Signed imm 24 IN,
15
         output[3:0] EXE CMD,
                                                  11
                                                            input[3:0] Dest IN,
         output[31:0] Val Rn, Val Rm,
16
                                                  12
17
         output imm.
                                                            output reg WB_EN, MEM_R_EN, MEM_W_EN,B,S,
                                                  13
18
         output[11:0] Shift operand,
                                                            output reg[3:0] EXE CMD,
                                                  14
19
         output[23:0] Signed imm 24,
                                                  15
                                                            output reg[31:0] PC,
20
         output[3:0] Dest,
                                                            output reg[31:0] Val Rn, Val Rm,
         //to hazard detect module
21
                                                  17
                                                            output reg imm,
22
         output[3:0] srcl, src2,
                                                  18
                                                            output reg[11:0] Shift_operand,
23
         output Two src
                                                  19
                                                            output reg[23:0] Signed imm 24,
                                                            output reg[3:0] Dest
24
                                                  20
         );
25
```

### • مرحله اجرا

اجرای تمامی دستورات حسابی منطقی در این مرحله انجام میشود. همچنین آدرس درس پرش و آدرس ذخیره یا خواندن دستورات از حافظه داده در این مرحله انجام میشود.

```
-module EXE Stage(
2
         input clk.
          input[3:0] EXE_CMD,
3
          input MEM R EN, MEM W EN,
         input [31:0] PC,
5
         input[31:0] Val_Rn, Val_Rm,
 6
                                           1 ☐module EXE_reg(
         input imm,
                                                    input clk, rst, WB en in, MEM R EN in, MEM W EN in,
8
         input[11:0] Shift operand,
                                           3
                                                    input[31:0] ALU_result_in, ST_val_in,
9
         input[23:0] Signed_imm_24,
                                            4
                                                    input[3:0] Dest in,
10
          input [3:0] SR,
                                                    output reg WB en, MEM R EN, MEM W EN,
11
                                                    output reg[31:0] ALU_result, ST_val,
12
          output[31:0] ALU result, Br addr,
13
          output[3:0] status
                                                    output reg[3:0]Dest
```

در پردازندههای مختلف مرحله اجرا شامل واحدهایی همچون واحد حساب و منطق (ALU)، Cryptography module ،X87 ،FMA ،(ALU) و ... است. در پردازنده مورد نظر در این آزمایش مرحله اجرا شامل ALU و محاسبه آدرس دستور پرش خواهد بود. ALU دارای دو ورودی داده، یک خروجی داده و یک ورودی چهار بیتی است که توسط Control Unit تولید شده و تعیین کننده عملیات ALU است. این ورودی کنترلی در جدول ۵ مشخص شده است.





| Instruction | ALU Command | Operation                     |
|-------------|-------------|-------------------------------|
| MOV         | 0001        | result = in2                  |
| MVN         | 1001        | result = ~in2                 |
| ADD         | 0010        | result = in1 + in2            |
| ADC         | 0011        | result = in1 + in2 + C        |
| SUB         | 0100        | result = in1 - in2            |
| SBC         | 0101        | $result = in1 - in2 - \sim C$ |
| AND         | 0110        | result = in1 & in2            |
| ORR         | 0111        | result = in1   in2            |
| EOR         | 1000        | result = in1 ^ in2            |
| CMP         | 0100        | result = in1 - in2            |
| TST         | 0110        | result = in1 & in2            |
| LDR         | 0010        | result = in1 + in2            |
| STR         | 0010        | result = in1 + in2            |
| В           | XXXX        |                               |

جدول ۵- ریز دستورهای واحد حساب و منطق

#### مرحله حافظه

در مرحله حافظه دادهها از یک حافظه RAM شبیه سازی شده با سیگنالهای MEM\_R\_EN و MEM\_W\_EN به ترتیب خوانده و در آن نوشته می شود. این سیگنالها در مرحله گدگشایی توسط Control unit تولید و همراه با دستور در پایپ به جلو حرکت ارسال می شود. حافظه داده از آدرس ۲۰۲۴ شروع می شود و آدرس دهی براساس بایت خواهد بود. در هر مرحله خواندن از حافظه ۲۲ بیت داده خوانده یا نوشته می شود و دسترسی به تک بایت امکانپذیر نیست.

خواندن و نوشتن فقط از آدرسهای مضرب ۴ (به دلیل ۳۲ بیتی بودن معماری) انجام می شود. به طور مثال: در ازای خواندن از آدرسهای ۱۰۲۴، ۱۰۲۵، ۱۰۲۶ و ۱۰۲۷ نتایج یکسانی خوانده می شود یعنی ۴ بایت از آدرس ۱۰۲۴.

حجم حافظه را ۲۵۶ بایت در نظر بگیرید.

```
input clk, rst, WB_en_in, MEM_R_en_in,
    module Memory(
                                          3
                                                 input[31:0] ALU_result_in, Mem_read_value_in,
                                                 input[3:0] Dest in,
        input clk, MEMread, MEMwrite,
                                          4
                                                 output reg WB_en, MEM_R_en,
                                          5
3
         input[31:0]address, data,
                                                 output reg[31:0] ALU result, Mem read value,
                                          6
4
         output[31:0] MEM result
                                                 output reg[3:0] Dest
5
```

#### مرحله بازنویسی

• در این مرحله با سیگنال WB\_EN داده ارسالی از مرحله حافظه یا اجرا در ثبات مقصد از ثباتهای عمومی نوشته خواهد. سیگنال WB\_EN نیز نوع WB\_EN توسط واحد کنترل همراه با دستور به جلو ارسال می گردد. همچنین به کمک سیگنال MEM\_R\_EN نیز نوع





دستور(حافظه ای یا محاسباتی) تشخیص داده می شود و مقدار خوانده شده از حافظه یا مقدار محسابه شده از ALU در ثبات مقصد نوشته می شود.

### اجراى برنامه محك

برای تست پردازنده باید برنامه محک در Instruction Memory قرار گیرد و نتایج اجرا به همراه تعداد سیکلهای اجرا ثبت شود. دستورات برنامه محک به صورت دودویی و اسمبلی در پیوست ۱ قرار داده شده است. در بخش اول این برنامه تمامی دستورات پیاده سازی شده را تست می کند و پس از آن یک الگوریتم مرتبسازی حبابی<sup>۲۱</sup> پیاده شده است. سپس داده های مرتب شده را در رجیسترهای R1 تا R4 بارگذاری می کند. در صورت صعودی بودن رجیسترهای R1 تا R4 برنامه به درستی اجرا شده است.

استاندارد دستورات اسمبلی ARM به صورت زیر بیان می شوند:

Instruction<Cond><S>  $R_d$ ,  $R_n$ , <Shifter Operand>

مثال:

ADD R0, R1, #10

مجموع R1 و ۱۰ را در R0 ذخیره می کند. این دستور از نوع ۳۲ بیت عدد فوری است.

ADDEQ R0, R1, #10

این دستور معادل دستور قبل است با این تفاوت که در صورتی که شرط EQ (جدول ۳) برقرار باشد اجرا می شود.

ADDS R0, R1, #10

این دستور علاوه بر ذخیرهی مقدار مجموع R1 و ۱۰ را در R0، ثبات وضعیت را بروز رسانی می کند.

ADDEQS R0, R1, R2

این دستور به صورت شرطی و با بروزرسانی ثبات وضعیت مجموع R2 و R1 را محاسبه می کند و در R0 ذخیره می کند. این دستور از نوع شیفت فوری است و مقدار شیفت آن صفر خواهد بود.

ADD R0, R1, R2, LSL #2

" Bobble Sort





این دستور ابتدا R2 را دو بیت به چپ شیف فوری میدهد (جدول ۴) سپس حاصل را با R1 جمع می کند.

## گزارش کار

- در ابتدای گزارش کار باید مدار طراحی شده در سطح عملکردی توضیح داده شود، سپس معماری آن در سطح RTL را با توضیحات
   کامل نوشته شود.
- در قسمت بعد کد Verilog معادل با RTL طراحی شده توضیح داده شود و نتایج شبیه سازی برای نشان دادن درستی کد آورده شود
   (به ازای هر دستور یک نتیجه به همراه تصویری از SignalTapII ارائه شود).
- پس از آن نتایج سنتز آورده شود و مدار RTL استخراج شده از Quartus II با مدار RTL طراحی شده در قسمت اول مقایسه شود و
   تفاوت ها را توضیح دهید.
  - نتایج برنامه ریزی روی برد را توضیح دهید.
  - Compilation Report) تصویر گزارش کامپایل
    - 🗸 جدولی حاوی موارد زیر را گزارش نمایید:
  - o تعداد كل المانهاي منطقي استفاده شده در پروژه (Total Logic Elements)
  - o تعداد المانهای منطقی استفاده شده در مدارات ترتیبی (Total Combinational functions)
    - (Dedicated Logic registers) تعداد المانهاي منطقي استفاده شده توسط رجيسترها
- o زمان اجرای برنامه: زمان اجرای برنامه برابر با تعداد کلاکهایی است که PC برای اولین بار به دستور "IMP -1" میرسد.
  - o میزان CPI (تعداد کلاکهای اجرای برنامه بر دستور العمل).
- در قسمت آخر گزارش کار باید مشکلاتی که هنگام کدنویسی داشته اید، همچنین خطاهای زمان کامپایل و سنتز نوشته شود و راهکارهایی
   که این مشکلات و خطاها را برطرف نموده اید را بیان کنید.





## پیوست: برنامه محک

## کد ماشین به همراه اسمبلی و نتایج:

|     |                                                               | بنی و ندیج.      | عد هاسین به همراه اسم     |
|-----|---------------------------------------------------------------|------------------|---------------------------|
| 1.  | 32'b1110_00_1_1101_0_0000_0000_00000010100; //MOV             | R0 ,#20          | //R0 = 20                 |
| 2.  | 32b1110_00_1_1101_0_0000_0001_101000000001; //MOV             | R1 ,#4096        | //R1 = 4096               |
| 3.  | 32b1110_00_1_1101_0_0000_0010_000100000011; //MOV             | R2 ,#0xC0000000  | //R2 = -1073741824        |
| 4.  | 32b1110_00_0_0100_1_0010_0011_000000000010; //ADDS            | R3 ,R2,R2        | //R3 = -2147483648        |
| 5.  | 32b1110_00_0_0101_0_0000_0100_00000000000                     | R4 ,R0,R0        | //R4 = 41                 |
| 6.  | 32'b1110_00_0_0010_0_0100_0101_000100000100; //SUB            | R5 ,R4,R4,LSL #2 | //R5 = -123               |
| 7.  | 32b1110_00_0_0110_0_0000_0110_000010100000; //SBC             | R6 ,R0,R0,LSR #1 | //R6 = 10                 |
| 8.  | 32b1110_00_0_1100_0_0101_0111_000101000010; //ORR             | R7 ,R5,R2,ASR #2 | //R7 = -123               |
| 9.  | 32b1110_00_0_0000_0_0111_1000_000000000011; //AND             | R8 ,R7,R3        | //R8 = -2147483648        |
| 10. | 32'b1110_00_0_1111_0_0000_1001_000000000110; //MVN            | R9 ,R6           | //R9 = -11                |
| 11. | 32b1110_00_0_0001_0_0100_1010_000000000101; //EOR             | R10,R4,R5        | //R10 = -84               |
| 12. | 32'b1110_00_0_1010_1_1000_0000_000000000110; //CMP            | R8 ,R6           |                           |
| 13. | 32'b0001_00_0_0100_0_0001_0001_00000000001; //ADDNE           | R1 ,R1,R1        | //R1 = 8192               |
| 14. | 32'b1110_00_0_1000_1_1001_0000_000000001000; //TST            | R9 ,R8           |                           |
| 15. | 32'b0000_00_0_0100_0_0010_0010_000000000010; //ADDEQ          | R2 ,R2,R2        | //R2 = -1073741824        |
| 16. | 32b1110_00_1_1101_0_0000_0000_101100000001; //MOV             | R0 ,#1024        | //R0 = 1024               |
| 17. | 32b1110_01_0_0100_0_0000_0001_00000000000                     | R1,[R0],#0       | //MEM[1024] = 8192        |
| 18. | 32b1110_01_0_0100_1_0000_1011_00000000000                     | R11,[R0],#0      | //R11 = 8192              |
| 19. | 32b1110_01_0_0100_0_0000_0010_000000000100; //STR             | R2,[R0],#4       | //MEM[1028] = -1073741824 |
| 20. | 32b1110_01_0_0100_0_0000_0011_000000001000; //STR             | R3 ,[R0],#8      | //MEM[1032] = -2147483648 |
| 21. | 32b1110_01_0_0100_0_0000_0100_00000001101; //STR              | R4,[R0],#13      | //MEM[1036] = 41          |
| 22. | 32b1110_01_0_0100_0_0000_0101_000000010000; //STR             | R5 ,[R0],#16     | //MEM[1040] = -123        |
| 23. | 32b1110_01_0_0100_0_0000_0110_000000010100; //STR             | R6,[R0],#20      | //MEM[1044] = 10          |
| 24. | 32b1110_01_0_0100_1_0000_1010_000000000100; //LDR             | R10,[R0],#4      | //R10 = -1073741824       |
| 25. | 32b1110_01_0_0100_0_0000_0111_000000011000; //STR             | R7,[R0],#24      | //MEM[1048] = -123        |
| 26. | $32'b1110\_00\_1\_1101\_0\_0000\_0001\_000000000100; /\!/MOV$ | R1 ,#4           | //R1 = 4                  |
| 27. | 32b1110_00_1_1101_0_0000_0010_00000000000                     | R2 ,#0           | //R2 = 0                  |
| 28. | 32b1110_00_1_1101_0_0000_0011_00000000000                     | R3 ,#0           | //R3 = 0                  |
| 29. | 32'b1110_00_0_0100_0_0000_0100_000100000011; //ADD            | R4 ,R0,R3,LSL #2 |                           |
| 30. | 32b1110_01_0_0100_1_0100_0101_00000000000                     | R5 ,[R4],#0      |                           |
| 31. | 32b1110_01_0_0100_1_0100_0110_000000000100; //LDR             | R6,[R4],#4       |                           |
| 32. | 32'b1110_00_0_1010_1_0101_0000_000000000110; //CMP            | R5 ,R6           |                           |
| 33. | 32'b1100_01_0_0100_0_0100_0110_00000000000                    | R6,[R4],#0       |                           |
| 34. | 32'b1100_01_0_0100_0_0100_0101_000000000100; //STRGT          | R5 ,[R4],#4      |                           |
| 35. | 32'b1110_00_1_0100_0_0011_0011_00000000000                    | R3 ,R3,#1        |                           |
| 36. | 32'b1110_00_1_1010_1_0011_0000_00000000011; //CMP             | R3 ,#3           |                           |
| 37. | 32'b1011_10_1_0_11111111111111111111111111                    | #-9              |                           |
| 38. | 32b1110_00_1_0100_0_0010_0010_00000000000                     | R2 ,R2,#1        |                           |





| 39. | 32'b1110_00_0_1010_1_0010_0000_00000000000         | R2 ,R1       |                    |
|-----|----------------------------------------------------|--------------|--------------------|
| 40. | 32'b1011_10_1_0_111111111111111111110011 ;//BLT    | #-13         |                    |
| 41. | 32'b1110_01_0_0100_1_0000_0001_00000000000         | R1,[R0],#0   | //R1 = -2147483648 |
| 42. | 32'b1110_01_0_0100_1_0000_0010_000000000100; //LDR | R2 ,[R0],#4  | //R2 = -1073741824 |
| 43. | 32'b1110_01_0_0100_1_0000_0011_000000001000; //LDR | R3 ,[R0],#8  | //R3 = 41          |
| 44. | 32'b1110_01_0_0100_1_0000_0100_000000001100; //LDR | R4,[R0],#12  | //R4 = 8192        |
| 45. | 32'b1110_01_0_0100_1_0000_0101_000000010000; //LDR | R5 ,[R0],#16 | //R5 = -123        |
| 46. | 32'b1110_01_0_0100_1_0000_0110_000000010100; //LDR | R6,[R0],#20  | //R4 = 10          |
| 47. | 32'b1110_10_1_0_11111111111111111111111111         | #-1          |                    |