# طراحی سیستمهای دیجیتال

گزارش نهایی پروژهی سوم

مهبد مجید مجید ۹۵۱۰۹۳۷۲ سبحان محمدپور ۹۵۱۰۶۶۰۷ کیمیا حمیدیه وژین نوبهاری ۹۵۱۰۵۲۳۸ کوشا جافریان ۹۵۱۰۵۴۵۴

۲۰ تیر ۱۳۹۷

## توصيف اوليه

#### مقدمه

امروزه با توجه به کاربرد گسترده Java و بالطبع JVM ، در صنعت و جهان مدرن امروزی منطقی به نظر می رسد که فرآیند اجرای کدهای جاوا را سریع تر کنیم. یکی از راههای خوب برای رسیدن به این مهم، می تواند پیاده سازی سخت افزاری JVM که در واقع هسته ی جاواست باشد.

#### اهداف

در این پروژه میخواهیم برای پردازنده ARM-7 (صبای ۲) یک شتاب دهنده این سختافزاری JVM را دریافت بسازیم. نحوه یک کار این شتاب دهنده به این شکل است که پردازنده JVM را دریافت میکند و به شتاب دهنده می دهد و شتاب دهنده دستورات معادل پردازنده را تولید میکند.

## مراحل انجام پروژه

به طور کلی با توجه به اهداف پروژه ما باید ۳ کار را برای انجام پروژه انجام دهیم:

- یادگیری کار با ماشین JVM
- یادگیری کار با ماشین 7-ARM
- ساخت مبدل برای تبدیل دستورات میان این دو

 $<sup>^{1}</sup>$ accelerator

## تقسیمبندی پروژه

### انتخاب opcodeها

ابتدا لیست opcodeهای JVM را پیداکردیم. از آنجایی که قرار بود این پروژه برای ۵ تیم باشد، نیاز بود تا تعدادی از آپکدها را جداکنیم که پروژه برای ۴ تیم مناسب شود. برای جداکردن تعدادی از این موروت عدا Jazelle الگو می گیریم. Jazelle به این صورت عمل می کند که JVM دستوراتش را به Jazelle می فرستد و اگر Bazelle از آنها پشتیبانی کرد، آنها را اجرا می کند، و اگر هم پشتیبانی نمی کرد آنها را به JyM باز می گرداند تا آنها را به دستوراتی که Jazelle از آنها پشتیبانی می کند تبدیل کند.



شكل ١: روند اجراى كار jazelle

ما نیز به این صورت عمل میکنیم که عدهای از opcodeها که پیادهسازی نرمافزاریشان سادهتر است را جدا میکنیم و الباقی opcodeها را در پیادهسازیمان میآوریم.

## تقسیمبندی opcodeها

برای افزایش بازدهی گروهها opcodeهای انتخابی به شانزده بستهی ۱۰ تایی تقسیمبندی شدند و با یک کد R که به صورت رندوم این ۱۶ بسته را به گروهها تخصیص میداد، تقسیمبندی کردیم.(سید را هم با حضور اعضای سایر گروهها تعیینکردیم.)

کد

```
library(dplyr)
set.seed(1919)
s s = sample(seq(from = 1, to = 16), replace = F)
c("jaferian", "asadi", "hoseini", "ghafarloo") %%
cbind(t(apply(matrix(s, nrow = 4), 1, sort)))
```

### خروجی کد

| Group Name |   |    |    |    |
|------------|---|----|----|----|
| jaferian   | 4 | 6  | 7  | 8  |
| asadi      | 3 | 9  | 10 | 12 |
| hoseini    | 1 | 5  | 11 | 14 |
| ghafarloo  | 2 | 13 | 15 | 16 |

#### ليست دستورات

لیست دستورات را می توانید در صفحه گسترده ی ۱ و ۲ مشاهده کنید.

## برخی ماژولهای پیادهسازی شده با verilog

## فایلهای memory

در این فایل دو ماژول حافظه طراحی شده است. ماژول اول memory\_r است که به عنوان ورودی سیگنالهای کلاک  $^{\gamma}$  ، ریست  $^{\gamma}$  ، شروع  $^{\dagger}$  و آدرس  $^{\circ}$  را میگیرد. در ضمن دو سیگنال شروع ، منتظر مورد نظر  $^{\circ}$  و آماده بودن رم و جواب  $^{\gamma}$  را هم داریم. حال در این ماژول، با فعال شدن سیگنال شروع، منتظر میمانیم تا سینگال yeady حافظه فعال شود. در اصل وجود start و yeady به شکل پیاده سازی شده برای پیاده سازی تاخیر حافظه بوده است. به محض فعال شدن yeady از آدرس مورد نظر، محتوا را خوانده و در totat\_out خروجی می دهیم. ماژول دوم نیز memory\_w است که برای نوشتن در حافظه استفاده می شود. توجه کنید که در این جا دیگر لازم نیست data\_out را خروجی دهیم و تنها هنگام فعال شدن  $^{\gamma}$  start در حالت نوشتن، صبر می کنیم تا سیگنال yeady حافظه فعال شود و به محض فعال شدن در start مورد نظر محتوای مربوطه را می نویسیم. توجه کنید که تنها تفاوت اساسی با فعال شدن را مشخص می کند.

## inext\_byte\_gen.v فایل

همان طور که می دانیم؛ در پردازنده های واقعی JVM، هنگام خواندن و نوشتن در حافظه، با بایت سر و کار نداریم؛ بلکه برای مثال موقع خواندن یک word ۴ بایتی از حافظه خوانده می شود. در بسیاری از مواقع این word، شامل چندین بایت است که برای دسترسی به مواردی مانند offset یا opcode باید این بایت است که برای دسترسی به مواردی مانند mord یا بده است که یک این بایتها را جداجدا بخوانیم. برای این منظور ما ژول mext\_byte\_gen طراحی شده است که یک memory\_r را instantiate کرده و در صورتی که هر دو سیگنال ready و ready فعال باشند؛ PC که برابر واحد اضافه می کند که معادل یک بایت جلورفتن بار برابر PC قرار و در صورت فعال بودن و reset نیز، مقداری پیش فرض را برابر PC قرار خواهد داد.

<sup>&</sup>lt;sup>2</sup>clk

 $<sup>^{3}\</sup>mathrm{reset}$ 

 $<sup>^{4}</sup>$ start

 $<sup>^5</sup>$ address

 $<sup>^6 {\</sup>rm data\_out}$ 

 $<sup>^7</sup>$ ready

### instruction\_ram.v فایل

این ماژول نیز کار پیچیدهای انجام نمی دهد و تنها یک word بایتی را از ورودی دریافت کرده و درون یک حافظه ی نوشتنی (memory\_w) می نویسد. برای این کار کافیست تا هنگام instantiate کردن این حافظه درون ماژول، data\_in آن را برابر word خوانده شده از ورودی قراردهیم. بدیهی است که سایر پارامترها نیز باید به درستی تنظیم شوند.

## فایلهای مربوط به Decoder

دیکُدر طراحی شده در این پروژه به صورت چند ماژول (Read Only Memory( ROM طراحی شده است. این ROMها عبارتند از:

#### Address ROM

این ROM یک آدرس به عنوان ورودی گرفته و آدرس بعدی که پس از این آدرس باید به آن برویم را برمیگرداند.

#### Convert ROM

این ROM یک آدرس را به عنوان ورودی گرفته و به عنوان خروجی ID دستور مربوطه را به ما تحویل میدهد.

#### **Instruction ROM**

این ROM، ID دستور را گرفته و خود دستور را به ما می دهد. منظور از خروجی دادن خود دستور، پیاده سازی آن به صورت و د درون ROM است. توجه کنید که برای پیاده سازی این ،ROM ابتدا دستورات پردازنده را با زبان اسمبلی ARM نوشتیم و سپس به کمک یک قطعه کد پایتون به صورت خودکار آنها را به فرمت کدشده و د ۷ که باید درون این ROM نوشته شود؛ در می آوریم.

## توضيحي درباره توالى آدرسها

توجه کنید که هنگامی که یک دستور را می خوانیم؛ ابتدا در آدرس مربوط به Opcode آن دستور قرار داریم، اما پس از آن با موارد تعیین شده در Address ROM، به صورت زنجیرهای (مانند یک لیست پیوندی) جلورفته و به ترتیب مجموعه عملیات مشخصی را انجام خواهیم داد. (توجه کنید که ممکن است یک دستور JVM به چندین دستور ARM تبدیل شود بنابراین باید زنجیرهای از دستورات را به ترتیب اجرا کنیم!) توجه کنید که Convert ROM نیز ورودی آدرس را گرفته و یک ID را تحویل ترتیب اجرا کنیم!) می دهد و این ROM وظیفه اجرای دستور را خواهد داشت.

## فایل Count ROM

این ROM برای این پیادهسازی شدهاست که مشخص کند پس از خواندن Opcode یک دستور، چند بایت آینده مربوط به ادامه این دستور خواهد بود. توجه کنید که برخی از دستورات ممکن است تنها از یک بایت که همان Opcode است تشکیل شده باشند مثلا Pop ولی بسیاری از دستورات هستند که مواردی مانند یک Offset بایتی یا مشابه آن دارند. بنابراین Count ROM با گرفتن Opcode مشخص میکند که دستور مربوطه چند بایت اضافی دارد.

راتوجه مهم همانطور که ذکر شد؛ دستورات ممکن است پس از Opcode تعدادی immediate داشته باشند که پارامترهایی مانند varnum ،index یا offset را مشخص کنند. برای راحتی کار، در پیادهسازی خود، این پارامترها را درون یکی از ثباتهای پردازنده ARM میریزیم و به درون استک ARM میکنیم. این کار سبب می شود که دیگر نیازی به انجام تغییر در استک Instruction ROM نیادهسازی ما به مراتب راحت تر خواهد شد.

## ماشين حالت ^

حالات ماشین حالت را می توانید در شکل زیر مشاهده نمایید:



شكل ٢: ماشين حالت

### FETCH INSTRUCTION

در این استیت، آپکد دستور JVM، از رم مربوط به آن خوانده می شود. و بعد برای بررسی نوع دستور و گرفتن تعداد پارامترهای آن، به استیت (۲) می رویم.

### CHECK WIDE AND READ COUNTER

با بررسی آپکد دستور که در مرحلهی قبل خواندهایم، در اینجا با بررسی نوع دستور، به یکی از استیتهای زیر میرویم:

<sup>&</sup>lt;sup>8</sup>State Machine

#### END

برای پایان برنامه از یک بایت که در دستورات JVM نیست ۹ مانند 0xFF استفاده کردهایم. در صورتی که آپکد برابر این کلمه باشد، برنامهی داخل رم JVM تمام شدهاست و کار این ماژول به پایان میرسد.

#### **ITERATE**

با استفاده از count\_rom که همان طور که قبلاً توضیح داده شده است، ما ژولی است که با توجه به آپکد دستورات ،JVM تعداد بایت پارامترهایی که بعد از آن آپکد قرار می گیرند را مشخص می کند \_ می توان تعداد پارامترهای هر آپکد را در این جا داشت. بنابراین اگر پارامتری پس از این آپکد نداشته باشیم، مستقیماً به این استیت می رویم.

## تستبنچهای مربوط به ماژولهای ساختهشده

در نهایت پس از ساخت تمامی این ماژولها تستبنچهایی نوشتیم و به کمك آنها، پیش از Integration از صحت عملکرد آنها، اطمینان حاصل کردیم. این تستبنچها شامل تستبنچهای زیر هستند:

- next\_byte\_gen\_tb: که از آن برای بررسی صحت ماژولهای memory\_r و memory\_r و next\_byte\_gen و next\_byte\_gen
- read\_count\_tb: که از آن برای بررسی صحت ماژولهای read\_count و count\_rom
- write\_tb و memory: که از آن برای بررسی صحت ماژولهای memory\_w و write استفاده میکنیم.

## پیادهسازی دستورات پردازنده به کمک اسمبلی ARM

در این مرحله تمامی دستورات پردازنده را با کمک زبان اسمبلی ARM پیادهسازی کردیم. این دستورات شامل موارد زیر میشوند:

## دستورات ستون دوم شامل کار با استک و اعداد صحیح

برای پیادهسازی دستورات  $\sup$  و مشابه آنها تنها از دو دستور  $\inf$  و  $\inf$  استفاده شدهاست. به این شکل که بهترتیب ذکرشده در مراجع، موارد مربوطه را  $\inf$  و  $\inf$  میکنیم.

دستورات pop و pop نیز با استفاده از یک خط دستور pop قابل پیادهسازی هستند و برای دستور swap نیز مشابه دستورات قبلی عمل میکنیم.

## دستورات سه ستون دیگر شامل دستورات کار با float و double

برای کار با اعداد floating point در اسمبلی ARM دستورات مشخصی وجود دارد اما این دستورات توسط coprocessor اجرا می شوند. برای این که به coprocessor متصل شویم، از چند خط کد در ابتدای فایل s. ارسالی استفاده کردهایم. این خطوط شامل فعال کردن مواردی مانند s0 و اتصال به coprocessor می شود.

<sup>&</sup>lt;sup>9</sup>reserved word

### چالشهای اجرای کدهای اسمبلی نیازمند fpu

در ابتدا می خواستیم شبیه سازی دستورات اسمبلی را به کمک Keil انجام دهیم، اما پس از اندکی تلاش مشاهده کردیم که پردازنده های دارای fpu، از خانواده ی cortex-m هستند که تنها دستورات fpu را پشتیبانی میکنند اما ما میخواستیم که از دستورات ۳۲بیتی ARM در این پروژه بهرهببریم. . بنابراین تصمیم گرفتیم که در این بخش از نرمافزار DS-5 استفاده کنیم. پس از نصب نرمافزار DS-5 ابتدا سعی کردیم تا به کمک Fast Model شبیه سازی را انجام دهیم و با جست وجو میان Fast Modelها متوجه شدیم که باید از پردازنده های خانوادهی Cortex-A استفاده کنیم و در بین این پردازنده ها ، پردازندهی Cortex-A7 را انتخابکردیم زیرا این پردازنده هم دارای fpu است و هم از دستورات

در کامپایلر مربوطه، تنظیمات را به گونهای انجام دادیم تا به جای استفاده از عملیات اعشاری soft-fp، از hard-fp استفادهكند كه در اين جا، به اين مشكل برخورديم كه كد ما وارد Trap هاى CPU ها

بنابراین پس از کمی جستوجو در منابع مختلف، متوجهشدیم که ابتدا باید fpu را فعالکنیم و بعد در ادامه به سراغ کدهای مربوطه برویم زیرا در غیر این صورت دچار مشکل خواهیمشد. لذا در ابتدای کدهای اسمبلی، کدی نوشتیم که fpu را فعالکند و به کمک آن کد، می توانستیم که دستورات مربوط به fp را اجرا کنیم. کد اسمبلی مذکور به شکل زیر است:

area start, code export StartHere StartHere MRC p15, 0, r0, c1, c1, 2 ORR r0, r0, #2\_11<<10; enable fpu MCR p15, 0, r0, c1, c1, 2 LDR r0, =(0xF << 20)MCR p15, 0, r0, c1, c0, 2 MOV r3, #0x40000000 VMSR FPEXC, r3 import \_\_main b \_\_main

حال در هر مرحله پس از اجرای هر قطعه کد مربوطه، برای بررسی درستی آن، ثباتها را pop میکردیم و مشاهده میکردیم که آیا نتیجه دلخواه در درون آنها ذخیرهشدهاست یا خیر.

#### پیادهسازی دستورات

حال به نحوهی پیادهسازی دستورات این بخش میپردازیم:

#### • دستورات fconst و dconst

برای پیادهسازی این دستورات تنها کافیست عدد مربوطه را به درون یک ثبات mov کرده و آن را به درون استک push کنیم. توجهکنید که برای دستورات floating point پیش از هر دستور باید کاراکتر v را قرار دهیم و برای اعداد float از f32. و برای اعداد double از f64. استفادهکنیم. نکته دیگر پیادهسازی این دستورات این است که مقدار صفر را نمی توانیم به درون یک ثبات مشخص mov کنیم و برای این کار از عملیات sub و کمکردن مقدار یک ثبات از خودش برای تولید عدد صفر استفاده کردهایم.

### • دستورات ضرب و جمع و تفریق و تقسیم

برای چنین عملیاتی در دستوراتی مانند dsub یا fdiv، ابتدا دو مقدار را از استک pop کرده و سپس عملیات مربوطه را انجام میدهیم و حاصل را به درون استک push میکنیم. این دستورات نکته خاصی ندارند و تمامی عملیات ضرب، جمع، تفریق یا تقسیم توسط coprocessor انجام می شوند.

### • دستورات مربوط به compare

برای ۴ دستور مربوط به compare ابتدا دو عدد را با vpop از استک pop کرده و با floating point متصل مقایسه میکنیم. توجه کنید که باید به مقایسه کننده مخصوص دستورات floating point متصل شویم و برای این کار از یک خط دستور زیر استفاده می شود.

VMRS APSR\_nzcv, FPSCR

پس از آن از سه بلوک مختلف استفاده میکنیم: بلوک eq، بلوک  $\operatorname{gt}$  و بلوک  $\operatorname{lt}$  که هر یک شامل دو خط کد است و عملکرد برنامه را در صورت تساوی، بزرگتر یا کوچکتر بودن مقایسه تعیین خواهد کرد.

#### • دستورات load و store

در دستورات daload و daload ابتدا دو عدد از استک میخوانیم که تعیینکننده محل خواندن از حافظه است. یکی از آنها را بهعنوان مبدا گرفته و دیگری را در ۴ ضرب کرده و به آن می افزاییم تا محل خواندن عدد مربوطه بهدست آید. سپس از محل بهدست آمده در حافظه یکی از ثباتها را محل خواندن عدد مربوطه بهدست آید. سپس از محل به دستورات store نیز کار مشابه است با این تفاوت که عددی که باید ذخیره شود را در ابتدا از استک خوانده و پس از آن دو عدد دیگر میخوانیم که به شکل ذکرشده در بالا، محل ذخیره سازی در حافظه را مشخص میکنند. در نهایت عددی که در ابتدای کار خوانده شد را در حافظه ذخیره میکنیم.

#### • دستورات frem و fneg

دستور fneg بسیار ساده است. یک عدد را از درون استک pop کرده و با دستور fneg بسیار ساده است. یک عدد را از درون استک frem کرده و در نهایت به درون استک push می کنیم. دستور frem نیز طبق فرمول ذکرشده در مراجع پیاده سازی شده است اما توجه کنید که هنگام انجام تقسیم اول که مربوط به اعداد vcvt باید حاصل را به یک integer تبدیل کنیم. برای این امر از دستور floating point استفاده می کنیم که بعد از آن باید فرمت مبدا و فرمت مقصد را بنویسیم. برای مثال برای تبدیل حاصل floating point تقسیم به عدد صحیح از دستور زیر بهره می گیریم که 32 نشان دهنده فرمت مبدا خواهد بود.

vcvt.s32.f32 s2,s2

### • دستورات convert ساده

دستوراتی مانند d2f و d2f و d2i دستورات convert ساده هستند. رای این دستورات تنها کافی ست از استک عدد مورد نظر را بخوانیم، به کمک دستور vcvt توضیح داده شده در بالا آن را به فرمت مورد نظر تبدیل کرده و در نهایت حاصل را به درون استک push کنیم.

### • دو دستور پیچیده تر convert

برای پیادهسازی دو دستور d2l و d2l به این شکل عمل میکنیم که از دو خط کد آماده یافت شده در اینترنت برای انجام این تبدیل استفاده میکنیم که این دو خط کد به شکل زیر خواهد بود:

import \_\_aeabi\_d2lz
bl \_\_aeabi\_d2lz

بدیهی است که در دستورات مربوط به float به جای d از f استفاده می شود. سایر خطوط کد نیز نکته جدیدی ندارد.

### • دستورات fload

برای پیادهسازی دستور fload)، ابتدا یک عدد را از استک میخوانیم و به کمک شیفت چپ آن را در  $\mathfrak{F}$  ضرب می کنیم. سپس حاصل را با frame pointer یا همان  $\mathfrak{p}$  جمع کرده تا محل خواندن از حافظه به دست آید. سپس از محل مربوطه در حافظه خوانده و در یک ثبات ذخیره می کنیم و در نهایت حاصل را به درون استک،  $\mathfrak{push}$  می کنیم.

برای دستورات fload\_n نیز فرمت کلی زیر را داریم:

vldr.f32 s0,[fp, #n\*4] vpush.f32 {s0}

که به این معناست که از fp به اندازه f برابر f جلو میرویم و محتوا را از محل حافظه میخوانیم و در نهایت محتوای خوانده شده را به درون استک f push میکنیم.

### اضافه کردن کدهای اسمبلی به Instruction ROM

حال دستورات پیادهسازی شده را هر یک به فرمت زیر مینویسیم:

;#<instr\_name> <ARM Code>

و هدف این است که دستورات نوشته شده با این فرمت را به کد پایتونی که در بالا ذکر شد بدهیم تا Instruction ROM را به صورت خودکار برای ما تولید کند.

## كد پايتون و Assembler

در کد پایتون ذکرشده، هر بار Assembler را صدا میکنیم و رشتههای باینری مربوطه را به کمک اجرای Assembler از آن استخراج میکنیم تا برای ROM استفاده شود.

توجه کنید که در فاز نهایی پروژه کد پایتون مذکور را بهینه کرده ایم،سس بنابراین این کد علاوه بر این که محتوای ROM را همان طور که ذکر شد، تولید می کند؛ اگر هر کدی به آن به عنوان ورودی بدهیم، خیلی سریع کامپایل خواهد کرد و تست کیس مربوطه را برای ما تولید خواهد کرد. این بهینه سازی و فرآیند کامپایل سریع، سبب گرفتن خروجی در کمترین زمان ممکن خواهد شد و به وضوح کار بسیار مفیدی خواهد بود.

## سنتزكردن كدها

پس از این که به کمک دستورات نوشته شده با اسمبلی ARM و کد پایتون ذکر شده، ROMای که در قسمتهای قبل توضیح داده شد را پرکردیم؛ مجموعه کدهای وریلاگمان کامل خواهد شد و حال باید این کدها را سنتزکنیم.

برای سنتز کدهای وریلاگ از نرم افزار Quartus محصول شرکت Altera استفادهکردیم و برای این کار در کوارتوس یک پروژه ساخته و تمامی فایلهایی که میخواهیم سنتزکنیم (تقریبا تمامی فایلها به جز تستبنچها) را به آن پروژه اضافهنمودیم.

سپس با چندین بار تلاش برای سنتز کدها ، اشکالات موجود و بخشهای غیرِ سنتزپذیر کد را از آن حذفکردیم و با قطعه کدهای سنتزپذیر جایگزین کردیم تا در نهایت سنتز ماژول اصلی یعنی ماژول top که در اصل مربوط به Integration تمامی مواردی بود که پیاده سازی کرده ایم، انجام شد.

برای راحت ترشدن اجرا و تست و importکردن فایلهای سنتزشده به نرمافزار مادلسیم، از یک اسکریپت استفاده کردیم که با گرفتن ورودی، خود به خود نرمافزار مادلسیم را بازکرده و شبیه سازی را انجامداده و نتیجه را به ما ارائه می دهد. این اسکریپت سبب شد که سرعت تست کردن کدها و نتایج بسیار بالا رود و بتوانیم سریعتر مشکلات کدها را یافته و آن ها را برطرف کنیم.

در نهایت پس از رفع اشکالات کد مذکور، بالاخره خروجی تولیدشده توسط کد با خروجی مورد انتظار ما مشابه شد که شکل آن را در شکل ۳ میکنید.



شکل ۳: نتیجهی سنتز

## مشارکت اعضا در پروژه

کدهای اسمبلی: کوشا جافریان و روژین نوبهاری کدهای وریلاگ: مهبد مجید و کیمیا حمیدیه اشکال زدایی کدهای وریلاگ و سنتز آن: کوشا جافریان کامنت گذاری کدهای اسمبلی: روژین نوبهاری کامنتگذاری کدهای وریلاگ: کیمیا حمیدیه برنامهریزی پروژه و نظارت و کمک در تمامی بخشها + تست نهایی پروژه: سبحان محمدپور محتوای داک فاز نهایی پروژه: کوشا جافریان تنظیم و طراحی داک پروژه: مهبد مجید و کیمیا حمیدیه

# مراجع

• داک JVM در سایت ORACLE موجود در

JSR-000924 Java® Virtual Machine Specification