#### אוניברסיטת תל-אביב, הפקולטה להנדסה

#### פרויקט בקורס: ארכיטקטורה של מחשבים 0512.4461

שנת הלימודים תשפ"ב, סמסטר אי

בפרויקט נממש סימולטור של מעבד הכולל 4 ליבות אשר רצות במקביל:



כל ליבה הינה מצונררת, כוללת זיכרון הוראות SRAM פרטי, ומטמון נתונים פרטי. הליבות מחוברות באמצעות BUS העובד בפרוטוקול קוהרנטיות

## רגיסטרים

כל ליבה מכילה 16 רגיסטרים, שכל אחד מהם ברוחב 32 ביטים.

רגיסטר מספר 1 הינו רגיסטר מיוחד שלא ניתן לכתוב אליו, ותמיד מכיל את שדה ה- immediate, רגיסטר מספר 1 הינו רגיסטר מיוחד שלא ניתן לכתוב אליו, ותמיד מכיל את שדה כחלק sign extension, כפי שקודד בהוראת האסמבלי. הוא מתעדכן עבור כל הוראה כחלק מפענוח ההוראה. רגיסטר 0 הינו זהותית אפס. הוראות אשר כותבות לרגיסטר 0 לא משנות את ערכו.

# זיכרון הוראות

לכן PC פרטי היכרון הוראות אבות פרטי ברוחב 32 סיביות ברוחב 1024 שורות. רגיסטר ה- PC לכל ליבה זיכרון הוראות עוקבות מקדמות את PC באחד.

### <u>צנרת</u>

בכל ליבה יש שימוש ב- delay slot, והצנרת כוללת 5 שלבים:

| Fetch Decode Execute Mem Write Back | Fetch | Decode | Execute | Mem | Write Back |
|-------------------------------------|-------|--------|---------|-----|------------|
|-------------------------------------|-------|--------|---------|-----|------------|

אין שימוש במעקפים.

בניגוד לצנרת מיפס שלמדנו, אין שימוש בחצאי מחזורי שעון בגישה למערך הרגיסטרים אלא במחזור שעון שלם. בכל מחזור שעון ניתן לבצע שלוש קריאות ממערך הרגיסטרים + כתיבה במקביל, אבל את הדאטא שכותבים במחזור שעון מסוים נקבל בקריאה רק במחזור השעון הבא.

מתבצע בשלב הפענוח. Branch Resolution

ההוראות נקראות מזיכרון הוראות SRAM פנימי לליבה במחזור שעון בודד.

פיתרון Data Hazards בין הוראות מתבצע עייי Data Hazards פיתרון

במקרה של החטאה במטמון הנתונים, מתבצע Stall של ההוראה שפנתה למטמון בשלב ה- Mem.

### מטמון נתונים

בכל ליבה יש מטמון נתונים במיפוי ישיר בגודל 256 מילים. זמן הפגיעה במטמון הינו מחזור שעון בכל ליבה יש מטמון נתונים במיפוי ישיר בגודל 256 מילים. write back, write allocate בודד, גודל הבלוק הינו 4 מילים, ומדיניות הכתיבה הינה SRAM: הזיכרון הראשון, DSRAM, הינו ברוחב 32 ביטים ובעומק 256 מילים, ומכיל את הדאטא השמור במטמון.

הזיכרון השני, TSRAM, מכיל 64 שורות, כאשר כל שורה מכילה עבור כל בלוק במטמון את התג תאכרון השני, Modified – 3 ,Exclusive – 2 ,Shared – 1 ,Invalid – 0 : MESI ואת מצב פרוטוקול הקוהרנטיות

| 13:12 | 11:0 |
|-------|------|
| MESI  | Tag  |

בתחילת הריצה זכרונות ה- DSRAM ו- TSRAM מאופסים.

#### או MSI BUS - זכרון ראשי ו

הגישה לנתונים הינה למילים בלבד (אין תמיכה בבתים). מרחב כתובות הנתונים הינו 20 ביטים, וגודל הזיכרון הראשי הינו 2 בחזקת 20 מילים.

ה- BUS בין הליבות לזיכרון הראשי מכיל את הקווים הבאים:

| bus_origid | 3 bits | Originator of this |  |
|------------|--------|--------------------|--|
|            |        | transaction        |  |
|            |        | 0: core 0          |  |
|            |        | 1: core 1          |  |
|            |        | 2: core 2          |  |
|            |        | 3: core 3          |  |

|            |         | 4: main memory              |  |
|------------|---------|-----------------------------|--|
| bus_cmd    | 2 bits  | 0: no command               |  |
|            |         | 1: BusRd                    |  |
|            |         | 2: BusRdX                   |  |
|            |         | 3: Flush                    |  |
| bus_addr   | 20 bits | word address                |  |
| bus_data   | 32 bits | word data                   |  |
| bus_shared | 1 bit   | Set to 1 when answering a   |  |
|            |         | BusRd transaction if any    |  |
|            |         | of the cores has the data   |  |
|            |         | in the cache, otherwise set |  |
|            |         | to 0.                       |  |

בכל מחזור שעון על קווי הבס יש טראנסקציה בודדת. במידה ומספר מטמונים רוצים לפנות לבס, מתבצעת ארביטרציה הוגנת בשיטת Round-Robin (הליבה האחרונה שקיבלה גישה היא כעת בעדיפות אחרונה). לא תינתן גישה לבס לליבה מסויימת כל עוד הבס תפוס או כל עוד טראנסקציה BusRdX או BusRdX לא הסתיימה ע״י טראנסקציית הסוג

מי שיוצר את הטראנסקצייה וכותב לקווי הבס במחזור שעון זה (ליבה או הזיכרון הראשי) ממלא gorigid ... קוד בקו ה-

הוראות BusRd ו- BusRdX מעבירות כפרמטר את כתובת המילה בזיכרון הראשי. במידה והדאטא עדכני בזיכרון הראשי, הזיכרון הראשי יחזיר את הבלוק שכולל את המילה באמצעות והדאטא עדכני בזיכרון הראשינה בבלוק תוחזר בהשהייה של 16 מחזורי שעון לאחר קבלת הוראת הקריאה, ושאר המילים בבלוק במחזורי שעון עוקבים. הדאטא יוחזר בקווי ה- bus\_data, וכתובת המילה בזיכרון הראשי ב- bus\_addr.

עבור שנות ההוראה לבס, bus\_shared מאותחל לאפס. כחלק ממנגנון ה- BusRd עבור Bus\_shared, במתן ההוראה לבס, שניעה, ואם כן מעלה את קו ה- bus\_shared ל – 1. כאשר הדאטא מטמון בכל ליבה בודק האם יש פגיעה, ואם כן מעלה את קו ה- bus\_shared, מצב הפרוטוקול יקבע כ- bus\_shared חוזר, בהסתמך על קו ה- bus\_shared, מצב הפרוטוקול יקבע כ- שניעה שניעה הוא מערכה שניעה שניעה מערכה שניעה שניעה מערכה שניעה מערכה שניעה מערכה שניעה מערכה שניעה שניעה מערכה שניעה שני

במידה והדאטא העדכני נמצא במטמון של ליבה אחרת במצב Modified, ליבה זו תחזיר את הבלוק באמצעות הוראות Flush והזיכרון הראשי יתעדכן במקביל.

# סט ההוראות וקידודם

: לכל ליבה יש פורמט אחיד לקידוד ההוראות לפי חלוקת הביטים הבאה

| 31:24  | 23:20 | 19:16 | 15:12 | 11:0      |
|--------|-------|-------|-------|-----------|
| Opcode | rd    | rs    | rt    | immediate |

האופקודים הנתמכים עייי המעבד ומשמעות כל הוראה נתונים בטבלה הבאה:

| Opcode | Name | Meaning                                                          |
|--------|------|------------------------------------------------------------------|
| Number |      |                                                                  |
| 0      | add  | R[rd] = R[rs] + R[rt]                                            |
| 1      | sub  | R[rd] = R[rs] - R[rt]                                            |
| 2      | and  | R[rd] = R[rs] & R[rt]                                            |
| 3      | or   | $R[rd] = R[rs] \mid R[rt]$                                       |
| 4      | xor  | $R[rd] = R[rs] ^ R[rt]$                                          |
| 5      | mul  | R[rd] = R[rs] * R[rt]                                            |
| 6      | sll  | R[rd] = R[rs] << R[rt]                                           |
| 7      | sra  | $R[rd] = R[rs] \gg R[rt]$ , arithmetic shift with sign extension |
| 8      | srl  | $R[rd] = R[rs] \gg R[rt]$ , logical shift                        |
| 9      | beq  | if $(R[rs] == R[rt])$ pc = $R[rd][low bits 9:0]$                 |
| 10     | bne  | if $(R[rs] != R[rt])$ pc = $R[rd]$ [low bits 9:0]                |
| 11     | blt  | if $(R[rs] < R[rt])$ pc = R[rd] [low bits 9:0]                   |
| 12     | bgt  | if $(R[rs] > R[rt])$ pc = R[rd] [low bits 9:0]                   |
| 13     | ble  | if $(R[rs] \le R[rt])$ pc = R[rd] [low bits 9:0]                 |
| 14     | bge  | if $(R[rs] \ge R[rt])$ pc = R[rd] [low bits 9:0]                 |
| 15     | jal  | R[15] = next instruction address, pc = R[rd][9:0]                |
| 16     | lw   | R[rd] = MEM[R[rs] + R[rt]]                                       |
| 17     | sw   | MEM[R[rs]+R[rt]] = R[rd]                                         |
| 20     | halt | Halt this core                                                   |
|        |      | Exit simulator when all cores reached halt and the pipelines     |
|        |      | are empty                                                        |

### סימולטור

הסימולטור מסמלץ את צנרות הליבות, המטמונים, והזיכרון הראשי. בתחילת הריצה כל ליבה מתחילה לרוץ החל מ-PC=0. סיום הריצה ויציאה מהסימולטור מתבצע כאשר כל הליבות בצעו HALT את הוראת ה-HALT והצנרות התרוקנו.

command 27 אשר מקבל command line application ויקומפל לתוך C ויקומפל ויקומפל line parameters לפי שורת ההרצה הבאה:

sim.exe imem0.txt imem1.txt imem2.txt imem3.txt memin.txt memout.txt regout0.txt regout1.txt regout2.txt regout3.txt core0trace.txt core1trace.txt core2trace.txt core3trace.txt bustrace.txt dsram0.txt dsram1.txt dsram2.txt dsram3.txt tsram0.txt tsram1.txt tsram2.txt tsram3.txt stats0.txt stats1.txt stats2.txt stats3.txt

בנוסף יש לתמוך גם בהרצת sim.exe ללא פרמטרים, ואז שמות הקבצים נלקחים כ- default לפי sim.exe השמות לעיל, מאותה ספרייה שבה נמצא הקובץ

הקבצים imem0.txt הינם קבצי קלט בפורמט טקסט אשר כל אחד מהם מכיל את הקבצים imem0.txt הוכן זיכרון ההוראות של הליבה המתאימה בתחילת הריצה. כל שורה בקובץ מכילה תוכן שורה בזיכרון ההוראות, החל מכתובת אפס, בפורמט של 8 ספרות הקסאדצימליות. במידה ומספר השורות בקובץ קטן מ- 1024, ההנחה הינה ששאר הזיכרון מעל הכתובת האחרונה שאותחלה בקובץ, מאופס. ניתן להניח שקובץ הקלט תקין.

הקובץ memin.txt הקובץ קלט בפורמט טקסט אשר מכיל את תוכן הזיכרון הראשי בתחילת הריצה. כל שורה בקובץ מכילה תוכן שורה בזיכרון, החל מכתובת אפס, בפורמט של 8 ספרות הקסאדצימליות. במידה ומספר השורות בקובץ קטן מ- 2 בחזקת 20 ההנחה הינה ששאר הזיכרון מעל הכתובת האחרונה שאותחלה בקובץ, מאופס. ניתן להניח שקובץ הקלט תקין.

הקובץ memout.txt הינו קובץ פלט, באותו פורמט כמו memin.txt, שמכיל את תוכן הזיכרון הראשי בסיום הריצה.

R2-R15 הינם הרגיסטרים את תוכן המכילים את הקבצים regout0.txt - regout3.txt הקבצים של הליבה המתאימה בסיום הריצה (שימו לב שאין להדפיס את הקבועים R0 ו- R1). כל שורה תיכתב באותו פורמט כמו שורה ב- R1, R1 שפרות הקסאדצימליות.

הקבצים coreOtrace.txt – core3trace.txt הינם קבצי פלט, המכילים מעקב אחר מצב הצנרת. עבור כל ליבה, בכל מחזור שעון שלפחות אחד מהשלבים בצנרת פעיל, תודפס שורת טסקט המציינת איזו הוראה נמצאת בכל שלב בצנרת, וכמו כן תוכן מערך הרגיסטרים בפורמט הבא:

CYCLE FETCH DECODE EXEC MEM WB R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15

השדה CYCLE הינו מספר מחזור השעון ומודפס בבסיס דצימלי.

השדות FETCH עד WB מכילים את ה- PC של ההוראה שנמצאת בשלב המתאים בצנרת השדות הקסאדצימליות. במידה ושלב הצנרת אינו פעיל (למשל בעת מילוי הצנרת או מודפסים ב- 3 ספרות הקסאדצימליות. במידה שלב הצנרת אינו פעיל (למשל בעת מילוי הצנרת או כאשר יש בועית בצנרת בשלב זה) יש להדפיס שלושה סימני מינוס (---).

אח״כ יש את תוכן מערך הרגיסטרים (החל מרגיסטר  $\mathbb{R}^2$ ) בתחילת מחזור השעון (ה-  $\mathbb{Q}$  של הפליפלופים, לא כולל שינויים במחזור שעון זה), כאשר כל רגיסטר מודפס ב-  $\mathbb{S}$  ספרות הקסאדצימליות.

הקובץ bustrace.txt הינו קובץ פלט, שמכיל את תוכן קווי ה- bustrace.txt הקובץ bus\_cmd שונה מאפס בפורמט הבא:

CYCLE bus\_origid bus\_cmd bus\_addr bus\_data bus\_shared

השדה CYCLE הינו מספר מחזור השעון ומודפס בבסיס דצימלי. שאר השדות מודפסות CYCLE הינו מספר מחזור השעון ומודפס בבסיס דצימלי. שאר השדות bus\_addr ב- 5 בהקסאדצימלי (שדות bus\_addr ,bus\_shared ,bus\_origid ב- 8 ספרות ו- bus data ב- 8 ספרות).

הקבצים למר שכל אחד שכל הינם קבצי פלט, באותו פורמט כמו שכל אחד שכל אחד שכל אחד שכל אחד שכל את תוכן זיכרון ה- DSRAM של המטמון בליבה המתאימה בסיום הריצה, כאשר כל שורה מודפסת ב- 8 ספרות הקסאדצימליות.

הקבצים tsram0.txt – tsram3.txt הינם קבצי פלט, באותו פורמט כמו tsram0.txt שכל אחד מהם מכיל את תוכן זיכרון ה- TSRAM של המטמון בליבה המתאימה בסיום הריצה, כאשר כל שורה מודפסת ב- 8 ספרות הקסאדצימליות.

הקבצים הינם קבצי פלט, אשר מכילים סטטיסטיקות עבור כל ליבה. כל stats ${\bf 0}.{\bf t}{\bf x}{\bf t}$  – stats ${\bf 3}.{\bf t}{\bf x}{\bf t}$  קובץ מכיל מספר שורות, כל שורה מכילה שם ומונה  ${\bf X}$  בפורמט הבא, כאשר  ${\bf X}$  דצימאלי:

| row contents   | explanation                                                    |
|----------------|----------------------------------------------------------------|
|                |                                                                |
| cycles X       | number of clock cycles the core was running till halt          |
| instructions X | number of instructions executed                                |
| read_hit X     | number of cache read hits                                      |
| write_hit X    | number of cache write hits                                     |
| read_miss X    | number of cache read misses                                    |
| write_miss X   | number of cache write misses                                   |
| decode_stall X | number of cycles a pipeline stall was inserted in decode stage |
| mem_stall X    | number of cycles a pipeline stall was inserted in mem stage    |

### דרישות הגשה

- בשם ,pdf יש להגיש קובץ, חיצוני לקוד, בפרומט, חיצוני לקוד, בפורמט , בשם id1,id2,id3 באשר project1 $\_id1\_id2\_id3.pdf$
- 2. הפרויקט יכתב בשפת התכנות סי. <u>יש להקפיד שיהיו הערות בתוך הקוד המסבירות את פעולתו.</u>
- יש להגיש את קובץ ה- visual studio בסביבת visual studio. יש להגיש את קובץ ה- build אוודא שהקוד מתקמפל ורץ, כך שניתן יהיה לבנות אותו ע"י לחיצה על solution. יש להגיש גם את ספריית ה- build כולל קובץ ה- executable הבנוי.
- 4. תוכניות בדיקה. הפרויקט שלכם יבדק בין השאר ע"י תוכניות בדיקה שלא תקבלו מראש, וגם ע"י תוכניות בדיקה שאתם תכתבו באסמבלי. יש להגיש שלוש תוכניות בדיקה:
  - א. תוכנית אשר רצה על 4 ליבות במקביל, כאשר כל ליבה מקדמת מונה בכתובת 0 בזיכרון הראשי (אשר מאותחל לאפס) 128 פעמים, אבל הקידום מתבצע בטור לפי סדר הליבות. כלומר: ליבה 0 מבצעת את הקידום הראשון, אח״כ ליבה 1 מבצעת את הקידום הבא, ואז ליבה 2, ואז ליבה 3, וחוזרים לליבה 0. בסיום הריצה יש לוודא כי הערך בכתובת 0 (שאמור להיות 512) נכתב חזרה לזיכרון הראשי (באמצעות אילוץ).
- ב. תוכנית המבצעת כפל של שתי מטריצות בגודל 16x16 (כל איבר במטריצת התוצאה הינו מכפלה סקלארית של שורה בעמודה), אשר רצה על ליבה בודדת, ליבה מספר 0. ערכי המטריצה הראשונה נמצאים בכתובות 0 עד 0xFF בזיכרון הראשי, והמטריצה השנייה בכתובות 0x100 עד 0x1FF. מטריצת התוצאה תיכתב לכתובות 0x2FP עד 0x200. כל מטריצה מסודרת בזיכרון כמו בשפת סי: ערכי שורה ראשונה משמאל לימין, ואז עוברים לשורה הבאה וכך הלאה. ניתן להניח שערכי המטריצות קטנים מספיק כך שלא יתרחש overflow. ינתן ניקוד גבוה יותר לזמן ריצה כולל נמוך יותר.
  - ג. בצוע כפל של אותן המטריצות כמו בתוכנית בדיקה ב׳, אבל על כל 4 הליבות במקביל, כאשר כל ליבה מבצעת חלק מהחישוב. ינתן ניקוד גבוה יותר לזמן ריצה כולל נמוך יותר.

.5. את תוכניות הבדיקה יש להגיש בשלוש תתי-ספריות בשמות:

counter, mulserial, mulparallel

כל ספרייה תכיל 28 קבצים : את קובץ ההרצה sim.exe, את קבצי הקלט הדרושים להרצה, וכמו כן את קבצי הפלט שקיבלתם :

sim.exe imem0.txt imem1.txt imem2.txt imem3.txt memin.txt memout.txt regout0.txt regout1.txt regout2.txt regout3.txt core0trace.txt core1trace.txt core2trace.txt core3trace.txt bustrace.txt dsram0.txt dsram1.txt dsram2.txt dsram3.txt tsram0.txt tsram1.txt tsram2.txt tsram3.txt stats0.txt stats1.txt stats2.txt stats3.txt