

Lehrstuhl für Rechnerarchitektur & Parallele Systeme Prof. Dr. Martin Schulz Dominic Prinz Jakob Schäffeler Lehrstuhl für Design Automation Prof. Dr.-Ing. Robert Wille Stefan Engels

## Einführung in die Rechnerarchitektur

Wintersemester 2024/2025

Übungsblatt 11: Pipelining

13.01.2025 - 17.01.2025

#### 1 Pipelining Speedup

| S | Speedup                | Jal Fill &        |         |
|---|------------------------|-------------------|---------|
|   | Element                | Parameter Dela    | ay (ps) |
|   | Register read          | $t_{ m RegRead}$  | 40      |
|   | Register setup         | $t_{ m RegSetup}$ | 50      |
|   | Multiplexer            | $t_{ m mux}$      | 30      |
|   | AND-OR gate            | $t_{ m AND-OR}$   | 20      |
| _ | ALU                    | $t_{ m ALU}$      | 120     |
|   | Decoder (Control Unit) | $t_{ m dec}$      | 25      |
|   | Extend unit            | $t_{ m ext}$      | 35      |
|   | Memory read            | $t_{ m MemRead}$  | 200     |
|   | Register file read     | $t_{ m RFRead}$   | 100     |
|   | Register file setup    | $t_{ m RFSetup}$  | 60      |

Tabelle 1: Propagation Delays

Nimm an, dass die Komponenten des RISC-V Prozessors die in Tabelle 1 angegebenen Verzögerungen haben (eine Verzögerung gilt zwischen jedem Eingang und Ausgang der Komponente). Für nicht gelistete Komponenten soll eine Verzögerung von 0 ps angenommen werden.

a) Zeichne die *kritischen Pfade* aller Pipelining-Stufen des RISC-V-Prozessors in Abbildung 1 ein und bestimme deren Länge (in ps).

Feder: Inestead + tournes + toursety: 290 ps

Decode: trestead + tourseteral + toursety: 190 ps

Execute: Inestead + toursetan + tourset + toursety: 290 ps

Memory: Inestead + tourset + tourset + toursety: 290 ps

Write Back: trestead + tourset + tourset + toursety: 130 ps



b) Bestimme die minimale Länge des Taktzyklus für den RISC-V Prozessors mit fünfstufiger Pipeline (Abbildung 1). Welcher Speed-up kann im Vergleich zum Prozessor ohne Pipeline (Abbildung 3, vgl. kombinatorischer Prozessor vom letzten Übungszettel) theoretisch erreicht werden? Warum ist dieser Speed-up nicht gleich der Anzahl der Pipeline-Stufen?

rin. Taletlänge: 240 ps (max. and Delays de Pipelinestra)

Taletlänge: 750 ps

Spreedy: 750 ps

290 ps

290 ps

Spreedy ist wilst 5 der:

o averhend down Zwishn - FF

o Atle Stofn branch wilst gleih: lay



c) Wie ändert sich die Taktlänge wenn die Registerbank bei fallender Flanke geschrieben wird und die Registerbank somit erst in der zweiten Hälfte des Taktes gelesen werden kann?

### 2 Flushen der Pipeline (ohne Hazard Unit)

Aus der Vorlesung wissen wir, dass eine Stage der Pipeline geflushed werden kann indem man rücksetzbare Register zwischen Pipelinestages verwendet. In dieser Übung wollen wir Flushing umsetzen *ohne* die Register selbst zu verändern.

Erweitere dazu den RISC-V Prozessor in Abbildung 1, sodass das Flushen der Pipeline bei den Befehlen beq und jal unterstützt wird. Füge dazu möglichst wenig Logik zum Datenpfad des Prozessors hinzu. Es darf angenommen werden, dass (zusätzlich zu addi zero, zero, 0) eine Instruktion die nur aus Nullen besteht, einem NOP entspricht. Bestehende Komponenten dürfen nicht verändert werden.



Setzt diese Änderung in Digital um und verifiziere das Verhalten mit dem beigefügten Testprogramm.

Pads Spring missin imm Z Befelse soflest under (Fetch, Decale)

#### **Pipelining mit Hazard Unit**

or t2, (t2), t3

s6

Der RISC-V Prozessor mit Pipelining und Hazard Unit aus Abbildung 2 führt den folgenden



a) Erläre welche Konflikte in dem Programm auftreten. Welche davon können durch Forwarding gelöst werden und von welcher Pipeline-Stufe muss geforwarded werden? Welche Konflikte müssen durch Stalling gelöst werden?

b) Wie viele Taktzyklen sind erforderlich um alle Befehle in die Pipeline zu laden?

|         | <                                      | 30                             | Q Q                             | >                         | Sur                |   |               |   |       |  |
|---------|----------------------------------------|--------------------------------|---------------------------------|---------------------------|--------------------|---|---------------|---|-------|--|
| Cycle   | F                                      | D                              | E                               | R                         | WB                 |   |               |   |       |  |
| 1234967 | addi<br>addi<br>lu<br>NOP<br>Su<br>XOR | aldi<br>alli<br>lu<br>MP<br>Sw | uldi<br>alli<br>lu<br>NOP<br>SU | addi<br>addi<br>lu<br>pop | aldi<br>aldi<br>la |   |               |   |       |  |
| 7       | OR                                     | ×0n                            |                                 |                           |                    | _ | <del></del> 7 | 7 | 24/21 |  |

Still fit y

c) Mit den Delays aus Tabelle 1 hat der Prozessor aus Abbildung 2 eine Taktlänge von

350ps.

Auf dem Prozessor wird ein Programm ausgeführt das aus 25% 17, 10% sw, 11% beq, 2% jal und 52 % R- oder I-Typ ALU Instruktionen besteht. Nimm an, dass 40% der 1w von Befehlen gefolgt werden die das Ergebnis direkt verwenden und 50% der Branches genommen werden. Bei einer falschen Sprungvorhersage müssen 2 Befehle geflushed werden.

Was ist die vorraussichtliche Laufzeit wenn das Programm aus 10<sup>11</sup> Instruktionen besteht? Das initiale Laden der Pipeline kann ignoriert werden.

$$lw : 014 \cdot 2 + 016 \cdot 1 = 114$$

$$beg: 019 \cdot 3 + 019 \cdot 1 = 2$$

$$fal : 3 = \frac{11}{111}$$

$$0125 \cdot 114 + 011 \cdot 1 + 011 \cdot 2 + 0152 \cdot 1 + 0.02 \cdot 3 = 1.25$$

$$125 \cdot 109 \cdot 109$$

# 4 Datenabhängigkeiten und Pipeline-Konflikte Sigligih: 195 (Hausaufgaba) (Hausaufgabe)

Bearbeitung und Abgabe der Hausaufgabe 11 auf https://artemis.in.tum.de/courses/401 bis Sonntag, den 19.01.2025, 23:59 Uhr.

Ziel dieser Übung ist es, ein vorgegebenes Programm durch Einfügen von NOPs und Umordnen der Befehle zu beschleunigen. Betrachte das folgende RISC-V Programm und nimm an, dass es auf einem RISC-V Prozessor mit fünfstufiger Pipeline ohne Hazard Unit (siehe Abbildung 1) ausgeführt werden soll. Beachte, dass das Ergebnis des 1w Befehls erst am Ende von Writeback in die Registerbank des Prozessors in Abbildung 1 geschrieben wird.

```
t0, t1, t2
i1:
         and
         addi t2, t3, -13
i2:
               t4, t2, t1
i3:
         xor
i4:
               t0, x0, else
         beq
i5:
         addi t2, t5, 17
i6:
               t0, 64(t3)
         lw
i7:
             t3, t0, t5
         or
i8:
         j end
     else:
               t3, 0(t0)
i9:
         sw
i10:
               t0, t3, t4
         xor
               t5, t2, t4
i11:
         and
i12:
               t4, t1, t0
         add
     end:
```

i13: nor t2, t3, t0i14: sub t6, t6, t1

- a) Gib alle Datenabhängigkeiten zwischen den Befehlen des Programms an (RAW, WAR und WAW).
- b) Finde alle auftretenden Pipeline-Konflikte (Daten- und Kontroll-Konflikte). Gib jeweils die involvierten Befehle an und erkläre warum es zu einem Konflikt kommt.

Hinweis: Ob ein Konflikt vorliegt oder nicht kann von dem beg-Befehl in Zeile 4 abhängen.

- c) Behebe alle Pipeline-Konflikte durch Einfügen der minimalen Anzahl an NOP-Befehlen.
- d) Minimiere die Anzahl der NOP-Befehle durch Umordnen der Befehle. Nimm dabei an, als auch au
  Programms be
  An anderer Reihenfol,

  andert werden. Lediglich di
  Assembly durch Zeilen dargestell dass der Prozessor auch das Löschen (flushen) von Pipeline-Registern unterstützt. Die Semantik des Programms soll dabei nicht verändert werden. Das heißt, dass das veränderte Programm sowohl auf dem Prozessor mit Pipelining als auch auf dem Single-Cycle Prozessor die Datenabhängigkeiten des ursprünglichen Programms bewahren soll und weiterhin dieselben Instruktionen ausführt (aber ggf. in anderer Reihenfolge).

An den Befehlen selbst darf nichts verändert werden. Lediglich die Reihenfolge darf vertauscht werden. NOPs werden im Assembly durch Zeilen dargestellt in denen einfach NOP steht.



Abbildung 1: Schaltbild des Pipelined RISC-V Prozessors one Hazard Unit



Abbildung 2: Schaltbild des Pipelined RISC-V Prozessors mit Hazard Unit



Abbildung 3: Schaltbild des Single-Cycle RISC-V Prozessors