# Rechnerorganisation - 2. Klausurvorbereitung

## Auer Thomas, Stefan Haan

### 25. Jänner 2018

# Inhaltsverzeichnis

| 5  | Übungsblatt 5         5.1 Multi-Cycle Datenpfad: lw-Instruktion          5.2 Grundlagen Pipelining          5.3 Pipelining: Graphische Darstellung          5.4 Pipelining: Daten- und Kontrollabhängigkeiten | $\frac{2}{2}$ |
|----|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------|
| 6  | Übungsblatt 6                                                                                                                                                                                                 | 3             |
| 7  | Übungsblatt 7                                                                                                                                                                                                 | 4             |
| 8  | Übungsblatt 8 8.4 Speicherhierarchien 1                                                                                                                                                                       | <b>4</b>      |
| 9  | Übungsblatt 9                                                                                                                                                                                                 | 5             |
| 10 | Übungsblatt 10                                                                                                                                                                                                | 5             |

## 5 Übungsblatt 5

#### 5.1 Multi-Cycle Datenpfad: lw-Instruktion

Erläutern Sie die Ausführung der lw-Instruktion (load word) für den Multi-Cycle-Datenpfad. Welche Vorteile bietet der Multi-Cycle-Datenpfad gegenüber dem Single-Cycle-Datenpfad? Diskutieren Sie dies anhand dieses Befehls.

#### 5.2 Grundlagen Pipelining

Gegeben seien vier unterschiedliche Prozessoren, die sich in der Anzahl der Pipelinestufen und der Taktrate unterscheiden:

| Prozessor    | Pipelinestufen | Taktrate |
|--------------|----------------|----------|
| A            | 1              | 100 MHz  |
| В            | 4              | 800 MHz  |
| $\mathbf{C}$ | 12             | 1,5 GHz  |
| D            | 20             | 3,2 GHz  |

(a) Bestimmen Sie für jeden Prozessor die Latenz der einzelnen Instruktionen.

Wie lange dauert die Ausführung von 400.000 voneinander unabhängigen Instruktionen auf jedem der angeführten Prozessoren? Bestimmen Sie die Performance und den Speedup verglichen mit Prozessor A ohne Pipelining. (Sie können annehmen, dass es keine Stalls gibt.)

#### 5.3 Pipelining: Graphische Darstellung

Beantworten Sie folgende Fragen anhand der Beispiel-Pipeline-Architektur der VO (Kapitel 3.2).

- (a) Bestimmen Sie die Anzahl der Pipelinestufen, die Taktdauer und die Taktfrequenz der Beispiel-Pipeline unter Annahme der Angaben auf VO-Folie 3-44 (Ausführungszeiten der Funktionseinheiten). Wie lange dauert die Ausführung eines einzigen Befehls auf der Beispiel-Pipeline?
- (b) Angenommen es treten keine Leertakte (stalls) auf, welchen Speedup erreicht die Beispiel-Pipeline aus a) gegenüber einem Single-Cycle Datenpfad, der aus den gleichen Funktionsregistern besteht? Seite 1 von 2
- (c) Auf der Pipeline wird folgende Befehlssequenz ausgeführt:

and \$10, \$2, \$3 sw \$11, 4(\$3) Stellen Sie die Ausführung der oben angeführten Befehlssequenz durch die Beispiel-Pipeline wie auf VO-Folie 3-45 grafisch dar (untere Abbildung). Achten Sie insbesondere auf die zeitliche Anordnung der Zugriffe auf die Registereinheit! Wie lange dauert die Ausführung der Befehlssequenz?

#### 5.4 Pipelining: Daten- und Kontrollabhängigkeiten

Gegeben sei folgendes Code-Fragment:

## 6 Übungsblatt 6

Folgendes Codefragment wird auf einen Prozessor mit "Delayed Branching" (1 Takt Branch Delay) ausgeführt. Die Latenzen zwischen abhängigen Befehlen sind in Tabelle 1 aufgelistet.

| loop: | 1.d      | \$f4         | 0(\$t0)      |              |
|-------|----------|--------------|--------------|--------------|
|       | sub.d    | <b>\$</b> f6 | \$f4         | <b>\$</b> f0 |
|       | 1.d      | <b>\$</b> f8 | 0(\$t1)      |              |
|       | mul.d    | \$f10        | <b>\$</b> f6 | <b>\$</b> f8 |
|       | add.d    | \$f12        | \$f10        | <b>\$</b> f2 |
|       | s.d      | \$f12        | 0(\$t2)      |              |
|       | addi     | \$t2         | \$t2         | -8           |
|       | addi     | \$t1         | \$t1         | -8           |
|       | addi     | \$t0         | \$t0         | -8           |
|       | bne \$t0 | \$t4         | loop         |              |
|       | nop      |              |              |              |

| Erzeugender Befehl | Benutzender Befehl | Zwischentakte |
|--------------------|--------------------|---------------|
| FP ALU operation   | FP ALU operation   | 3             |
| FP ALU operation   | Store FP double    | 2             |
| Load FP double     | FP ALU operation   | 1             |
| Load FP double     | Store FP double    | 0             |
| Load integer       | Integer operation  | 1             |
| Load integer       | Branch             | 2             |
| Integer operation  | Integer operation  | 0             |
| Integer operation  | Branch             | 1             |

Tabelle 1: Latenzen zwischen abhängigen Befehlen

(a) Identifizieren Sie alle Daten- und Kontrollabhängigkeiten, die Leerzyklen (Stalls) verursachen (Annahme: ohne Forwarding-Einheit). Wie viele Taktzyklen werden für die Ausführung des gesamten Codes bzw. pro Ergebniselement (d.h. nur die Schleife) benötigt?

- (b) Welche aus den Datenabhängigkeiten resultierenden Pipeline-Konflikte können durch eine Forwarding-Einheit gelöst werden? Wie viele Taktzyklen benötigt die Ausführung der Befehlssequenz mit Forwarding-Einheit für die Ausführung des gesamten Codes bzw. pro Ergebniselement (d.h. nur die Schleife)? Wo und warum muss die Hardware Leerzyklen (d.h. Stalls) einfügen?
- (c) Ordnen Sie den Code so um, dass er auf einer modifizierten Beispiel-Pipeline mit Unterstützung für "Delayed Branching" (d.h. Branch-Delay-Slot) möglichst rasch ausgeführt wird (und die Semantik erhalten bleibt). Wie viele Taktzyklen werden in diesem Fall für die Ausführung des gesamten Codes bzw. pro Ergebniselement (d.h. nur die Schleife) benötigt? Wie hoch ist der erzielte Speedup relativ zu bzw. b)?

## 7 Übungsblatt 7

## 8 Übungsblatt 8

#### 8.4 Speicherhierarchien 1

Tabelle 2 gibt die **Verzögerung** im Falle eines **erfolgreichen** Zugriffs auf die jeweilige Speicherebene an.

Der durchschnittliche CPI-Wert ohne Berücksichtigung der Speicherzugriffe betrage 1,3 (idealer CPI). **20**% aller Instruktionen greifen auf den Speicher zu.

| Speicherebene | Hitrate | Verzögerung/Takte |
|---------------|---------|-------------------|
| L1            | 85%     | 4                 |
| L2            | 75%     | 12                |
| RAM           | 100%    | 236               |

Tabelle 2: Speicherebenen und Verzögerung in Takten

#### a) Durchschnittlicher CPI-Wert unter Berücksichtigung der Speicherzugriffe

Berechne die durchschnittliche Verzögerung aus Abbildung 1 durch gewichtete Aufsummierung der Knoten.

$$\overline{\text{Verz\"{o}gerung}} = 0.8 \cdot 0 + 0.2 \cdot (0.85 \cdot 4 + 0.15 \cdot (0.75 \cdot 12 + 0.25 \cdot 236)) = 2.72 \tag{1}$$

Addiere die durchschnittliche Verzögerung zum idealen CPI-Wert um den durchschnittlichen CPI-Wert unter Berücksichtigung der Speicherzugriffe zu erhalten.

$$\overline{\text{CPI}_{\text{gesamt}}} = \overline{\text{Verz\"{o}gerung}} + 1.3 = 4.02 \tag{2}$$

b) Prozent der Ausführungszeit, die der Prozessor auf Speicherzugriffe warten muss



Abbildung 1: Wahrscheinlichkeiten der Speicherzugriffe mit ihren Verzögerungen

Die durch Speicherzugriffe verursachte Verzögerung ist  $\overline{\text{Verzögerung}} = 2.72$ . Berechne das Verhältnis zum durchschnittlichen CPI-Wert.

$$\frac{\overline{\text{Verz\"{o}gerung}}}{\overline{\text{CPI}_{\text{gesamt}}}} = \frac{2.72}{4.02} \approx 0.677 \tag{3}$$

# c) Hitrate des L1-Caches, um einen durchschnittlichen CPI-Wert von 3 zu erhalten

Die maximale Verzögerung, die nun durch Speicherzugriffe auftreten darf, ist Verzögerung = 3-1.3=1.7. Man schreibe die Gleichung 1 um und löse nach der Hitrate des L1 Caches  $p_{\rm L1}$ .

$$\overline{\text{Verz\"{o}gerung}} = 0.8 \cdot 0 + 0.2 \cdot (p_{L1} \cdot 4 + (1 - p_{L1}) \cdot (0.75 \cdot 12 + 0.25 \cdot 236)) = 1.7 \tag{4}$$

$$p_{L1} \cdot 4 + (1 - p_{L1}) \cdot 68 = \frac{1.7}{0.2}$$
 (5)

$$4 \cdot p_{L1} - 68 \cdot p_{L1} = 8.5 - 68 \quad (6)$$

$$p_{\rm L1} = \frac{-59.5}{-64} \qquad (7)$$

$$\approx 0.93$$
 (8)

## 9 Übungsblatt 9

## 10 Übungsblatt 10