

# Übung 10: Parallelisierung Einführung in die Rechnerarchitektur

#### Niklas Ladurner

School of Computation, Information and Technology Technische Universität München

Januar 2025





Keine Garantie für die Richtigkeit der Tutorfolien. Bei Unklarheiten/Unstimmigkeiten haben VL/ZÜ-Folien recht!

## Parallelisierungstechniken



- Single-Threaded Rechenleistung immer weiter durch physikalische Limits eingeschränkt
- Optimierungen: Pipelining,
   Out-of-Order-Processing, Ausnutzen von Parallelität
- SIMD: Eine Instruktion, die gleichzeitig auf mehrere Daten ausgeführt wird (mehr dazu in GRA)



Quelle: A Taxonomy of Reconfigurable Single-/Multiprocessor Systems-on-Chip



- Mehrkernsysteme: Was wenn CPU1 und CPU2 beide ein Datum gecached haben und es modifizieren?
  - → Cache-Inkonsistenzen
- Einführung von Zuständen für Cachezeilen
- CPUs hören jeweils die Zugriffe der anderen Kerne ab ("Bus Snooping")
- Modified, (Exclusive), Shared, Invalid
- Exclusive-Bit ermöglicht kleineren
   Overhead wenn CPUs auf verschiedenen
   Cache-Blöcken arbeiten









— lokal

entfernt

--→ lesen

ightarrow schreiben



- Mehrkernsysteme: Was wenn CPU1 und CPU2 beide ein Datum gecached haben und es modifizieren?
  - → Cache-Inkonsistenzen
- Einführung von Zuständen für Cachezeilen
- CPUs h\u00f6ren jeweils die Zugriffe der anderen Kerne ab ("Bus Snooping")
- Modified, (Exclusive), Shared, Invalid
- Exclusive-Bit ermöglicht kleineren
   Overhead wenn CPUs auf verschiedenen
   Cache-Blöcken arbeiten





- Mehrkernsysteme: Was wenn CPU1 und CPU2 beide ein Datum gecached haben und es modifizieren?
  - → Cache-Inkonsistenzen
- Einführung von Zuständen für Cachezeilen
- CPUs h\u00f6ren jeweils die Zugriffe der anderen Kerne ab ("Bus Snooping")
- Modified, (Exclusive), Shared, Invalid
- Exclusive-Bit ermöglicht kleineren
   Overhead wenn CPUs auf verschiedenen
   Cache-Blöcken arbeiten





- Mehrkernsysteme: Was wenn CPU1 und CPU2 beide ein Datum gecached haben und es modifizieren?
  - → Cache-Inkonsistenzen
- Einführung von Zuständen für Cachezeilen
- CPUs h\u00f6ren jeweils die Zugriffe der anderen Kerne ab ("Bus Snooping")
- Modified, (Exclusive), Shared, Invalid
- Exclusive-Bit ermöglicht kleineren
   Overhead wenn CPUs auf verschiedenen
   Cache-Blöcken arbeiten





- Mehrkernsysteme: Was wenn CPU1 und CPU2 beide ein Datum gecached haben und es modifizieren?
  - → Cache-Inkonsistenzen
- Einführung von Zuständen für Cachezeilen
- CPUs h\u00f6ren jeweils die Zugriffe der anderen Kerne ab ("Bus Snooping")
- Modified, (Exclusive), Shared, Invalid
- Exclusive-Bit ermöglicht kleineren
   Overhead wenn CPUs auf verschiedenen
   Cache-Blöcken arbeiten



## **Speedup durch Parallelisierung**



Mit  $t_s$  sequentieller Programmteil,  $t_p$  paralleler Programmteil, n Anzahl CPU-Kerne, T Ausführungszeit mit n=1:

■ Amdahlsches Gesetz: Gleiche Problemgröße, aufgeteilt auf mehrere Kerne → begrenzt durch sequentiellen Anteil

$$S_{\text{Amdahl}}(n) = \frac{T}{t_s + \frac{t_p}{n}}$$

Gustafsons Gesetz: Mehr Kerne können mehr berechnen: Größeres Problem $\rightarrow$  paralleler Anteil wächst mit Problemgröße,  $t_s$  proportional kleiner

$$S_{\text{Gustafson}}(n) = \frac{t_s + n \cdot t_p}{T}$$

■ Zwei verschiedene Perspektiven, abhängig von Problemszenario verschieden geeignet



$$p = 1$$

| $t_{ m sequential}$ $t_{ m parallel}$ |
|---------------------------------------|
|---------------------------------------|

$$p = 3$$



| p | = | 1 |  |
|---|---|---|--|
|   |   |   |  |
|   |   |   |  |

| $t_{ m sequential}$ | $t_{ m parallel}$ |
|---------------------|-------------------|
|                     |                   |
|                     |                   |
| $t_{ m sequential}$ |                   |

$$p = 3$$



| p | = | 1 |  |
|---|---|---|--|
|   |   |   |  |
|   |   |   |  |

| $t_{ m sequential}$ | $t_{ m parallel}$ |  |
|---------------------|-------------------|--|
|                     |                   |  |
|                     |                   |  |
| $t_{ m sequential}$ |                   |  |

$$p = 3$$



| p = 1 | $t_{ m sequential}$ |                                   | $t_{ m parallel}$                                                                                                |
|-------|---------------------|-----------------------------------|------------------------------------------------------------------------------------------------------------------|
|       |                     |                                   |                                                                                                                  |
|       |                     |                                   | and the second |
|       | $t_{ m sequential}$ | $\frac{t_{\mathrm{parallel}}}{3}$ |                                                                                                                  |
| p = 3 |                     | $\frac{t_{\mathrm{parallel}}}{3}$ |                                                                                                                  |
|       |                     | $rac{t_{ m parallel}}{3}$        |                                                                                                                  |

Quelle: Vorlesungsmaterial ERA





Quelle: Vorlesungsmaterial ERA





Quelle: Vorlesungsmaterial ERA



$$p=1$$

| $t_{ m sequential}$ | $t_{ m parallel}$ |
|---------------------|-------------------|
|---------------------|-------------------|

$$p = 3$$



p = 1

| $t_{ m sequential}$ | $t_{ m parallel}$ |
|---------------------|-------------------|
|                     |                   |
|                     |                   |
| $t_{ m sequential}$ | $t_{ m parallel}$ |

p=3



| m     | _ | - |
|-------|---|---|
| $\nu$ |   | - |

| $t_{\rm sequential}$ | $t_{ m parallel}$ |
|----------------------|-------------------|
|                      |                   |
|                      |                   |
| $t_{ m sequential}$  | $t_{ m parallel}$ |
|                      | $t_{ m parallel}$ |
|                      |                   |

 $t_{\text{parallel}}$ 

p = 3













## **Artemis-Hausaufgaben**



- H10 MESI" bis 12.01.2025 23:59 Uhr
- Durchlaufen der MESI-Zustände für 4 parallel arbeitende CPUs

- "B01 RFC 9402" bis 26.01.2025 23:59 Uhr
- Wiederholungsaufgabe RISC-V Assembly: Strings zusammenkopieren
- Erste (und vsl. letzte) Bonusaufgabe: 10 Punkte Bonuspunkte!

#### Links



- Zulip: "ERA Tutorium Do-1600-1" bzw. "ERA Tutorium Fr-1500-2"
- ERA-Moodle-Kurs
- ERA-Artemis-Kurs
- Wikipedia zu MESI
- Amdahlsches und Gustafsons Gesetz



# Übung 10: Parallelisierung Einführung in die Rechnerarchitektur

#### Niklas Ladurner

School of Computation, Information and Technology Technische Universität München

Januar 2025

