# 1 Einheiten, Größen

### 1.1 Datenmengen

|             |     | D        | ezimalı  | oräfix — | $\rightarrow$ |           |
|-------------|-----|----------|----------|----------|---------------|-----------|
| fix         |     | В        | kB       | MB       | GB            | тв        |
| Binärpräfix | В   | 1        | $10^{3}$ | $10^{6}$ | $10^{9}$      | $10^{12}$ |
| när         | KiB | $2^{10}$ | 1        | $10^{3}$ | $10^{6}$      | $10^{9}$  |
| E E         | MiB | $2^{20}$ | $2^{10}$ | 1        | $10^{3}$      | $10^{6}$  |
| ↓           | GiB | $2^{30}$ | $2^{20}$ | $2^{10}$ | 1             | $10^{3}$  |
|             | TiB | $2^{40}$ | $2^{30}$ | $2^{20}$ | $2^{10}$      | 1         |

# 1.2 Frquenz f

$$f = \frac{1}{T}$$

# 2 Leistungsbewertung

MIPS millions of instructions per second **FLOPS** floating point operations per second

### Wichtig:

MIPS-Vergleiche ergeben lediglich Sinn inerhalb der gleichen ISA (Instruction Set Architecture).

$$MIPS = \frac{10^3}{Instruktionszeit in ns}$$

#### 2.1 Amdahlsches Gesetz

Die Beschleunigung eines Systems wird berechnet durch ein vergleich der Zeit:

$$\mbox{Beschleunigung} = \frac{\mbox{Zeit vor der Beschleunigung}}{\mbox{Zeit nach der Beschleunigung}}$$

Damit kann man folgende Gesetzmäßigkeit aufstellen:

$$S = \frac{1}{(1-p) + \frac{p}{s}}$$

Aus diesem Zusammenhang kann man nun auch folgendes herleiten:

$$\frac{T_0}{T_S} = \frac{1}{(1-p) + \frac{p}{c}}$$

S = (Gesamt-)Beschleunigung des Programmes

s = Beschleunigung des Programmteils welches von der Verbesserung profitiert

p = Anteil der Zeit, in dem die Verbesserung benutzt wird

 $T_0$  = Zeit vor der Beschleunigung

 $T_S = \text{Zeit nach der Beschleunigung}$ 

#### Fehlertoleranz

### 3.1 N-Modulare-Redundanz

Die Wahrscheinlichkeit eines fehlerfreien Funktionieren eines Systemes  $p_s$ , mit m Komponenten, ist abhängig von der Verfügbarkeit der Einzelkomponenten  $p_c$  und der Verfügbarkeit des Voters  $p_v$ . Für einen perfekten bzw. nicht vorkommenden Voter ist  $p_v=1$ . Die maximale Anzahl der ausfallenden Komponenten w, wird falls nicht gegeben, durch  $w=\lceil \frac{m}{2} \rceil$  representiert.

$$p_s = \sum_{i=0}^{w} \left( {m \choose m-1} \cdot p_c^{m-1} \cdot (1-p_c) \right) \cdot p_v$$

**2MR** Wahrscheinlichkeit des fehlerfreien Funktionierens eines 2MR Systems:

2 Komponenten mit der Verfügbarkeit  $p_c$  und einem Voter mit der Verfügbarkeit  $p_v$ :

$$p_s = \left(2p_c - p_c^2\right) \cdot p_v$$

**3MR** Wahrscheinlichkeit des fehlerfreien Funktionierens eines 3MR Systems:

3 Komponenten mit der Verfügbarkeit  $p_c$  und einem Voter mit der Verfügbarkeit  $p_v$ :

$$p_s = \left(3p_c^2 - 2p_c^3\right) \cdot p_v$$

**4MR** Wahrscheinlichkeit des fehlerfreien Funktionierens eines 4MR Systems:

4 Komponenten mit der Verfügbarkeit  $p_c$  und einem Voter mit der Verfügbarkeit  $p_v$ :

$$p_s = (3p_c^4 - 8p_c^3 + 6p_c^2) \cdot p_v$$

**5MR** Wahrscheinlichkeit des fehlerfreien Funktionierens eines 5MR Systems:

5 Komponenten mit der Verfügbarkeit  $p_c$  und einem Voter mit der Verfügbarkeit  $p_v$ :

$$p_s = \left(6p_c^5 - 15p_c^4 + 10p_c^3\right) \cdot p_v$$

# 4 Paritätsprüfung

### 4.1 Paritätsbit

Die Wahrscheinlichkeit das ein Wort der Länge n wirklich fehlerfrei ist, wird bereits urch die Fehlererkennung mittels eines Paritätsbits erhöht. Dabei ist die Wahrscheinlichkeit für ein korrektes Bit p, wobei gilt das 0 ist. Die Bitfolge mit der Länge <math>n+1 wird dann als korrekt angesehen wenn alle n+1 oder n Bits korrekt sind. Die Wahrscheinlichkeit für das Wort mit der Länge n und einem Paritätsbit wird wiefolt berechnet:

$$P_{\text{parity}} = p^{n+1} + {n+1 \choose n} \cdot p^n \cdot (1-p)$$
$$= p^{n+1} + (n+1) \cdot (p^n - p^{n+1})$$
$$= (n+1) \cdot p^n - n \cdot p^{n+1}$$

Für ein Wort der Länge n ist die Wahrscheinlichkeit das es korrekt angesehen wird:

$$P_{\text{no parity}} = p^n$$

# 5 Hamming-Code

### 5.1 Anzahl der Prüf- und Datenbits

Für ein Wort der länge n mit m Datenbits benötigt man r Prüfbits um einen 1-Bit-Fehler pro Wort zu korrigiren. Daraus ergibt sich die allgemeine Ungleichung:

$$2^r \ge m + r + 1$$

Und für einen perfekten Hamming-Code ergibt sich:

$$2^r = m + r + 1$$

Der perfekte Hamming-Code besitzt die Wortlänge  $2^r-1$ .

#### 5.2 Hamming-Abstand

Der Hamming-Abstand gibt die Anzahl der Bits zwischen zwei beliebige Wörtern aus dem Code.

#### Reispiel:

Die zwei Wörter 11001001002 und 10011000112 haben den Hamming-Abstand h=5.

# Hamming-Abstand eines Codes

Der Hamming-Abstand eines Codes ist die kleinstmögliche Anzahl an Bits, die man verändern muss um ein neues gültiges Wort aus dem vorliegenden Code zu bekommen.

### Beispiel:

$$x = 00110$$
  $h_{xy} = 2$   
 $y = 00101$   $h_{xz} = 1$   
 $z = 01110$   $h_{yz} = 3$ 

Da der kleinste Abstand 1 ist, ist der Hamming-Abstand des Codes ebenfalls 1.

### 5.3 Fehlererkennung

Um d Bitfehler zu erkennen, braucht man den Hamming-Abstand h:

$$h = d+1$$
$$d = h-1$$

#### 5.4 Fehlerkorrektur

Um d Bitfehler zu korrigiren, braucht man den Hamming-Abstand h:

$$h = 2d + 1$$

$$d = \left| \frac{h-1}{2} \right|$$

#### 5.5 Bündelfehlerkorrektur

Um mehrere aufeinanderfolgende Bitfehler zu korrigiren ordnet man die k mit Hamming codierten Wörter der Länge n in einer  $k \cdot n$  Matrix an. Dabei ist zu beachten das nun zuerst die erste Spalte der Matrix übertragen bzw. gespeichert wird.

Somit kann man einen **maximal** einen Bündelfehler der Länge k Bits korrigiren, dabei ist bei k aufeinanderfolgenden fehlerhaften Bits maximal 1 Bit pro Wort fehlerhaft.

### Beispiel:

|              |     | ASCII<br>1 0 0 1 0 0 0 |   |   |   |   |     | Codewort |   |   |   |   |   |   |   |   |   |
|--------------|-----|------------------------|---|---|---|---|-----|----------|---|---|---|---|---|---|---|---|---|
|              |     |                        |   |   |   |   |     |          |   |   |   |   |   |   |   |   |   |
| a            | 1 1 | 0                      | 0 | 0 | 0 | 1 | (1) | 0        | 1 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 1 |
| m            | 1 1 | 0                      | 1 | 1 | 0 | 1 | 1   | 1        | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 0 |
| $\mathbf{m}$ | 1 1 | 0                      | 1 | 1 | 0 | 1 | 1   | 1        | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 0 |
|              | 1 1 |                        |   |   |   |   |     |          |   |   |   |   |   |   |   |   |   |
| $\mathbf{n}$ | 1 1 | 0                      | 1 | 1 | 1 | 0 | 0   | 1        | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 0 |
| g            | 1 1 | 0                      | 0 | 1 | 1 | 1 | $0$ | 1        | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 |

Die übertragenen Bits lauten:

0111000 0011111 1111111 1100001 0111111 0000000

1011110 0100101 0011011 0000011 0100101

### 5.6 Hamming-Algorithmus Paritäts-Kontrollbits

Paritäts-Kontrollbits p an Zweierpotenz Positionen

- Paritätsbit  $p_2$  prüft 2, 3, 6, 7, 10, 11, 14, 15, 18,
- Paritätsbit  $p_4$  prüft 4, 5, 6, 7, 12, 13, 14, 15, 20, 21
- Paritätsbit p<sub>8</sub> prüft 8, 9, 10, 11, 12, 13, 14, 15
- Paritätsbit p<sub>16</sub> prüft 16, 17, 18, 19, 20, 21

#### Beispiel:

| Position  | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 2 |
|-----------|---|---|---|---|---|---|---|---|---|----|----|----|----|----|----|----|----|----|----|---|
| Wert      | ? | ? | 1 | ? | 1 | 1 | 1 | ? | 0 | 0  | 0  | 0  | 1  | 0  | 1  | ?  | 0  | 1  | 1  | _ |
| + Parität | 0 | 0 | 1 | 0 | 1 | 1 | 1 | 0 | 0 | 0  | 0  | 0  | 1  | 0  | 1  | 1  | 0  | 1  | 1  |   |

### 5.7 Erweiterungen SECDED

Single Error Correction Double Error Detection füget ein weiteres Paritätsbit an der Position 0 welches die gesamten anderen Bits auf Parität überprüft.

- Hamming-Prüfbits ✓ Extra-Prüfbit ✓
   → fehlerfrei oder mehr als 2 Fehler
- Hamming-Prüfbits ✗ Extra-Prüfbit ✗
   → 1-Bitfehler, korrigirbar mit Hamming

# 6 IJVM

# 6.1 Ausführungsdauer

Ausführungszeit = 
$$\frac{\mu\text{-Instruktionen}}{\text{Takt}}$$

### Wichtig:

Bei der Auswärtung der  $\mu$ -Instruktionenist darauf zu achten dass der Programm fluss beachtet wird, denn

je nach Aufbau des Programmes kann es bei bedingten Sprüngen in der Architektur sein das Befehle eine unterscheidliche Anzahl an  $\mu$ -Instruktionenbesitzt. Ebenfalls muss beachtet werden ob inerhalb der  $\mu$ -Instruktionenauch sprünge stattfinden, welche zusätzliche Operation zum selben Takt haben.

#### 6.2 Anweisungsabhängigkeit

Read after Write (RAW) Instruktion 2 versucht aus dem Register einen Wert zu lesen bevor dieser durch Instruktion 1 geschrieben wurde.

Diese Art der Abhängigkeit ist entscheidend für Aussagen über die Mindestanzahl der benötigten Taktzyklen. Für die Aufteilung der einzelnen Instruktionen auf die verscheiedenen Ausführungseinheiten eines superskalaren Prozessors werden Abhängigkeitskette gebildet, wobei die Anzahl der Glieder in der längsten Kette der Mindestanzahl der benötigten Taktzyklen entspricht.

$$\mathbf{R1} = \mathbf{R2} + \mathbf{R3} \tag{1}$$

$$R4 = \mathbf{R1} + R5 \tag{2}$$

Write after Read (WAR) Instruktion 2 versucht in ein Register einen Wert zu schreiben bevor es von Instruktion 1 gelesen wurde.

$$R1 = \mathbf{R2} + R3 \tag{1}$$

$$\mathbf{R2} = \mathbf{R5} + \mathbf{R6} \tag{2}$$

Write after Write (WAW) Instruktion 2 versucht in ein Register einen Wert zu schreiben bevor in dieses ein Wert von Instruktion 1 geschrieben wurde.

$$\mathbf{R1} = \mathbf{R2} + \mathbf{R3} \tag{1}$$

$$\mathbf{R1} = \mathbf{R5} + \mathbf{R6} \tag{2}$$

#### 6.3 Adressierungsarten

Unmittelbare Adressierung Bei der unmittelbaren Adressierung folgt ein Operand direkt dem Opcode. Er wird als Konstante betrachtet.

 $\texttt{LOAD} \ 20 \to 20$ 

**Direkte Adressierung** Bei der direkten Adressierung wird der Operand der dem Befehl folgt oder das angegebene Register als Adresse angesehen.

 $\texttt{LOAD 20} \rightarrow \texttt{40}$ 

Indirekte Adressierung Bei der indirekten Adressierung enthält die Speicherzelle dagegen erneut eine Adresse und erst die Speicherzelle die durch diese Adresse angesprochen wird den Wert selbst.

LOAD 20  $\rightarrow$  60

LOAD R2 ightarrow 40

Registeradressierung Bei der Registeradressierung ist der Operand ein Register, welches den Wert selbst beinhaltet.

LOAD R2  $\rightarrow$  20

Indizierte Adressierung Dies entspricht der direkten Adressierung, nur wird vor dem Zugriff zu der Adresse noch ein fester Wert addiert und das Resultat als Adresse interpretiert.

LOAD (R1 + 40) 
$$\rightarrow$$
 70

Anstelle des festen Wert kann auch ein Indexregister zu einem Basisregister addiert werden, dies liefert dann die Adresse für den direkten oder indirekten Zugriff.

LOAD (R1 + R2)  $\rightarrow$  50

Beispielwerte:

| Register | Wert |
|----------|------|
| R1       | 10   |
| R2       | 20   |
|          |      |
|          |      |

| Adresse | Wert |
|---------|------|
| 20      | 40   |
| 30      | 50   |
| 40      | 60   |
| 50      | 70   |

## 7 HDD

### 7.1 Begriffe

Spur Ein Kreis auf der Festplatte auf dem die Sektoren nacheinander liegen. Die Spuren sind konzentrisch auf der Festplatte gelegt.

Sektor Ein Stück aus einer Spur mit fester Breite. Die Sektorlänge ist z.B. in Bytes (512 oder 4096 Bytes) oder Mikrometer angegeben. Jeder Sektor enthält zudem noch 40 bis 100 Bytes für Verwaltungsinformationen (*Präambel*) und Fehlererkennung/-korrektur.

Zylinder Wenn die Festplatte aus mehreren übereinander liegenden Scheiben besteht, besteht ein Zylinder allen Spuren die genau übereinander auf den Scheiben liegen. Wenn es z.B. 2 Scheiben gibt, dann sind alle 2 Spuren die ganz außen auf jeder Scheibe liegen ein Zylinder; genauso machen alle Spuren Nr. 16 auf jeder Scheibe zusammen ein Zylinder aus: Zylinder 16. Ein Zylinder ist also eine Erweiterung der Spur auf vertikalen Ebene wenn es mehrere Scheiben gibt. Es folgt, auf einem Zylinder der aus n übereinander liegenden Spuren besteht und wenn jede dieser Spuren k Bytes hat, dann hat ein Zylinder  $n \cdot k$  Bytes. Folgt auch, dass eine Angabe wie 32 Zvlinder bedeutet dass jede Scheibe 32 Spuren hat.

# 7.2 Datenübertragungszeit

Die mittlere Datenübertragungszeit  $T_{\rm average}$  einer Festplatte hinsichtlich der auf einer Spur befindlichen Daten kann vereinfacht mittels der folgenden Funktion dargestellt werden:

$$T_{\text{average}} := T_s + T_r + T_t$$

Die mittlere Positionierungszeit  $T_s$  setzt sich dabei zusammen aus der Positionierungszeit  $MT_{sr}$  des

Schreib/Lese-Kopfs in die richtige radiale Position zum Lesen/Schreiben und der Zeit  $MT_{\rm sc}$  zum wechseln auf benachbarte Spuren  $S_c$ , daraus leiten sich folgenden Funktionen ab:

$$T_s := T_{sr} + T_{sc}$$

$$T_{sr} := MT_{sr} \cdot (S - S_c)$$

$$T_{sc} := MT_{sc} \cdot S_c$$

Sollten jedoch alle Spuren S bis auf die erste benachbart sein, dann gilt für die Positionierungszeit folgenden Funktion:

$$T_s := MT_{sr} + MT_{sc} \cdot (S-1)$$

Der Drehverzug  $T_r$  fällt bei jedem Spurwechsel an und ist die Verzögerung, welche anfällt bis sich der gesuchte Sektor auf der rotierenden Festplatte unter dem Schreib/Lese-Kopf befindet. Die Drehverzugszeit ist dabei abhängig von der Rotationsgeschwindigkeit v welche in RPM angegeben wird.

$$T_r := \left(\frac{60 \cdot 1000}{2v}\right) \cdot S$$

Die Übertragungszeit  $T_t$  ist die eigentliche Zeit welche benötigt wird und die Daten zu übertragen; diese ist abhängig von der Rotationsgeschwindigkeit v sowie der Anzahl der genutzten Sektoren  $N_u$  pro Spur und der Gesamtanzahl der Sektoren  $N_t$  pro Spur.

$$T_t := \left(\frac{60 \cdot 1000}{v}\right) \cdot \frac{N_u}{N_t} \cdot S$$

Die Anzahl der benötigten Spuren lässt wie folgt berechnen:

$$Spuren = \frac{Datei_{Gr}}{Oberflächen_{Anz} \cdot Sektoren_{Anz} \cdot Sektor_{Gr}}$$

#### 7.3 Speicherdirektzugriff

Der Speicherdirektzugriff ermöglicht es angeschlossenen Peripheriegeräten ohne Umweg über die CPU mit dem Arbeitsspeicher zu kommuniziren. Ein Vorteil des Speicherdirektzugriffs ist die schneller Datenübertargung bei einer gleichzeitigen Entlastung des Prozessors. Der DMA-Controller muss jedoch die Daten zwangsläufig über das gleiche Bussystem übertragen wie die CPU.

Die Buszyklen C welche für einen n-Bit-DMA-Transfer benötigten werden kann mittels folgender Funktion, in Abhängigkeit von der Umdrehungsdauer  $T_r$  (in ms), der Sektorgröße S und der Sektorenanzahl A.ermittelt werden:

$$C = \left| \frac{A \cdot S \cdot 8}{n \cdot T_r} \right|$$

### 8 SSD

 $C \ = \mbox{L\"{o}sch/Schreib-Zyklen}$ pro Speicherzelle

 $T_L$  = Lebensdauer

 $B_G = Gesamtanzahl der Blöcke$ 

 $B_T$  = Anzahl der Blöcke welche pro Zeiteinheit geschrieben werden

 $P_D$  = Prozentanteil der dynamischen Daten

 $P_S$  = Prozentanteil der reservierten Blöcke für das Bad Block Management

$$B_G = \frac{\text{Kapazität}}{\text{Blockgröße}} \cdot (1 - P_S)$$

### Wichtig:

Wenn es heißt: Eine typische Datei, die zu den Dynamischen Daten gerechnet wird, belegt im Mittel x Blöcke ..., dann muss wie flogt vorgegangen werden:  $A_{DBF} = \text{Anzahl Dynamischener Blöcke pro Datei}$ 

$$\label{eq:anzahl} {\rm Anzahl_{Datein}} = \frac{{\rm Anzahl_{Dynamischener~Bl\"{o}cke}}}{{\rm Anzahl_{Dynamischener~Bl\"{o}cke~pro~Datei}}}$$

 $B_T = \text{Anz}_{\text{Dyn. Bl\"{o}cke pro Datei}} \cdot \text{Anz}_{\text{Datein}} \cdot \text{Zeiteinheit}$ 

### Static Wear Levelling

$$T_L = \frac{C \cdot B_G}{B_T}$$

Dynamic Wear Levelling

$$T_L = \frac{C \cdot (B_G \cdot P_D)}{B_T}$$

### 9 Caches

### 9.1 Zugriffszeit

Die Trefferwahrscheinlichkeit für einen Wert in eimem Level-i-Cache berechnet siech wie folgt:

$$\begin{split} P(\text{L1}) &= p_{\text{L1}} \\ P(\text{L2}) &= p_{\text{L2}} \cdot (1 - P(\text{L1})) \\ P(\text{L3}) &= p_{\text{L3}} \cdot (1 - P(\text{L1}) - P(\text{L2})) \\ &= \text{L1 und L2 Miss} \\ P(\text{MEM}) &= 1 - (P(\text{L1}) - P(\text{L2}) - P(\text{L3})) \\ &= \text{nicht im Cache} \end{split}$$

Dabei bezeichnet  $p_{\mathrm{L}i}$  den Prozentsatz der Speicher-Lesezugriff, die Cache-Treffer des Level-i- Caches sind. Die mittlere Zugriffszeit auf Werte aus dem Hauptspeicher bzw. dem Cache lässt sich dann wie folgt berechen:

$$T_{\text{avg}} = P(\text{MEM}) \cdot (T_{i-1} + T_{\text{MEM}}) + \sum_{i} (T_i \cdot P(L_i))$$

Wobei  $T_i$  die Zugriffszeit für den Level-i-Cache in Nanosekunden ist,  $T_{\rm MEM}$  ist die Zugriffszeit auf den Hauptspeicher und  $T_{i-1}$  ist der letzte Cache vor dem Hauptspeicher.

### Wichtig:

 $T_{i-1} \neq 0$ , wenn erst nach dem letzten Cache auf den Hauptspeicher zugegriffen wird. Bei einem parallelen Zugriff auf die Caches und den Hauptspeicher gilt:  $T_{i-1} = 0$ .

### 9.2 Virtuelle Speicheradresse

| TAG | LINE | WORD | BYTE |
|-----|------|------|------|

TAG Das Feld Tag beshetht aus einem eindeutigen n-Bit-Wert. Er kennzeichnet die entsprechenden Zeile im Hauptspeicher, woher die Daten stammen. Die Anzahl der Bist wird meist so gewählt das eine volle Speicheradresse (32/64 Bits) entsteht.

$$Bits_{TAG} = Bits_{ADDRESS} - Bits_{LINE} - Bits_{WORD}$$

LINE Das Line Feld gibt an, in welcher Zeile sich die entsprechenden Daten befinden, falls diese im Cache vorhanden sein sollten.

$$Bits_{LINE} = \left\lceil log_2 \left( \frac{Cachegr\"{o}\$e}{Cachezeilengr\"{o}\$e} \right) \right\rceil$$

WORD Mit dem Word Feld wird angegeben welches Wort aus der Cache Zeile angefordert wird. Dies fällt oftmals zusammen mit dem *BYTE* Feld, da der Cache lediglich eine Byte-Adressierung zulässt.

 ${\bf BYTE}$  Das Byte Feld gibt an welches Byte aus einem Speicherwort geldaen werden soll. Dies kann bei einem Cache der lediglich eine Byte-Adressierung zulässt auch mit dem WORD Feld zusammengefast werden.

$$Bits_{WORD} = [log_2 (Cachezeilengröße)]$$

### N-Weg-Cache

Ermöglicht es für eine Speicheradresse mehrere Einträge abzulegen. Dies wird benötig wenn ein Programm häufig Wörter an zwei weit auseinander liegenden Adressen holt und dadurch ständig Konflikte auftreten welche möglicherweße die vorherige Referenz aus dem Cache verdrängt. Ein Zusammfassung n solcher Cache-Einträge nennt man Menge.

$$\label{eq:Anzahl} {\rm Anzahl_{Mengen}} = \frac{{\rm Cachegr\"{o}\&e}}{{\rm Cacheze\"{i}lengr\"{o}\&e} \cdot {\rm Assoziativit\"{a}t}}$$

Da die Kapazität des Caches zunimmt jedoch nicht die Anzahl der adressierbaren Cachezeilen, dadurch muss die Anzahl der benötigten Bist für die Cachezeilen wiefolgt lauten:

$$Bits_{LINE} = [log_2 (Anzahl_{Mengen})]$$

### 9.3 Schreib-Operationen

Schreibt der Prozess ein Wort und das Wort befindet sich im Cache, muss der Cache-Eintrag aktualisirt werden, heizu gibt es folgende möglichkeiten:

- 1. Cache-Treffer
  - (a) Write Through Die modifizierten Daten werden sofort in den Hauptspeicher zurück geschrieben.
  - (b) Write Back Die modifizierten Daten werden erst in den Hauptspeicher zurück geschrieben, wenn die betroffene Cache-Zeile aus dem Cache entfernt wird.
    - (LRU-Algorithmus Last Recently Used)
- 2. Cache-Verfehlen
  - (a) Write Allocation Erzeugen eines neuen Cache-Eintrags, in den die Daten geschrieben werden.
  - (b) Write Around Schreiben von Daten direkt in den Hauptspeicher, ohne einen Cache-Eintrag zu erzeugen.

# 0 Sprungvorhersage

## 10.1 2-Bit-Sprungvorhersage



### 10.2 3-Bit-Sprungvorhersage



## 11 Cache-Kohärenz

Modified Cache-Zeile ist gültig und die Kopie im Hauptspeicher ist nicht gültig. Der Eintrag kann in keinem andern Cache existiren.

Exclusive Cache-Zeile ist gültig und die Kopie im Hauptspeicher ist gültig. Der Eintrag kann in keinem andern Cache existiren.

Shared Cache-Zeile ist gültig und die Kopie im Hauptspeicher ist gültig. Der Eintrag kann möglicherweiße in einem andern Cache existiren.

Invalid Cache-Zeile ist nicht gültig oder ist im aktuellen Cache nicht vorhanden.

Owned Ist eine Cache-Zeile Modified und ein anderer Prozess möchte den aktuellen Wert lesen, so versetzt er die aktuell modifzierte Zeile in den Zustand Owned. Die Caches tauschen dabei ihre Werte aus, jedoch beibt der Wert im Hauptspeicher unverändert und somit ungültig.

Forward Die Cache-Zeile agiert in diesem Fall als ein Vermittler für andere Caches in welchem die selbe Cache-Zeile mit dem Zustand Shared ist. Dabei ist die Cache-Zeile mit dem Zustand Forward immer die welche als letztes modifzierte wurde.

#### 11.1 MSI



Zustandsübergänge des initiierenden Prozessors snoop hit



Zustandsübergänge des passiven Prozessors

Zusammenfassung Rechnersysteme Louis Seubert 4-6

### 11.2 MESI



 $Zustands \ddot{u}berg \ddot{a}nge\ des\ initiierenden\ Prozessors$  snoop hit



 $Zustands\"{u}berg\"{a}nge\ des\ passiven\ Prozessors$ 

# 11.3 MOESI



Zustandsübergänge des initiierenden Prozessors



Zustandsübergänge des passiven Prozessors

### 11.4 **MESIF**



Zustandsübergänge des initiierenden Prozessors



Zustandsübergänge des passiven Prozessors

# 12 Multithreading

Beispiel Verteilung von 3 Threads auf 4 Ausfüehrungseinheiten, dabei benötigt die Ausführung einer Instruktion genau eine Taktzyklus:

Thread X

| X    | 1  | 2  | 3 | 4 | 5 | 6  |
|------|----|----|---|---|---|----|
| AE 1 | X1 | X4 |   |   |   | X6 |
| AE 2 | X2 | X5 |   |   |   | X7 |
| AE 3 | Х3 |    |   |   |   |    |
| AE 4 |    |    |   |   |   |    |

Thread Y

|      | _  |    |    |   |   |    |
|------|----|----|----|---|---|----|
| Y    | 1  | 2  | 3  | 4 | 5 | 6  |
| AE 1 | Y1 | Y2 | Y4 |   |   | X7 |
| AE 2 |    | Y3 | Y5 |   |   | X8 |
| AE 3 |    |    | Y6 |   |   |    |
| AE 4 |    |    |    |   |   |    |

## Thread Z

| Z    | 1  | 2 | 3     | 4 | 5  | 6 |
|------|----|---|-------|---|----|---|
| AE 1 | Z1 |   | $Z_5$ |   | Z7 |   |
| AE 2 | Z2 |   | Z6    |   |    |   |
| AE 3 | Z3 |   |       |   |    |   |
| AE 4 | Z4 |   |       |   |    |   |

**Feinkörniges Multithreading** Mit Round-Robin Ausführungsreihenfolge wird in jedem Taktzyklus ein anderer Thread ausgeführt. Falls ein Thread keine Aufgaben hat, wird nicht zurück gegangen.

|      | 1  | 2  | 3  | 4  | 5  | 6  | 7  | 8  | 9  | 10 |
|------|----|----|----|----|----|----|----|----|----|----|
| AE 1 | X1 | Y1 | Z1 | X4 | Y2 | Z5 | Y4 | Z7 | X6 | Y7 |
| AE 2 | X2 |    | Z2 | X5 | Y3 | Z6 | Y5 |    | X7 | Y8 |
| AE 3 | Х3 |    | Z3 |    |    |    | Y6 |    |    |    |
| AE 4 |    |    | Z4 |    |    |    |    |    |    |    |

Grobkörniges Multithreading Führt eine Thread aus, bis eine Verzögerung auftritt, dann wird nach Round-Robin die Ausführungsreihenfolge geändert. Im Normalfall tritt eine Verzögerung auf, hier ist es 1 Taktzyklus.

|      | 1   | 2 | 3 | 4 | 5  | 6  | 7 | 8  | 9 | 10  | 11 | 12 | 13 | 14    | 15 | 16         |
|------|-----|---|---|---|----|----|---|----|---|-----|----|----|----|-------|----|------------|
| AE 1 |     |   |   |   |    |    |   |    |   |     |    |    |    | $Z_5$ |    | <b>Z</b> 7 |
| AE 2 |     |   |   |   |    | Y5 |   |    |   |     |    | Y8 |    | Z6    |    |            |
| AE 3 |     |   |   |   | 10 | Y6 |   | Z3 |   | 111 |    | 10 |    | 20    |    |            |
| 1    | 210 |   |   |   |    | 10 |   |    |   |     |    |    |    |       |    |            |
| AE 4 | АЗ  |   |   |   |    | 10 |   | Z4 |   |     |    |    |    |       |    |            |

Simultanes Multithreading Mit Round-Robin Ausführungsreihenfolge werden die Threads aus alle Ausfüehrungseinheiten aufgeteilt. Dabei gibt es eine Verzögerung falls alle Threads zu einem Taktzyklus keine Aufgaben haben.

|              | _  | ,  |    |    |       |   |    |    |
|--------------|----|----|----|----|-------|---|----|----|
|              | 1  | 2  | 3  | 4  | 5     | 6 | 7  | 8  |
| AE 1<br>AE 2 | X1 | Y2 | Z3 | Y4 | $Z_5$ |   | X6 | Z7 |
| AE 2         | X2 | Y3 | Z4 | Y5 | Z6    |   | X7 |    |
| AE 3         | X3 | Z1 | X4 | Y6 |       |   | Y7 |    |
| AE 4         | Y1 | Z2 | X5 |    |       |   | Y8 |    |