# Universität Heidelberg Institute for Computer Engineering (ZITI)

MASTER OF SCIENCE COMPUTER ENGINEERING
PARALLEL COMPUTER ARCHITECTURE

## Exercise 5

Group 04

Barley, Daniel

Barth, Alexander

Nisblé, Patrick

### 5.1 Matrix-Multiplikation revisited

#### 5.1.2 Experimente und Evaluation

a.

Tabelle 1: Ausführungszeit  $t_{compute}$  (s)

| $M \times N$ | 10         | 100        | 500        | 1000       | 5000      | 10000     |
|--------------|------------|------------|------------|------------|-----------|-----------|
| 1            | .00035598  | .003060224 | .021459077 | .058538088 | .97590037 | 4.1627889 |
| 2            | .00031318  | .00215956  | .013287198 | .037405488 | .55434931 | 2.1772173 |
| 4            | .000342366 | .002607658 | .009611136 | .025092157 | .31555298 | 1.2518226 |
| 8            | .001353408 | .007944582 | .041451281 | .081234262 | .250685   | .99027474 |
| 16           | .001241185 | .009079268 | .057545405 | .10717686  | .55614014 | .8073803  |
| 32           | .001328589 | .011082465 | .057800985 | .058750333 | .50429179 | 1.5142876 |

Tabelle 2: Ausführungszeit  $t_{wall}$  (min : s)

| $\begin{array}{c} \text{M} \times \text{N} \\ \text{Thr.} \end{array}$ | 10      | 100     | 500     | 1000    | 5000    | 10000   |
|------------------------------------------------------------------------|---------|---------|---------|---------|---------|---------|
| 1                                                                      | 0:00.00 | 0:00.00 | 0:00.03 | 0:00.10 | 0:02.25 | 0:08.84 |
| 2                                                                      | 0:00.00 | 0:00.00 | 0:00.02 | 0:00.08 | 0:01.72 | 0:06.86 |
| 4                                                                      | 0:00.00 | 0:00.00 | 0:00.02 | 0:00.07 | 0:01.48 | 0:05.92 |
| 8                                                                      | 0:00.00 | 0:00.01 | 0:00.05 | 0:00.13 | 0:01.41 | 0:05.67 |
| 16                                                                     | 0:00.00 | 0:00.01 | 0:00.07 | 0:00.15 | 0:01.72 | 0:06.48 |
| 32                                                                     | 0:00.00 | 0:00.01 | 0:00.07 | 0:00.10 | 0:01.67 | 0:06.21 |

b.

Tabelle 3: Speedup Matrix-Multiplikation

| $M \times N$ | 10   | 100  | 500  | 1000 | 5000 | 10000 |
|--------------|------|------|------|------|------|-------|
| 2            | 1.14 | 1.42 | 1.62 | 1.56 | 1.76 | 1.91  |
| 4            | 1.04 | 1.17 | 2.23 | 2.33 | 3.10 | 3.33  |
| 8            | 0.26 | 0.39 | 0.52 | 0.72 | 3.89 | 4.20  |
| 16           | 0.29 | 0.34 | 0.37 | 0.55 | 1.75 | 2.30  |
| 32           | 0.28 | 0.28 | 0.37 | 0.99 | 1.94 | 2.75  |

#### 5.2 Vektorrechner - Memory Interleaving

a.

Der Vektorrechner benötigt eine dreimal so hohe Speicherbandbreite wie der Durchsatz des Prozessors. Dies begründet sich durch die Eigenschaft des Vektorrechners, dass in

jedem Takt beide Operanden einer Operation geholt, und das Ergebnis zurückgeschrieben wird. Realisiert wird das durch Memory Interleaving. Memory Interleaving bezeichnet die Unterteilung eines Speichers in Module gleicher Größe, die Speicherbänke. Sie sind voneinander unabhängig und können zeitlich verschränkt gelesen oder beschrieben werden. Daraus resultiert der geforderte höhere Speicherdurchfluss.

b.

Memory Interleaving hat für skalare Werte und kleine Vektoren keinen Mehrwert. Abhilfe bieten Vektorregister. Sie dienen als schnelle Zwischenspeicher, können aufgrund ihrer Größe jedoch nur Teilobjekte aufnehmen. Vektorregister sind nicht verschränkt. Aus diesem Grund kann der Zugriff mit beliebiger Adressfolge erfolgen, ohne die effektive Zugriffsbandbreite zu verringern.