



## HARDWARE-BESCHREIBUNGSSPRACHEN

Hardwareentwurf mit VHDL

9. November 2020 Revision: 0d5ed06 (2020-11-09 20:24:57 +0100)

## Steffen Reith

Theoretische Informatik Studienbereich Angewandte Informatik Hochschule **RheinMain** 





#### **GRUNDLAGEN**

Pipelining ist eine grundlegende Technik, um die **Performanz** eines Systemes zu **verbessern**.

- → Idee: Tasks (wenn möglich) zeitlich überlappend auszuführen
- → Idee: kombinatorische Schaltkreise in Teilschritte aufteilen
- → Idee: verwende Register um Zwischenergebnisse für den nächsten Schritt zu speichern

Hier gibt es zwei wichtige Kenngrößen:

- → Delay: **Zeit** die die **Bearbeitung eines Tasks** benötigt
- → Durchsatz: Anzahl der bearbeiteten Tasks pro Zeiteinheit

Pipelining **verbessert** den **Delay nicht** (ehr schlechter) und vergrößert (evtl.) den **Durchsatz**.

#### EIN BEISPIEL: WASCHEN OHNE PIPELINING

In einer Wäscherei sind die Tasks "waschen", "trocknen" und "bügeln" durchzuführen:



#### Damit ergibt sich:

- → Delay: 60 Minuten (Zeit für die Bearbeitung einer Ladung Wäsche)
- → **Durchsatz**:  $4/(4 \cdot 3 \cdot 20) = 1/60$  **Ladungen pro Minute**

#### EIN BEISPIEL: WASCHEN MIT PIPELINING



#### Damit ergibt sich (idealisiert):

- → Delay: unverändert 60 Minuten (Zeit für die Bearbeitung einer Ladung Wäsche)
- → **Durchsatz**: Für k Ladungen wird die Zeit 40 + 20k benötigt. In diesem Beispiel ergibt sich  $4/(40 + 20 \cdot 4) = 1/30$  Ladungen pro Minute

## EIN BEISPIEL: WASCHEN MIT PIPELINING (II)

Werden sehr **viele Ladungen Wäsche gewaschen**, so ergibt sich sogar

$$\lim_{k \to \infty} \frac{k}{40 + 20 \cdot k} = \frac{1}{20}$$

der dreifache Durchsatz.

Die dargestellte Situation ist stark idealisiert, denn:

- → Die drei Teilaufgaben "waschen", "bügeln" und "trocknen" haben den identischen Zeitbedarf.
- → Der zusätzliche Zeitbedarf (z.B. Ablage in einem Zwischenspeicher) für die Überlappung der Aufgaben wurde vernachlässigt.

#### PIPELINING MIT SCHALTKREISEN

Der gleiche Ansatz kann auf Schaltkreise angewendet werden<sup>3</sup>.

Ziel: Teile den kombinatorischen Schaltkreis in möglichst **identisch lang** arbeitende Teile auf (**Stages**).



Seien  $T_1$ ,  $T_2$ ,  $T_3$  und  $T_4$  die Delays der Stages 1-4, dann ist  $T_{\rm max}$  der **Delay der "langsamsten" Stage**:

$$T_{\text{max}} = \max\{T_1, T_2, T_3, T_4\}.$$

<sup>&</sup>lt;sup>3</sup>Das Prinzip des Pipelinings in CPUs wird in D. Patterson und J. Hennessy, Computer Organization and Design, Morgan Kaufmann, 2012 in den Kapiteln 4.5 und 4.6 beschrieben.

## PIPELINING MIT SCHALTKREISEN (II)

Zur Regulierung des Signalflusses werden die (synchronen) Register  $R_1$ ,  $R_2$  und  $R_3$  eingeführt. Register  $R_4$  dient als **Ausgabebuffer**:



Sei  $T_{\rm cq}$  die **Verzögerung eines Registers**  $R_i$  mit der das Clocksignal am Q-Ausgang ankommt, dann beträgt die minimale Periodendauer  $T_c$ 

$$T_c = T_{\text{max}} + T_{\text{set}} + T_{\text{cq}}$$

 $T_c$  gibt dabei also die Dauer eines **Teilschritts** an.

## PIPELINING MIT SCHALTKREISEN (III)

Der ursprüngliche kombinatorische Schaltkreis braucht für die **gesamte** Aufgabe (Delay):

$$T_{\text{comb}} = T_1 + T_2 + T_3 + T_4$$

Für die Version mit Pipeline ergibt sich der schlechtere Delay

$$T_{\text{pipe}} = 4T_c = 4T_{\text{max}} + 4(T_{\text{set}} + T_{\text{cq}})$$

Hier zeigt sich, dass die **einzelnen Stages** möglichst den **gleichen Delay** haben sollten. Dies muss man evtl. durch mehrere Implementierungsversuche "ausprobieren" und dann die Stages anpassen (Retiming).

## PIPELINING MIT SCHALTKREISEN (IV)

Der Durchsatz des kombinatorischen Schaltkreises beträgt

$$\frac{1}{T_{\rm comb}}$$

Um k Tasks zu bearbeiten, benötigt die **Variante mit Pipeline** 

$$3T_c + kT_c$$

Zeit und liefert den Durchsatz (für **große** k):

$$\lim_{k \to \infty} \frac{k}{3T_c + kT_c} = \frac{1}{T_c}$$

Unter den Annahmen, dass  $T_{\rm set}+T_{\rm cq}$  vernachlässigbar **klein** und  $T_{\rm max}=T_{\rm comb}/4$  (perfekt balancierte Stages) gilt:

$$T_{\rm pipe} = 4T_c \approx 4T_{\rm max} = T_{\rm comb}$$

## PIPELINING MIT SCHALTKREISEN (V)

Damit ergibt sich

$$\frac{1}{T_c} \approx \frac{1}{T_{\text{max}}} = \frac{4}{T_{\text{comb}}},$$

d.h. der **vierfache Durchsatz**. Diese Betrachtung kann auch auf eine Pipeline mit n **Stufen übertragen** werden.

**Achtung:** Verwendet man sehr viele Pipelinestufen, so wird  $T_c$  klein, aber  $T_{\rm set}+T_{\rm cq}$  ist nicht mehr vernachlässigbar!

Für den effektiven Einsatz von Pipelining sollte ein Schaltkreis

- → kontinuierlich große Mengen an Daten verarbeiten müssen,
- → den Durchsatz als wichtigstes Designkriterium haben,
- → in möglichst gleich "große" Stages aufteilbar sein und
- ightarrow der Delay einer Stage ist groß gegenüber  $T_{
  m set} + T_{
  m cq}$ .

#### **GENERELLES VORGEHEN**

Liegt ein Schaltkreis als VHDL-Beschreibung vor, so kann mit Hilfe der folgenden Schritte eine gepipelinte Version gewonnen werden:

- → Bringe die graphische Darstellung der Schaltung in eine "Kettenform"
- → Identifiziere größere Grundbausteine in der Kette und schätze deren Verzögerung
- ightarrow Teile die Kette in gleich große Stücke / Stages. Die Verzögerungszeit jeder Stage solle deutlich größer als  $T_{
  m set}+T_{cg}$  sein.
- → Identifiziere alle Signale, die die Grenze zwischen zwei Stages überqueren
- → **Füge Register** für diese Signale **an den Grenzen** der Stages ein.

#### EIN EINFACHER 5-BIT MULTIPLIZIERER

Nun soll ein 5-Bit Multiplizierer vorgestellt werden, der dann mit einer Pipeline ausgestattet wird:



Es gilt 
$$a = a_0 + a_1 \cdot 2^1 + a_2 \cdot 2^2 + \dots + a_4 \cdot 2^4$$
 und  $b = b_0 + b_1 \cdot 2^1 + b_2 \cdot 2^2 + \dots + b_4 \cdot 2^4$ .

## EIN EINFACHER 5-BIT MULTIPLIZIERER (II)

Das **Produkt**  $a \cdot b$  kann dann geschrieben werden als:

$$a \cdot b = \sum_{i=0}^{4} b_i 2^i \sum_{j=0}^{4} a_j 2^j = \sum_{i=0}^{4} b_i \sum_{j=0}^{4} a_j 2^{i+j} = \sum_{i=0}^{4} \sum_{j=0}^{4} a_j b_i 2^{i+j}$$

Die Summanden  $b_i \sum_{j=0}^4 a_j 2^{i+j} = b_i a 2^i$  heißen **Bitprodukt** (von  $b_i$  und a) und können durch eine and-Verknüpfung bestimmt werden. Damit ergibt sich:

- → Genau dann, wenn  $b_i = 1$  trägt das **Bitprodukt** von a und  $b_i$  den **Wert**  $a2^i$  zum Produkt bei.
- $\rightarrow$  Die Zahl  $a2^i$  kann leicht durch (mehrfaches) anhängen von 0 erzeugt werden.

#### AUSSCHNITT DER VHDL-IMPLEMENTIERUNG

```
entity BMult is
     port (a : in std_logic_vector(4 downto 0);
2
3
           b : in std logic vector (4 downto 0);
           c : out std_logic_vector(9 downto 0));
4
5
   end entity;
6
7
   architecture Behavioral of BMult is
8
     -- Vector version of ith bit of b
9
     signal b0Vect, b1Vect, b2Vect : std_logic_vector(4 downto 0);
10
11
     -- The ith bit-product
12
     signal bitProd0, bitProd1, bitProd2 : unsigned(9 downto 0);
13
14
     -- The ith partial product
15
     signal partProd0, partProd1, partProd2 : unsigned(9 downto 0);
16
17
     -- Copies of inputs for each stage
18
     signal a0, a1, a2 : std_logic_vector(4 downto 0);
19
     signal b0, b1, b2 : std_logic_vector(4 downto 0);
20
```

## AUSSCHNITT DER VHDL-IMPLEMENTIERUNG (II)

```
begin
2
     -- Stage 0
      b0Vect \le (others => b(0)):
5
      bitProd0 <= unsigned("00000" & (b0Vect and a));
     partProd0 <= bitProd0;</pre>
6
7
   a0 <= a:
     b0 \le b;
8
9
     -- Stage 1
10
      b1Vect <= (others => b0(1));
11
      bitProd1 <= unsigned("0000" & (b1Vect and a0) & "0");
12
      partProd1 <= bitProd1 + partProd0;</pre>
13
     a1 \le a0;
14
      b1 \le b0:
15
16
      -- Stage 2
17
      b2Vect <= (others => b1(2));
18
      bitProd2 <= unsigned("000" & (b2Vect and a1) & "00");
19
      partProd2 <= bitProd2 + partProd1;</pre>
20
```

## AUSSCHNITT DER VHDL-IMPLEMENTIERUNG (III)

```
1     a2 <= a1;
2     b2 <= b1;
3     ...
4
5     -- Output
6     c <= std_logic_vector(partProd4);
7
8     end;</pre>
```

#### EIN MULTIPLIZIERER MIT PIPELINE

Nun werden an den **Grenzen** der einzelnen Stages **Pipelineregister** für alle Signale **eingefügt**, die die Grenze einer Stage überqueren:



Ausnahme: An der **Grenze zwischen Stage 0 und Stage 1** werden **keine Pipelineregister** eingefügt, da die ersten beiden Bitprodukte parallel ausgerechnet werden.

#### AUSSCHNITT DER VHDL-IMPLEMENTIERUNG

```
entity PMult is
     port (clk : in std_logic;
2
3
           reset : in std logic;
           a : in std_logic_vector(4 downto 0);
4
5
                  : in std logic vector(4 downto 0);
6
                 : out std logic vector(9 downto 0));
7
   end entity;
8
   architecture Behavioral of PMult is
10
   -- Registers for the copies of the input
11
   signal a1_reg, a2_reg, a3_reg : std_logic_vector(4 downto 0);
12
   signal b1_reg, b2_reg, b3_reg : std_logic_vector(4 downto 0);
13
   signal partProd1_reg, partProd2_reg, partProd3_reg,
14
          partProd4_reg : unsigned(9 downto 0);
15
16
   -- Inputs for the pipeline registers
17
   signal a1_next, a2_next, a3_next : std_logic_vector(4 downto 0);
18
   signal b1_next, b2_next, b3_next : std_logic_vector(4 downto 0);
19
   signal partProd1_next, partProd2_next, partProd3_next,
20
          partProd4 next : unsigned(9 downto 0);
21
```

## AUSSCHNITT DER VHDL-IMPLEMENTIERUNG (II)

```
pipeline : process (clk)
   begin
2
3
     if (rising_edge(clk)) then
4
5
6
       if (reset = '1') then -- Init all registers
7
          a1_reg <= (others => '0');
          a2 reg <= (others => '0');
8
          a3_reg <= (others => '0');
9
          b1_reg <= (others => '0');
10
         b2 reg <= (others => '0');
11
         b3_reg <= (others => '0');
12
         partProd2_reg <= (others => '0');
13
         partProd3_reg <= (others => '0');
14
       else -- Handle the pipeline registers
15
          a1_reg <= a1_next;
16
         a2_reg <= a2_next;
17
         a3_reg <= a3_next;
18
         b1 reg <= b1 next;
19
         b2_reg <= b2_next;
20
```

## AUSSCHNITT DER VHDL-IMPLEMENTIERUNG (III)

```
1
         b3_reg <= b3_next;
          partProd2_reg <= partProd2_next;</pre>
2
3
          partProd3 reg <= partProd3 next;
       end if:
4
5
     end if;
   end process;
7
8 -- Stage 2
   b2Vect <= (others => b1_reg(2));
   bitProd2 <= unsigned("000" & (b2Vect and a1_reg) & "00");
10
   partProd2_next <= bitProd2 + partProd1_reg;</pre>
11
12 a2_next <= a1_reg;</pre>
   b2 next <= b1 reg;
13
14
   -- Stage 3
15
   b3Vect <= (others => b2_reg(3));
16
   bitProd3 <= unsigned("00" & (b3Vect and a2_reg) & "000");
17
   partProd3_next <= bitProd3 + partProd2_reg;</pre>
18
   a3 next <= a2 reg;
19
20
   b3_next <= b2_reg;
```

#### **TIMINGDIAGRAMM**

Mit Hilfe einer Testbench werden nacheinander die Werte 10, 11, 12, 13 und 14 für a und 20 für b in den Multiplizierer eingegeben.



# Vielen Dank!