# JNI REIBURG

#### Kapitel 4

#### Sequentielle Logik:

- 1. Speichernde Elemente
- 2. Sequentielle Schaltkreise
- 3. Entwurf sequentieller Schaltkreise
- 4. SRAM
- 5. Anwendung: Datenpfade von ReTI

Albert-Ludwigs-Universität Freiburg

Dr. Tobias Schubert, Dr. Ralf Wimmer

Professur für Rechnerarchitektur WS 2016/17

#### Zur Erinnerung: ReTI bisher



#### Zur Erinnerung: Datenpfade von ReTI

- ReTI besteht aus
  - 4 benutzersichtbaren Registern *PC*, *ACC*, *IN*1, *IN*2
    - → Realisiert durch Zähler (*PC*) bzw. Register.
  - Einem 2<sup>32</sup>-Wort-Speicher (Wortbreite von 32 Bit), der Daten und Befehle enthält
    - → Realisiert durch SRAM.
- ReTI unterstützt Load-/Store-, Compute-, Indexregisterund Sprungbefehle.

| 31 30 | 29            |  | 24 | 23          |  | 0 |
|-------|---------------|--|----|-------------|--|---|
| Тур   | Spezifikation |  |    | Parameter i |  |   |

# Zur Erinnerung: ReTI-Befehle im Überblick



 $M-Modus\ ;\ S-Source\ ;\ D-Destination\ ;\ MI-memory/immediate\ ;$ 

F - Function ; C - Condition

REIBURG

#### Umsetzung von ReTI: Externe Sicht

- 3-Bus-Architektur zur Ansteuerung von Speicher und I/O-Geräten:
  - 32 Bit breiter Datenbus D = D[31:0],
  - 32 Bit breiter Adressbus A = A[31:0],
  - Kontrollbus C (Breite später festgelegt).





#### Umsetzung von ReTI: Interne Sicht

- CPU besteht aus:
  - Zähler PC.
  - 3 für Benutzer sichtbaren Registern ACC, IN1, IN2,
  - Instruktionsregister I,
  - ALU,
  - CPU-internen Bussen:
    - L, R für linken bzw. rechten Operanden der ALU,
    - internem Datenbus DI.
- Register, PC, ALU, Busse und die zugehörigen Treiber sind 32 Bit breit.

REIBURG

#### Interner Aufbau der ReTI-CPU





#### Hinweise zum Schaltbild

- Namenskonvention für Treiber: Treiber zwischen Bus/Baustein *X* und Bus/Baustein *Y*: *XYd*;
  - Output-Enable-Signal: *XYdoe*.
  - 0Ld und 0Rd können 0<sup>32</sup> auf L bzw. R legen.
- Busse A und D sind an den Speicher (sowie I/O-Geräte) angeschlossen, s. nächste Folie.
- Das Bild enthält keine Steuerleitungen:
  - Output-Enable-Signale der Treiber,
  - Funktionsauswahl der ALU,
  - Clock-Signale und "Clock-Enable-Signale" der Register.

WS 2016/17 TS/RW - Kapitel 4 8 /

## Speicher SM von ReTI

- Datenein- und ausgänge mit Datenbus D der CPU verbunden.
- Adressleitungen mit Adressbus A der CPU verbunden.
- Treiber ASMd immer enabled.





# Verfeinerung des Schaltbilds





#### Verarbeitung der Daten im Register /

- Im Instruktionsregister / steht der gerade verarbeitete Befehl.
  - /[31:24]: Befehlskodierung (für die im Schaltbild nicht dargestellten Steuersignale benötigt).
  - /[23:0]: Speicheradresse oder Konstante für die ALU.
    - Speicheradresse wird mit acht Nullen aufgefüllt. 08/[23:0] wird auf Bus A gelegt (IAd enabled).
    - Natürliche 24-Bit-Konstante wird mit acht Nullen aufgefüllt. 0<sup>8</sup>/[23:0] wird auf R gelegt (IRd enabled).
    - Ganzzahlige 24-Bit-Konstante wird vorzeichenerweitert. sext(/[23:0]) wird auf R gelegt (/Rd enabled).

REIBURG

# Verfeinerung



- Neues Kontrollsignal sext:
  - sext = 0: Ersetze I[31:0] durch  $0^8I[23:0]$ .
  - sext = 1: Ersetze /[31:0]
    durch sext(/[23:0]).



#### Weitere Verfeinerung für Register (1/3)

- Im Buch von Keller / Paul werden die Clockeingänge aller Register Reg mit einem Clocksignal Regck verbunden, das durch die Kontrolllogik berechnet wird.
- ⇒ Datenübernahme zu ausgewählten Zeitpunkten



- Vorgehen bei Realisierung der ReTI auf einer Platine mit diskreten Bausteinen ok!
- Nicht ok bei heutigen Designs, die Prozessoren auf einem einzigen Chip integrieren.

WS 2016/17 TS/RW – Kapitel 4 13 / 70

## Weitere Verfeinerung für Register (2/3)

- Gründe für "Designrule", die es verbietet, Clockeingänge mit berechneten Datensignalen zu verbinden:
  - Spezielle Methoden ("Clock-Tree-Synthese") gewährleisten, dass die steigende Flanke der globalen Clock an allen Clockeingängen zum gleichen Zeitpunkt ankommt (z.B. durch Ausgleich des Effekts unterschiedlicher Leitungsverzögerungen m.H. von Treibern). Datensignale auf Clockeingängen verhindern Clock-Tree-Synthese.
  - Heutige Werkzeuge zur automatischen Timing-Analyse (und Berechnung der maximalen Clockfrequenz) sind nicht in der Lage, mit berechneten Clocksignalen umzugehen.
  - Spezielle Anforderungen an "Flankensteilheit" der Clocksignale (siehe Kapitel über physikalische Eigenschaften)

#### Weitere Verfeinerung für Register (3/3)

Transformation bzw. Verfeinerung:



FREIBURG

WS 2016/17 TS/RW – Kapitel 4 15 / 70

#### Programmabarbeitung durch ReTI

- Zwei sich abwechselnde Phasen der CPU:
  - Fetch-Phase: Lädt nächsten auszuführenden Befehl aus Memory ins Instruktionsregister / der CPU.
  - Execute-Phase: Befehl, der in / steht, wird ausgeführt.

#### Vorgehen:

- Definition der Datenpfade, d.h. der benötigten Datenverbindungen zwischen den Komponenten der *CPU*.
- 2 Herleitung der Kontrollsignale zur Ansteuerung der im Punkt 1 hergeleiteten Datenpfade.
  - Treiber-OE, ALU-Funktionsselektion, Register-Clock.
- 3 Sequentielle Synthese.



# Datenpfade: Fetch-Phase





## Datenpfade: Fetch-Phase





WS 2016/17 TS/RW – Kapitel 4 18 / 70

#### Bedeutung des Diagramms

- In der Fetch-Phase muss:
  - Bus A mit PC verbunden sein, d.h. PCAd enabled.
  - Register / den Wert von Bus D übernehmen, d.h. Icken muss enabled werden.
  - Alle anderen Treiber (außer denen, die stets enabled sind) sind disabled, um Bus Contentions zu vermeiden.
- Die Steuersignale müssen in der Fetch-Phase entsprechend gesetzt sein.
  - Z.B. /*PCAdoe* = 0, /*ALUAdoe* = 1, usw. (active low!)

WS 2016/17 TS/RW – Kapitel 4 19

# Fetch: Die durchgeschalteten Pfade





#### Datenpfade in der Execute-Phase

- Betrachte unterschiedliche Befehlstypen.
  - Compute Immediate,
  - Compute Memory,
  - JUMP.
  - LOAD.
  - LOADIN1 (LOADIN2 analog),
  - LOADI,
  - STORE,
  - STOREIN1.
  - MOVE.



21 / 70

# Datenpfade: Compute Immediate (1/2)





WS 2016/17 TS/RW – Kapitel 4 22 / 70

# Datenpfade: Compute Immediate (2/2)





WS 2016/17 TS/RW – Kapitel 4 23 / 70

# Datenpfade: Compute Memory (1/2)





WS 2016/17 TS/RW – Kapitel 4 24 / 70

# Datenpfade: Compute Memory (2/2)





WS 2016/17 TS/RW – Kapitel 4 25 / 70

## Datenpfade: JUMP (1/2)





WS 2016/17 TS/RW – Kapitel 4 26 / 70

# Datenpfade: JUMP (2/2)





WS 2016/17 TS/RW – Kapitel 4 27 / 70

# Datenpfade: *LOAD i* (1/2)





## Datenpfade: *LOAD i* (2/2)





WS 2016/17 TS/RW – Kapitel 4 29 / 70

# Datenpfade: LOADIN1 i (1/2)





WS 2016/17 TS/RW – Kapitel 4 30 / 70

# Datenpfade: LOADIN1 i (2/2)





WS 2016/17 TS/RW – Kapitel 4 31 / 70

# Datenpfade: LOADI i (1/2)





WS 2016/17 TS/RW – Kapitel 4 32 / 70

# Datenpfade: LOADI i (2/2)





WS 2016/17 TS/RW – Kapitel 4 33 / 70

#### Datenpfade: *STORE i* (1/2)





WS 2016/17 TS/RW – Kapitel 4 34 / 70

## Datenpfade: *STORE i* (2/2)





WS 2016/17 TS/RW – Kapitel 4 35 / 70

#### Datenpfade: *STOREIN*1 *i* (1/2)





WS 2016/17 TS/RW – Kapitel 4 36 / 70

# Datenpfade: *STOREIN*1 *i* (2/2)





# Datenpfade: MOVE ACC IN1 (1/2)





WS 2016/17 TS/RW - Kapitel 4 38 / 70

# Datenpfade: MOVE ACC IN1 (2/2)





### Zusätzliche Befehle

- Man kann weitere Befehle ohne zusätzliche Hardware realisieren!
- Load- und Compute-Befehle mit beliebigem Zielregister  $r \in \{PC, IN1, IN2, ACC\}$ .
  - Kein  $\langle PC \rangle := \langle PC \rangle + 1$ , wenn r = PC.
- Befehlsformat: *LOAD r i*; *ADD r i*; etc.
- Befehlskodierung:



 31
 30
 29
 28
 27
 26
 25
 24
 23

 Compute
 0
 0
 MI
 F
 D
 D

REIBURG

### Zur Illustration: ReTI-Simulator "Neumi"

- Verfügbar in Ilias (Zusatzmaterial)
  - Simulator der ReTI-Maschine.
  - Anleitungen und zwei Beispielprogramme.
- Für die Ausführung wird Java benötigt.
  - Für Windows: http://www.java.com/de/download/manual.jsp
  - Für Linux: Nicht den GNU-, sondern den SUN-Compiler verwenden (Neumi funktioniert nicht mit GCJ).
  - Für Solaris und MacOS sollte die richtige Java-Version vorliegen.
- Syntax geringfügig gegenüber Vorlesung abgewandelt.
  - Kommas zwischen Operanden: "ADDI ACC, 1" statt "ADDI ACC 1".
  - $\blacksquare$  Jump-Befehle anders geschrieben: "JUMP ge, 2" statt "JUMP $_{\geq}$  2".
  - Details: Anleitungen auf der Webseite.

WS 2016/17 TS/RW – Kapitel 4 41

## Implementierung von ReTI (1/2)

- Im Buch von Keller/Paul wird ReTI (bzw. ReSa) mit sogenannten diskreten FAST-Bausteinen realisiert.
  - Register, Zähler, ALU, Treiber, Speicher: Bausteine aus der FAST-Bibliothek, teilweise mehrere Bausteine, um Bitbreite 32 zu erreichen.
  - Kontrollsignale werden durch sog. PALs realisiert
    - Programmable Array Logic (Bausteine von AMD).
    - Spezielle Beschreibungssprache PALASM.
    - PALs werden heute nur noch selten verwendet.

WS 2016/17 TS/RW – Kapitel 4 42

## Implementierung von ReTI (2/2)

- Im Gegensatz dazu verwenden wir State-of-the-Art-Bausteine der NanGate-Bibliothek (http://www.si2.org/openeda.si2.org/projects/nangatelib) im Hinblick auf eine VLSI-Implementierung auf einem einzigen Chip.
- Auf Basis einer solchen Implementierung behandeln wir später wesentliche Konzepte für eine "Timing-Analyse".
   Wir beginnen zunächst mit der Realisierung der Kontrollsignale (Output–Enable, Clock–Enable ...).
- Kontrollsignale werden durch einen Endlichen Automaten generiert. Wir skizzieren hier das Vorgehen.

REIBURG

### Zu generierende Kontrollsignale

- Clock–Enable–Signale für alle Register *r*, Bez.: *rcken*.
- Output enable Signale (active low) für alle Treiber XYd, Bez.: /XYdoe.
- Funktions-Select-Signale *f*[2:0] zum Selektieren der Funktion, die von ALU ausgeführt wird.
- Signale /PCclear, /PCload für PC.
- sext zur Berechnung der Füllbits bei 24-Bit-Immediate-Konstanten.
- Für den Speicher benötigen wir die Kontrollsignale (active low) /SMDdoe, /SMw.

# Idealisierte Timing-Diagramme

- Grobe Ablaufplanung mit idealisierten Timing-Diagrammen.
- Vereinfachende Annahme: Verzögerungszeit aller Bausteine = 0 (exakte Analyse mit Verzögerungszeiten später).
- Befehlsabarbeitung ist unterteilt in Takte (= Folge von Taktsignalen *high*, *low*).
- Fragen:
  - Wie sollen Kontrollsignale zusammenspielen?
  - In welchem Takt sollen welche Treiber aktiviert, welche Registerclock enabled werden?

REIBURG

## Befehlsabarbeitung in Takten

- Sowohl Fetch- als auch Execute-Phase bestehen aus 4 Takten gleicher Länge.
- Kontrollsignal:
  - $\blacksquare$  E = 0: Fetch-Phase,
  - $\blacksquare$  E = 1: Execute-Phase.
- Signale  $s_0$ ,  $s_1$  = Binärkodierung der Nummer des Taktes (innerhalb Fetch, Execute), in dem ReTI sich befindet.
- Steigende Flanken (Anfang des Taktes) werden mit  $P_i$ , fallende (Mitte des Taktes) mit  $N_i$  bezeichnet (i = 0, ..., 3).
- Clock ck, Signale  $s_0, s_1$  und E werden Phasensignale genannt. Weitere (Kontroll-)Signale werden aus den Phasensignalen erzeugt.

# Erzeugung der Phasensignale

3-Bit-Zähler, zählt bei jeder positiven Flanke von ck um 1 hoch.



47 / 70

# Idealisiertes Timing-Diagramm



# Zur Erinnerung: Datenpfade





WS 2016/17 TS/RW – Kapitel 4 49 / 70

### Entwurfsziele

- Nutze Busse möglichst lange (unter Vermeidung von Bus Contention).
- Clock-Enable-Signale der Register möglichst spät
   → viel Zeit für Berechnung neuer Daten.
- Nach dem Entwurfsende muss das Timing der *CPU* mit den konkreten Werten der eingesetzten Fertigungstechnologie überprüft werden. ("Wie schnell kann man maximal takten, um korrektes Funktionieren zu garantieren?")
  - Siehe nächstes Kapitel.



WS 2016/17 TS/RW – Kapitel 4 50 /

## Aufbau der Kontrolllogik (1/2)

- Die eigentliche Kontrollogik wird realisiert durch einen Endlichen Automaten.
- Die Kontrollsignale sind als Ausgangssignale des Endlichen Automaten implementiert.
- Ist ein Kontrollsignal active low, dann bezeichnen wir es z.B. mit /x. Das Ausgangssignal /x ergibt sich dann durch Negation des Ausgangssignals x eines entsprechenden FFs mit Eingangssignal x<sub>pre</sub>.
- Ist ein Kontrollsignal *active high*, dann bezeichnen wir es z.B. mit x. Das Ausgangssignal x entspricht dem Ausgangssignal eines FFs mit Eingangssignal  $x_{Dre}$ .

## Aufbau der Kontrolllogik (2/2)





WS 2016/17 TS/RW – Kapitel 4 52 / 70

# Berechnung von *Icken* als erstes Beispiel (1/2)



# Berechnung von *Icken* als erstes Beispiel (2/2)



- Icken<sub>pre</sub> hat steigende Flanke bei P1, fallende bei P2 von Fetch.
- Realisierung:  $lck_{pre} = \overline{E} \cdot \overline{s_1} \cdot s_0$ .



WS 2016/17 TS/RW – Kapitel 4 54 / 70

# Berechnung von ACCcken, IN1cken, IN2cken, PCcken

Analog, unter Berücksichtigung der Tatsache, dass Register nur bei bestimmten Befehlen neu beschrieben werden dürfen



WS 2016/17 TS/RW – Kapitel 4 55 / 70

# Berechnung von *ACCcken* als Beispiel (1/3)





WS 2016/17 TS/RW – Kapitel 4 56 / 70

# Berechnung von *ACCcken* als Beispiel (2/3)

- *ACCcken*<sub>pre</sub> hat steigende Flanke bei *P*1, fallende bei *P*2 von Execute.
- Aber nur bei folgenden Befehlen:
  - Compute mit D = ACC
  - Load mit D = ACC
  - Move mit D = ACC

■ Compute:  $\overline{I_{31}} \cdot \overline{I_{30}}$ 

■ Load:  $\overline{I_{31}} \cdot I_{30}$ 

■ Move:  $I_{31} \cdot \overline{I_{30}} \cdot I_{29} \cdot I_{28}$ 

 $\blacksquare$   $D = ACC: I_{25} \cdot I_{24}$ 

Kodierung S, D

| Koalerung S, D |          |
|----------------|----------|
| S, D           | Register |
| 0 0            | PC       |
| 0 1            | IN1      |
| 1 0            | IN2      |
| 11             | ACC      |

# Berechnung von *ACCcken* als Beispiel (3/3)

```
\begin{array}{lll} \textit{ACCcken}_{\textit{pre}} = & E \cdot \overline{s_1} \cdot s_0 \cdot & \textit{//} \text{ P1 von execute} \\ & \textit{I}_{25} \cdot \textit{I}_{24} \cdot & \textit{//} D = \textit{ACC} \\ & \left(\overline{\textit{I}_{31}} \cdot \overline{\textit{I}_{30}} + \overline{\textit{I}_{31}} \cdot \textit{I}_{30} + \textit{I}_{31} \cdot \overline{\textit{I}_{30}} \cdot \textit{I}_{29} \cdot \textit{I}_{28}\right) & \textit{//} \text{ Compute, Load oder Move} \end{array}
```

REIBURG

# Datenpfade und Treiber auf *L* und *R*





WS 2016/17 TS/RW – Kapitel 4 59 / 70

# Idealisiertes Timingdiagramm



### Treiber auf Bussen L und R

- 0Ld, PCLd, IN1Ld, IN2Ld, ACCLd, 0Rd, IRd, DRd.
- Enabled in der ganzen Execute-Phase.
- Beispiel für Realisierung: /PCLdoe.
  - Enabled für
    - JUMP (/[31:30] = 11)
    - Compute-Befehle (I[31:30] = 00) mit D = PC (I[25:24] = 00)
    - MOVE (I[31:28] = 1011) mit S = PC (I[27:26] = 00).



# Berechnung von /PCLdoe (1/2)



■ PCLdoe<sub>pre</sub> hat steigende Flanke bei P3 von Fetch.



WS 2016/17 TS/RW – Kapitel 4 62 / 70

# Berechnung von /PCLdoe (2/2)

$$\begin{array}{lll} \textit{PCLdoe}_{\textit{pre}} = & \left(\overline{E} \cdot s_1 \cdot s_0 \cdot & \textit{//} \text{ P3 von fetch} \right. \\ & \left[ I_{31} \cdot I_{30} + & \textit{//} \text{ JUMP} \right. \\ & \left. I_{31} \cdot \overline{I_{30}} \cdot \overline{I_{25}} \cdot \overline{I_{24}} & \textit{//} \text{ Compute mit } D = PC \right. \\ & \left. I_{31} \cdot \overline{I_{30}} \cdot I_{29} \cdot I_{28} \cdot \overline{I_{27}} \cdot \overline{I_{26}} \right] \right) & \textit{//} \text{ MOVE mit } S = PC \\ & + \textit{PCLdoe} \cdot E \cdot \overline{s_1} \cdot \overline{s_0} & \textit{//} \text{ Halten in Takt 0 von execute} \\ & + \textit{PCLdoe} \cdot E \cdot \overline{s_1} \cdot s_0 & \textit{//} \text{ Halten in Takt 1 von execute} \\ & + \textit{PCLdoe} \cdot E \cdot s_1 \cdot \overline{s_0} & \textit{//} \text{ Halten in Takt 2 von execute} \end{array}$$

■ Output-Enable-Signale für andere Treiber auf *L* und *R* analog.



# Datenpfade und Treiber auf Adressbus





WS 2016/17 TS/RW – Kapitel 4 64 / 70

#### Treiber auf Adressbus

- PCAd: enabled (unabhängig vom Befehl) bei N0 der Fetch-Phase, disabled bei N3 der Fetch-Phase.
- IAd, ALUAd: enabled bei N0, disabled bei N3 von Execute (aber nicht bei allen Befehlen).
- Die D-FFs zu Output-Enable-Signalen auf dem Adressbus werden mit der invertierten Clock getaktet (Verschiebung um einen halben Takt!)



# Idealisiertes Timingdiagramm



## Weitere Kontrollsignale

- Treiber auf D, DI
- Signale /PCload, /PCclear
- Speicheransteuerung: s. nächste Folie.
- Kontrolle der ALU und Sign–Extension:
  - Funktions-Select-Signale f[2:0] der ALU
  - Eingangsübertrag c<sub>in</sub>
  - sext und fill
  - All diese Signale werden durch den kombinatorischen Schaltkreis (ohne zusätzliche FFs) berechnet.



WS 2016/17 TS/RW – Kapitel 4 6

# Idealisiertes Timing-Diagramm



# Speicheransteuerung

- Output-Enable /SMDdoe für SMDd (Treiber am Speicherausgang) aktiviert von P1 bis P0 bei Leseoperationen, d.h. bei
  - Fetch
  - Compute Memory
  - LOAD, LOADINJ
- Schreibsignal für Speicher /SMw (memory write) aktiviert von P2 bis P3 von execute bei Schreiboperationen, d.h. bei
  - STORE, STOREINJ



## Zusammenfassung Sequentielle Logik

- Sequentielle Schaltkreise bestehen aus speichernden Elementen (Latches, Flipflops) und einem kombinatorischen Kern.
- Sie implementieren endliche Zustandsautomaten.
- Der Entwurf eines sequentiellen Schaltkreises besteht aus der Aufstellung des Zustandsdiagramms, der Zustandsminimierung, der Zustandskodierung und der Synthese der kombinatorischen Logik.
- Nun war es uns möglich, den Entwurf von ReTI zu vervollständigen (exakte Timing-Analyse folgt).



WS 2016/17 TS/RW – Kapitel 4 70