## **Operace ALU**

## INP 2019 FIT VUT v Brně



#### Poloviční sčítačka



## Princip ALU (FX)



1

## Úplná sčítačka



## Úplná sčítačka – úrovně popisu

#### 1. Úroveň chování

S <= A xor B xor CI; COUT <= (A and B) or (A and CI) or (B and CI);

#### 2. Úroveň hradel



#### 3. Úroveň tranzistorů



#### 4. Úroveň fyzická (layout)



Čím nižší úroveň popisu, tím přesnější znalost parametrů obvodu (plocha, zpoždění, příkon ...)

#### Paralelní sčítačka s postupným přenosem



- Objeví-li se u první sčítačky výstup přenosu za dobu 2Δ, kde Δ je přenosové zpoždění jednoho logického členu, na výstupu druhé sčítačky je to již 4 Δ, atd. Výstup přenosu se u poslední sčítačky objeví za dobu 2n Δ.
- Pro prakticky používané šířky sčítaček 32, 64 a 128 bitů je tato doba nepřijatelně dlouhá.
- Je proto snaha navrhovat sčítačky s rychlým přenosem.
- Hledáme kompromis mezi zpožděním a počtem hradel (plochou).

#### Sériová sčítačka



Jde o jednobitovou sčítačku použitou pro sériové sčítání dvou n-bitových čísel, připravených ve vstupních registrech. Na výstupu S<sub>i</sub> se postupně objevují bity součtu počínaje nejnižším bitem 0, a výstup přenosu C<sub>i+1</sub> se zachycuje na dobu jednoho taktu (T<sub>c</sub>) v klopném obvodu D (Carry Save). (Předpokládáme, že jde o synchronní sčítačku s taktem T<sub>c</sub>).

Rozšířená sčítačka

| Ci | Αi | Вi | Si | Рi | Gi | Ci+1 |
|----|----|----|----|----|----|------|
| 0  | 0  | 0  | 0  | 0  | 0  | 0    |
| 0  | 0  | 1  | 1  | 1  | 0  | 0    |
| 0  | 1  | 0  | 1  | 1  | 0  | 0    |
| 0  | 1  | 1  | 0  | 0  | 1  | 1    |
| 1  | 0  | 0  | 1  | 0  | 0  | 0    |
| 1  | 0  | 1  | 0  | 1  | 0  | 1    |
| 1  | 1  | 0  | 0  | 1  | 0  | 1    |
| 1  | 1  | 1  | 1  | 0  | 1  | 1    |
|    |    |    |    |    |    |      |

Zavedeme dva pomocné výstupy: P<sub>i</sub> - propagate carry ("1", když přenos sčítačkou prochází, Ai≠Bi)

G<sub>i</sub> - generate carry (vznik přenosu bez ohledu na hodnotu C<sub>i</sub>)

 $\begin{aligned} S_i &= A_i \oplus B_i \oplus C_i \text{ (zpoždění: 2 } \Delta) \\ P_i &= A_i \oplus B_i & (\Delta) \\ G_i &= A_i.B_i & (\Delta) \\ C_{i+1} &= P_i.C_i + G_i & (3\Delta) \end{aligned}$ 

Rozšířená sčítačka: C<sub>i+1</sub>← C<sub>i</sub>
S<sub>i</sub>← C<sub>i+1</sub>← C<sub>i</sub>

O

#### 4b sčítačka s CLA – zpoždění 4∆



### n-bitová sčítačka s CLA – konst. zpoždění 4∆

- Cesty pro šíření postupného přenosu jsou zrušeny a na vstupy přenosu všech sčítaček se přivádějí příslušné výstupy generátoru přenosu (obvodu CLA).
- Funkce Pi, Gi se tvoří se zpožděním Δ, v čase 3Δ jsou k dispozici všechny rychlé přenosy, a součet je tedy vytvořen v čase 4Δ.
- Popsané uspořádání n-bitové sčítačky je nejrychlejší možné řešení.
- Složitost (zejména počet vstupů u log. členů) dvoustupňového generátoru přenosu však roste pro rostoucí šířku sčítačky s druhou mocninou šířky. Pro šířky 32 a 64 bitů je toto řešení již technologicky nepřijatelné.
- Byla proto navržena řešení umožňující za cenu nárůstu zpoždění zmenšit potřebnou plochu na čipu:
  - stromový generátor přenosu s CLA např. pomocí několika 4b obvodů CLA uspořádaných do stromu
  - výběr přenosu viz příklad
  - přeskakování přenosu atd.

## Logický obvod CLA



Určete obecný matematický výraz pro složitost (tedy pro "počet vstupů" u jednotlivých funkcí  $C_i$ ) obvodu CLA.

#### Sčítačka s výběrem přenosu



9

11

- 8-bitová sčítačka je rozdělena na dvě 4-bitové sčítačky.
- Horní sčítačka je zdvojená, přičemž jedna má vstup přenosu 0, a druhá 1.
- Obě připraví výsledek, a 4vstupový multiplexor pak vybere jednu z nich podle hodnoty přenosu C4.
- Obvodové řešení se tedy prodražilo o více než 50% vzhledem ke sčítačce s postupným přenosem.

16b varianta



Pro větší šířky sčítaček se postupuje obdobně; každý blok je zdvojen a je přidán výběrový multiplexor.

10

#### Hodnocení složitosti logických obvodů

- Jde o nalezení <u>kompromisního</u> řešení mezi cenou a výkonností.
   V poslední době se navíc hledá kompromis s příkonem.
- Cena popíše se např. součtem počtu vstupů všech použitých logických členů, součtem počtu logických členů, plochou na čipu apod.
- Výkonnost popíše se hodnotou nejdelšího přenosového zpoždění daného obvodu (které následně určuje f<sub>max</sub>).



#### Další operace ALU – posuvy a rotace



b)

 Blok posuvů a rotací je umístěn buď za výstupem ALU, nebo paralelně k bloku ALU. 13

15

- Řídicí vstupy: směr posuvu, jeho typ (logický nebo aritmetický), a počet bitů, o které se posouvá.
- U každého operačního bloku se musí pamatovat na operaci identity.
- Implementace: válcový posouvač (Barrel Shifter) – pomocí multiplexorů, ne posuvný registr!!



# Operační rychlost a plocha různých typů sčítaček šířky *n*

| Тур                  | doba výpočtu   | plocha          |
|----------------------|----------------|-----------------|
| Postupný přenos      | O( <i>n</i> )  | O( <i>n</i> )   |
| 2 – stupňový CLA     | 4              | $O(n^2)$        |
| Stromový CLA k-nární | $O(\log_k n)$  | $O(n \log_k n)$ |
| Přeskakování přenosu | O(√ <i>n</i> ) | O( <i>n</i> )   |
| Výběr přenosu        | O(√n)          | O(n)            |

kde *k* je počet dílčích přenosů, které se skládají v jednom uzlu stromu.



4b válcový posouvač pro rotace vpravo (4 x 4-vst. MUX, zpoždění 2Δ)



1,

#### Možnosti realizace 8b válcového posouvače (rotace vlevo)

http://verilog-code.blogspot.com/2013/09/barrel-shifter-design-using-21-mux.html

(8) - 8 x 8-vstupový multiplexor: dražší řešení, zpoždění 2∆ (2, 2, 2) - 24 x 2-MUX, zpoždění 6∆, levnější řešení, viz obrázek



## Poznámky

- Při optimalizaci vnitřní struktury válcového posouvače se kromě základních kritérií, což je cena (počet logických členů příp. počet vstupů logických členů) a přenosové zpoždění, používá pro každou technologii ještě povolené vstupní a výstupní větvení, příp. ještě další kritéria. Může se pak dospět ke struktuře, která používá v jednotlivých stupních multiplexory s rozdílným počtem vstupů.
- Je vhodné pak popisovat struktury symbolicky. Např. jednostupňové uspořádání 16 bit. posouvače s 16-vstupovými multiplexory se zapíše (16), čtyřstupňové uspořádání se 2-vstupovými multiplexory jako (2,2,2,2), se 4-vstupovými MUX (4,4), smíšená struktura např. (2,4,2) atd. Přenosové zpoždění válcového posouvače se strukturou (2,2,2,2) je 8 jednotkových zpoždění Δ.
- Poznámka: Logická struktura multiplexoru je dvoustupňová, s přenosovým zpožděním 2∆.

#### Př. 8b válcový posouvač (rotace vlevo)

http://verilog-code.blogspot.com/2013/09/barrel-shifter-design-using-21-mux.htm



Př. Rotace o 6b vlevo  $s_2 s_1 s_0 = 110$ 

18