# Capítulo 4: SEGMENTACIÓN EN LA EJECUCIÓN DE INSTRUCCIONES

Escuela Politécnica Superior de la U.A.M.

## Índice

#### SEGMENTACIÓN EN LA EJECUCIÓN DE INSTRUCCIONES

- 2.1.- Fundamentos de diseño de un procesador
  - 2.1.1.- El repertorio de instrucciones
  - 2.1.2.- Ciclo único y multiciclo
  - 2.1.3.- Ruta de datos y control
- 2.2.- La técnica de la segmentación
  - 2.2.1.- Funcionamiento ideal.
  - 2.2.2.- Conceptos asociados: latencia y rendimiento (throughput)
- 2.3.- Diseño de un procesador segmentado (pipeline)
- 2.4.- Limitaciones del cauce de instrucciones segmentado
  - 2.4.1.- Causas que producen pérdidas de rendimiento por detención del pipeline
- 2.4.1.1.- Conflictos por limitaciones estructurales
- 2.4.1.2.- Conflictos por riesgos de control
- 2.4.1.3.- Conflictos por dependencia de datos
  - 2.4.2.- Técnicas para evitar detenciones
    - 2.4.2.1.- Adelantamiento de datos
    - 2.4.2.2.- Predicción de saltos



## Introducción

- Para el estudio de procesadores segmentados se parte de un sencillo procesador RISC denominado MIPS (Microprocessor without Interlocked Pipeline Stages)
  - □ Procesador de 32 bits (datos, memoria)
  - □ 32 registros de propósito general
  - □ Memoria de datos y código separadas



Arquitectura e Ingeniería de Computadores

## Características de las arquitecturas RISC

- Juego de instrucciones reducido.
- □ Acceso a memoria limitado a instrucciones de carga/almacenamiento.
- Muchos registros de propósito general.
- Pocos modos de direccionamiento (inmediato, directo, indexado).
- Formato de instrucción homogéneo (misma longitud y distribución de campos).
- □ Todas las instrucciones se ejecutan en un ciclo de reloj.



## El juego de instrucciones

- Los diseñadores de computadoras tienen como objetivo encontrar un juego de instrucciones tal que
  - □ Sea sencillo construir el hardware que materialice ese juego de instrucciones y
  - □ El **compilador** sea sencillo y eficiente,
  - Maximizando el **rendimiento** de la computadora y
  - □ Minimizando su consumo de energía.



Arquitectura e Ingeniería de Computadores

## **Procesadores MIPS**

- □ Los procesadores MIPS tienen un juego de instrucciones elegante desarrollado desde la década de 1980.
- □ Otro ejemplo de juego de instrucciones es el de los procesadores ARM.
  - □ Similar a las instrucciones MIPS.
  - □ Vendió más de 3.000 millones de chips para aplicaciones embebidas en 2008.
- □ Un juego de instrucciones diferente es el Intel x86.
  - □ Se vendieron 330 millones de PCs Intel en 2008.



## **Procesadores MIPS**

- En 1981, un equipo liderado por John L.
   Hennessy en la Univ. de Stanford comenzó a trabajar en el primer procesador MIPS.
- A principios de los '90 MIPS Technologies comenzó a otorgar licencias de sus diseños a terceros, de ahí proceden más de la mitad de los ingresos de MIPS actualmente.
- Los procesadores MIPS se utilizan por ejemplo en dispositivos para Windows CE; routers Cisco; y videoconsolas como la Nintendo 64 o las Sony PlayStation, PlayStation 2, etc.
- Debido a que su conjunto de instrucciones tan claro, los cursos sobre arquitectura de computadores en universidades a menudo se basan en la arquitectura MIPS.



R10000 (Toshiba TC86R10000-200,1996)



Emotion Engine (Sony, 2000) MIPS-IV (R4000) de 128 Bits



Arquitectura e Ingeniería de Computadores

## **Procesador MIPS**

- □ 32 registros de uso general: \$0 .. \$31 (excepto \$0 siempre igual a 0).
- □ 2<sup>30</sup> palabras de memoria (32 bits c/u).
- □ Instrucciones de 1 palabra (32 bits) de longitud.
- □ Acceso a memoria limitado a 2 tipos de instrucciones:
  - □ LOAD (carga una palabra de memoria en registro)
  - □ STORE (almacena un registro en memoria)



## El repertorio de instrucciones: características y tipos

□ Conjunto de instrucciones MIPS (32 bits). Tres formatos de instrucciones:



□ Campos de cada instrucción:

- □ op: Código de operación de la instrucción
- □ rs, rt, rd: identificador de los registros fuente y destino
- □ shamt: desplazamiento deseado
- □ funct: selección de la variante de función asociada
- □ inmediato: dato inmediato en 16 bits
- □ Dirección destino



Arquitectura e Ingeniería de Computadores

## El repertorio de instrucciones: Tipo-R



Ejemplos: ADD y SUB add rd, rs, rt # rd=rs+rt sub rd, rs, rt # rd=rs-rt Ejemplos: Código C f = (g + h) - (i + j);

Si las variables f, g, h, i, j están en los registros

\$s0 a \$s4 el compilador puede generar:

add \$t0, \$s1, \$s2 add \$t1, \$s3, \$s4 sub \$s0, \$t0, \$t1



## Convención para el banco de registros MIPS

| Nombre    | Número | Uso                       | Se preserva en call? |
|-----------|--------|---------------------------|----------------------|
| \$zero    | 0      | Constante cero            | -                    |
| \$at      | 1      | Reservado assembler       | No                   |
| \$v0-\$v1 | 2-3    | Resultados de expresiones | No                   |
| \$a0-\$a3 | 4-7    | Argumentos                | No                   |
| \$t0-\$t7 | 8-15   | Temporarios               | No                   |
| \$s0-\$s7 | 16-23  | Saved                     | Si                   |
| \$t8-\$t9 | 24-25  | Temporarios               | No                   |
| \$k0-\$k1 | 26-27  | Reservados SO             | No                   |
| \$gp      | 28     | Puntero global            | Si                   |
| \$sp      | 29     | Puntero pila              | Si                   |
| \$fp      | 30     | Puntero frame             | Si                   |
| \$ra      | 31     | Dir retorno sub-rutina    | Si                   |



#### Arquitectura e Ingeniería de Computadores

## El repertorio de instrucciones: Tipo-l



ADD inmediato
addi rt, rs, inm # rt=rs+inm
LOAD y STORE word
lw rt, rs, inm # rt=mem[rs+inm]
sw rt, rs, inm # mem[rs+inm]=rt
SALTOS

beq rs, rt, inm # si rs=rt,

# el lenguaje ensamblador admite etiquetas y calcula inm



# entonces PC=PC+4+inm\*4

## El repertorio de instrucciones: Ejemplo

Ejemplos: Código C

```
if (i == j) f = (g + h); else f = g - h;
```

Si las variables f, g, h, i, j están en los registros \$s0 a \$s4 el compilador puede generar:

```
bne $s3, $s4, CasoElse
add $s0, $s1, $s2  # si i==j
j Exit  # salto incondicional
CasoElse: sub $s0, $s1, $s2
```

Exit:



#### Arquitectura e Ingeniería de Computadores

## El repertorio de instrucciones: Ejemplo

```
Ejemplos: Código C
```

```
while (save[i] == k) i+=1;
```

Si las variables i y k están en los registros \$s3 y \$s5 y el registro base del arreglo save esta en \$s6, el compilador puede generar:

```
Loop: sll $t1, $s3, 2  # sll con 2 equivale a multip x4 add $t1, $t1, $s6  # calcula dir de save[i] lw $t0, 0($t1)  # carga save[i] bne $t0, $s5, Exit addi $s3, $s3, 1  # i+=1 j Loop  # salto incondicional
```

Exit:



## Modos de direccionamiento MIPS



El operando es una cte dentro de la instrucción:

lui \$s0, 61

- El operando es un registro: ejemplos 1, 3 y 4.
- La dir del operando es la suma de un reg y una cte en la instrución:

lw \$t0, 8(\$t1)

La dir de salto es la suma del PC mas una cte. en la instr.:

beq \$s0, \$s1, L1

□ La dir de salto es la concat. de los 4 bits más altos del PC con la cte de 26 bits en la instrucción (más los dos LSB que son cero): jal printf



Arquitectura e Ingeniería de Computadores

### Ejemplo ejecución RTL de una instrucción



## Instrucción add rd, rs, rt

#### Descripción de la ejecución (RTL)

IR ←Mem[PC] Carga de la instrucción desde memoria

R[rd] ← R[rs] + R[rt] Realiza la operación (SUMAR)

PC ← PC + 4 Calcula la dirección de la siguiente instrucción



#### Descripción RTL del procesador MIPS

Descripción RTL (Register Transfer Level) de las instrucciones

a. Fase inicial: carga desde Memoria (Fetch)

```
IR <= MEM[ PC ]; IR = op & rs & rt & rd & shamt & funct
; IR = op & rs & rt & Imm16
; IR = op & Inm26</pre>
```

b. Transferencia entre Registros (ejemplos: Instrucc y transf entre registros)

```
PC \leq PC + 4
ADD
       R[rd] \leq R[rs] + R[rt];
ADDI
       R[rt] \le R[rs] + Ext signo(Inm);
                                                  PC \leq PC + 4
LOAD
       R[rt] <= MEM[ R[rs] + Ext_signo(lnm)];
                                                  PC <= PC + 4
STORE MEM[ R[rs] + Ext_signo(Inm) ] <= R[rt];
                                                  PC <= PC + 4
BEQ
         if ( R[rs] == R[rt] ) then
                                  PC <= PC + 4 + (Ext_signo(Inm) & 00)
else
                                                  PC \leq PC + 4
```



Arquitectura e Ingeniería de Computadores

## Generalidades para el diseño de un procesador

- 1. Analizar el conjunto de instrucciones => requisitos para la ruta de datos (datapath).
  - □El significado de cada instrucción viene dado por su funcionamiento a nivel de transferencia de registros (RTL).
  - □El datapath debe incluir elementos de almacenamiento para los registros accesibles en el modelo de programación del procesador.
  - □El datapath debe soportar todas las transferencias entre registros definidas en el conjunto de instrucciones.
- 2. Selección de los componentes y de la metodología de reloj.
- 3. Implementación del *datapath* cumpliendo los requisitos.
- 4. Análisis de cada instrucción para determinar el mecanismo de control que efectúe la transferencia entre registros.
- 5. Implementación de la lógica de control.



## Diseño del procesador: elementos básicos

Unidades funcionales necesarias para las instrucciones





Arquitectura e Ingeniería de Computadores

## Diseño del procesador: sincronización

- La metodología de sincronización indica cuándo pueden leerse y escribirse las diferentes señales.
- □ En este procesador (MIPS) los ciclos de reloj comienzan en flanco de subida





#### Conexiones en la ruta de datos (Datapath)

Operaciones entre registros, Tipo-R (ADD, SUB, OR, AND, etc)





Arquitectura e Ingeniería de Computadores

### Conexiones en la ruta de datos (Datapath)

Operaciones de carga y almacenamiento, Tipo-I (Load / Store)





Arquitectura e Ingeniería de Computadores

#### Conexiones en la ruta de datos (Datapath)

Operaciones de salto condicional (Beq)





Arquitectura e Ingeniería de Computadores

# Ruta de Datos con Control Uniciclo

| Instrucción | RegDest | FuenteALL | MemaReg | EscrReg | LeerMem | EscrMen | SaltoCond | ALUOp1 | ALUOp0 |
|-------------|---------|-----------|---------|---------|---------|---------|-----------|--------|--------|
| Reg a Reg   | 1       | 0         | 0       | 1       | 0       | 0       | 0         | 1      | 0      |
| LOAD        | 0       | 1         | 1       | 1       | 1       | 0       | 0         | 0      | 0      |
| STORE       | Х       | 1         | Х       | 0       | 0       | 1       | 0         | 0      | 0      |
| DEO         | X       | 0         | X       | 0       | 0       | 0       | 1         | 0      | 1      |





## ¿Cómo agregar Jumps?



Jump usa direccionamiento pseudo-directo
El nuevo valor del PC se forma concatenando
Los 4 bits más altos del PC
El operando de 26 bits
00

¿Se necesita alguna nueva señal de control?



Arquitectura e Ingeniería de Computadores

## Ruta de Datos agregando Jumps





Arquitectura e Ingeniería de Computadores

#### Diagrama de tiempo de operación Reg-Reg





Arquitectura e Ingeniería de Computadores

#### Desventajas del diseño uniciclo (CPI=1)

Arithmetic & Logical PC Inst Memory Reg File **ALU** mux setup mux Load PC **Inst Memory** Reg File **ALU** Data Mem mux setup Camino crítico Store PC Inst Memory Reg File **ALU** Data Mem mux Branch PC Reg File **Inst Memory** cmp mux □ Tiempo de ciclo muy largo (el peor de todos). □ Casi todas las instrucciones utilizan, sin necesidad, tanto tiempo como la instrucción más lenta. □ Se viola el principio de diseño: Hacer que el caso común sea rápido



## Desventaja en la ejecución uniciclo: ejemplo

□ Tiempos hipotéticos para ejecutar cada instrucción

| Clase de    | Mem    | Lect de | Operac. |       | Escrit | Total |
|-------------|--------|---------|---------|-------|--------|-------|
| Instrucción | instr. | Reg     | ALU     | datos | en Reg |       |
| Formato R   | 2      | 1       | 2       | 0     | 1      | 6 ns  |
| Load (LW)   | 2      | 1       | 2       | 2     | 1      | 8 ns  |
| Store (SW)  | 2      | 1       | 2       | 2     |        | 7 ns  |
| Salto (BEQ) | 2      | 1       | 2       |       |        | 5 ns  |
| Jump        | 2      |         |         |       |        | 2 ns  |

- □ Sea un programa que utiliza 24% de cargas, 12% de almacenamientos, 44% de operaciones entre registros en la ALU, 18% de saltos condicionales y 2 % de saltos incondicionales
- □ Si fuese simple (NO LO ES) tener un reloj variable
  - □ ¿Cuál es tiempo medio de ciclo?
  - □ ¿Cuál sería la aceleración respecto de una ejecución uniciclo?



Arquitectura e Ingeniería de Computadores

### Ejecución multiciclo

|   | Las instrucciones | pueden  | tardar  | diferente | número   | de cicl | os |
|---|-------------------|---------|---------|-----------|----------|---------|----|
| _ |                   | Pacacii | tal aai |           | 11011010 |         | •  |

- □ Un "datapath" con ligeras modificaciones:
  - □ Dividir las instrucciones en pasos, cada paso tarda un ciclo.
  - □ Balancear la cantidad de trabajo a realizar en un paso.
  - □ En cada ciclo sólo se utiliza una unidad funcional (se reduce el número de U.F.)
- □ Al final del ciclo
  - □ Almacenar los valores para su uso en posteriores pasos.
  - □ Añadir registros internos adicionales.



## Cambios para una aproximación multiciclo





Arquitectura e Ingeniería de Computadores

### Ejecución en cinco pasos (5 ciclos)

#### 1. Carga la instrucción (todas igual)

La ALU actualiza el contador de programa:

```
□ Todas: IR = Memoria[PC];
PC = PC + 4;
```

#### 2. Decodificación y lectura de operandos (todas igual)

Todavía se sigue el mismo cauce para cualquier instrucción porque se están decodificando.

- □ Lee registros rs y rt por si son necesarios
- □ Calcula la dirección de salto en la ALU por si fuera necesaria (branch)

```
□ Todas: A = Reg[IR[25-21];

B = Reg[IR[20-16];

SalidaALU = PC + (extension_signo(IR[15-0]<<2);
```



## Ejecución en cinco pasos (5 ciclos)

3. Ejecución. Calculo de la dirección de memoria. Finalización del salto.

La ALU, dependiendo del tipo de instrucción, realiza una operación u otra.

□ Referencia a memoria: SalidaALU = A + extension signo(IR[15-0]);

□ Operación entre registros: SalidaALU = A op B;

□ Saltos: if (A==B) PC = SalidaALU;

4. Acceso a memoria o final instrucción tipo R.

Acceso a memoria en Load's y Store's.

□ Load: MDR = Memoria[SalidaALU];

□ Store: Memoria[SalidaALU] = B;



Escritura del registro destino en instrucciones entre registros.

□ Operación entre registros: Reg[IR[15-11]] = SalidaALU; (La escritura tiene lugar en el flanco al final del ciclo)





Arquitectura e Ingeniería de Computadores

## Ejecución en cinco pasos (5 ciclos)

- Escritura del valor leído de memoria en el registro destino (Write-back).
  - □ Load: Reg[IR[20-16]]= MDR;



"UNA INSTRUCCIÓN TARDA DE 3 A 5 CICLOS"



## Control multiciclo: resumen de etapas

| Nombre de la etapa                                         | Tipo R                                                                                          | acceso a memoria                                               | Saltos<br>condicionales               | Saltos<br>incondic(jump)             |  |  |
|------------------------------------------------------------|-------------------------------------------------------------------------------------------------|----------------------------------------------------------------|---------------------------------------|--------------------------------------|--|--|
| Carga Instrucciones                                        | IR = Memoria[PC]<br>PC = PC + 4                                                                 |                                                                |                                       |                                      |  |  |
| Decodific de instrucc / carga Reg                          | A = Reg [IR[25-21]]<br>B = Reg [IR[20-16]]<br>SalidaALU = PC + (extension-signo (IR[15-0] << 2) |                                                                |                                       |                                      |  |  |
| Ejecución, cálculo de direcc y fin de saltos condicionales | SalidaAlu = A op B                                                                              | SalidaALU = A +<br>(extension-signo (IR[15-0])                 | si (A = B) entonces<br>PC = SalidaALU | PC = PC[31-28]   <br>(IR[25-0] << 2) |  |  |
| Acc. a MEM y Fin de instrucc tipo R                        | Reg [IR[15-11]] =<br>SalidaALU                                                                  | Load: MDR = Memoria[SalidaALU] ó Store: Memoria[SalidaALU] = B |                                       |                                      |  |  |
| Fin lectura MEM                                            |                                                                                                 | Load: Reg [IR[20-16]] = MDR                                    |                                       |                                      |  |  |



#### Arquitectura e Ingeniería de Computadores

## **Control Multiciclo**







### Segmentación: Perspectiva General

Técnica utilizada para optimizar el tiempo de ejecución de procesos que se realizan mediante la repetición de una secuencia de pasos básicos.

Permite la ejecución de procesos concurrentemente.

- □ **Fundamento:** Separar el proceso en etapas y ejecutar cada etapa en un recurso independiente.
- Objetivo: Mejorar la productividad, aumentando el número de instrucciones ejecutadas por unidad de tiempo.
- □ *Funcionamiento:* Cuando una etapa del proceso termina, el recurso liberado puede empezar a ejecutar la misma etapa del siguiente proceso.
  - □ Se consigue la ejecución de varios procesos en paralelo cada uno en una etapa diferente. ILP: Instruction Level Paralelism
  - □ Las etapas son ejecutadas secuencialmente.









### Segmentación: Funcionamiento Ideal

T<sub>p</sub> es el tiempo de ejecución de un proceso.

Se puede descomponer en s (s=3) etapas de duración  $T_s (T_p=s \cdot T_s)$ 





Arquitectura e Ingeniería de Computadores

## Segmentación: Funcionamiento Ideal

#### Proceso segmentado vs Proceso secuencial

#### <u>VENTAJAS</u>

- □ La segmentación, aunque <u>no mejora</u> la *latencia* de un solo proceso, <u>mejora</u> el *rendimiento o productividad (throughput)* de una tarea con muchos procesos.
- □ Varios procesos se ejecutan "en paralelo".

#### **RESTRICCIONES**

- □ La razón de segmentación está limitada por la etapa más lenta.
- □ La aceleración máxima posible = Número de etapas de segmentación.
- □ Etapas de segmentación desequilibradas ⇒ Reducción de productividad.



## Segmentación: Funcionamiento Ideal

- □ Un procesador segmentado *perfecto* consigue ejecutar una instrucción por ciclo.
- □ La segmentación más evidente consta de tres etapas:
  - □ Obtener instrucción (*Fetch*)
  - □ Decodificar instrucción (*Decode*)
  - □ Ejecutar instrucción (*Execute*)
- □ La frecuencia de funcionamiento es mayor si el número de etapas de segmentación se incrementa. Aunque:
  - La segmentación fina es muy difícil
  - Cada nueva etapa añade el retardo de un registro
  - La independencia entre etapas es más difícil de conseguir



#### Arquitectura e Ingeniería de Computadores

#### Segmentación: Segmentación de instrucciones.

EJEMPLO: Segmentación de instrucciones con 5 etapas (MIPS)



Arquitectura e Ingeniería de Computadores

## Segmentación: Load vs Operación entre registros





Arquitectura e Ingeniería de Computadores

## Segmentación: Load vs Operación entre registros



- □ Existen conflictos estructurales
  - □ Hay dos instrucciones que intentan acceder a memoria al tiempo.
  - □ Hay dos instrucciones que intentan escribir en el banco de registros al mismo tiempo y sólo existe un puerto de escritura.

    Arquitectura e Ingeniería de Computadores



## Segmentación: Consideraciones de diseño

- □ Cada unidad funcional pueda usarse sólo una vez por instrucción. Deben aparecer dos unidades de memoria.
- □ Cada unidad funcional se utiliza en la misma etapa para todas las instrucciones:
  - □ Load usa el puerto de escritura en Registros durante su 5ª etapa.



□Las operaciones entre Registros usan el puerto de escritura en Registros durante su 4ª etapa

Soluciones posibles: paradas entre etapas, retraso de la escritura en registro, ...



Arquitectura e Ingeniería de Computadores

## Segmentación: Consideraciones de diseño











Arquitectura e Ingeniería de Computadores

## Ruta de Datos de MIPS segmentado



## Segmentación: Un diseño con 5 etapas

- > La base es el camino de datos de un ciclo.
- > Se añaden registros entre etapas.
- > Hay que analizar si todas las instrucciones funcionan.

Problema: LW R1,inm(R2)





Arquitectura e Ingeniería de Computadores

## Etapa IF





## Etapa ID





Arquitectura e Ingeniería de Computadores

## **Etapa EX para Load**





## **Etapa MEM para Load**





Arquitectura e Ingeniería de Computadores

## Etapa WB para Load





Arquitectura e Ingeniería de Computadores

## Corrección en la Ruta de Datos





Arquitectura e Ingeniería de Computadores

## Segmentación: Añadir el control



## Segmentación: Añadir el control

- > Todas las instrucciones tardan los mismos ciclos de reloj.
  - La secuenciación de la instrucción está implícita en la estructura del *pipeline*.
  - > No hay un control especial para la duración de la instrucción (no hay FSM).
- > Toda la información de control se calcula durante la decodificación, y se envía hacia delante a través de los registros de segmentación.
- > Los valores de las líneas de control son los mismos que los calculados en el control uniciclo.





Arquitectura e Ingeniería de Computadores

### Segmentación: Conflictos en funcionamiento real

- □ Las causas que pueden reducir el rendimiento en un procesador segmentado de instrucciones son tres:
- Riesgos estructurales:
  - > Se intenta usar el mismo recurso de dos maneras diferentes al mismo tiempo.
  - > El hardware impide una cierta combinación de operaciones.
- Riesgos por dependencia de datos:
  - > Se intenta usar un dato antes de que esté disponible.
  - > El operando de una instrucción depende del resultado de otra instrucción precedente que todavía no se ha obtenido.
- Riesgos de control
  - Se intenta tomar una decisión antes de evaluarse la condición.
  - Si se salta, las instrucciones posteriores no deben ejecutarse (o al menos, no deben finalizar).



## Segmentación: Conflictos en funcionamiento real

- ¿Todos estos riesgos se pueden solucionar?....Sí ¿Cómo?.....Esperando
- □ Cuando se detecta un riesgo, la solución más simple es parar la segmentación (*stall the pipeline*) hasta que desaparezca el riesgo.
  - ☐ Las instrucciones que preceden a la causante del riesgo pueden continuar.
  - □ La instrucción que causa el riesgo y siguientes no continúan hasta que desaparece el riesgo.
- □ Se necesita que el control de la segmentación (*pipeline*) sea capaz de:
  - □ Detectar las causas de riesgo.
  - □ Decidir acciones que resuelvan el riesgo (por ejemplo, esperar).



#### Arquitectura e Ingeniería de Computadores

## Segmentación: Riesgos estructurales

- □ Casos que se pueden presentar. Accesos simultáneos a:
  - ☐ Memoria (si es Von Neuman, única para datos e instrucciones).
  - Unidades funcionales.
  - Registros internos.



(La mitad izquierda coloreada indica escritura y la mitad derecha lectura)





## Segmentación: Riesgos estructurales

- □ Soluciones:
  - Introducir esperas.
  - □ Duplicar recursos o separar memoria de datos de la memoria de instrucciones (Harvard en lugar de Von Neuman).





Arquitectura e Ingeniería de Computadores

#### Segmentación: Riesgos por dependencia de datos

- □ Dependencias que se presentan para 2 instrucciones i y j, con i ejecutándose antes que j.
  - □ RAW (Read After Write): la instrucción posterior j intenta leer una fuente antes de que la instrucción anterior i la haya modificado.
  - □ WAR (Write After Read): la instrucción j intenta modificar un destino antes de que la instrucción i lo haya leído como fuente.
  - □ WAW (Write After Write): la instrucción j intenta modificar un destino antes de que la instrucción i lo haya hecho (se modifica el orden normal de escritura).

En micros segmentados con ejecución en orden sólo son problema los RAW



## Segmentación: Riesgos por dependencia de datos

> Aparecen problemas al poder empezar la siguiente instrucción antes de que la primera haya terminado.





Arquitectura e Ingeniería de Computadores

## Segmentación: Riesgos por dependencia de datos

- □ Soluciones:
  - □ "Adelantar" (*forward*) el resultado de una etapa a las siguientes.
  - □ Definir adecuadamente la secuencia Read/Write (la instrucción "add r4,r1,r3" funciona correctamente si en la etapa WB, Write se realiza en la 1ª mitad del ciclo y Read en la 2ª).





#### Segmentación: Riesgos por dependencia de datos

- □ Necesidades hardware para adelantar resultados:
  - ☐ Multiplexores adicionales donde se vaya a recibir el dato (p. ej. en las entradas de datos de la ALU).
  - Buses extra entre registros internos y multiplexores.
  - □ Comparadores entre los operandos de una instrucción y los operandos destino de instrucciones previas.





Arquitectura e Ingeniería de Computadores

## Segmentación: Riesgos por dependencia de datos

- □ Los riesgos pueden persistir incluso con adelantamiento de datos
  - □ Ej: tras la instrucción LOAD se pueden evitar los riesgos en AND y en OR con adelantamiento de datos, pero no de SUB (no puede adelantar resultados a etapas que son de tiempos anteriores)





## Segmentación: Riesgos por dependencia de datos

#### □ Soluciones:

- □ Insertar un ciclo de espera (stall) en el ciclo 3º, para la instrucción SUB y siguientes
- □ Insertar una operación NOP detrás del LOAD (es lo más utilizado, lo puede automatizar el compilador sin necesidad de más hardware)





Arquitectura e Ingeniería de Computadores

# **Segmentación:** Ruta de datos con control para adelantamiento de datos y detección de riesgos



## Segmentación: Control para adelantamiento de datos

- □ Unidad de adelantamiento de datos (forwarding)
  - □ Se debe detectar el riesgo y luego "anticipar" el valor a su destino
  - □ Se agrega un bloque combinacional para detectar el riesgo y multiplexores para adelantar los datos oportunamente





Arquitectura e Ingeniería de Computadores

## Segmentación: Control para adelantamiento de datos

- □ Unidad de adelantamiento de datos (forwarding)
  - □ Se debe detectar el riesgo y luego "anticipar" el valor a la ALU
  - □ Existen 4 riesgos potenciales:
- 1a. EX/MEM.Registro.Rd = ID/EX.Registro.Rs
- 1b. EX/MEM.Registro.Rd = ID/EX.Registro.Rt
- 2a. MEM/WB.Registro.Rd = ID/EX.Registro.Rs
- 2b. MEM/WB.Registro.Rd = ID/EX.Registro.Rt

Analizar por ejemplo con:

Add r1, r2, r3

Sub <u>r5</u>, <u>r1</u>, r6

And r6, r5, r1

Add r4, r1, r3





## Segmentación: Control para adelantamiento de datos

- □ Unidad de adelantamiento de datos (forwarding)
  - □ Pseudo-código del funcionamiento:

(Riesgos en EX)

if (EX/MEM.EscrReg and

EX/MEM.RegistroRd ≠ 0 and

EX/MEM.Registro.Rd = ID/EX.Registro.Rs)

then AnticiparA = 10

else AnticiparA = 00

if (EX/MEM.EscrReg and

EX/MEM.RegistroRd ≠ 0 and

EX/MEM.Registro.Rd = ID/EX.Registro.Rt)

Then AnticiparB = 10

else AnticiparB = 00





#### Arquitectura e Ingeniería de Computadores

## Segmentación: Control para adelantamiento de datos

- □ Unidad de adelantamiento de datos (forwarding)
  - □ Pseudo-código del funcionamiento:

(Riesgos en MEM)

 $\quad \text{if } (\mathsf{MEM/WB}.\mathsf{EscrReg} \ \, \text{and} \\$ 

MEM/WB.RegistroRd ≠ 0 and

EX/MEM.Registro.Rd ≠ ID/EX.RegistroRs

and

MEM/WB.Registro.Rd =

ID/EX.RegistroRs)

then AnticiparA = 01

else AnticiparA = 00

if (MEM/WB.EscrReg and

MEM/WB.RegistroRd ≠ 0 and

EX/MEM.Registro.Rd ≠ ID/EX.RegistroRt

and

MEM/WB.Registro.Rd = ID/EX.Registro.Rt)

then AnticiparB = 01

else AnticiparB = 00





## Segmentación: Detección de riesgos insalvables

- □ Unidad de detección de riesgos (hazard detection unit)
  - □ Para cuando el adelantamiento no resuelve los riesgos (caso de load y uso del registro destino en la siguiente instrucción)

Arquitectura e Ingeniería de Computadores



## Una solución SW para el caso del lw

El compilador puede "reacomodar" el código para evitar stalls

Ejemplo en C: A = B + E; C = B + F;





#### Riesgos de control (instrucciones de salto)

□ Las instrucciones de salto pueden suponer una alteración del orden secuencial de ejecución.

| Etapa IF                                                                                      | Etapa ID                                                                                        | Etapa EX                                                                      | Etapa MEM                                                                                                                                   | Etapa WB                                               |
|-----------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------|
| <ul> <li>□ Obtener instrucción</li> <li>□ Acceso a la memoria<br/>de instrucciones</li> </ul> | <ul><li>□ Decodificar instrucción.</li><li>□ Lectura de operandos, carga de registros</li></ul> | □ Ejecutar instrucción<br>□ Calcular la dirección<br>efectiva salto (PC+Inm.) | <ul> <li>Acceso a Memoria</li> <li>bien</li> <li>Resolver la condición</li> <li>y escribir en PC la</li> <li>dirección de salto.</li> </ul> | □ Escribir en un registro el resultado de la operación |

- □ No se sabe si el salto es efectivo hasta la etapa de ejecución y no se actualiza la dirección destino (caso de que sea efectivo) hasta la cuarta etapa => Pérdida de 3 ciclos
- Mejora: Adelantar el cálculo del destino (target) PC+Inmediato y adelantar la resolución de la condición (y actualizar el PC) a la 2ª etapa.



#### Arquitectura e Ingeniería de Computadores

#### Riesgos de control (instrucciones de salto)

Cuando se decide saltar, ya se están ejecutando otras instrucciones en el cauce segmentado => Se necesita incluir hardware para vaciar (*flushing*) el *pipeline* 

## Ejemplo: salto efectivo

\$10, \$4, \$8 36: sub \$1, 40: \$3, 7 bea \$12, \$2, \$5 44: and \$13, \$2, \$6 48: or add \$14, \$4, \$2 52: 56: sIt \$15, \$6, \$7

72: Iw \$4, 50(\$7)



## Ejemplo: Salto Efectivo



Para descartar una instrucción cambia a 0 el campo de instrucción (opcode) del registro de segmentación IF/ID ⇒ **NOP** 

Arquitectura e Ingeniería de Computadores

## Ejemplo: Salto Efectivo





Arquitectura e Ingeniería de Computadores

## Riesgos de Control (Instrucciones de salto)

# ¿QUÉ HACER CON LAS SIGUIENTES INSTRUCCIONES A LA DE SALTO CONDICIONAL?

- 1. Esperar hasta que la dirección y condición del salto estén definidas.
  - ✓ Conviene conocer la dirección de salto y la condición tan pronto como sea posible.
- 2. Salto retardado, la(s) instrucción(es) posterior(es) siempre se ejecuta(n).
  - ✓ El compilador rellena con instrucciones válidas los huecos de retardo.
- Predecir si se va a saltar o no.
  - ✓ Se ejecuta especulativamente, en caso de error se debe "vaciar" el procesador.
- 4. Anticipar la dirección más probable para el salto (BTB).
  - Se ejecuta especulativamente, se almacena en una caché la dirección del último salto.
- 5. Ejecutar todos los caminos.
  - Implica la duplicación del hardware.
- Ejecución con predicados.



#### Arquitectura e Ingeniería de Computadores

### Riesgos de Control. Salto retardado

La siguiente instrucción al salto siempre se termina de ejecutar, se salte o no. El compilador utiliza tres estrategias para buscar una/varias instrucciones de relleno:

| El compliador diliza ires estrategias para bassar aria/varias instrucciones de relicho. |                                                                                                                                         |                                                                                                                                                                            |                                                                                                                                                                   |  |  |  |
|-----------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------|--|--|--|
|                                                                                         | DEL BLOQUE BÁSICO                                                                                                                       | □ SI SALTO PROBABLE,<br>DEL BLOQUE DESTINO                                                                                                                                 | □ SI SALTO NO PROBABLE,<br>DEL BLOQUE SECUENCIAL                                                                                                                  |  |  |  |
| add r1, r2, r3<br>bnz r2, L1<br>nop                                                     | bnz r2, L1<br>add r1, r2, r3                                                                                                            | add r1, r2, r3<br>bnz r2, L1<br>and r2, r3, r2                                                                                                                             | add r1, r2, r3<br>bnz r2, L1<br>sub r6,r7,r6                                                                                                                      |  |  |  |
| sub r6,r7,r6<br>mul r2, r3, r8                                                          | sub r6,r7,r6<br>mul r2, r3, r8                                                                                                          | sub r6,r7,r6<br>mul r2, r3, r8                                                                                                                                             | mul r2, r3, r8                                                                                                                                                    |  |  |  |
| L1: and r2, r3, r2<br>andi r5,r6,inm                                                    | L1: and r2, r3, r2<br>andi r5,r6,inm                                                                                                    | L1: andi r5,r6,inm                                                                                                                                                         | L1: and r2, r3, r2<br>andi r5,r6,inm                                                                                                                              |  |  |  |
|                                                                                         | <ul> <li>Operación válida si la<br/>instrucción no afecta a la<br/>condición del salto. Siempre<br/>se realiza trabajo útil.</li> </ul> | <ul> <li>Operación válida siempre<br/>siempre que r2 no se utilice<br/>como fuente y sea modificada<br/>como destino en el en bloque<br/>secuencial. (CORRECTO)</li> </ul> | <ul> <li>Operación válida siempre<br/>que r6 no se utilice como<br/>fuente y sea modificada como<br/>destino en el en bloque<br/>destino. (INCORRECTO)</li> </ul> |  |  |  |



#### Riesgos de Control. Predecir el salto

- □ Predicción estática: siempre predice el mismo sentido del salto.
  - □ Ejecuta especulativo hasta que se resuelve la condición (normalmente, ciclo 3-4)
  - □ En caso de error debe eliminar los resultados especulativos
    - □ Predicción efectiva (E), el salto se realiza
    - □ Predicción no efectiva (NE), el salto no se realiza
    - □ Predicción NE si el salto es adelante y E si es hacia atrás
- □ Predicción dinámica: cambia la predicción en función de la historia del salto.
  - □ Utiliza una pequeña memoria asociada a cada dirección de salto (BHT, *Branch*





Arquitectura e Ingeniería de Computadores

## Riesgos de Control. Anticipar la dirección más probable

- Utiliza la técnica de predicción histórica anterior
  - ✓ Utiliza una tabla asociativa (tipo caché) que incorpora, para cada instrucción de salto, la dirección de destino de la predicción anterior.
  - A la tabla se la conoce como buffer de destino de saltos o BTB (*Branch Target Buffer*).





## Segmentación: Tratamiento de excepciones y mejoras

- □ ¿Cómo afecta a la segmentación el tratamiento de
  - **excepciones** (interrupciones, desbordamientos aritméticos, peticiones de E/S, servicios del sistema operativo, uso de instrucciones no definidas, mal funcionamiento de la circuitería, etc)?
  - □ Básicamente detectarlo y vaciar el *pipeline* para dar el control a alguna rutina de tratamiento de excepciones
- □ ¿Cómo mejorar aún más la segmentación?
  - □ Super-segmentación (implica segmentación en operaciones aritméticas)
  - □ Superescalares (replicar rutas de datos)
  - □ Planificación dinámica del pipeline



Arquitectura e Ingeniería de Computadores