

Arquitectura de Computadores

AC

Curso 21/22

Primera Convocatoria

Práctica 2: Comportamiento Predictores de Salto Simplescalar

# Simulación procesador Superescalar:

# **Predictores de Salto**

La práctica consiste en el análisis de la estructura y el comportamiento de diferentes predictores de salto en un procesador Superescalar con ejecución *fuera de orden* (OoO). Para ello se utilizará el simulador Simplescalar y se evaluará el comportamiento del procesador ejecutando los programas de prueba SpecCPU2000.

La predicción de saltos permite en un procesador superescalar la ejecución especulativa de las instrucciones de una de las dos alternativas de un salto (instrucción de salto: branch). Así el procesador delante de un hazard (riesgo) de control puede aprovechar los ciclos que perdería hasta saber la resolución del salto, en probar una de las dos alternativas y ganar esos ciclos de espera ejecutando instrucciones con una cierta probabilidad de acertar.

Diremos que un predictor es bueno cuando acierta el camino correcto con una alta probabilidad. Con frecuencia los predictores buenos son complejos y utilizan estructuras de datos para almacenar el comportamiento de las instrucciones de salto. Un *Branch Address/Target Buffer* (BTB) almacena las direcciones efectivas de las instrucciones de salto a medida que las va ejecutando. Un *Return Address Stack* (RAS) almacena en forma de pila las direcciones de retorno de las instrucciones Call. Del mismo modo, un *Branch History Register* (BHR) almacena la resolución (Taken / Not\_Taken) de los últimos saltos acumulados. Puede ser *Global* (GBHR) o asociado a cada instrucción de salto de manera individual *Per Address* BHR (PaBHR). Por último, un Pattern History Table (PHT) almacena la predicción que se hará en un posible salto. De este modo, mantiene un contador saturado de 2-bits y utiliza el bit de más peso para la predicción. Esta estructura puede ser global, individual a cada salto o incluso compartirse entre algunos saltos que tengan comportamientos parecidos.

**Simplescalar**, mediante los simuladores sim-bpred y sim-outorder permite configurar cada una de estas cuatro estructuras para analizar el comportamiento de diferentes configuraciones.

Para esta práctica, se hará uso de un subconjunto de 5 benchmarks disponibles a través de la imagen y también del espacio moodle de la asignatura.

#### Comentarios

- La práctica se realizará en GRUPOS DE 2 PERSONAS
- Se realizará una entrevista con todos los integrantes del grupo en la sesión de laboratorio que tienen asignada.
- El informe (obligatoriamente en PDF) junto con el código implementado y el vídeo resumen de la práctica se comprimirán en un único archivo ZIP y se guardará en el moodle antes de realizar la entrevista.

## Especificación

La tarea de esta práctica se divide en dos fases: (1) Estudio de los predictores que se pueden simular con el Simplescalar y (2) Modificación del Simplescalar para simular un nuevo predictor de saltos.

#### 1a Fase:

Los predictores que implementa Simplescalar son: nottaken, taken, perfect, bimodal, 2-level y comb.

Se usarán para evaluar el comportamiento en cuanto a *IPC* y *porcentaje de aciertos* de las siguientes alternativas de predictores de saltos:

```
nottaken: opción: -bpred nottaken
```

• taken: opción -bpred taken

· perfect: opción -bpred perfect

• bimodal: opción -bpred bimod

Tamaño del PHT <l2-size> : 8,32,128,512,2048

∘ -bpred:bimod X

Gshare: opción -bpred 2lev

Tamaño del BHR <11-size>: 1 y del PHT<12-size>: 8,32,128,512,2048

o -bpred:2lev 1 <X> <log₂X> 1

• Gag (Gselect): opción -bpred 2lev

Tamaño del BHR <11-size>: 1 y del PHT<12-size>: 8,32,128,512,2048

o -bpred:2lev 1 <X> <log₂X> 0

Pag: opción -bpred 2lev

Tamaño del BHR <11-size> y del PHT<12-size> respectivamente: (4-4), (8-16), (16-64), (32-256), (64-1024), (32-2048) son (Y-X)

 $\circ$  -bpred:2lev <Y> <X> <log<sub>2</sub>X> 0

El objetivo es observar y generar gráficas que muestren el comportamiento del **IPC** y porcentaje de acierto (.bpred\_dir\_rate) para diferentes valores de configuración de los predictores con los cinco benchmarks que se disponen de la práctica anterior.

Para los distintos estudios que se deben realizar, y si no se indica lo contrario, tened en cuenta los siguientes comentarios:



- 1) Se mostrará una gráfica de cada parámetro para cada uno de los siete predictores indicados anteriormente, donde en el eje de las Y estará el parámetro y en el eje de las X las diferentes configuraciones en tamaño del predictor estudiado. En la misma gráfica aparecerán los cinco benchmarks y la media de los mismos.
- 2) Para los predictores estáticos se pueden resumir todos en una única gráfica de la forma siguiente:



- 3) Para cada estudio se presentarán gráficas con los resultados individuales de cada benchmark y con la media de todos ellos.
- 4) También se generarán gráficas resumen del comportamiento de cada uno de los predictores. En la misma gráfica aparecerán los siete predictores teniendo en el eje de las X las diferentes configuraciones.



- 5) Para cada benchmark simulado, se saltarán 50 millones de instrucciones y se recolectarán las estadísticas para los siguientes 50 millones. Además, se utilizarán los datos de entrada REF.
- 6) El tamaño de BTB y RAS no se modificarán de su valor por defecto.
- 7) Para el resto de parámetros del simulador se utilizarán los valores por defecto, a excepción del bus de acceso a memoria (de 32 bytes) y de la latencia de la misma (300 ciclos iniciales y 2 por acceso consecutivo).

## 2 fase:

Implementación del predictor de saltos AGREE.



El predictor mantiene la información de saltos ejecutados en cuatro estructuras.

- 1. Global Branch History Register (GBHR) guarda la historia de los últimos 'g' saltos que se han ejecutado en el procesador. Guarda un 1 si ha sido Taken y un 0 si ha sido NotTaken. (Internamente será un registro de 32 bits donde cogeremos los 'g' bits de menos peso)
- 2. Branch Target Buffer (BTBbis) es una tabla de dimensión 2<sup>b</sup> entradas y cada una de ellas con 1 Tag y 1 bit de comportamiento del salto. Se accede de manera totalmente asociativa a partir de la dirección de la instrucción de salto. El objetivo de esta tabla es guardar el comportamiento de la instrucción de salto. El Tag asegura que se trata de la misma instrucción y el bit indica Taken (1) o NotTaken (0). De hecho se llena con el comportamiento de la primera vez que se ejecutó. Se podría utilizar el BTB que ya tiene implementado el Sim-outorder, pero para no mezclar más el código es preferible crear un BTB propio (por eso el nombre BTBbis)
- 3. Pattern History Table (PHT) es una tabla donde se almacenan dos bits para implementar un contador saturado del comportamiento de los saltos. Se modifica ligeramente el sentido de estos dos bits, de manera que cada vez que el salto coincide con el valor que esta en el BTBbis se incrementa y cada vez que discrepa se decrementa. Así se obtienen cuatro estados donde dos de ellos (los que tienen el bit de mayor peso a '1') dicen que el bit del BTBbis tiene razón y los otros dos (los que tienen el bit de mayor peso a '0') dicen que el bit del BTBbis no tiene razón. Se accede de manera directa a partir del índice obtenido de la concatenación del GBHR (g bits) y de bits de la dirección de la instrucción de salto (i bits).

- 4. La predicción se obtiene a partir de la NXOR del bit de mayor peso del PHT y del bit del BTBbis. Así: (PHT₁,BTBbis) → Predicción
  - o (00)->1 indica 'mal predicho NotTaken → Taken',
  - o (01)->0 indica 'mal predicho Taken → NotTaken',
  - o (10)->0 indica 'bien predicho NotTaken',
  - o (11)->1 indica 'bien predicho Taken',

Cada vez que se ejecuta un salto, estas estructuras se acceden dos veces. La primera para obtener una predicción y actuar en consecuencia en el pipeline y la segunda para actualizar el comportamiento del salto ejecutado y afinar subsiguientes predicciones.

La predicción se obtiene a partir de la función NXOR del bit de más peso de la entrada seleccionada del PHT y el bit comportamiento (S) del BTBbis. Pensad que BTBbis es complementamente asociativa y se requerirá acceder a todas las entradas para comprobar si se produce un HIT o un MISS.

La actualización se realiza siempre en el GBHR y en la PHT principal. El BTBbis sólo se actualiza si se ha producido un MISS en el mismo y se añade la nueva instrucción de salto con el primer comportamiento que haya tenido. Al ser complemente asociativa necesita un algoritmo de reeemplazo y este será el LRU.

Los parámetros a definir en este predictor són:

- 1. Número de bits del GBHR → define 'g'
- 2. Número de entradas del BTBbis → define 'b'
- 3. Número de entradas del PHT→ define'c'
- 4. A partir de estos valores se deduce 'i' como 'c'-'g' (que no puede ser inferior a 1).

Los valores iniciales de estas estructuras son todo bits a '1'. De este modo la predicción de cualquier salto inicial será Taken.

Para modificar el simplescalar y añadir un nuevo predictor se puede uno fijar en la implementación de uno ya existente y duplicar/añadir lo necesario. En este caso el predictor **2lev** es suficientemente parecido y será el modelo a seguir.

Las partes de simplescalar a modificar son:

- En bpred.h:
  - Añadir el nuevo predictor en la lista de enum bpred\_class.
  - En la definición de tipos de los predictores añadir en la estructura struct bpred\_dir\_t dentro de la subestructura two las variables y apuntadores extras.
    Tened en cuenta que level-1 podría ser BTBbis y level-2 podría ser PHT.

#### • En sim-outorder.c:

- Registrar en sim\_reg\_options los parámetros de configuración del predictor: con opt reg int list(opt,"-bpred:agree",.....
- Será necesario definir predictor\_config y predictor\_nelt.
- Añadir en sim\_check\_options la lectura de los parámetros del predictor. Llamar a la función de creación del predictor bpred\_create(,,,,,,,). Es recomendable fijarse en el 2ley.

### • En bpred.c:

- Añadir en bpred\_create y bpred\_dir\_create un nuevo caso (case) de inicialización de predictores donde a partir de los parámetros definidos del predictor, se reserva la memoria necesaria y se inicializan las variables y tablas a los valores necesarios.
- Añadir en bpred\_config y bpred\_dir\_config un nuevo caso (case) para mostrar por la salida del simulador la configuración del predictor.
- Añadir en bpred\_reg\_stats un nuevo caso (case) para poder ver el resultado de la simulación.
- Añadir en bpred\_lookup y bpred\_dir\_lookup un nuevo caso (case) para obtener la dirección de la siguiente instrucción, atendiendo a la predicción que realiza a partir de la instrucción de salto que se ha hecho el fetch (siempre que se encuentre en el BTB). Aclaración: bpred\_dir\_lookup devuelve la dirección de la entrada de la tabla PHT (L2 Table) y bpred\_lookup la guarda en el campo pdir1 de la propia instrucción para que en la siguiente llamada a bpred\_update ya tenga calculada la posición en PHT (es una optimización)
- Añadir en bpred\_update el caso para actualizar el GBHR, el BTBbis (L1 Table) y el PHT (L2 Table) según corresponda. Hay que tener en cuenta que estas últimas tablas se pueden actualizar a partir de las direcciones guardadas anteriormente (la optimización)

En general la simulación en simplescalar empieza en main.c. Para la funciones que hemos mencionado se llama a sim\_reg\_options(), después a sim\_check\_options() y después a sim\_main(). Las tres están implementadas dentro del código principal del simulador simoutorder y a partir de este instante empieza la simulación.

La función sim\_main implementa el pipeline del superescalar. De este mod, llama a diferentes funciones para simular el comportamiento del procesador y de entre ellas nos interesa la función ruu\_fetch().

ruu\_fetch() realiza la lectura de instrucciones de memoria, simula la cache, el TLB y el predictor de saltos. Al leer la instrucción la decodifica parcialmente y si se da cuenta de que

es una instrucción de salto llama a bpred\_lookup() para que le devuelva la dirección de la siguiente instrucción que según su predicción se debe seguir buscando en memoria.

La función bpred\_update() actualiza la información del predictor a partir de la ejecución real de la instrucción de salto. Se llama generalmente desde el ruu\_commit() pero también se puede llamar antes desde el ruu\_writeback() o incluso desde ruu\_dispatch().

Una vez implementado el predictor se añadirá el comportamiento del mismo a las gráficas anteriores.

Los parámetros a tener en cuenta del nuevo predictor:

- **Agree**: opción -bpred agree
  - Tamaño del BTBbis <l1-size> y del PHT<l2-size> respectivamente: (4-8), (8-32), (16-128), (32-512), (64-2048) son (Y-X)
  - o Ancho del GBHR <g> que serán: 2, 3, 4, 6 y 8
  - Así la configuración de c=i+g quedaría: (1+2->3), (2+3->5), (3+4->7), (3+6->9), (3+8->11)
  - ∘ -bpred:agree <Y> <X> <g> 0

Finalmente, realizad las dos siguientes tareas:

- Comentad a que otro predictor Gag, Pag, Gap, Pap se le parece y con qué parámetros.
- Una vez identificado el predictor ya existente en Simplescalar al que se le parece el predictor implementado, simulad ambos predictores y comparad los resultados.