## Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Ciência da Computação

DCC819 - Arquitetura de Computadores

Relatório V - Pipeline

Iuri Silva Castro João Mateus de Freitas Veneroso Ricardo Pagoto Marinho

> Belo Horizonte - MG 5 de dezembro de 2017

## 1 Introdução

O pipeline é uma técnica de hardware para promover paralelismo à nível de instrução dentro de um processador. O objetivo da técnica é dividir a execução da instrução em estágios, de forma que, quando a instrução termina o estágio, a próxima já pode ser processada por esse estágio, mantendo então todos os estágios do processador ocupados com alguma instrução pelo máximo de tempo possível. Essa técnica se assemelha a uma linha de montagem, permitindo aumentar consideravelmente o throughput do processador em comparação à execução puramente sequencial, pois várias tarefas podem ser executadas em um mesmo ciclo de clock.

No entanto, a técnica de *Pipelining* complexifica o controle do processador, uma vez que a execução paralela introduz *Hazards* no caminho de dados, que não existiriam no caso da execução sequencial, como:

- Hazards Estruturais: restrições no número de instruções que podem utilizar um módulo do processador ao mesmo tempo, pois apenas uma intrução pode utilizar uma unidade funcional por vez. Pode ser amenizado com o aumento do número de unidades funcionais;
- Hazards de Dados: dependência de dados entre instruções. A instrução depende do resultado de uma instrução que ainda não terminou de executar. Pode ser amenizado com técnicas de encaminhamento de dados dentro dos estágios da pipeline;
- Hazards de Controle: instruções que fazem desvio do fluxo do programa, alterando o Contador de Programa (Program Counter), tornam as próximas instruões indefinidas até que o novo valor do Program Counter seja definido/calculado. Pode ser amenizado com técnicas de previsão de branches.

Os *Hazards*, quando ocorrem, necessitam que seja introduzido no fluxo do *pipeline* bolhas, ou *stalls*, para resolver esses conflitos.

Para este trabalho, propõe-se a implementação de um *Pipeline* de três estágios sobre o caminho de dados implementado nos trabalhos anteriores. O processador de 16-bits finalizado faz encaminhamento de dados e gera dois ciclos de *stall* ao executar instruções de *branch* e *jump*.

# 2 Descrição

Nessa seção, descreve-se a organização e a arquitetura do processador proposto neste trabalho.

#### 2.1 Organização

O processador desenvolvido nos trabalhos anteriores possuia 5 estágios de execução, sendo, busca de instrução, decodificação, busca de registradores, execução e armazenamento de resultados. Cada estágio requeria um passo de relógio, ou uma transição do sinal de *clock*, e não possuia qualquer paralelismo a nível de instrução.

Para a implementação do *pipeline*, propôs-se uma divisão do processador em 3 estágios: decodificação, execução e armazenamento de resultados. A Figura 1 abaixo mostra a divisão dos estágios.

Entre os estágios estão as register bridges (registradores de ponte) ou buffers, que são utilizados para passar as informações e sinais de controle de um estágio para o outro. Os estágios, então, serão responsáveis pelas seguintes tarefas:

- Decode: busca de instrução e decodificação de instrução;
- Execute: busca de registros e execução;
- WriteBack: escrita de resultados.



Figura 1: Estrutura de pipeline de 3 estágios proposta.

Para aplicação do *pipeline* necessita-se que os estágios utilizem o mesmo tempo de execução, assim cada estágio executa em duas transições do sinal de *clock*, mesmo o estágio de *WriteBack* que ficará então uma transição *idle* para adequar ao tempo dos outros estágios.

O pipeline insere no sistema Hazards, como descrito anteriormente, e para isso precisa-se utilizar de algumas técnicas para eliminar ou amenizar o problema. Eliminou-se o hazard de dados utilizando a técnica de encaminhamento, assim dados que são encaminhados da saída do estágio de execução para a entrada do mesmo estágio, não havendo stalls. O sistema não possui hazards estruturais, pois todos os estágios requerem o mesmo tempo de execução e o Banco de Registradores possui duas portas de leitura e uma de escrita. Além disso o estágio de execução possui uma unidade dedicada para executar multiplicações, conseguindo, assim, executar instruções de multiplicação em um ciclo. Para instruções de desvio de fluxo hazards de controle acontecem, e são gerados dois stalls quando tais instruções são detectadas.

### 2.2 Arquitetura

O conjunto final de instruções do processador está descrito na tabela 1. Todas as instruções aritméticas e lógicas recebem o operando A do banco de registradores e o operando B pode ser um imediato de 4-bit ou um registrador, dependendo da instrução. A instrução BEZ não utiliza os bits 11-8 e as instruções GHI e GLO não utilizam os bits de 7-0. A instrução J altera o PC para um valor imediato de 12-bit que comporta qualquer endereço da memória de 4096 posições.

| Instrução | Opcode | Bits 11-8 | Bits 7-4 | Bits 3-0 | Descrição                     |
|-----------|--------|-----------|----------|----------|-------------------------------|
| ADD       | 0000   | С         | В        | A        | Reg(C) = Reg(A) + Reg(B)      |
| SUB       | 0001   | С         | В        | A        | Reg(C) = Reg(A) - Reg(B)      |
| SLTI      | 0010   | С         | Imm      | A        | Reg(C) = Reg(A) > Imm         |
| AND       | 0011   | С         | В        | A        | Reg(C) = Reg(A) AND Reg(B)    |
| OR        | 0100   | С         | В        | A        | Reg(C) = Reg(A) OR Reg(B)     |
| XOR       | 0101   | С         | В        | A        | Reg(C) = Reg(A) XOR Reg(B)    |
| ANDI      | 0110   | С         | Imm      | A        | Reg(C) = Reg(A) + Imm         |
| ORI       | 0111   | С         | Imm      | A        | Reg(C) = Reg(A) OR Imm        |
| XORI      | 1000   | С         | Imm      | A        | Reg(C) = Reg(A) XOR Imm       |
| ADDI      | 1001   | С         | Imm      | A        | Reg(C) = Reg(A) + Imm         |
| SUBI      | 1010   | С         | Imm      | A        | Reg(C) = Reg(A) - Imm         |
| J         | 1011   |           | Imm      |          | PC = Imm                      |
| BEZ       | 1100   | -         | В        | A        | If $(Reg(A) = 0) PC = Reg(B)$ |
| MUL       | 1101   | С         | В        | A        | Reg(C) = Reg(A) * Reg(B)      |
| GHI       | 1110   | С         | -        | -        | Reg(C) = HI                   |
| GLO       | 1111   | С         | -        | -        | Reg(C) = LO                   |

Tabela 1: Instruções

## 3 Implementação

Foram reutilizados os módulos desenvolvidos nos trabalhos anteriores, fazendo-se apenas pequenas alterações nos módulos. A maior parte das alterações foram feitas nos caminhos dos dados, utilizando multiplexadores e os registros de ponte entre os estágios. As subseções abaixo descrevem a implementação dos três estágios definidos.

#### 3.1 Decode

O estágio de decodificação mantém os módulos da memória de instruções e do decodificador de instruções, além do registrador Contador de Programa. Uma máquina de estados é utilizada para controlar o funcionamento do estágio. A Figura 2 mostra uma versão simplificada de como é a organização do estágio.



Figura 2. Diagrama simplificado do estágio Decode do pipeline.

No primeiro ciclo de clock busca-se a instrução na memória de instruções. No segundo ciclo, atualiza-se o valor do PC e carrega os dados no registrador de ponte para o estágio de execução (Execute). Para os casos em que o estágio estiver em stall, o PC não é atualizado e nem o registrador de ponte, até que o controle saia da condição de stall.

A seleção entre os valores do PC será entre o incrimento (PC + 1) ou, caso haja uma condição de desvio (branch ou jump), um valor externo.

#### 3.2 Execute

O estágio de execução é responsável pela busca de registradores no *Banco de Registradores* e a execução da instrução pela *Unidade Lógica Aritmética* (ULA) ou pela unidade de multiplicação (Mult). A Figura 3 mostra uma versão simplificada de como é a organização do estágio.



Figura 3. Diagrama simplificado do estágio Execute do pipeline.

O estágio também possui uma maquina de estados para comandar a execução do mesmo. No primeiro ciclo de *clock*, busca-se os registradores no *Banco de Registradores* ou no registrador de ponte, caso a instrução atual necessite de dados calculados pela instrução que está sendo executa, fazendo o encaminhamento. No segundo ciclo os valores recuperados dos registros são utilizados pela ULA ou pelo módulo de multiplicação. A decisão de qual módulo será executado vem de sinais de controle enviados através do registrador de ponte com o estágio de *Decode*.

#### 3.3 Writeback

O estágio de *Writeback* faz a escrita do resultado da operação no *Banco de Registradores*. A Figura 4 mostra um diagrama simplificado da organização do estágio. Vale resaltar que o *Banco de Registradores* no estágio de *writeback* é o mesmo do estágio de *execute*, sendo colocado separado no diagrama apenas para facilitar a visualização dos estágios e compreensão.

No primeiro ciclo o estágio verifica se a instrução executada deve ou não escrever o resultado no banco. Se for necessário a escrita, os dados da posição e valor são utilizados para escrever no banco. Ainda no primeiro ciclo, verifica-se se a instrução executada gerou stall no estágio de Decode, liberando-o caso o mesmo esteja na condição de stall. No segundo ciclo o estágio fica idle. O estágio é executado em dois ciclos apenas para manter o mesmo tempo que os outros, requisito para que a técnica de pipeline seja aplicada. Uma máquina de estados é utilizada para coordenar a execução do estágio.



Figura 4. Diagrama simplificado do estágio Writeback do pipeline.

# 4 Integração

A grande chave da técnica de *pipeline* está nos registradores de ponte, ou *buffers*, entre os estágios. Eles mantém o estado e as informações da instrução que deve ser executada pelo estágio, passando também os sinais de controle necessários.

Vários multiplexadores são utilizados pelo controle para fazer o correto direcionamento dos dados e encaminhamentos.

A integração dos estágios desenvolvidos gera o processador que pode ser visto na Figura 5.



Figura 5. Diagrama da pipeline

Após integrado, parte-se para os testes do processador.

# 5 Simulação e Testes

Os testes propostos tem o intuito de validar a implementação e medir a melhora de desempenho após a implementação da *pipeline*. Para isso, programas de teste foram desenvolvidos para serem

executados no processador do trabalho anterior, sem *pipeline*, e na implementação atual com *pipeline* de três estágios.

O primeiro programa de teste realiza a divisão de 1024 por 100, calculando o resto por meio de um *loop* e armazenando o resultado no resgistrador R3. A Tabela 2 mostra o código e descreve o primeiro programa desenvolvido.

```
ADDI R1, 8, R0
                  R1 = 8
ADDI R2, 8, R0
                  R2 = 8
                  R1 * R2 = 64
MUL -, R2, R1
GLO R1, -, -
                  R1 = 64.
ADDI R2, 15, R0
                  R2 = 15.
ADDI R2, 1, R2
                  R2 = 15 + 1.
MUL -, R1, R2
                  R1 * R2 = 1024.
GLO R1, -, -
                  R1 = 1024.
ADDI R2, 10, R0
                  R2 = 10.
MUL -, R2, R2
                  R2 * R2 = 100.
GLO R2, -, -
                  R2 = 100.
ADDI R3, 0, R1
                  R3 = R1 = 1024.
ADDI R4, 0, R0
                  R4 = 0.
ADDI R6, 15, R0
                  R6 = 15.
ADDI R6, 8, R6
                  R6 = 23.
                  R4 = R4 + 1
ADDI R4, 1, R4
SUB R3, R2, R3
                  R3 = R3 - R2.
SLTI R5, 9, R4
                  R5 = R4 > 9
BEZ -, R6, R5
                  If (R5 == 0) jump to \#R6
```

Tabela 2. Programa de teste

A Figura 6 mostra o resultado da simulação no processador com pipeline e a Figura 7 mostra o resultado da simulação no processador sem pipeline.



Figura 6. Execução com pipeline.

Percebe-se, pelos resultados, que o processador com pipeline executa o programa em 39 ciclos de clocks e o processador sem executa o programa em 97 ciclos de clocks. Portanto, o pipeline obteve uma melhora de 60% para esse programa específico.



Figura 7. Execução sem pipeline.

O segundo programa de teste faz a ordenação um vetor de 5 valores. Para melhor visualização e entendimento do código, ele foi dividido em blocos de 12 instruções. O código pode ser visualizado abaixo.

```
ADDI R5,1,R0
ADDI R7,13,R0
  MULL R6, R5, R7
  GLO R8,-
  ADD R1, R11, R0
  ADD R2, R12, R0
  SUB R3, R1, R2
  AND R3, R9, R3
  SLTI R4,0,R3
  BEZ - R8, R4
  ADD R3, R11, R0
  ADD R11, R12, R0
12
  ADD R12, R3, R0
  # 2
14
  ADDI R5,1,R5
  ADDI R7,13,R0
16
  MULL R6, R5, R7
  GLO R8,-
18
  ADD\ R1\,,R11\,,R0
  ADD R2, R13, R0
20
  SUB R3, R1, R2
  AND R3, R9, R3
22
  SLTI R4,0,R3
  BEZ - R8, R4
24
  ADD R3, R11, R0
  ADD R11, R13, R0
26
27
  ADD R13, R3, R0
28
  ADDI R5,1,R5
29
  ADDI R7, 13, R0
30
  MULL R6, R5, R7
31
  GLO R8,-
  ADD R1, R11, R0
33
  ADD R2,R14,R0
  SUB R3, R1, R2
35
  AND R3, R9, R3
36
37
  SLTI R4,0,R3
  BEZ - R8, R4
39 ADD R3, R11, R0
```

```
40 ADD R11, R14, R0
   ADD R14, R3, R0
   # 4
42
   ADDI R5,1,R5
   ADDI R7,13,R0
44
   MULL R6, R5, R7
46 GLO R8, -, -
   ADD R1, R11, R0
   ADD R2, R15, R0
48
   SUB R3,R1,R2
   AND R3, R9, R3
51
   SLTI R4,0,R3
   BEZ - R8, R4
   ADD R3, R11, R0
53
   ADD R11, R15, R0
   ADD R15, R3, R0
   ##### 5
56
   ADDI R5,1,R5
57
   ADDI R7,13,R0
58
  MULL R6, R5, R7
   GLO R8, -
60
   ADD R1, R12, R0
61
   ADD R2, R13, R0
   SUB R3, R1, R2
63
   AND R3, R9, R3
65
   SLTI R4,0, R3
  BEZ - R8, R4
66
  ADD R3, R12, R0
67
68 ADD R12, R13, R0
   ADD R13, R3, R0
69
70
   # 6
   ADDI R5, 1, R5
71
   ADDI \,\mathrm{R7}\,,13 ,\mathrm{R0}
   MULL R6, R5, R7
73
   GLO R8,
   ADD R1, R12, R0
75
   ADD\ R2\,,R14\,,R0
   SUB R3, R1, R2
   AND R3, R9, R3
   SLTI R4,0,R3
79
   BEZ -,R8,R4
   ADD R3, R12, R0
81
   ADD R12, R14, R0
   ADD R14, R3, R0
83
   ADDI R5,1,R5
85
   ADDI R7,13,R0
   MULL R6, R5, R7
   GLO R8, -,
   ADD R1, R12, R0
89
   ADD R2, R15, R0
   SUB R3, R1, R2
91
   AND R3, R9, R3
92
   SLTI R4,0,R3
93
   BEZ - R8, R4
94
   ADD R3, R12, R0
95
   ADD R12, R15, R0
   ADD R15, R3, R0
97
98
   ADDI R5,1,R5
99
100 ADDI R7,13,R0
101 MULL R6, R5, R7
102 GLO R8,-,-
```

```
103 ADD R1, R13, R0
104
   ADD R2, R14, R0
   SUB R3, R1, R2
105
   AND R3, R9, R3
   SLTI R4.0, R3
107
   BEZ
        -, R8, R4
   ADD R3, R13, R0
109
   ADD R13, R14, R0
   ADD R14, R3, R0
111
   ADDI R5,1,R5
113
114
   ADDI R7,13,R0
   MULL R6, R5, R7
   GLO R8,
   ADD R1, R13, R0
   ADD R2, R15, R0
   SUB R3, R1, R2
119
   AND R3, R9, R3
   SLTI R4,0,R3
   BEZ - R8, R4
   ADD R3, R13, R0
123
   ADD R13, R15, R0
124
   ADD R15, R3, R0
126
   ###### 10
   ADDI R5,1,R5
   ADDI R7,13,R0
128
   MULL R6, R5, R7
129
   GLO R8,-
130
131
   ADD R1, R14, R0
   ADD R2, R15, R0
   SUB R3, R1, R2
133
   AND R3, R9, R3
   SLTI R4,0,R3
   BEZ
        -, R8, R4
136
   ADD R3, R14, R0
137
   ADD R14, R15, R04
138
139 ADD R15, R3, R0
```

O vetor está armazenado nos registradores 11 a 15. A cada bloco, o valor de um registrador é trocado com outro caso o seguinte seja menor do que ele. As trocas começam no registrador 11 (R11) e vão até o 14 (R14). No R11, primeiro verificamos se o valor de R12 é menor do que o dele, caso seja, troca os valores. Então o mesmo processo é feito com o R13, R14 e R15. Depois de finalizada as comparações do R11, olhamos para o R12 e fazemos o mesmo processo, *i.e.*, comparamos primeiro com o R13, depois com o R14 e por último com o R15. Este processo se repete até fazermos a última comparação de R14 e R15. Após isso, o vetor está ordenado.

Devido ao limitado número de instruções disponíveis, algumas adaptações precisaram ser feitas. A primeira é que não existe comparação de valores de registradores, logo para fazer isso, os valores a serem comparados são armazenados nos registradores R1 e R2. Para saber se devemos trocar, fazemos a subtração desses valores e armazenamos em R3. A partir daí, devemos saber se o número é positivo ou negativo. Caso seja positivo, R2>R1 e a troca não deve acontecer. Caso negativo, R2 < R1 e a troca deve ocorrer. Porém, a instrução de comparação SLTI não funciona com valores negativos, logo não podemos simplesmente comparar o valor de R3 com 0. Para isso, utilizamos o registrador R9 que em seu bit mais significativo possui o valor 1 e nos demais o valor 0. Com este registrador, fazemos um AND entre R9 e R3, dessa forma, sabemos o sinal de R3. Agora podemos comparar R3 com 0 e descobrir se o resultado é positivo ou negativo. Repare que caso R3=1, a subtração foi negativa, logo a troca deve ocorrer. A decisão de se devemos ou não trocar os valores é armazenada em R4 que é utilizado em um branch. Se R4=0, então R3=0 e a troca não deve ocorrer,

logo o branch deve ser tomado.

Para realizar a troca, utilizamos o próprio R3 como registrador auxiliar. Se o branch precisar ser tomado, o programa pula para o valor armazenado em R8. Para encontrar o valor de R8, utilizamos 3 registradores: R5, R6 e R7. R5 armazena em qual bloco de 13 instruções estamos: no primeiro ele recebe o valor 1 e é incrementado em 1 a cada início de bloco. R6 armazena a multiplicação de R5 e R7, cujo valor é 13 (tamanho do bloco de instruções). Por fim, R8 pega os bits menos significativos da multiplicação e descobre para qual endereço deve pular caso necessário.

A Figura 8 mostra como o vetor está distribuído nos registradores:

- R11 = 4
- R12 = 3
- R13 = 2
- R14 = 5
- R15 = 1



Figura 8. Início da ordenação

Repare que R9 possui o bit mais significativo com valor 1 e os outros bits 0, como dito anteriormente. A Figura 9 mostra o fim da simulação. Note que o vetor está ordenado e que a simulação terminou com 282 ciclos.



Figura 9. Fim da ordenação

Para mostrar a melhoria ao introduzir o *pipeline*, executamos o mesmo programa na implementação que não possuía o *pipeline*. A Figura 10 mostra o resultado desta execução. Note que, sem o *pipeline*, a execução termina somente por volta de 607 ciclos, significando que com o *pipeline*, neste programa, o ganho foi de aproximadamente 56%.



Figura 10. Fim da ordenação sem pipeline

## 6 Conclusão

A incorporação da *pipeline* de três estágios exigiu a introdução de *buffers* e unidades de controle adicionais no processador, aumentando consideravelmente a complexidade do projeto. Os *branches* exigiram a introdução de dois ciclos de *stall* para validar o novo *Program Counter*, o que limitou os ganhos de velocidade de execução. A lógica de encaminhamento foi implementada para evitar *stalls* devido à *Hazards de dados*. Ao final, o ganho de desempenho obtido foi de cerca de 58% nos cenários de teste, o que mostra claramente a importância dos *pipelines* em processadores de alto desempenho.

O pipeline aumentou a complexidade das análises temporais feitas durantes os testes dos módulos, já que, no mesmo instante de tempo, há três instruções diferentes sendo executadas.