



#### INF01175 Sistemas Digitais para Computadores A

# Projeto PC-PO/HLS

Operações com Matrizes 2x2

Pedro Lubaszewski Lima (00341810) Turma U

27 de agosto de 2024



#### Sumário

- Enunciado do Problema
- Resolução PC-PO
  - Fluxograma ASM
  - Parte Operativa
  - Parte de Controle
  - Validações da Solução
- Resolução HLS
  - Programa em C
  - Solução Básica com HLS
  - Primeira Solução Otimizada com HLS
  - Segunda Solução Otimizada com HLS
- Comparação das Soluções



### Sumário

- Enunciado do Problema
- 2 Resolução PC-PO
  - Fluxograma ASM
  - Parte Operativa
  - Parte de Controle
  - Validações da Solução
- Resolução HLS
  - Programa em C
  - Solução Básica com HLS
  - Primeira Solução Otimizada com HLS
  - Segunda Solução Otimizada com HLS
- 4 Comparação das Soluções



#### Enunciado do Problema

#### Objetivo

Projetar e descrever em VHDL um circuito que multiplique duas matrizes, some com uma terceira matriz e filtre a matriz resultado de acordo com a definição do cálculo abaixo. Além disso, comparar a construção manual com a solução HLS do Xilinx Vitis HLS.

#### Enunciado do Problema

### Objetivo

Projetar e descrever em VHDL um circuito que multiplique duas matrizes, some com uma terceira matriz e filtre a matriz resultado de acordo com a definição do cálculo abaixo. Além disso, comparar a construção manual com a solução HLS do Xilinx Vitis HLS.

### Função da Saída do Sistema $(R_{2\times 2})$

Dadas as matrizes  $A_{2\times 2}$ ,  $B_{2\times 2}$  e  $C_{2\times 2}$  tais que  $a_{ij}$ ,  $b_{ij}$ ,  $c_{ij} \in \mathbb{N}$  e  $a_{ij} < 255$ ,  $b_{ij} < 255$ ,  $c_{ij} < 65535$ ,  $\forall i, j \in \{1,2\}$ , e  $F(M_{2\times 2}) = Q_{2\times 2}$  tal que

$$q_{ij} = egin{cases} m_{ij} & ext{se } 0 < m_{ij} \leqslant 128 \ 128 & ext{se } m_{ij} > 128 \end{cases}$$
 ,  $orall i$  ,  $j \in \{1,2\}$  , então

$$R = F[(A \times B) + C]$$

### Sumário

- Enunciado do Problema
- Resolução PC-PO
  - Fluxograma ASM
  - Parte Operativa
  - Parte de Controle
  - Validações da Solução
- Resolução HLS
  - Programa em C
  - Solução Básica com HLS
  - Primeira Solução Otimizada com HLS
  - Segunda Solução Otimizada com HLS
- 4 Comparação das Soluções



# Fluxograma ASM



Figura 1: Fluxograma ASM – Parte 1

# Fluxograma ASM



Figura 2: Fluxograma ASM – Parte 2

# Datapath



Figura 3: Parte Operativa – Parte 1

# Datapath



Figura 4: Parte Operativa – Parte 2



Figura 5: Parte de Controle – Parte 1



Figura 6: Parte de Controle – Parte 2

# Propostas de Testes

Para testar a solução, foram criadas as seguintes entradas:

$$\bullet \ A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix};$$

$$\bullet \ B = \begin{bmatrix} 4 & 3 \\ 2 & 1 \end{bmatrix};$$

$$\bullet \ B_{NULL} = \begin{bmatrix} 0 & 0 \\ 0 & 0 \end{bmatrix};$$

$$C = \begin{bmatrix} 121 & 10 \\ 50 & 3 \end{bmatrix}.$$

### Propostas de Testes

Para testar a solução, foram criadas as seguintes entradas:

$$\bullet \ A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix};$$

$$\bullet \ B = \begin{bmatrix} 4 & 3 \\ 2 & 1 \end{bmatrix};$$

$$\bullet \ B_{NULL} = \begin{bmatrix} 0 & 0 \\ 0 & 0 \end{bmatrix};$$

$$C = \begin{bmatrix} 121 & 10 \\ 50 & 3 \end{bmatrix}.$$

Esperando as seguintes saídas:

• 
$$R_1 = \begin{vmatrix} 128 & 15 \\ 70 & 16 \end{vmatrix}$$
, com  $A$ ,  $B$  e  $C$  como entradas;

• 
$$R_2 = \begin{bmatrix} 121 & 10 \\ 50 & 3 \end{bmatrix}$$
, com  $A$ ,  $B_{NULL}$  e  $C$  como entradas.



# Simulação para Validação de R<sub>1</sub>



Figura 7: Forma de Onda Funcional com entradas A, B e C

# Simulação para Validação de $R_1$

Como a saída doutr = [128, 15, 70, 16], no modo da memória read first, então foi validado que  $R_1 = \begin{bmatrix} 128 & 15 \\ 70 & 16 \end{bmatrix}$ .



Figura 7: Forma de Onda Funcional com entradas A, B e C

# Simulação para Validação de R<sub>2</sub>



Figura 8: Forma de Onda Funcional com entradas A,  $B_{NULL}$  e C

# Simulação para Validação de $R_2$

Como a saída doutr = [121, 10, 50, 3], no modo da memória read first, então foi validado que  $R_2 = \begin{bmatrix} 121 & 10 \\ 50 & 3 \end{bmatrix}$ .



Figura 8: Forma de Onda Funcional com entradas A, B<sub>NULL</sub> e C

### Sumário

- Enunciado do Problema
- 2 Resolução PC-PO
  - Fluxograma ASM
  - Parte Operativa
  - Parte de Controle
  - Validações da Solução
- Resolução HLS
  - Programa em C
  - Solução Básica com HLS
  - Primeira Solução Otimizada com HLS
  - Segunda Solução Otimizada com HLS
- 4 Comparação das Soluções



# Algoritmo em C

```
#ifndef __MATRIXOP_H__
     #define __MATRIXOP_H__
4
     #include < cmath >
     using namespace std;
6
7
     #define MATRIX_A_ROWS 2
     #define MATRIX_A_COLUMNS 2
     #define MATRIX_B_ROWS 2
10
     #define MATRIX_B_COLUMNS 2
11
12
     typedef unsigned char matrix_a_t; // 8 bits
13
     typedef unsigned char matrix_b_t: // 8 bits
14
     typedef unsigned short matrix_c_t; // 16 bits
15
     typedef unsigned char result_t; // 8 bits
16
17
     void calculate_matrix (
18
          matrix_a_t a[MATRIX_A_ROWS][MATRIX_A_COLUMNS],
          matrix_b_t b[MATRIX_B_ROWS][MATRIX_B_COLUMNS].
19
          matrix_c_t c[MATRIX_A_ROWS][MATRIX_B_COLUMNS],
20
21
           result_t result [MATRIX_A_ROWS][MATRIX_B_COLUMNS]);
22
23
     #endif
```

Código 1: Header de matrix\_operations.cpp

# Algoritmo em C

```
#include "matrix_operations.h"
     void calculate_matrix (
           matrix_a_t a[MATRIX_A_ROWS][MATRIX_A_COLUMNS],
           matrix_b_t b[MATRIX_B_ROWS][MATRIX_B_COLUMNS],
           matrix_c_t c[MATRIX_A_ROWS][MATRIX_B_COLUMNS].
           result_t result [MATRIX_A_ROWS][MATRIX_B_COLUMNS])
 8
 9
        matrix_c_t intermediate;
10
11
        for (int i = 0; i < MATRIX_A_ROWS; i++)
12
13
           for (int i = 0: i < MATRIX_B_COLUMNS: i++)
14
15
              intermediate = 0;
16
17
              for (int k = 0: k < MATRIX_B_ROWS: k++)
18
                 intermediate += a[i][k] * b[k][i];
19
20
              intermediate += c[i][j];
21
22
              if (intermediate > 128)
23
                 intermediate = 128:
24
25
              result [i][i] = result_t (intermediate);
26
27
28
```

Código 2: Implementação de matrix\_operations.h

# Síntese da Solução Básica com HLS

Como solução básica, não se utilizou nenhuma otimização.

# Síntese da Solução Básica com HLS

Como solução básica, não se utilizou **nenhuma otimização**.



Figura 9: Resultado da Síntese Básica com HLS

# Interface da Solução Básica com HLS



Figura 10: Interface da Solução Básica com HLS

# Interface da Solução Básica com HLS

Percebe-se um total de **12 IOBs**, totalizando **68 bits** de interface de dados.



Figura 10: Interface da Solução Básica com HLS

### Síntese da Primeira Solução Otimizada com HLS

Como primeira solução otimizada, utilizou-se loop unroll em cada um dos *loops* da aplicação, buscando aumentar o paralelismo da solução.

### Síntese da Primeira Solução Otimizada com HLS

Como primeira solução otimizada, utilizou-se **loop unroll** em cada um dos *loops* da aplicação, buscando aumentar o paralelismo da solução.



Figura 11: Resultado da Síntese da Solução Otimizada 1 com HLS

# Interface da Primeira Solução Otimizada com HLS



Figura 12: Interface da Solução Otimizada 1 com HLS

Projeto PC-PO/HLS

Pedro Lubaszewski Lima

27 de agosto de 2024

18 / 23

# Interface da Primeira Solução Otimizada com HLS

Percebe-se um total de **16 IOBs**, totalizando **96 bits** de interface de dados.



Figura 12: Interface da Solução Otimizada 1 com HLS

Projeto PC-PO/HLS

Pedro Lubaszewski Lima

27 de agosto de 2024

18 / 23

# Síntese da Segunda Solução Otimizada com HLS

Além das otimizações da versão anterior (loop unroll), acrescentou-se array partitioning com dimensão zero em todas as entradas e saídas do sistema. Isso foi feito em busca do maior nível de paralelismo possível para este circuito.

# Síntese da Segunda Solução Otimizada com HLS

Além das otimizações da versão anterior (loop unroll), acrescentou-se array partitioning com dimensão zero em todas as entradas e saídas do sistema. Isso foi feito em busca do maior nível de paralelismo possível para este circuito.



Figura 13: Resultado da Síntese da Solução Otimizada 2 com HLS

# Interface da Segunda Solução Otimizada com HLS



Figura 14: Interface da Solução Otimizada 2 com HLS

20 / 23

# Interface da Segunda Solução Otimizada com HLS

Percebe-se um total de **16 IOBs**, totalizando **160 bits** de interface de dados.



Figura 14: Interface da Solução Otimizada 2 com HLS

Projeto PC-PO/HLS

Pedro Lubaszewski Lima

27 de agosto de 2024

20/23

### Sumário

- Enunciado do Problema
- Resolução PC-PO
  - Fluxograma ASM
  - Parte Operativa
  - Parte de Controle
  - Validações da Solução
- Resolução HLS
  - Programa em C
  - Solução Básica com HLS
  - Primeira Solução Otimizada com HLS
  - Segunda Solução Otimizada com HLS
- 4 Comparação das Soluções



# Comparação do PC-PO com HLS

Ao construir a solução partindo do Fluxograma ASM, da Parte Operativa e da Parte de Controle, obteve-se um circuito com:

- 174 LUTs;
- 43 flip flops;
- 0 DSPs;
- 4 BRAMs;
- Latência de 76 ciclos de clock;
- Interface de dados com 4 IOBs, 40 bits.

# Comparação do PC-PO com HLS

Ao construir a solução partindo do Fluxograma ASM, da Parte Operativa e da Parte de Controle, obteve-se um circuito com:

- 174 LUTs;
- 43 flip flops;
- 0 DSPs;
- 4 BRAMs;
- Latência de 76 ciclos de clock;
- Interface de dados com 4 IOBs, 40 bits.

Através da melhor solução com **HLS**, obteve-se os seguintes resultados:

- 405 LUTs;
- 36 flip flops;
- 4 DSPs;
- 0 BRAMs;
- Latência de 3 ciclos de clock;
- Interface de dados com 16 IOBs, 160 bits.

# Comparação do PC-PO com HLS

Ao construir a solução partindo do Fluxograma ASM, da Parte Operativa e da Parte de Controle, obteve-se um circuito com:

- 174 LUTs;
- 43 flip flops;
- 0 DSPs;
- 4 BRAMs;
- Latência de 76 ciclos de clock;
- Interface de dados com 4 IOBs, 40 bits.

Através da melhor solução com **HLS**, obteve-se os seguintes resultados:

- 405 LUTs;
- 36 flip flops;
- 4 DSPs;
- 0 BRAMs;
- Latência de 3 ciclos de clock;
- Interface de dados com 16 IOBs, 160 bits.

De forma geral, a solução HLS tem um **paralelismo** melhor que a PC-PO. No entanto, a solução PC-PO apresenta uma **melhor utilização de recursos** (LUTs em particular) e uma **interface mais compacta**.

# Obrigado pela atenção! Alguma dúvida?