#### Processamento Vectorial

Arquitetura de Computadores Mestrado Integrado em Engenharia Informática

#### Processamento Escalar

Cada instrução processa apenas um elemento do conjunto de dados

```
for (i=0 ; i < N ; i++) {
  c[i] = a[i] + b[i];
}</pre>
```

```
loop:
  movl (%esi, %ecx, 4), %eax
  movl (%edi, %ecx, 4), %edx
  addl %eax, %edx

  movl %edx, (%ebx, %ecx, 4)
  incl %ecx
  cmpl N, %ecx
  jl loop
```



#### **Processamento Vectorial**

Cada instrução processa **n** elementos do conjunto de dados (n=4 neste exemplo)

```
4 bytes
for (i=0 ; i < N ; i++) {
                                             4 words
  c[i] = a[i] + b[i];
                                       xmm0
                                               4 words
loop:
  mov.v (%esi, %ecx, 4), %xmm0
                                       xmm1
  mov.v (%edi, %ecx, 4), %xmm1
  add.v %xmm0, %xmm1
  mov.v %xmm1, (%ebx, %ecx, 4)
  addl $4, %ecx
  cmpl N, %ecx
  jl loop
                                       xmm<sub>1</sub>
```

4 words

#### **Processamento Vectorial**

$$T_{EXEC} = CPI*\#I/f$$

 Cada instrução processa n elementos de dados, logo reduz o número de instruções

 Se as unidades funcionais realizarem as n operações em paralelo,

reduz o CPI

# Parelelismo – Taxonomia de Flynn



# Intel SSE - Streaming SIMD Extensions

- SSE adiciona à arquitectura Intel 8 registos de 128 bits: %xmm0
   .. %xmm7
- adiciona ainda instruções para operar sobre vectores de vários tipos de dados



#### Intel SSE

1994 – Pentium II e Pentium with MMX – MultiMedia eXtensions 8 registos de 64 bits (%mm0 .. %mm7) que mapeiam nos registos de vírgula flutuante (%st0 .. %st7); apenas operações sobre inteiros

1995 – Introdução de Streaming Simd Extensions (SSE) no Pentium III 8 novos registos de 128 bits (%xmm0 .. %xmm7) e operações FP

2000 – Introdução de SSE2 no Pentium IV

2004 - Introdução de SSE3 no Pentium IV HT

2007 - Introdução de SSE4

# Intel Advanced Vector Extensions (AVX)

- Intel AVX (2011) registos YMM0..YMM15 de 256 bits
- Intel AVX512 (2015) registos ZMM0..ZMM31 de 512 bits



## Instruções SSE: Transferência de Dados

| Instruções | Operandos     | Obs.                                                         |
|------------|---------------|--------------------------------------------------------------|
|            | orig, dest    |                                                              |
| MOVDQA     | xmm/m128, xmm | Mover 2 palavras quádruplas (2*8 bytes) Apenas para inteiros |
| MOVDQU     | xmm, xmm/m128 | A - addr alinhado M16; U – addr não alinhado                 |
| MOVAP[S D] | xmm/m128, xmm | Mover 4 FP precisão simples ou 2 FP precisão dupla           |
| MOVUP[S D] | xmm, xmm/m128 | A – addr alinhado M16                                        |
|            | ·             | U – addr não alinhado                                        |

#### • Alinhamento SSE:

Os acessos à memória é mais eficiente se o endereço for alinhado, isto é, se o bloco de 16 *bytes* a aceder se iniciar num endereço múltiplo de 16

# Instruções SSE: Operações Inteiras

| Instruções | Operandos<br>orig, dest | Obs.                                                                 |
|------------|-------------------------|----------------------------------------------------------------------|
| PADD?      |                         | Adição, subtracção, conjunção ou disjunção do tipo de dados indicado |
| PSUB?      | xmm/m128, xmm           | Operação realizada sobre o número de                                 |
| PAND?      |                         | elementos determinado pelo registo+tipo de dados                     |
| POR?       |                         | Endereços em memória alinhados                                       |
|            |                         | O resultado não pode ser em memória                                  |

? = B | W | D | Q

B - byte W - 2 bytes

D-4 bytes Q-8 bytes

# Instruções SSE: Operações FP

| Instruções | Operandos<br>orig, dest | Obs.                                    |
|------------|-------------------------|-----------------------------------------|
| ADDP?      |                         | Operação sobre o tipo de dados indicado |
| SUBP?      |                         |                                         |
| MULP?      |                         | Operação realizada sobre o número de    |
| DIVP?      |                         | elementos determinado pelo tipo de      |
| SQRTP?     | xmm/m128, xmm           | dados (S = 4 ; D = 2)                   |
| MAXP?      |                         |                                         |
| MINP?      |                         | Endereços em memória alinhados          |
| ANDP?      |                         |                                         |
| ORP?       |                         | O resultado não pode ser em memória     |

? = S | D

S – precisão simples

D – dupla precisão

## **Exemplo SSE**

```
float a[100], b[100], r[100];
 func (int n, float *a, float *b, float *r) {
   int i;
   for (i=0; i<n; i++)
                               func:
    r[i] = a[i] * b[i];
                                 movl 8(\$ebp), \$edx # n
                                movl 12(%ebp), %eax # a
                                movl 16(%ebp), %ebx # b
                                movl 20(%ebp), %esi # r
                                movl $0, %ecx
                               ciclo:
                                 movaps (%eax, %ecx, 4), %xmm0
                                 mulps (%ebx, %ecx, 4), %xmm0
                                 movaps %xmm0, (%esi, %ecx, 4)
                                 addl $4, %ecx
                                 cmpl %edx, %ecx
                                 jle ciclo
AC - Processamento Vectorial
```

#### Processamento Vectorial - desenvolvimento

#### Assembly

- Utilização directa de instruções assembly

#### Compiler Intrinsics

 Pseudo-funções disponibilizadas pelo compilador que permitem o desenvolvimento explícito de código vectorial a um nível semântico mais elevado que o assembly

#### Auto Vectorização

Vectorização pelo compilador



 Compiler intrinsics são pseudo-funções que expõem funcionalidades do CPU incompatíveis com a semântica da linguagem de programação usada (C/C++ neste caso)

Para detalhes ver <u>Intel Intrinsics Guide</u> (<a href="https://software.intel.com/sites/landingpage/IntrinsicsGuide/#">https://software.intel.com/sites/landingpage/IntrinsicsGuide/#</a>)

• As funções e tipos de dados definidos como *intrinsics* são acessíveis incluindo o *header* <ia32intrin.h>

| Tipos de Dados |                                    |  |
|----------------|------------------------------------|--|
| m64            | Vector de 64 bits – inteiros (MMX) |  |
| m128           | Vector 128 bits – 4 FP SP (SSE)    |  |
| m128d          | Vector 128 bits – 2 FP DP (SSE2)   |  |
| m128i          | Vector 128 bits – inteiros (SSE2)  |  |

| Operações Aritméticas (single FP) |                       |           |  |
|-----------------------------------|-----------------------|-----------|--|
| Pseudo-função                     | Descrição             | Instrução |  |
| m128 _mm_add_ps (m128,m128)       | Adição                | ADDPS     |  |
| m128 _mm_sub_ps (m128,m128)       | Subtracção            | SUBPS     |  |
| m128 _mm_mul_ps (m128,m128)       | Multiplicação         | MULPS     |  |
| m128 _mm_div_ps (m128,m128)       | Divisão               | DIVPS     |  |
| m128 _mm_sqrt_ps (m128)           | Raiz Quadrada         | SQRTPS    |  |
| m128 _mm_rcp_ps (m128)            | Inverso               | RCPPS     |  |
| m128 _mm_rsqrt_ps (m128)          | Inverso Raiz Quadrada | RSQRTPS   |  |

| Movimento de Dados (single FP) |                                                                  |           |  |
|--------------------------------|------------------------------------------------------------------|-----------|--|
| Pseudo-função                  | Descrição                                                        | Instrução |  |
| m128 _mm_load_ps (float *)     | Carrega vector de memória para registo (alinhado 16)             | MOVAPS    |  |
| m128 _mm_load1_ps (float *)    | Carrega 1 FP de memória<br>para os 4 elementos do<br>registo XMM |           |  |
| _mm_store_ps (float *,m128)    | Escreve registo em vector de memória (alinhado 16)               | MOVAPS    |  |

| Constantes(single FP)                 |                                                     |           |  |
|---------------------------------------|-----------------------------------------------------|-----------|--|
| Pseudo-função                         | Descrição                                           | Instrução |  |
| m128 _mm_set1_ps (float)              | Carrega 1 constante para os 4 elementos do registo  | Várias    |  |
| m128 _mm_set_ps (float, float, float) | Carrega 4 constantes para os 4 elementos do registo | Várias    |  |
| m128 _mm_setzero_ps (f)               | Coloca os 4 elementos do registo a zero             | Várias    |  |

| Comparação (single FP)                          |                   |           |  |
|-------------------------------------------------|-------------------|-----------|--|
| Pseudo-função                                   | Descrição         | Instrução |  |
| m128 _mm_cmpeq_ps (m128,m128)                   | Põe a 1 se iguais | CMPEQPS   |  |
| mm_cmp[lt, le, gt, gem neq, nlt, ngt, nle, nge] |                   |           |  |

A comparação é feita elemento a elemento dos registos %xmm, Sendo o resultado um registo %xmm com o elemento correspondente a 0 ou 1

## Compiler Intrinsics: Exemplo 1

```
#define SIZE 1000000
float a[SIZE] attribute ((aligned(16)));
float b[SIZE] attribute ((aligned(16)));
float c[SIZE] attribute ((aligned(16)));
func() {
 for (int i=0; i < SIZE; i++) {
   c[i] = a[i] + b[i];
} }
                     #include <ia32intrin.h>
                     #define SIZE 1000000
                     float a[SIZE] attribute ((aligned(16)));
                     float b[SIZE] attribute ((aligned(16)));
                     float c[SIZE] attribute ((aligned(16)));
                     func() {
                       for (int i=0; i < SIZE; i+=4) {
                          m128 \text{ mb} = mm \text{ load ps (&b[i])};
                          m128 ma = mm load ps(&a[i]);
                          m128 mc = mm add ps (ma, mb);
                         mm store ps (&c[i], mc);
```

## Compiler Intrinsics: Exemplo 2

```
#define SIZE 1000000
float a[SIZE] attribute ((aligned(16)));
float b[SIZE] attribute ((aligned(16)));
float c[SIZE] attribute ((aligned(16)));
float alfa;
func() {
                    #include <ia32intrin.h>
 for (int i=0; i < $ #define SIZE 1000000
   c[i] = alfa * a[i] float a[SIZE] attribute ((aligned(16)));
                    float b[SIZE] attribute ((aligned(16)));
                    float c[SIZE] attribute ((aligned(16)));
                    float alfa;
                    func() {
                        m128 m alfa = mm load1 ps (&alfa);
                      for (int i=0; i < SIZE; i+=4) {
                        m128 mb = mm load ps (&b[i]);
                         m128 ma = mm load ps(&a[i]);
                        ma = mm mul ps(ma, m alfa);
                        m128 mc = mm add ps (ma, mb);
                        mm store ps (&c[i], mc);
```

## Compiler Intrinsics: Exemplo 3

```
#include <math.h>
#define SIZE 1000000
float a[SIZE] attribute ((aligned(16)));
float b[SIZE] attribute ((aligned(16)));
float c[SIZE] attribute ((aligned(16)));
func() {
 for (int_i=0 : i < STZE : i++) {
   r[i] = #include <ia32intrin.h>
      #define SIZE 1000000
} }
          float a[SIZE] attribute ((aligned(16)));
          float b[SIZE] attribute ((aligned(16)));
          float c[SIZE] attribute ((aligned(16)));
          func() {
              m128 cinco = mm set1 ps (5.);
            for (int i=0; i<SIZE; i+=4) {
                m128 \text{ mb} = mm \text{ sqrt ps}(mm \text{ load ps}(\&b[i]));
               m128 ma = mm load ps(&a[i]);
               m128 mr = mm mul ps (cinco, mm add ps (ma, mb);
              mm store ps (&c[i], mr);
```

O compilador pode vectorizar o código

• Comando gcc:

gcc -03 -march=....

```
#define SIZE 1000000
float a[SIZE] attribute ((aligned(16)));
float b[SIZE] attribute ((aligned(16)));
float c[SIZE] attribute ((aligned(16)));
loop () {
  for (int i=0; i < SIZE; i++) {
    c[i] = a[i] + b[i];
                                loop:
                                 xor %eax, %eax
                                . T<sub>1</sub>1:
                                  movaps a (%eax), %xmm0
                                  addps b(%eax), %xmm0
                                  movaps %xmm0, c(%eax)
                                  add $16, %eax
                                  cmp $4000000, %eax
                                  jl .L1
                                  ret
```

```
loop (float *a, float *b, float *c, const int S) {
  for (int i=0 ; i< S ; i++) {
    c[i] = a[i] + b[i];
} }</pre>
```

Possibilidade de *aliasing*, isto é: as regiões de memória apontadas pelos diferentes apontadores podemse sobrepor!

#### *versioning*, isto é:

O compilador gera versões escalares e vectoriais do ciclo e código para verificar o *aliasing*.

Em *runtime* é escolhida a versão mais apropriada do ciclo



O qualificador \_\_restrict\_\_ indica ao compilador que durante a existência daquele apontador NÂO EXISTE QUALQUER OUTRA REFERÊNCIA para a zona de memória acedida a partir desse apontador. Logo não existe a possibilidade de *aliasing* 

Alinhamento a múltiplos de 16 dos vectores? Resulta na utilização de instruções para acessos não alinhados: mais ineficientes.

### Bloqueadores Auto-vectorização: dados contíguos

```
#define SIZE 1000000
typedef struct {float a, b, c, pad;} MYDATA;

MYDATA d[SIZE] __attribute__ ((aligned(16)));

loop () {
  for (int i=0 ; i < SIZE ; i++) {
    d[i].c = d[i].a + d[i].b;
} }</pre>
```

Array of Structures (AoS): os vários elementos do mesmo campo não são armazenados consecutivamente em memória.

Código potencialmente não vectorizável!



### Bloqueadores Auto-vectorização: dados contíguos

```
#define SIZE 1000000
struct {
  float a[SIZE] __attribute__ ((aligned(16)));
  float b[SIZE] __attribute__ ((aligned(16)));
  float c[SIZE] __attribute__ ((aligned(16)));
  } d;

loop () {
  for (int i=0 ; i < SIZE ; i++) {
    d.c[i] = d.a[i] + d.b[i];
  }
}</pre>
```

Structures of Arrays (SoA): os vários elementos do mesmo campo são armazenados consecutivamente em memória.

a[0]
a[1]
...
b[0]
b[1]
...
c[0]

Código vectorizável!

#### Bloqueadores Auto-vectorização: dados contíguos

```
#define SIZE 1000000
struct {
  float a[SIZE] __attribute__ ((aligned(16)));
  float b[SIZE] __attribute__ ((aligned(16)));
  float c[SIZE] __attribute__ ((aligned(16)));
  } d;

loop () {
  for (int i=0 ; i < SIZE ; i++) {
    d.c[i] = d.a[i] + d.b[i];
  }
}</pre>
```

```
loop:
    xor %eax, %eax
.L1:
    movaps d(%eax), %xmm0
    addps d+4000000(%eax), %xmm0
    movaps %xmm0, d+8000000(%eax)
    add $16, %eax
    cmp $4000000, %eax
    jl .L1
    ret
```

## Bloqueadores Auto-vectorização: uncountable loops

```
#define SIZE 1000000
float a[SIZE] __attribute__ ((aligned(16)));
float b[SIZE] __attribute__ ((aligned(16)));
float c[SIZE] __attribute__ ((aligned(16)));

loop () {
  for (int i=0 ; a[i]!=0 && i < SIZE ; i++) {
    c[i] = a[i] + b[i];
} }</pre>
```

O número de iterações não pode ser computado (uncountable loop):

Código não vectorizável!

# Bloqueadores Auto-vectorização: condições

```
#define SIZE 1000000
int a[SIZE] __attribute__ ((aligned(16)));
int b[SIZE] __attribute__ ((aligned(16)));
int c[SIZE] __attribute__ ((aligned(16)));

loop () {
  for (int i=0 ; i < SIZE ; i++) {
    int s = a[i] + b[i];
    if (s<0) {c[i] = s;}
    else if (s==0) {c[i] = -10;}
    else {c[i] = -s;}
}</pre>
```

Estruturas condicionais: Código não vectorizável!

## Bloqueadores Auto-vectorização: condições

```
#define SIZE 1000000
int a[SIZE] __attribute__ ((aligned(16)));
int b[SIZE] __attribute__ ((aligned(16)));
int c[SIZE] __attribute__ ((aligned(16)));

loop () {
  for (int i=0 ; i < SIZE ; i++) {
    int s = a[i] + b[i];
    c[i] = (s < 0 ? s : 0);
} }</pre>
```

Estruturas condicionais realizável como uma máscara: Código vectorizável!

#### NOTA:

s é calculado para todos os elementos do vector. usando uma máscara só é atribuído aqueles elementos de c para os quais s é <0!

# Bloqueadores Auto-vectorização: funções

```
#define SIZE 1000000
float a[SIZE] __attribute__ ((aligned(16)));
float b[SIZE] __attribute__ ((aligned(16)));
float c[SIZE] __attribute__ ((aligned(16)));

loop () {
  for (int i=0 ; i < SIZE ; i++) {
    c[i] = myfunc(a[i]) + b[i];
} }</pre>
```

Invocação de funções dentro do ciclo: Código não vectorizável!

## Bloqueadores Auto-vectorização: funções

```
#define SIZE 1000000
float a[SIZE] __attribute__ ((aligned(16)));
float b[SIZE] __attribute__ ((aligned(16)));
float c[SIZE] __attribute__ ((aligned(16)));

loop () {
  for (int i=0 ; i < SIZE ; i++) {
    c[i] = __builtin_absf(a[i]) + b[i];
} }</pre>
```

Invocação de funções intrínseca dentro do ciclo: Código vectorizável!

## Bloqueadores Auto-vectorização: stride

```
#define SIZE 1000000
float a[SIZE] __attribute__ ((aligned(16)));
loop () {
  for (int i=1 ; i < SIZE ; i+=2) {
    a[i] = a[i] + 1;
} }</pre>
```

Stride != 1

Acessos não contíguos, mas ordenados.

Compilador pode não vectorizar o código.

Código (mesmo vectorial) menos eficiente, devido a acessos a memória e reduzida localidade espacial.

```
#define SIZE 1000000
float a[SIZE] __attribute__ ((aligned(16)));
loop () {
  for (int i=1 ; i < SIZE ; i++) {
    a[i] = a[i-1] + 1;
} }</pre>
```

Dependência *read after* write (RaW)! Como i cresce, o valor de a[i+1] é alterado na próxima iteração anterior! Código não vectorizável!

```
#define SIZE 1000000
float a[SIZE] __attribute__ ((aligned(16)));
loop () {
  for (int i=0 ; i < SIZE-1 ; i++) {
    a[i] = a[i+1] + 1;
} }</pre>
```

Dependência write *after read (WaR)*!
Como i cresce, o valor de a[i+1] só será alterado na próxima iteração!
Código vectorizável!

 Distância da dependência : diferença entre o índice de escrita e o índice de leitura

$$d = c^W - c^R$$

Se d <= 0 não há dependências RaW : ciclo pode ser vectorizado</li>

• Nota: o sinal da distância deve respeitar a ordem de iteração. Isto é, se o índice for decrementado então  $d=-(c^W-c^R)$ 

```
#define SIZE 1000000
int a[SIZE]
   _attribute__ ((aligned(16)));

loop () { int c;

for (int i=1 ; i < SIZE ; i++) {
   c = a[i-1]*2;
   a[i] = (c > 0 ? c : 1);
} }
```

```
#define SIZE 1000000
int a[SIZE]
   _attribute__ ((aligned(16)));

loop () { int c;

for (int i=SIZE -1 ; i>0; i--) {
   c = a[i-1]*2;
   a[i] = (c >0 ? c : 1);
} }
```

```
d = c^{W} - c^{R} = i - (i - 1) = 1
a[1] = a[0]*2 : 1;
a[2] = a[1]*2 : 1;
read\ after\ write
Código NÃO vectorizável!
```

$$d = -(c^W - c^R) = -i + i - 1 = -1$$
  
 $a[SIZE-1] = a[SIZE-2]*2:1;$   
 $a[SIZE-2] = a[SIZE-3]*2:1;$   
Write after read  
Código vectorizável!

# Processamento Vectorial: Linhas de Orientação

- Usar ciclos "for" contáveis: pontos únicos de entrada e saída;
- Evitar estruturas condicionais; máscaras são vectorizáveis, mas resultam na realização de trabalho inútil;
- Evitar dependências, especialmente do tipo "read-after-write"
- Evitar a utilização de apontadores e prevenir aliasing
- Usar acessos à memória eficientes:
  - Ciclo mais aninhado com stride 1 (dados consecutivos)
  - Minimizar acessos indirectos
  - Alinhar os dados a multiplos de 16 (Intel® SSE)