#### **Aulas 23 e 24**

- Representação de números em vírgula flutuante
- A norma IEEE 754
  - Operações aritméticas em vírgula flutuante
  - Precisão simples e precisão dupla
  - Arredondamentos
- Unidade de vírgula flutuante do MIPS
  - Instruções da FPU do MIPS

Bernardo Cunha, José Luís Azevedo, Arnaldo Oliveira

# Representação de quantidades fracionárias

- A codificação de quantidades numéricas com que trabalhamos até agora esteve sempre associada à representação de números inteiros
- A representação posicional de inteiros pode também ser usada para representar números racionais considerando-se potências negativas da base
- Por exemplo a representação da quantidade 5.75 em base 2 com 4 bits para a parte inteira e 4 bits para a parte fracionária poderia ser:
   23 22 21 20 2-1 2-2 2-3 2-4



 Esta representação designa-se por "representação em vírgula fixa"

### Representação de quantidades fracionárias

- A representação de quantidades fracionárias em vírgula fixa coloca de imediato a questão da divisão do espaço de armazenamento para as partes inteira e fracionária
- O número de dígitos da parte inteira determina a gama de valores representáveis
- O número de dígitos da parte fracionária, determina a precisão da representação (no exemplo anterior, a menor quantidade representável é 2<sup>-4</sup> = 0,0625)
- No caso geral, quantos dígitos devem então ser reservados para a parte inteira e quantos para a parte fracionária, sabendo nós que o espaço de armazenamento é limitado?

# Representação de números em Vírgula Flutuante

• **Exemplo**: **-23.45129876** (vírgula fixa). A mesma quantidade pode também ser representada recorrendo à notação científica:

- São representações do mesmo valor em que a posição da vírgula tem de ser ponderada, na interpretação numérica da quantidade, pelo valor do expoente de base 10
- Esta técnica, em que a vírgula pode ser deslocada sem alterar o valor representado, designa-se também por representação em vírgula flutuante (VF)
- A representação em VF tem a vantagem de não desperdiçar espaço de armazenamento com os zeros à esquerda da quantidade representada
- No primeiro exemplo, o número de dígitos diferentes de zero à esquerda da vírgula é igual a um: diz-se que a representação está normalizada

# Representação de números em Vírgula Flutuante

 A representação de quantidades em vírgula flutuante, em sistemas computacionais digitais, faz-se recorrendo à estratégia descrita nos slides anteriores, mas usando agora a base dois:

$$N = (+/-) 1.f \times 2^{Exp}$$

(representação **normalizada** de uma quantidade binária em vírgula flutuante)

• Em que:

```
 f – parte fracionária representada por n bits
```

**1.f** – mantissa (também designada por significando)

Exp — expoente da potência de base 2 representado por *m* bits

# Representação de números em Vírgula Flutuante

- O problema da divisão do espaço de armazenamento coloca-se também neste caso, mas agora na determinação do número de bits ocupados pela parte fracionária e pelo expoente
- Essa divisão é um compromisso entre gama de representação e precisão:
  - Aumento do número de bits da parte fracionária ⇒ maior precisão na representação
  - Aumento do número de bits do expoente ⇒ maior gama de representação
- Um bom design implica compromissos adequados!



- sempre a 1. Como é sempre 1, esse bit não é explicitamente representado (*hidden bit*)
- A parte fracionária (23 bits) pode então tomar valores compreendidos entre:
- E os limites de representação da mantissa (1.f) são:



 O expoente é codificado em excesso de 127 (2<sup>n-1</sup>-1, n=8 bits). Ou seja, é somado ao expoente verdadeiro (Exp) o valor 127 para obter o código de representação

(i.e. E = Exp + 127, em que E é o expoente codificado)

$$N = (-1)^S 1.f \times 2^{Exp} = (-1)^S 1.f \times 2^{E-127}$$

- O código 127 representa, assim, o expoente zero; códigos maiores do que 127 representam expoentes positivos e códigos menores que 127 representam expoentes negativos
- Os códigos 0 e 255 são reservados. O expoente pode, desta forma, tomar valores entre -126 e +127 [códigos 1 a 254].



#### 

**Expoente** = 
$$130 - offset = 130 - 127 = 3 \Leftrightarrow (Exp = E - offset)$$

**Mantissa** = 
$$(1 + parte fracionária) = 1 + .1011 = 1.1011$$

A quantidade representada (R) será então:

$$R = +1.1011 \times 2^{3} = (1 + 1 \times 2^{-1} + 0 \times 2^{-2} + 1 \times 2^{-3} + 1 \times 2^{-4}) \times 2^{3}$$
$$= 1.6875 \times 8 = 13.5$$

• Exemplo: codificar no formato vírgula flutuante IEEE 754 precisão simples, o valor -12.59375<sub>10</sub>

Parte inteira:  $12_{10} = 1100_{2}$ 

Parte fracionária:  $0.59375_{10} = 0.10011_2$ 

 $12.59375_{10} = 1100.10011_2 \times 2^0$ 

Normalização:  $1100.10011_2 \times 2^0 = 1.10010011_2 \times 2^3$ 

Expoente codificado:  $+3 + 127 = 130_{10} = 10000010_2$ 

1 10000010 10010011000000000000000

0xC1498000

0.59375 × 2 1.18750 MSb 0.18750  $\times$  2 0.37500 0.37500 × 2 0.75000 0.75000 × 2 1,50000 0.50000  $\times$  2 LSb 1,00000

• A gama de representação suportada por este formato será portanto:

$$\pm [1.175494 \times 10^{-38}, 3.402824 \times 10^{+38}]$$

- Qual o número de dígitos à direita da vírgula na representação em decimal (casas decimais)?
- Partindo de uma representação com "n" dígitos fracionários na base "r", o número máximo de dígitos na base "s" que garante que a mudança de base não acrescenta precisão à representação original é:

 Assim, de modo a não exceder a precisão da representação original, a representação em decimal deve ter, no máximo, 6 casas decimais:

$$m = \left| n \frac{\log r}{\log s} \right| = \left| 23 \frac{\log 2}{\log 10} \right| = 6$$

• Ou, sabendo que o nº de bits por casa decimal =  $\log_2(10) \cong 3.3$ ), o número de casas decimais é  $\lfloor 23 / 3.3 \rfloor = 6$  casas decimais



- Nas operações com quantidades representadas neste formato podem ocorrer situações de *overflow* e de *underflow*:
  - Overflow: quando o expoente do resultado n\(\tilde{a}\) o cabe no espa\(\tilde{c}\) o que lhe est\(\tilde{a}\) destinado \(\tilde{E} > \frac{254}{}\)

 Underflow: caso em que o expoente é tão pequeno que também não é representável → E < 1)</li>

# Norma IEEE 754 – Adição / Subtração

Exemplo:  $N = 1.1101 \times 2^0 + 1.0010 \times 2^{-2}$ 

1º Passo: Igualar os expoentes ao maior dos expoentes

$$a = 1.1101 \times 2^0$$
  $b = 0.010010 \times 2^0$ 

2º Passo: Somar / subtrair as mantissas mantendo os expoentes

$$N = 1.1101 \times 2^0 + 0.010010 \times 2^0 = 10.000110 \times 2^0$$

3º Passo: Normalizar o resultado

$$N = 10.000110 \times 2^0 = 1.0000110 \times 2^1$$

4º Passo: Arredondar o resultado e renormalizar (se necessário)

$$N = 1.0000110 \times 2^1 = 1.0001 \times 2^1$$

#### **Exemplo com 4 bits fracionários**

# Norma IEEE 754 – Multiplicação

Exemplo:  $N = (1.1100 \times 2^{0}) \times (1.1001 \times 2^{-2})$ 

1º Passo: Somar os expoentes

Exp. Resultado = 0 + (-2) = -2

2º Passo: Multiplicar as mantissas

 $Mr = 1.1100 \times 1.1001 = 10.101111$ 

3º Passo: Normalizar o resultado

 $N = 10.101111 \times 2^{-2} = 1.0101111 \times 2^{-1}$ 

4º Passo: Arredondar o resultado e renormalizar (se necessário)

 $N = 1.01011111 \times 2^{-1} = 1.0110 \times 2^{-1}$ 

Exemplo com 4 bits fracionários

#### Norma IEEE 754 – Divisão

Exemplo:  $N = (1.0010 \times 2^{0}) / (1.1000 \times 2^{-2})$ 

1º Passo: Subtrair os expoentes

Exp. Resultado = 0 - (-2) = 2

2º Passo: Dividir as mantissas

Mr = 1.0010 / 1.1000 = 0.11

3º Passo: Normalizar o resultado

 $N = 0.11 \times 2^2 = 1.1 \times 2^1$ 

4º Passo: Arredondar o resultado

 $N = 1.1 \times 2^1 = 1.1000 \times 2^1$ 

**Exemplo com 4 bits fracionários** 

# Norma IEEE 754 (precisão dupla)

 A norma IEEE 754 suporta a representação de quantidades em precisão simples (32 bits) e em precisão dupla (64 bits)



# Norma IEEE 754 (precisão dupla)



$$N = (-1)^S 1.f \times 2^{Exp} = (-1)^S 1.f \times 2^{E-1023}$$

 A gama de representação suportada pelo formato de precisão dupla será:

 De modo a não exceder a precisão da representação original, a representação em decimal deve ter, no máximo, ∠52 / log<sub>2</sub>(10) = 15 casas decimais

### Norma IEEE 754 – casos particulares

- A norma IEEE 754 suporta ainda a representação de alguns casos particulares:
  - A quantidade zero; essa quantidade não seria representável de acordo com o formato descrito até aqui
  - +/-infinito. Exemplos: 1.0 / 0.0, -1.0 / 0.0
  - Resultados não numéricos (NaN Not a Number). Exemplo:
     0.0 / 0.0
  - Afim de aumentar a resolução (menor quantidade representável) é ainda possível usar um formato de mantissa desnormalizada no qual o bit à esquerda do ponto binário é zero

# Norma IEEE 754 – casos particulares

| Precisão Simples |             | Precisão Dupla |             | Representa                             |
|------------------|-------------|----------------|-------------|----------------------------------------|
| Expoente         | Parte Frac. | Expoente       | Parte Frac. |                                        |
| 0                | 0           | 0              | 0           | 0                                      |
| 0                | ≠0          | 0              | ≠0          | Quantidade<br>desnormalizada           |
| 1 a 254          | qualquer    | 1 a 2046       | qualquer    | Nº em vírgula flutuante<br>normalizado |
| 255              | 0           | 2047           | 0           | Infinito                               |
| 255              | <b>≠</b> 0  | 2047           | <b>≠</b> 0  | NaN (Not a Number)                     |

# Norma IEEE 754 – representação desnormalizada

- Permite a representação de quantidades cada vez mais pequenas (*underflow* gradual)
- A gama de representação suportada pelo formato de mantissa desnormalizada, em precisão simples, é:

- As operações aritméticas são efetuadas com um número de bits da parte fracionária superior ao disponível no espaço de armazenamento
- Desta forma, na conclusão de qualquer operação aritmética é necessário proceder ao arredondamento do resultado por forma a assegurar a sua adequação ao espaço que lhe está destinado
- As técnicas mais comuns no processo de arredondamento do resultado (o qual introduz um erro) são:
  - Truncatura
  - Arredondamento simples
  - Arredondamento para o par (ímpar) mais próximo

 Truncatura (exemplo com 2 dígitos na parte fracionária: d=2)

| Número | Trunc(x) | Erro |
|--------|----------|------|
| x.00   | X        | 0    |
| x.01   | X        | -1/4 |
| x.10   | X        | -1/2 |
| x.11   | Х        | -3/4 |

Erro médio = 
$$(0 - 1/4 - 1/2 - 3/4) / 4$$
  
=  $-3/8$ 

• Mantém-se a parte inteira, desprezando qualquer informação que exista à direita do ponto binário

 Arredondamento simples (exemplo com 2 dígitos na parte fracionária: d=2)

| Número | Arred(x) | Erro |
|--------|----------|------|
| x.00   | X        | 0    |
| x.01   | X        | -1/4 |
| x.10   | x + 1    | +1/2 |
| x.11   | x + 1    | +1/4 |

Erro médio = 
$$(0 - 1/4 + 1/2 + 1/4) / 4$$
  
= +1/8

• Mantém-se a parte inteira quando o 1º dígito à direita do ponto binário for 0 ou soma-se "1" à parte inteira quando aquele for "1":

$$arred(x) = trunc(x + 0.5)$$

• O erro médio é mais próximo de zero do que no caso da truncatura, mas ligeiramente polarizado do lado positivo

 Arredondamento para o par mais próximo (exemplo com 2 dígitos na parte fracionária: d=2)

| Número | Arred(x) | Erro | Número | Arred(x) | Erro |
|--------|----------|------|--------|----------|------|
| x0.00  | x0       | 0    | x1.00  | x1       | 0    |
| x0.01  | x0       | -1/4 | x1.01  | x1       | -1/4 |
| x0.10  | х0       | -1/2 | x1.10  | x1 + 1   | +1/2 |
| x0.11  | x1       | +1/4 | x1.11  | x1 + 1   | +1/4 |

- Semelhante à técnica de arredondamento, mas decidindo, para o caso "xx.10", em função do primeiro dígito à esquerda do ponto binário
- Erro médio = (0 1/4 1/2 + 1/4) / 4 + (0 1/4 + 1/2 + 1/4) / 4 = -1/8 + 1/8 = 0

| O que fica à direita de $b_{23}$ | Exemplo                                                              | Resultado                                                                |
|----------------------------------|----------------------------------------------------------------------|--------------------------------------------------------------------------|
| < 0.5                            | 1.b <sub>1</sub> b <sub>2</sub> b <sub>22</sub> b <sub>23</sub> 0111 | <b>Round down</b> : bits à direita de $b_{23}$ são descartados           |
| > 0.5                            | 1.b <sub>1</sub> b <sub>2</sub> b <sub>22</sub> b <sub>23</sub> 1001 | <b>Round up</b> : soma-se 1 a $b_{23}$ (propagando o <i>carry</i> )      |
| = 0.5                            | 1.b <sub>1</sub> b <sub>2</sub> b <sub>22</sub> 1 1000               | <b>Round up</b> : soma-se 1 a $b_{23}$ (propagando o <i>carry</i> ) (*)  |
| = 0.5                            | 1.b <sub>1</sub> b <sub>2</sub> B <sub>22</sub> 0 1000               | <b>Round down</b> : bits à direita de $b_{23}$ são descartados (*)       |
| = 0.5                            | 1.b <sub>1</sub> b <sub>2</sub> B <sub>22</sub> 1 1000               | <b>Round down</b> : bits à direita de $b_{23}$ são descartados (**)      |
| = 0.5                            | 1.b <sub>1</sub> b <sub>2</sub> b <sub>22</sub> 0 1000               | <b>Round up</b> : soma-se 1 a $b_{23}$ (propagando o <i>carry</i> ) (**) |

<sup>(\*)</sup> Arredondamento para o **par mais próximo**.

<sup>(\*\*)</sup> Arredondamento para o ímpar mais próximo.

#### Norma IEEE 754 – arredondamentos

• Os valores resultantes de cada fase intermédia da execução de uma operação aritmética são armazenados com três bits adicionais, à direita do bit menos significativo da mantissa (i.e., para o caso de precisão simples, com pesos 2<sup>-24</sup>, 2<sup>-25</sup> e 2<sup>-26</sup>)

#### ?.??????????????? GRS (f c/ 26 bits)

- Objetivos: 1) minimizar o erro introduzido pelo processo de arredondamento e 2) ter bits suplementares para a pósnormalização
- G Guard Bit
- R Round bit
- S Sticky bit Bit que resulta da soma lógica de todos os bits à direita do bit R (i.e., se houver à direita de R pelo menos 1 bit a '1', então S='1')

#### Norma IEEE 754 – arredondamentos



#### Norma IEEE 754 – arredondamentos



# Cálculo em Vírgula Flutuante no MIPS



- O MIPS inclui um coprocessador aritmético (Coprocessador 1) capaz de efetuar operações aritméticas em vírgula flutuante, usando a norma IEEE 754
- Esse coprocessador tem o seu próprio espaço de armazenamento composto por um conjunto de 32 registos de 32 bits cada, e o seu próprio conjunto de instruções (ISA)

# Vírgula Flutuante no MIPS – registos

- Os registos do coprocessador aritmético são designados, no Assembly do MIPS, pelas letras \$fn, em que o indíce n toma valores entre 0 e 31
- Cada par de registos consecutivos [\$fn,\$fn+1] (com n par) pode funcionar como um registo de 64 bits para armazenar valores em precisão dupla.
- Em *Assembly* a referência ao par de registos faz-se indicando como operando o registo par
- Apenas os registos de índice par podem ser usados no contexto das instruções

### Vírgula Flutuante no MIPS – instruções aritméticas

```
# Absolute Value
abs.p
         FPdst, FPsrc
         FPdst, FPsrc
                                     # Negate
neg.p
                                     # Divide
div.p
         FPdst, FPsrc1, FPsrc2
mul.p
                                     # Multiply
         FPdst, FPsrc1, FPsrc2
                                     # Addition
add.p
         FPdst, FPsrc1, FPsrc2
sub.p
          FPdst, FPsrc1, FPsrc2
                                     # Subtract
               O sufixo .p representa a precisão com que é
                 efetuada a operação (simples ou dupla).
                Deverá, na instrução, ser substituído pelas
                    letras .s ou .d respetivamente.
```

### Vírgula Flutuante no MIPS – conversão entre tipos

```
cvt.d.s FPdst,FPsrc
cvt.d.w FPdst,FPsrc
cvt.s.d FPdst, FPsrc
cvt.s.w FPdst, FPsrc
cvt.w.d FPdst,FPsrc
cvt ws FPdst, FPsrc
         Formato original
 Formato do
  resultado
```

```
# Convert Single to Double
# Convert Integer to Double
# Convert Double to Single
# Convert Integer to Single
# Convert Double to Integer
# Convert Single to Integer
```

As conversões entre tipos de representação são efetuadas pela FPU pelo que apenas podem ter como operandos/destinos registos da FPU

### Conversão entre tipos – exemplos

```
= -1.625 \times 2^2 = -6.5
cvt.d.s $f6,$f0
   Exp = (129-127) + 1023 = 1025 = 10000000001
   $f6=0x00000000 $f7=1 1000000001 1010000...0
   $f6=0x00000000 $f7=0xC01A0000
cvt.w.s $f8,$f0
   Exp = (129-127) = 2
   Val = -1.625 \times 2^2 = -6.5, (int)(-6.5) = -6
   $f8=0xFFFFFFA
```

### Vírgula Flutuante no MIPS – instruções de transferência

 Transferência de informação entre registos do CPU e da FPU, e entre registos da FPU



Estas instruções copiam o conteúdo integral do registo fonte para o registo destino.

Não efetuam qualquer tipo de conversão entre tipos de informação.

### Vírgula Flutuante no MIPS – instruções de transferência

• Transferência de informação entre registos da FPU e a memória

```
Registo da FPU
              Endereço de memória
lwc1
      FPdst, offset (CPUreg) # Load single from memory
      FPsrc, offset (CPUreq) # Store single into memory
swc1
ldc1 FPdst, offset(CPUreq) # Load double from memory
sdc1 FPsrc, offset(CPUreq) # Store double into memory
Instruções virtuais (apenas muda a mnemónica):
      FPdst, offset (CPUreq) # Load single from memory
1.s
s.s FPsrc, offset (CPUreq) # Store single into memory
1.d FPdst, offset (CPUreq) # Load double from memory
s.d FPsrc, offset (CPUreq) # Store double into memory
```

# Vírgula Flutuante no MIPS – instruções de decisão

- A tomada de decisões envolvendo quantidades em vírgula flutuante realiza-se de forma distinta da utilizada para o mesmo tipo de operação envolvendo quantidades inteiras
- Para quantidades em vírgula flutuante são necessárias duas instruções em sequência: uma comparação das duas quantidades, seguida da decisão (que usa a informação produzida pela comparação):
  - A instrução de comparação coloca a True ou False uma flag (1 bit), dependendo de a condição em comparação ser verdadeira ou falsa, respetivamente
  - Em função do estado dessa flag a instrução de decisão (instrução de salto) pode alterar a sequência de execução

# Cálculo em Vírgula Flutuante no MIPS

Instruções de comparação:

```
c.x.s FPUreg1, FPUreg2 # compare single
c.x.d FPUreg1, FPUreg2 # compare double
```

Em que x pode ser uma das seguintes condições:

```
EQ - equal
```

LT - less than

LE - less or equal

Instruções de salto:

```
bclt # branch if true
bc1f # branch if false
```

### Vírgula Flutuante no MIPS – instruções de decisão

```
float a, b;
if(a > b)
 a = a + b;
else
  a = a - b;
```

```
# \$f0 \leftarrow a
# $f2 ← b
if: c.le.s $f0, $f2 # if(a > b)
     bclt else # {
add.s $f0, $f0, $f2 # a = a + b;
    bc1t else
                         # }
     j endif
                           # else
else: sub.s $f0, $f0, $f2 # a = a - b;
endif:...
```

# Convenções quanto à utilização de registos

- Registos para passar parâmetros para funções:
  - \$f12 (\$f13), \$f14 (\$f15)
- Registos para devolução de resultados das funções:
  - \$f0 (\$f1), \$f2 (\$f3)

### Cálculo em Vírgula Flutuante no MIPS – Exemplo

```
double average(double *, int);
void main(void)
  double array[SIZE];
  double avg;
  avg = average( array, SIZE );
  printDouble( avg );  // syscall 3
double average(double *v, int N)
  double av = 0.0;
  int i;
  for(i = 0; i < N; i++)
     av += v[i];
  return av / (double) N;
```

### Tradução C / Assembly

```
void main(void)
                     double average(double *, int)
  static double array[SIZE];
  double avg;
  avg = average( array, SIZE );
```

```
data
array: .space 8 * SIZE
      .text
      .globl main
main:
                       # void main(void) {
     la $a0, array
     li $a1, SIZE
     jal average
     mov.d $f12, $f0
                           avg = average(array, SIZE)
     li $v0, 3
     syscall
                           print_double(avg)
     jr $ra
                   # }
```

### Tradução C / Assembly

```
double average(double *v, int N)
  double av = 0.0;
  int i;
  for(i = 0; i < N; i++)
   av += v[i];
  return av / (double) N;
# $f0 \leftarrow av
cvt.d.s $f0, $f0  # av = 0.0
li $t0, 0 # i = 0
for: bge    $t0, $a1, endf # while(i < N) {
    sll    $t1, $t0, 3 #</pre>
     addu $t1, $t1, $a0 # $t1 = &v[i]
     1.d $f4, 0($t1) # $f0 = v[i]
     add.d $f0, $f0, $f4 # av += v[i]
     addi $t0, $t0, 1 # i++
     j for
cvt.d.w $f4, $f4 # $f4 = (double)N
     div.d $f0, $f0, $f4
     jr $ra
```

#### Exercícios

- Na conversão de uma quantidade codificada em formato IEEE754 precisão simples para decimal, qual o número máximo de casas decimais com que o resultado deve ser apresentado? E se o valor original estiver representado em formato IEEE754 precisão dupla?
- Determine a representação em formato IEEE754 precisão simples da quantidade real **19,1875**. Determine a representação da mesma quantidade em precisão dupla
- Determine o valor em decimal da quantidade representada em formato IEEE754, precisão simples, como 0xC19AB000
- Determine o valor em decimal da quantidade representada em formato IEEE754, precisão simples, como 0x80580000

#### Exercícios

- Considere que o conteúdo dos dois seguintes registos da FPU representam a codificação de duas quantidades reais no formato IEEE754 precisão simples:
  - \$f0 = 0x416A0000
  - \$f2 = 0xC0C00000

Calcule o resultado das instruções seguintes, apresentando o resultado em hexadecimal:

```
abs.s $f4,$f2 # $f4 = abs($f2)
• neg.s $f6,$f0 # $f6 = neg($f0)
sub.s $f8, $f0,$f2 # $f8 = $f0 - $f2
• sub.s $f10,$f2,$f0 # $f10 = $f2 - $f0
add.s $f12,$f0,$f2 # $f12 = $f0 + $f2
mul.s $f14,$f0,$f2 # $f14 = $f0 * $f2
div.s $f16,$f0,$f2 # $f16 = $f0 / $f2
• div.s $f18,$f2,$f0 # $f18 = $f2 / $f0
cvt.d.s $f20,$f2 # Convert single to double
cvt.w.s $f22,$f0
                     # Convert single to integer
```