# Aritm√©tica de ponto flutuante em computadores

## $ \S 1 $ Introdu√ß√£o

O principal objetivo dos m√©todos num√©ricos √© desenvolver algoritmos e t√©cnicas
eficazes para resolver problemas matem√°ticos e, no processo, ajudar-nos a obter
um maior entendimento sobre eles. Os m√©todos num√©ricos s√£o especialmente √∫teis
quando solu√ß√µes anal√≠ticas ou em forma fechada para problemas n√£o est√£o
dispon√≠veis ou s√£o muito dif√≠ceis de se calcular.  N√∫meros s√£o a base de toda
computa√ß√£o. Portanto √© necess√°rio que primeiro compreendamos como eles s√£o
representados em uma m√°quina, como sua capacidade de mem√≥ria finita e poder de
processamento inevitavelmente levam a erros, e como estes erros podem ser
controlados.

## $ \S 2 $ O sistema de representa√ß√£o de n√∫meros de ponto fixo

No sistema dos __n√∫meros de ponto fixo__, especifica-se uma base $ b \ge 2 $,
digamos a decimal, e uma quantidade fixa de d√≠gitos para se representar a parte
inteira e a parte fracion√°ria de um n√∫mero qualquer, digamos $ 3 $ e $ 4 $
respectivamente. Poder√≠amos portanto representar os n√∫meros
\begin{align*}
\pi& \quad \text{como}& \ 3&.1416 \\
-\frac{\pi}{1000}& \quad \text{como}& \ -0&.0031 \\
123 & \quad \text{como}& \ 123&.0 \\
-123.456789& \quad \text{como}& \ -123&.4568\,.
\end{align*}
Observe que a diferen√ßa entre dois n√∫meros sucessivos √© sempre a
mesma ($ 0.0001 $ no exemplo).

Como veremos, este sistema √© muito inflex√≠vel e ineficiente para ser utilizado
na pr√°tica. Usando base $ b = 2 $ e $ 32 $ bits para armazenar cada n√∫mero, com
$ 16 $ bits reservados para a parte inteira e $ 16 $ para a parte fracion√°ria,
s√≥ seria poss√≠vel representar n√∫meros entre $ 2^{-16} \approx 0,00002 $ e $
2^{16} = 65536 $. 

## $ \S 3 $ O sistema de representa√ß√£o de n√∫meros de ponto flutuante

### $ 3.1 $ Defini√ß√£o dos n√∫meros de ponto flutuante

A aritm√©tica de ponto flutuante √© um pilar dos m√©todos num√©ricos, fornecendo um
meio eficiente de representar e manipular n√∫meros reais em hardware e software.
Os n√∫meros de ponto flutuante s√£o n√∫meros expressos num formato espec√≠fico, que
nos permite representar tanto magnitudes grandes quanto pequenas mantendo
precis√£o razo√°vel. O padr√£o [IEEE 754](https://en.wikipedia.org/wiki/IEEE_754)
(estabelecido em 1985), que define os formatos de n√∫meros de ponto flutuante
utilizados comumente, tornou-se parte integrante da engenharia dos sistemas
modernos de computa√ß√£o e de algoritmos num√©ricos. Em particular, ele tamb√©m √©
seguido em Python.

Um n√∫mero de ponto flutuante consiste do produto de duas componentes: uma
__mantissa__ (ou _significando_) e uma __base__ elevada a um __expoente__, por
exemplo:
$$
-1234.56 = -1.23456
\times 10^3 \,.
$$
Mais geralmente, um __n√∫mero de ponto flutante__ tem a forma
$$
x = \text{(sinal)}\, \, \text{mantissa}\, \times \,\text{base}^{\text{expoente}}\,.
$$
Devem ser respeitadas as seguintes restri√ß√µes sobre estes elementos:
* O _sinal_ $ \pm $ √© representado por um √∫nico bit.
* A _base_ $ b $ pode ser qualquer inteiro $ \ge 2 $ (ou seja), mas esta escolha √© fixa.
  Na maioria esmagadora dos casos, √© utilizado o sistema bin√°rio ($ b = 2 $).
* O _expoente_ √© representado utilizando-se um n√∫mero fixo de bits, por exemplo
  $ 8 $ para precis√£o simples. Dentre as $ 2^8 = 256 $
  possibilidades, duas sempre s√£o reservadas para denotar valores especiais,
  como infinito (`inf` em Python) ou _NaN_ (_Not a Number_, `NaN`). Sendo assim,
  no caso da precis√£o simples, os poss√≠veis expoentes s√£o aqueles entre $ -126 $
  e $ +127 $. Esta restri√ß√£o limita as magnitudes dos n√∫meros que podem ser
  representados precisamente pela m√°quina. Se o expoente de um n√∫mero n√£o est√°
  dentro desta faixa, o resultado pode ser um erro de __overflow__ (muito grande
  para ser representado) ou de __underflow__ (muito pequeno para ser
  representado).
* A _mantissa_ ou _significando_ deve estar no intervalo $ [1, b) $,
  onde $ b $ √© a base. Sendo assim, neste formato a mantissa de um n√∫mero
  envolve exatamente um d√≠gito antes do ponto (e este d√≠gito n√£o pode ser nulo).
  Por exemplo, quando $ b = 10 $ √© a base, $ 4.321 $ √© um mantissa v√°lida, mas $
  0.4321 $ e $ 43.21 $ n√£o s√£o. A mantissa √© representada no sistema de precis√£o
  simples atrav√©s de $ 23 $ bits. Na verdade quando $ b = 2 $ ganhamos um bit
  extra de precis√£o, j√° que como a mantissa deve estar em $ [1, 2) $, o d√≠gito
  antes do ponto s√≥ pode ser $ 1 $; este bit √© chamado de _bit escondido_ ou 
  _impl√≠cito_. Seja como for, a limita√ß√£o do n√∫mero de bits para armazenagem
  da mantissa imp√µe uma restri√ß√£o √† precis√£o com que um n√∫mero pode ser
  representado.
  
No caso do formato de _precis√£o simples_ s√£o utilizados portanto
$$
32 \text{ bits} = 1 \text{ bit para o sinal} +
8 \text{ bits para o expoente} + 23\text{ bits para a mantissa}
$$
para se representar um n√∫mero de ponto flutuante. 

üìù O padr√£o IEEE 754 tamb√©m cont√©m especifica√ß√µes para representa√ß√£o de n√∫meros
com dupla ($ 64 $ bits), qu√°drupla ($ 128 $ bits) e meia ($ 16 $ bits) precis√£o,
dentre outros.

üìù O termo "ponto flutuante" se refere ao fato que a posi√ß√£o do ponto de base
n√£o √© fixa. √Ä medida que o expoente muda, o ponto pode "flutuar" entre
diferentes posi√ß√µes, permitindo que a representa√ß√£o cubra eficientemente uma
ampla gama de n√∫meros. Python representa os n√∫meros de ponto flutuante com o
tipo `float`; a sua representa√ß√£o mais fiel √© aquela da chamada
_nota√ß√£o cient√≠fica_: `<mantissa>e<expoente>` (em que a base $ b = 10 $). Por
exemplo $ 123.45 $ corresponde nesta nota√ß√£o a `1.2345e2`.

### $ 3.2 $ Caracter√≠sticas do sistema de n√∫meros de ponto flutuante

<div class="alert alert-info">  Para tornar a discuss√£o mais simples e concreta,
de agora em diante assumiremos que no nosso sistema de n√∫meros de ponto
flutuante a base $ b = 10 $, os expoentes variam de $ -9 $ a $ 9 $ e as
mantissas possuem $ 3 $ d√≠gitos significativos.
</div>

Neste caso:
* O zero √© representado por $$ 0 = 0.00 \times 10^{-9}\,. $$ Este √© o √∫nico
  n√∫mero cuja mantissa n√£o respeita as restri√ß√µes descritas na $ \S 2.1 $.
  Como veremos, _n√£o se deve representar o zero por_ $ 0.00 \times 10^{e} $
  _para qualquer expoente_ $ e \ne -9 $, sob pena de termos $ x + 0 = 0 $
  para alguns n√∫meros $ x \ne 0 $.
* O maior n√∫mero represent√°vel neste sistema √© $ 9.99 \times 10^9 $
  (aproximadamente $ 10 $ bilh√µes), e o menor n√∫mero positivo √©
  $ 1.00 \times 10^{-9} $.
* N√∫meros reais de valor absoluto entre $ 0 $ e $ 9.99 \times 10^9 $ s√£o
  __arredondados__ ao n√∫mero represent√°vel mais pr√≥ximo, seguindo a conven√ß√£o
  que, por exemplo, $ 1.235 $ √© arredondado "para cima", a $ 1.24 \times 10^0 $.
* Chamamos de __d√©cada__ o conjunto de n√∫meros que t√™m um mesmo expoente $ e $.
  Em cada d√©cada do nosso sistema, podem ser representados $ 900 $ n√∫meros:
  aqueles com mantissa entre $ 1.00 $ e $ 9.99 $.
* Dentro da d√©cada de expoente $ e $, n√∫meros sucessivos est√£o igualmente
  espa√ßados por $ 10^e $. Contudo esta dist√¢ncia aumenta exponencialmente
  conforme $ e $ aumenta.

__Exerc√≠cio:__ Mostre que o nosso sistema consiste de exatamente $ 34\,201 $
n√∫meros diferentes.

### $ 3.3 $ Limita√ß√µes da representa√ß√£o de n√∫meros reais como n√∫meros de ponto flutuante

A precis√£o finita inerente √† representa√ß√£o de n√∫meros reais utilizando um
n√∫mero limitado de d√≠gitos n√£o apenas restringe a classe de n√∫meros que
podem ser representados de maneira exata, mas tamb√©m traz inevitavelmente a
possibilidade de erros mesmo nas opera√ß√µes aritm√©ticas mais simples.

Por sua vez, o ac√∫mulo de erros de pode resultar em perda de signific√¢ncia ou
resultados incorretos em certas opera√ß√µes num√©ricas. Ademais, a aritm√©tica de
ponto flutuante est√° sujeita ao _cancelamento catastr√≥fico_, um fen√¥meno em que
a subtra√ß√£o de dois n√∫meros quase iguais produz um resultado com precis√£o
significativamente reduzida. Estas limita√ß√µes exigem uma cuidadosa considera√ß√£o
da propaga√ß√£o de erros e da estabilidade dos m√©todos num√©ricos, bem como a
ado√ß√£o de t√©cnicas para minimizar o impacto dos erros na precis√£o e
confiabilidade dos resultados computacionais.


## $ \S 3 $ Adi√ß√£o no sistema de ponto flutuante

__Exemplo 1:__ Vamos somar os n√∫meros $ 3.15 \times 10^2 $ e $ 1.26 \times 10^1
$.  Antes de realizar a adi√ß√£o, precisamos garantir que os expoentes sejam
iguais. Para isto, vamos "deslocar o ponto" do n√∫mero com o _menor_ expoente
para que passe a ter o mesmo expoente que o outro n√∫mero:
\begin{equation*}
    1.26 \times 10^1 = 0.126 \times 10^2 \quad \text{(igualando os expoentes)}
\end{equation*}
Agora podemos realizar a adi√ß√£o:
\begin{equation*}
    \begin{aligned}
        &\phantom{+}& 3&.15 \times 10^2 \\
        &+& 0&.126 \times 10^2 & \text{(adicionando)} \\
        &=& 3&.276 \times 10^2 & \text{(arredondando)} \\
        &\approx & 3&.28 \times 10^2 & \text{(resultado)}
    \end{aligned}
\end{equation*}
Observe que no √∫ltimo passo realizamos um _arredondamento_ (n√£o truncamento)
para que o resultado tivesse apenas $ 3 $ d√≠gitos significativos na mantissa,
conforme nossa conven√ß√£o.

__Exemplo 2:__ Calcule a soma dos n√∫meros $ 6.21 \times 10^{2} $ e
$ 5.23 \times 10^{0} $. Mais uma vez, precisamos igualar os expoentes antes de
realizar a adi√ß√£o. Para isto ajustamos o n√∫mero com o _menor_ expoente:
\begin{equation*}
    5.23 \times 10^0 = 0.00523 \times 10^2 \quad \text{(igualando os expoentes)}
\end{equation*}
Calculando a soma:
\begin{equation*}
    \begin{aligned}
        &\phantom{+}& 6&.21 \times 10^2 \\
        &+& 0&.00523 \times 10^2 & \text{(adicionando)}\\
        &=& 6&.21523 \times 10^2 & \text{(arredondando)} \\
        &\approx & 6&.22 \times 10^2 & \text{(resultado)}
    \end{aligned}
\end{equation*}
Observe novamente o uso de arredondamento no √∫ltimo passo para trazer a
mantissa do resultado de volta √† nossa conven√ß√£o.

__Exemplo 3__: Vamos somar os n√∫meros $ 9.53 \times 10^{-1} $ e
$ 7.48 \times 10^{-2} $. Igualando o expoente do segundo n√∫mero ao
primeiro:
\begin{equation*}
    7.48 \times 10^{-2} = 0.748 \times 10^{-1} \quad \text{(igualando os expoentes)}
\end{equation*}
Realizando a adi√ß√£o:
\begin{equation*}
    \begin{aligned}
        &\phantom{+}& 9&.53 &\times& 10^{0} \\
        &+& 0&.748 &\times& 10^{0} & \text{(adicionando)}\\
        &=& 10&.278 &\times& 10^{0} & \text{(renormalizando)} \\
        &=& 1&.0278 &\times& 10^{1} &  \text{(arredondando)}\\
        &\approx& 1&.03 &\times& 10^{1} & \text{(resultado)} \\
    \end{aligned}
\end{equation*}


__Exerc√≠cio:__ Calcule as somas dos n√∫meros de ponto flutuante abaixo. Suas
respostas devem seguir a conven√ß√£o acima, ou seja, os expoentes devem estar entre
$ 9 $ e $ -9 $ e as mantissas devem possuir exatamente tr√™s d√≠gitos
significativos.

(a) $ 2.34 \times 10^2 + 3.87 \times 10^2 $.

(b) $ 4.23 \times 10^{-4} + 1.38 \times 10^{-3} $.

(c) $ 3.24 \times 10^5 + 9.78 \times 10^3 $.

(d) $ 7.36 \times 10^{-7} + 4.29 \times 10^{-9} $.

(e) $ 5.99 \times 10^9 + 8.43 \times 10^{-1} $.

(f) $ 1.03 \times 10^9 + 8.97 \times 10^{9} $.

## $ \S 4 $ Subtra√ß√£o no sistema de ponto flutuante


__Exemplo 1__: Vamos subtrair os n√∫meros $1.52 \times 10^3$ e $7.38 \times
10^2$. Igualando os expoentes:
\begin{equation*}
    7.38 \times 10^{2} = 0.738 \times 10^{3} \quad \text{(igualando os expoentes)}
\end{equation*}
Calculando a diferen√ßa:
\begin{equation*}
    \begin{aligned}
        &\phantom{-}& 1&.52 &\times& 10^{3} \\
        &-& 0&.738 &\times& 10^{3} & \text{(subtraindo)}\\
        &=& 0&.782 &\times& 10^{3} & \text{(renormalizando)}\\
        &=& 7&.82 &\times& 10^{2} & \text{(resultado)} \\
    \end{aligned}
\end{equation*}

__Exemplo 2__: Vamos subtrair os n√∫meros $6.42 \times 10^{6}$ e $4.21 \times
10^{4}$. Igualando o expoente do segundo n√∫mero ao primeiro:
\begin{equation*}
    4.21 \times 10^4 = 0.000421 \times 10^6 \quad \text{(igualando os expoentes)}
\end{equation*}
Realizando a subtra√ß√£o:
\begin{equation*}
    \begin{aligned}
        &\phantom{+}& 6&.420 &\times& 10^{6} \\
        &-& 0&.000421 &\times& 10^{6} & \text{(subtraindo)}\\
        &=& 6&.419579 &\times& 10^{6} &  \text{(arredondando)}\\
        &\approx& 6&.420 &\times& 10^{6} &  \text{(resultado)}\\
    \end{aligned}
\end{equation*}

__Exemplo 3__: Vamos subtrair os n√∫meros $1.93 \times 10^{-4}$ e $9.76 \times 10^{-3}$.
Primeiramente precisamos igualar os expoentes:
\begin{equation*}
    1.93 \times 10^{-4} = 0.193 \times 10^{-3} \quad \text{(igualando os expoentes)}
\end{equation*}
Como o segundo n√∫mero (subtraendo) $ b $ √© maior que o primeiro (minuendo) $ a
$, √© mais f√°cil calcular $ b - a $ e utilizar que $ a - b = -(b - a) $.
Fazendo isto, obtemos:
\begin{equation*}
    \begin{aligned}
        &\phantom{-}& 9&.76 &\times& 10^{-3} \\
        &-& 0&.193 &\times& 10^{-3} & \text{(subtraindo)}\\
        &=& 9&.567 &\times& 10^{-3} & \text{(arredondando)}  \\
        &\approx& 9&.57 &\times& 10^{-3} & \text{(resultado)} \\
    \end{aligned}
\end{equation*}
Assim, a diferen√ßa de $1.93 \times 10^{-4}$ e $9.76 \times 10^{-3}$
√© aproximadamente $ -9.57 \times 10^{-3} $.



__Exerc√≠cio:__ Calcule as diferen√ßas abaixo. Suas respostas devem seguir a
conven√ß√£o acima, ou seja, os expoentes devem estar entre $ 9 $ e $ -9 $ e as
mantissas devem possuir exatamente tr√™s d√≠gitos significativos.

(a) $ 6.71 \times 10^1 - 3.42 \times 10^0 $.

(b) $ 9.12 \times 10^{-3} - 2.46 \times 10^{-2} $.

(c) $ 1.98 \times 10^6 - 3.24 \times 10^4 $.

(d) $ 7.25 \times 10^{-7} - 5.93 \times 10^{-5} $.

(e) $ 4.73 \times 10^8 - 3.92 \times 10^8 $.

(f) $ 1.01 \times 10^{-9} - 1.32 \times 10^{-9} $.

__Exerc√≠cio:__ Mostre que no nosso sistema:

(a) Se $ \vert \delta \vert < \frac{1}{2} \times 10^{-3} $, ent√£o
$ 1 \pm \delta = 1 $.

(b) Se $ \varepsilon^2 < \frac{1}{2} \times 10^{-3} $,
ent√£o
$$
1 - (1 - \varepsilon)(1 + \varepsilon) = 0\,.
$$