![CC-BY-SA](https://mirrors.creativecommons.org/presskit/buttons/88x31/svg/by-sa.svg)
This notebook was created by [Bernardo Freitas Paulo da Costa](http://www.im.ufrj.br/bernardofpc),
and is licensed under Creative Commons BY-SA

# Representações limitadas de números reais

Ao contrário do que acontece com os inteiros em Python, os números reais não são representados em "tamanho arbitrário".
A razão mais simples para isso é que nem sempre é claro quando faz sentido **parar de aumentar a precisão**,
e por isto esta decisão é passada para o programador.
Em geral, a maior parte dos programas usa representações altamente compactas e eficientes, com "pouca" precisão,
e apenas raramente são usados números com uma precisão maior.

Neste curso, os números "reais" em Python serão usados praticamente todo o tempo,
exceto numa breve aula sobre precisão aumentada.
Por questão de completude, veremos aqui as representações mais comuns para números reais.

# Interpretação e representação

Uma das ideias fundamentais em computação é que podemos interpretar números de formas bastante diferentes.
O exemplo fundamental é o que o seu computador faz para _escrever_:

In [None]:
chr(65)

O que foi feito acima mostra que o computador _interpreta_ o número `65` como o caracter `A`.
"Inversamente", podemos pensar que nós _representamos_ o caracter `A` pelo número `65`.

De fato, a única capacidade do seu computador é manipular _bits_: sequências de zeros e uns, como por exemplo

In [None]:
0b1000001

In [None]:
0b0101010101010111101110101

Além disso, as operações "elementares" do seu computador só são feitas com uma quantidade _limitada_ de bits.
Em geral, esta quantidade é chamada [word size](https://en.wikipedia.org/wiki/Word_size),
e num computador moderno é de 64 bits.
Os operandos elementares são os objetos de base que o seu computador conhece **em hardware**.
Qualquer outra operação é realizada _em software_,
e desta forma também dizemos que são objetos "compostos".

Detalhes:
1. algumas operações podem ser feitas com mais ou menos bits do que um `word`;
   quando dizemos que um processador "é de 64 bits", isto se refere às operações com "ponteiros".
2. num computador moderno há possibilidade de realizar operações, em geral, com operandos de 32, 64, 80, 128, 256 e 512 bits)
3. os inteiros do Python podem ser **muito** maiores do que 512 bits; assim sendo, eles não são objetos elementares;
   os "inteiros elementares" do seu computador podem ser de 32 ou 64 bits.

## Abstrações: um par representação e interpretação

É claro que seria muito inconveniente comunicar com um computador (ou seja, programá-lo)
se a única linguagem possível fossem zeros e uns.
Por isso, as linguagens de programação nos fornecem **abstrações** que permitem escrever algo que _nos_ é mais inteligível.
Mas cada abstração vem com um par (represetação/interpretação),
regras fixas que realizam a transformação de algo "humanamente compreensível"
para algo "computadoramente compreensível" (ou seja, zeros e uns!)

Em geral, nunca nos preocupamos de _como_ o computador representa os objetos com que trabalhamos,
a menos que
1. estejamos nós mesmos **desenvolvendo** uma representação;
2. estejamos face a um **limite** de representação.

Neste curso, além da numeração binária exposta acima, para a representação de inteiros,
vamos observar a representação de números reais com ponto fixo e ponto flutuante.
Estes são exemplos fundamentais de representação _em hardware_,
mas que também podem ser **emulados** _em software_.

# Erros absolutos e números de ponto fixo

A primeira observação é que, num computador,
sempre existe uma quantidade **finita** de números reais representáveis como objetos elementares.
Isso tem duas consequências:
1. sempre existe um _maior número "real"_,
2. sempre existe um _próximo número "real"_.

É claro que também valem as propriedades análogas "no outro sentido".

Digamos que um número "real" possui 64 bits.

Uma idéia simples para representar números reais seria considerar que
1. vamos interpretar os 64 bits como um número inteiro escrito em base 2
2. e em seguida a cada número inteiro corresponde um número real, através de uma fórmula do tipo
$$ real = \frac{inteiro}{10^9} $$

Isto é o que chamamos **ponto fixo**.
Este nome vem de imaginarmos que existe um ponto (implícito) no número inteiro que o computador vê,
e cuja posição é fixa (dada pelo $10^9$).

É claro que a escolha de $10^9$ para o denominador é completamente arbitrária,
e diferentes sistemas poderiam escolher diferentes denominadores.
Assim, uma representação em ponto fixo é dada por
$$\frac{inteiro}{den} \qquad \text{onde o denominador $den$ está fixo.}$$

### Exercício

1. Qual o maior número real representável pelo sistema de ponto fixo acima? E o menor?
2. Qual o maior erro absoluto / relativo deste sistema? E o menor?
3. Quais constantes físicas podem ser representadas por este sistema de forma aceitável? (veja [a Wikipédia](https://en.wikipedia.org/wiki/Physical_constants#Table_of_physical_constants))
4. O que fazer para representar negativos?

### Exercício

Seu computador usa números em base dois.
Em que situações usar um denominador que seja uma potência de dois simplifica as operações aritméticas?

# Erros relativos e números de ponto flutuante (Konrad Zuse, 1936)

Uma variação óbvia desta estrutura é representar o número real sempre em duas partes: um numerador e um denominador, ambos inteiros. Assim, na verdade, representamos apenas números racionais (não que isso seja um problema, já que temos apenas uma quantidade finita de números disponíveis), mas ganhamos em flexibilidade.

Porém, não faz muito sentido poder usar todos os números inteiros no denominador: isso geraria muita redundância!
Vamos pensar, então, que o denominador pode mudar, mas não para "qualquer coisa", e vamos pensar, principalmente, qual é o nosso objetivo ao representar os números reais de forma aproximada.

Num sistema discreto de números "reais", o erro que cometemos ao usar aproximações é, no máximo,
a diferença entre os dois números consecutivos do sistema que estão "logo abaixo" e "logo acima" do verdadeiro número real.

E, na maior parte das vezes, o que nos interessa são erros relativos, e não erros absolutos.
Se uma aula leva 120 minutos ou 119, não há muita diferença.
Se uma aula leva 2h ou 1h, há muita diferença!
Isso explica porque fixar o denominador não é, na maior parte das vezes, uma boa solução.
O erro relativo entre $\frac{2}{den}$ e $\frac{1}{den}$ é muito maior do que o erro entre $\frac{120}{den}$ e $\frac{119}{den}$.

Assim, a nossa escala deve ser adaptada aos erros relativos, e é a escala logarítmica.
(Se você está preocupado com números negativos, você está certo;
mas vamos deixar isso de lado por enquanto, e pensar que o sinal do número pode ser separado do resto - como realmente ocorre!)
Deixando o zero de lado (que é especial para o logaritmo), podemos representar um número sob a forma
$$base^{inteiro}, \qquad \text{onde a base $base$ está fixa.}$$

Assim, o erro relativo entre dois números nesta representação é o erro entre $1$ e $base$,
que é o mesmo que entre $base^1$ e $base^2$, e entre quaisquer dois números consecutivos.
(menos o zero; erros relativos com zero são sempre muito grandes... mais disso, mais tarde)
Se escolhermos a $base$ suficientemente próxima de $1$, teremos erros relativos suficientement pequenos, em toda a escala!

Mas há um problema com esta representação: as operações de soma e subtração de números "reais" serão muito custosas.
As de multiplicação e divisão, por outro lado, podem operar _diretamente_ com os números inteiros correspondentes,
somando-os ou subtraindo-os, que são operações que o chip já tem que fazer, por outras razões!

Isso levou a uma outra solução, inspirada em parte da física, da necessidade de erros relativos baixos,
e de reaproveitar os circuitos lógicos já presentes no computador: usar **notação científica**.
Um número $x$ em notação científica é dado por
$$ x = \text{mantissa} \times 10^\text{expoente}, \qquad \text{onde}
\begin{cases}1 \leq \text{mantissa} < 10, \text{e}\\ \text{o expoente é um número inteiro.}\end{cases} $$

Da mesma forma que os números racionais, temos que guardar dois números para cada "real": a _mantissa_ e o _expoente_.
Mas agora, note que não há redundância, porque restringimos o domínio da mantissa.
A _mantissa_ será um número racional representado com **ponto fixo**:
a maior parte da magnitude dos números está capturada pelo _expoente_,
e ao usar ponto fixo num pequeno intervalo não há _tanta_ variação da precisão.

Este sistema se chama **ponto flutuante** porque a posição do ponto decimal varia de acordo com o expoente.
A grande vantagem deste sistema é que as operações aritméticas podem usar as partes do sistema que tratam de números inteiros,
apenas ajustando os números para "alinhar" os pontos decimais corretamente
(no caso de somas; os produtos dispensam isto porque a magnitude depende mais dos expoentes do que das mantissas!).


### Exercício

Repita a questão dos pontos fixos para pontos flutuantes:
1. estude sua amplitude (maior / menor) ;
1. o número de casas significativas (e o erro relativo);
1. e compare com o uso de pontos fixos para representar as constantes físicas.

Num computador, o sistema de representação binário para os inteiros sugere que o ponto flutuante também esteja "em base 2".
Assim, na verdade: um número em ponto flutuante (em base 2) é dado por
$$ mantissa \times 2^{expoente} \qquad \text{onde $1 \leq mantissa < 2$ e o $expoente$ é um número inteiro}. $$

Note que a menor amplitude da mantissa também nos dá uma menor variação do erro relativo no início e no fim da escala!
Uma outra apresentação para este sistema é a seguinte:
$$ \left[ 1 + \frac{inteiro}{den} \right] * 2^{expoente} \qquad \text{onde o denominador $den$ está fixo, $0 \leq inteiro < den$ e $expoente \in Z$.}$$
Nesta notação, é fácil ver que o erro relativo máximo será de $1/(2 * den)$, que é a **resolução** deste sistema de representação.

Este sitema ainda exige que se armazenem **duas** informações sobre o número real representado:
a parte fracionária determinada pelo número $inteiro$, e o $expoente$, também inteiro.

### Exercício

No seu computador, os "reais" de 64 bits usam 11 bits para o expoente e 52 bits para a mantissa, além de um bit de sinal.
Verifique (experimentalmente!) se os limites para o seu computador coincidem com os teóricos do exercício acima.