# 1.1 Conceitos básicos e Aritmética de Ponto Flutuante

## Introdução
De modo geral, a resolução de um problema de engenharia passa necessariamente por 3 etapas distintas
1. observação e entendimento do(s) fenômeno(s) envolvido(s);
2. construção de um modelo matemático que represente o problema;
3. a resolução do modelo matemático por métodos numéricos ou analíticos.

As duas primeiras etapas consistem na **fase de modelagem** e a terceira é a **fase de resolução**. Tanto na fase de modelagem quanto na fase de resolução podem ocorrer erros, mesmo que esses erros não tornem a resposta obtida inválida ou inútil. Em geral busca-se uma solução aproximada, dentro de uma precisão pré-estabelecida.

<img src="https://github.com/tiagoburiol/NUMETHODS/raw/master/1_INTRODUCAO_ERROS/imagens/erros.png" width="400">

Os erros na fase de modelagem podem ser decorrentes de medições imprecisas, erros de anotação, simplificações e deduções equivocadas. Os erros na fase de resolução ocorrem devido a erros de cálculo, escolha de um método ineficaz, aproximações numéricas ou arredondamentos. Dizemos que métodos analíticos de resolução geram soluções exatas e métodos numéricos geram soluções aproximadas. 

A maioria dos problemas envolvendo fenômenos reais produzem modelos matemáticos cuja solução analítica é difícil (ou impossível) de se obter, mesmo quando provamos que a solução existe. Nesses casos usamos **métodos numéricos**, os quais fornecem **soluções aproximadas**, que apesar de, em geral, serem diferentes da solução exata, podem ser suficientemete próximas para que sejam úteis em suas aplicações.  

Os métodos numéricos são especialmente úteis quando utilizamos computadores para realizar o processamento numérico. No entanto a representação de números reais nas máquinas é feita, geralmente, utilizando o sistema de ponto flutuante normalizado e base binária. Ou seja, os números reais são armazenados em um conjunto fixo de bits. Cada bit pode assumir somente dois valores, 0 ou 1 (corte ou passagem de energia, respectivamente). 

Por exemplo, o número $0.125$, na base decimal, pode ser escrito como 

$$0.125 = 1/10 + 2/100 + 5/1000$$

da mesma forma que a fração binária, de valor idêntico, $0.001$ pode ser escrita como 

$$ 0.001 = 0/2+0/4+1/8$$

em que os denominadores das parcelas são potencias de $2$.

No sistema de ponto flutuante normalizado (SPFN), um número é representado pela sua parte fracionária, expoente da base e sinal, como é ilustrado na figura abaixo

<img src="https://github.com/tiagoburiol/NUMETHODS/raw/master/1_INTRODUCAO_ERROS/imagens/floatstructure.png" width="360">

O padrão IEEE 754 é atualmente o mais utilizado para representar números reais. Na precisão  <span style="font-family: courier;">float</span> usa 32 bits, para a parte fracionária, 8 bits para o expoente e 1 bit para o sinal. Na precisão <span style="font-family: courier;">double</span>, usa 52 bits, para a parte fracionária, 11 bits para o expoente e 1 bit para o sinal, o que permite representar valores entre  $2^{-1022}$ até $2^{1023}$. Alguns exemplos de representações do numero zero, infinito e "não número".

<img src="https://github.com/tiagoburiol/NUMETHODS/raw/master/1_INTRODUCAO_ERROS/imagens/tabelafloat.gif" width="400">

Alguns exemplos de tipos de dados disponíveis no módulo numérico **Numpy** (numpy.org) são mostrados abaixo para o caso de um 

<img src="https://github.com/tiagoburiol/NUMETHODS/raw/master/1_INTRODUCAO_ERROS/imagens/datatypes.png" width="400">

Alguns números, como os irracionais ou a fração 1/3, por exemplo, têm representações fracionárias com infinitas casas decimais. Então, para serem computados precisam ser truncados ou arredondados. Além disso, alguns números com representação decimal finita, possuem representação binária infinita, e vice versa. Assim, erros de arredondamento podem ocorrer no processo de conversão entre bases e, também, nas operações aritméticas de ponto flutuante. 


## Conversão entre bases
Usualmente, utilizamos o sistema de numeração decimal para representar números. Esse é um sistema de numeração posicional onde a posição do dígito indica a potência de 10 que o dígito representa. Por exemplo, o número 293 é decomposto como 293 = 2 centenas +9 dezenas +  3 unidades. O sistema de numeração posicional também pode ser usado com outras bases. 

Dado um número real, $N$, é sempre possível representá-lo em qualquer base $b$, da seguinte forma

$$ N_b=\sum_{i=n}^m a_ i \times b^i$$

em que $a_i \in \{0,1,2,3,...,(b-1)\}$, com $n$ e $m$ inteiros.

### Base binária

$$ N_2=\sum_{i=n}^m a_ i \times 2^i, \,\,\,\,\ a_2 \in \{0,1\}$$

**Exemplos**

a) $(1011)_2 = 1 \times 2^0 + 1 \times 2^1 + 0 \times 2^2 + 1 \times 2^3$

b) $(111.01)_2 = 1 \times 2^{-2} + 0 \times 2^{-1} + 1 \times 2^0 + 1 \times 2^1 + 1 \times 2^2 $

### Base decimal

 $$ N_{10}=\sum_{i=n}^m a_ i \times 10^i, \,\,\,\,\ a_{10} \in \{0,1,2,3,...,9 \}$$

**Exemplos**

a) $(231)_{10} = 1 \times 10^0 + 3 \times 10^1 + 2 \times 10^2$

b) $(231.35)_{10} = 5 \times 10^{-2} +3\times 10^{-1} +1 \times 10^0 + 3 \times 10^1 + 2 \times 10^2$

c) Podemos facilmente converter um número binário para a base decimal

$(1001.101)_2 = $ 

$ 1\times 2^{-3} + 0\times 2^{-2} + 2\times 10^{-1} +1 \times 2^0 + 0 \times 2^1 + 0 \times 2^2 + 1 \times 2^3 = $ 

$ 1/8 + 0/4 + 1/2 + 1/1 + 0 \cdot 2 + 0 \cdot 4 + 1 \cdot 8 =$

$0.125+0.5+1.0+8.0 =$

$9.625$

Assim $(1001.101)_2 = (9,625)_{10}$.

Em Python existem funções para representar números em diferentes bases, incluindo os sistemas octogonal e hexadecimal. Para converter um inteiro em um binário, octal, ou hexadecimal, podemos proceder como é mostrado abaixo

In [9]:
x = 1234
print ('Binário:     x =', bin(x))
print ('Octal:       x =', oct(x))
print ('Hexadecimal: x =', hex(x))



Binário:     x = 0b10011010010
Octal:       x = 0o2322
Hexadecimal: x = 0x4d2


Ou, alternativamente

In [13]:
print ('Binário:     x =', format(x, 'b'))
print ('Octal:       x =', format(x, 'o'))
print ('Hexadecimal: x =', format(x, 'x'))

Binário:     x = 10011010010
Octal:       x = 2322
Hexadecimal: x = 4d2


## Aritmética de ponto Flutuante

Um número no Sistema de Ponto Flutuante (STF) é caracterizado por uma base $b$, um número de dígitos significativos $n$ e um expoente $exp$. Assim, dizemos que um número real $n_r$ está representado no SPF se estiver na forma 

$$ n_r = \pm 0.d_1 d_2 d_3...d_n \times b^{exp}$$

em que $m=d_1 d_2...d_n$ é a mantissa com $n$ dígitos significativos $d_1, d_2,...,d_n$ satisfazendo $0 \leq d_i \leq (b-1)$, $i=1,...,n$ e $d_1 \neq 0$.

O expoente $exp$ da base $b$ varia da seguinte maneira

$$ exp_{mín} \leq exp \leq exp_{máx}$$

sendo $ exp_{mín} \leq 0 $ e $exp_{máx} \geq 1$ com  $exp_{mín}$ e $exp_{máx}$ inteiros.

Considerando o sistema de ponto flutuante normalizado, na forma genérica $SPF(b,n,exp_{mín}, exp_{máx})$, temos que apenas um conjunto finito de números reais podem ser exatamente representados, tal que

a) o número zero é representado como:

$$ 0.000...0 \times b^{exp_{mín}}$$

b) o menor positivo exatamente representável é 

$$ 0.100...0 \times b^{exp_{mín}}$$

c) o maior positivo exatamente representável é 

$$ 0.(b-1)(b-1)(b-1)...(b-1) \times b^{exp_{máx}}$$

d) o número máximo de mantissas positivas possíveis é 

$$ mantissas_+ = (b-1)^{b-1}$$

e)