# Aritmetika računala i pogreške

## Apsolutna i relativna pogreška

Neka je $\alpha$ aproksimacija za $a$. Tada vrijedi

$$err=|a-\alpha| \\  relerr=\frac{err}{|a|}=\frac{|a-\alpha|}{|a|}.$$

In [1]:
# Probajte for α=a:0.01:2a
a=5.0
α=5.1
err=abs(a-α)
relerr=err/abs(a)
α, err, relerr

(5.1, 0.09999999999999964, 0.019999999999999928)

## Aritmetika s plivajućim zarezom

Korisna knjiga za IEEE Floating Point standard:

M. Overton, Numerical Computing with IEEE Floating Point Arithmetic, SIAM Publications, Philadephia, 2001.

Koristan članak: 

[David Goldberg, What Every Computer Scientist Should Know About Floating-Point Arithmetic](https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html).

### Brojevi s plivajućim zarezom

$x$ je broj s plivajućim zarezom ako ima oblik
$$
	x = \pm d \cdot \beta^e \quad \beta \in \{ 2,10 \}
$$

Baza 2 je za računala opće namjene, baza 10 je za džepne kalkulatore.

$e$ je eksponent i zadovoljava

$$
	e_{\min} \leq e \leq e_{\max}\quad,
	e_{\min} < 0 < e_{\max}
$$

Pretpostavit ćemo aritmetiku s bazom 2, ali će primjeri uglavnom biti u bazi 10.

Mantisa $d$ ima oblik

\begin{align*}
	d &= 0.d_1 \dots d_t = d_1 \beta^{-1} + d_2 \beta^{-2}
	+ \dots + d_t \beta^{-t}\\
d_i  &\in \{ 0,1\}\\
	d_1 &= 1 \qquad \mbox{ normalizirana }   \\
	d_1 &= 0 \qquad \mbox{ nenormalizirana }   \\
\end{align*}

Standardni oblik brojeva s plivajućim zarezom je normaliziran, osim pri dnu raspona eksponenata. 

Prilikom ulaza i izlaza brojevi se konvertiraju iz binarnog u decimalni zapis i natrag.

Aritmetika računala je standardizirana kroz IEEE 754 standard za binarnu aritmetiku.  
Svi osim nekolicine modernih računala prate ovaj standard.

### Točnost stroja 

_Točnost stroja_ (eng. _machine precision_) je najmanji broj $\epsilon$ takav da je $1+\epsilon\neq 1$ 

$$
	\epsilon = \max_{\lfloor \log_2 
    \:|x|\rfloor \in
	[e_{\min},e_{\max}]} \frac{|x - fl(x)|}{|x|}  = 2^{-t}
$$

Skup

$$
\{ x \colon \lfloor \log_2 \: |x| \rfloor \in [e_{min},e_{max}] \}
$$

je skup svih brojeva unutar normaliziranog raspona brojeva s plivajućim zarezom.
$fl(x)$ je $x$ zaokružen na najbliži broj s plivajućim zarezom. Prema tome, _točnost stroja_ je 
najveća relativna udaljenost između realnog broja koji se nalazi u rasponu brojeva s plivajućim zarezom i najbližeg broja s plivajućim zarezom.

Važni primjeri su

_IEEE standardna jednostruka točnost_ (`Float32`):  $\beta = 2$, $t = 24$,

\begin{align*}
	\epsilon_M  &= 2^{-24} \approx	5.9605 \times 10^{-8}\\
	e_{\min} &= - 126,\quad e_{\max} = 128.
\end{align*}


_IEEE standardna dvostruka točnost_ (`Float 64`): $\beta =2$, $t = 53$,

\begin{align*}
	\epsilon &= 2^{-53} \approx 1.1102 \times 10^{-16}\\
    e_{\min} &= -1022,\quad e_{\max} = 1024
\end{align*}

Izračunajmo točnost stroja kao najmanji pozitivni broj $\epsilon$ takav da je $1+\epsilon\neq 1$:

In [2]:
b=1.0
a=2.0
while (b+a)!=b
    a=a/2
    println(a)
end

1.0
0.5
0.25
0.125
0.0625
0.03125
0.015625
0.0078125
0.00390625
0.001953125
0.0009765625
0.00048828125
0.000244140625
0.0001220703125
6.103515625e-5
3.0517578125e-5
1.52587890625e-5
7.62939453125e-6
3.814697265625e-6
1.9073486328125e-6
9.5367431640625e-7
4.76837158203125e-7
2.384185791015625e-7
1.1920928955078125e-7
5.960464477539063e-8
2.9802322387695312e-8
1.4901161193847656e-8
7.450580596923828e-9
3.725290298461914e-9
1.862645149230957e-9
9.313225746154785e-10
4.656612873077393e-10
2.3283064365386963e-10
1.1641532182693481e-10
5.820766091346741e-11
2.9103830456733704e-11
1.4551915228366852e-11
7.275957614183426e-12
3.637978807091713e-12
1.8189894035458565e-12
9.094947017729282e-13
4.547473508864641e-13
2.2737367544323206e-13
1.1368683772161603e-13
5.684341886080802e-14
2.842170943040401e-14
1.4210854715202004e-14
7.105427357601002e-15
3.552713678800501e-15
1.7763568394002505e-15
8.881784197001252e-16
4.440892098500626e-16
2.220446049250313e-16
1.1102230246251565e-16


MATLAB naredba `eps` i Julia funkcija `eps()` daju $2.2204 \times
10^{-16}$, što je najveći relativni razmak između dva broja s plivajućim zarezom.
Lako se može zaključit da je taj broj $2\epsilon_M$.

In [3]:
eps()

2.220446049250313e-16

In [4]:
# Što je ovo?
eps(200.0)

2.842170943040401e-14

Julia posebno ima sustav tipova podataka, gdje je tip `Float64` pod-tip tipa `AbstractFloat`, koji ima četiri pod-tipa. Uz standardne tipove `Float64` i `Float32`, tu su i tip `Float16` koji koristi samo dva bajta računalne memorije i tip `BigFloat` čija mantisa ima 256 bitova.

In [5]:
supertype(Float64)

AbstractFloat

In [6]:
subtypes(AbstractFloat)

4-element Array{Any,1}:
 BigFloat
 Float16 
 Float32 
 Float64 

In [7]:
for T in (Float16, Float32, Float64, BigFloat)
    println(eps(T))
end

0.000977
1.1920929e-7
2.220446049250313e-16
1.727233711018888925077270372560079914223200072887256277004740694033718360632485e-77


In [8]:
2^(-10), 2^(-23), 2^(-52), 2^(-255)

(0.0009765625, 1.1920928955078125e-7, 2.220446049250313e-16, 1.727233711018889e-77)

### Osnovne operacije s plivajućim zarezom

Započnimo s četiri osnovne operacije, zbrajanjem ($+$), oduzimanjem ($-$), moženjem ($*$) i
dijeljenjem ($/$). Neka je $\odot$ operacija tako da je

$$
\odot \in \{ + , - , *,/\}.
$$

Tada je u aritmetici plivajućeg zareza s točnošću stroja $\epsilon$ razumno očekivti da za svaka dva 
broja s plivajućim zarezom $x$ i $y$ vrijedi

$$
fl(x\odot y) = (x \odot y)\;(1 + \xi),\quad
|\xi| \leq \epsilon.
$$

Prilikom dijeljenja pretpostavljamo $y \neq 0$.
Svako računalo koje (deklarirano) koristi IEEE starndard treba poštovati ovo pravilo.
Zaokruživanje je jedno ograničenje aritmetike s plivajućim zarezom koje ne postoji u realnoj aritmetici. Iz prethodnog pravila lako zaključujemo da će, kad zbrajamo brojeve istog predznaka, množimo i dijelimo, rezulat dobiven pomoću aritmetike plivajućeg zareza skoro uvijek biti vrlo blizu odgovarajućeg rezultata u realnoj aritmetici. Poteškoće nastaju kada su $x$ ili $x$ zaokruženi i imaju različite predznake pa ih zbrajamo, ili kada imaju isti predznak pa ih oduzimamo. 

Pretpostavimo da je 

$$
\tilde{x}= x(1+\delta_x), \quad \tilde{y} = y(1+\delta_y),
$$

gdje su $x$ and $y$ točni realni rezultati nekog izračuna, a  $\tilde{x}$ and $\tilde{y}$ su  zaokruženi rezultati izračunati u aritmetici plivajućeg zareza s $|\delta_x|,|\delta_y| \leq \delta$ za neki mali $\delta$. Pretpostavimo da $x$ i $y$ imaju ist predznak. Neka je

$$
z=x-y,\quad  \tilde{z} = fl(\tilde{x} -\tilde{y}).
$$

Vrijedi

\begin{align*}
\tilde{z} &=(\tilde{x}-\tilde{y})(1+\xi)= x(1+\delta_x)(1+\xi) -y(1+\delta_y)(1+\xi) 
=x-y + \delta_z,
\end{align*}

gdje je $|\xi| \leq \epsilon$ i 

$$
\delta_z = (x-y)\xi + (x\delta_x -y\delta_y)(1+\xi).
$$

Najbolja moguća međa za $|\delta_z|$ je

\begin{align*}
|\delta_z| &\leq |x-y||\xi| + (|x||\delta_x| + |y||\delta_y|)(1+|\xi|) \\
& \leq |x-y| \epsilon + (|x|+|y|)\,\delta\,(1+\epsilon).
\end{align*}

Dakle, 

\begin{align*}
|\delta_z| &= \frac{|\tilde{z}-z|}{|z|}
\leq \epsilon + (1+\epsilon)\,\delta\,\frac{|x|+|y|}{|x-y|}.
\end{align*}

Ako je $|x-y| \ll |x|+|y|$, posljedice zaokruživanja prilikom oduzimanja su zanemarive, ali 
pogreške u prethodnim računanjima $x$ i $y$ mogu imati značajan utjecaj. Taj efekt se zove _propagacija_ ili _katastrofalno kraćenje_ i može drastično promijeniti rezulat izračuna! Na kraju bilježnice dat ćemo primjere. 

Zaokruživanje je prvo značajno ograničenje aritmetike s plivajućim zarezom. Drugo ograničenje su rasponi brojeva. 

### Rasponi brojeva

Aritmietika s plivajućim zarezom ima najvaći i najmanji broj. 
Promotrimo prvo najveći broj. 

__Najveći broj u računalu__

U bazi $2$ s mantisom koja ima  $t$ bitova najveći broj je

$$
	\Omega = (1 - 2^{-t}) \cdot 2^{e_{\max}}
$$

Brojevi veći od $\Omega$ (kažemo da nastaje _pretek_ ili eng. _overflow_) spremaju se kao `Inf` ($\infty$) ili `-Inf` ($-\infty$).


_IEEE standardna jednostruka točnost_ (`Float32`):

$$
e_{\max} = 128,  \quad \Omega = 3.4028\approx 10^{38}
$$žan fini detalj


_IEEE standardna dvostruka točnost_ (`Float64`):

$$
e_{\max} = 1024, \quad \Omega = 1.79777 \times 10^{308}
$$

MATLAB naredba `realmax` i Julia funkcija `floatmax()` prikazuju ovaj broj.

__Najmanji broj u računalu__

Definicija najmanjeg broja je nešto složenija.

Najmanji broj u računalu je

$$
\omega = 2^{1-t} 2^{e_{\min}}.
$$

Ako izračun daje broj koji je po apsolutnoj vrijednosti manji od $\omega$, nastaje _podtek_ (eng. _underflow_) i broj se stavlja na $0$ ili $-0$. 
Programer može odabrati i da podtek javlja grešku, ali u većini izračuna podtek nije škodljiv. 


_IEEE standardna jednostruka točnost_ (`Float32`):

$$
\omega = 2^{-23- 126} = 2^{-149} \approx  1.4013 \times 10^{-45}.
$$

Odgovarajuća MATLAB naredba je `omega= eps('single')*realmin('single')`.


_IEEE standardna dvostruka točnost_ (`Float64`):

$$
\omega= 2^{-1022-52} = 2^{-1074} \approx  4.9407 \times 10^{-324}
$$

Ovu vrijednost daju MATLAB naredba 
`omega = eps*realmin` i Julia naredba `floatmin()*eps()`.


_Važan fini detalj_ 

Brojevi pri dnu raspona eksponenata su normalizirani. 
MATLAB funkcija `realmin` daje 

$$
\omega_{koristan} \approx 2.2251 \times 10^{-308}.
$$

Ovaj broj možemo smatrati najmanjim KORISNIM brojem u aritmetici s plivajućim zarezom jer je 

$$
1/\omega_{koristan} \leq \Omega,
$$

pri čemu je $\omega_{koristan}$ normaliziran.

Najmanji broj s plivajućim zarezom, $\omega$, ima oblik

$$
0.0 \cdots 01 \times 2^{e_{\min}} \quad \cdots\quad
\mbox{postepeni podtek}
$$

Prije IEEE standarda kod većine računala je najmanji broj bio
$$
	0.10 \cdots 0 \times 2^{e_{\min}} \qquad \cdots
	\mbox{ normaliziran}
$$

Starija računala (prije 1985) su brojeve manje od najmanjeg korisnog broja postavljala na nulu, što je IEEE standard promijenio. 
Sledeći primjer ilustrira razlog the promjene:

__Primjer__ $\beta = 10$, $-5 \leq e \leq 5$

\begin{eqnarray*}
	x & = 0.1957 \times 10^{-5}   \\
	y & = 0.1942 \times 10^{-5}
\end{eqnarray*}

Izračunajmo  $fl(x - y)$. Što se događa?

$$
0.1957 \times 10^{-5}-0.1942 \times 10^{-5}  =0.0015 \times 10^{-5}
$$

Filozofija starijih računala je bila staviti $fl(x - y)=0$.

Postepeni podtek računa  $fl(x - y)=0.0015 \times 10^{-5}$, odnosno postepeni podtek garantira da za bilo koja dva broja s plivajućim zarezom vrijedi

$$
fl(x - y) = 0 \mbox{ ako i samo ako je } x = y.
$$

In [9]:
for T in (Float16, Float32, Float64, BigFloat)
    println((floatmin(T),floatmax(T)))
end

(Float16(6.104e-5), Float16(6.55e4))
(1.1754944f-38, 3.4028235f38)
(2.2250738585072014e-308, 1.7976931348623157e308)
(8.50969131174083613912978790962048280567755996982969624908264897850135431080301e-1388255822130839284, 5.875653789111587590936911998878442589938516392745498308333779606469323584389875e+1388255822130839282)


In [10]:
1/floatmin(),floatmax()

(4.49423283715579e307, 1.7976931348623157e308)

In [11]:
for T in (Float16, Float32, Float64)
    println((floatmin(T)*eps(T)))
end

6.0e-8
1.0e-45
5.0e-324


###  Posebne vrijednosti (_special quantities_) $0$, $-0$, `Inf` i `NaN`

Nula ima predznak:

In [12]:
a=1.0
b=0.0
c=-b
c,b==c

(-0.0, true)

In [13]:
d=a/b
e=a/c
d==e, 1/d==1/e

(false, true)

In [14]:
b/c

NaN

In [15]:
bitstring(0)

"0000000000000000000000000000000000000000000000000000000000000000"

In [16]:
bitstring(1)

"0000000000000000000000000000000000000000000000000000000000000001"

In [17]:
bitstring(0.0)

"0000000000000000000000000000000000000000000000000000000000000000"

In [18]:
bitstring(-0.0)

"1000000000000000000000000000000000000000000000000000000000000000"

In [19]:
bitstring(1.0)

"0011111111110000000000000000000000000000000000000000000000000000"

__Zadatak.__ Objasnite prethodne binarne zapise. 

### Primjeri

__Korištenje razlike kvadrata__

Izračunajmo 

$$
f(x) = \sqrt{1 + x^2} - 1, \quad \mbox{$x$ je blizu nule}.
$$

Korištenje gornje formule u standradnoj dvostrukoj točnosti daje 
$f(10^{-12}) = 0$.

In [20]:
f(x)=sqrt(1+x^2)-1
x=1e-6
for k=1:4
    println((x,f(x)))
    x=x/10
end

(1.0e-6, 5.000444502911705e-13)
(1.0e-7, 4.884981308350689e-15)
(1.0e-8, 0.0)
(1.0e-9, 0.0)


Trika s razlikom kvadrata daje

\begin{eqnarray*}
f(x) & \equiv (\sqrt{1 + x^2} - 1) \left( \frac{\sqrt{1 + x^2} + 1}{\sqrt{1 + x^2} + 1}\right) \\
& = \frac{x^2}{\sqrt{1+x^2} + 1}\equiv f_1(x),
\end{eqnarray*}

odnosno $f_1(10^{-12}) = 0.5 \cdot 10^{-24}$. Ovaj odgovor je točan koliko možemo 
očekivati u standardnoj svotrukoj točnosti.

In [21]:
f₁(x)=x^2/(1+sqrt(1+x^2))
x=1e-6
for k=1:10
    println((x, f₁(x)))
    x=x/10
end

(1.0e-6, 4.99999999999875e-13)
(1.0e-7, 4.999999999999987e-15)
(1.0e-8, 5.0000000000000005e-17)
(1.0e-9, 5.0e-19)
(1.0e-10, 5.0000000000000005e-21)
(1.0000000000000001e-11, 5.000000000000001e-23)
(1.0000000000000002e-12, 5.000000000000001e-25)
(1.0000000000000002e-13, 5.0000000000000016e-27)
(1.0000000000000002e-14, 5.0000000000000015e-29)
(1.0e-15, 5.0e-31)


__Kvadratna jednadžba__

U egzaktnoj aritmetici kvadratna jednadžba

$$ ax^2 + bx+c=0$$

ima rješenja

\begin{align*}
x_1&=\frac{-b-\sqrt{b^2-4ac}}{2a} \\
x_2&\equiv\frac{-b+\sqrt{b^2-4ac}}{2a}= \frac{-b+\sqrt{b^2-4ac}}{2a}\cdot \frac{-b-\sqrt{b^2-4ac}}{-b-\sqrt{b^2-4ac}}
\\ &= \frac{2c}{-b-\sqrt{b^2-4ac}}\equiv x_3.
\end{align*}

In [22]:
a=2.0
b=123456789.0
c=4.0

x₁=(-b-sqrt(b*b-4*a*c))/(2.0*a)
x₂=(-b+sqrt(b*b-4*a*c))/(2.0*a)
x₃=(2*c)/(-b-sqrt(b*b-4*a*c))
x₁,x₂,x₃

(-6.172839449999997e7, -3.3527612686157227e-8, -3.240000029484002e-8)

Provjerimo s `BigFloat`:

In [23]:
a=BigFloat(a)
b=BigFloat(b)
c=BigFloat(c)
x₂=(-b+sqrt(b*b-4*a*c))/(2.0*a)

-3.240000029484001968915648868258452417675753633383540995167795107129921671968718e-08

__Tangens i sinus__

In [24]:
x=1e-10
tan(x)-sin(x)

0.0

Međutim,
trignometrijski indentiti daju:

\begin{align*}
\tan x - \sin x & = \tan x (1 - \cos x ) 
= \tan x (1-\cos x)\frac{1+\cos x}{1+\cos x}\\ & = \tan x \frac{1-\cos^2 x}{1+\cos x} \\
&= \tan x \sin^2 x \frac{1}{1+\cos x},
\end{align*}

a Taylorova formula daje:

\begin{align*}
\tan x &= x + \frac{x^3}{3} + \frac{2x^5}{15} + O(x^7) \\
\sin x &= x -\frac{x^3}{6} + \frac{x^5}{120}+O(x^7) \\
\tan x - \sin x &= \frac{x^3}{2} + \frac{7x^5}{120} +O(x^7)
\end{align*}

Obe formule daju potpuno točan rezultat:

In [25]:
tan(x)*sin(x)^2/(1+cos(x)), x^3/2+7*x^5/120

(5.0e-31, 5.0e-31)

__Apsolutna vrijednost kompleksnog broja__

Da bi izbjegli podtek ili pretek, umjesto standardne formule 

$$
|z|=|x+iy|=\sqrt{x^2+y^2}
$$

trebamo koristiti sljedeće formule (objasnite):

$$
M = \max \{ |x|,|y|\}, \quad m = \min \{ |x|,|y| \}, \quad r = \frac{m}{M}, \quad 
|z| = M \sqrt{1+r^2}.
$$

In [26]:
z=2e-170+3e-175*im

2.0e-170 + 3.0e-175im

In [27]:
sqrt(real(z)^2+imag(z)^2), abs(z)

(0.0, 2.000000000225e-170)