# Greške numeričkih algoritama, Komjuterska reprezetnacija brojeva, Značajne cifre

#### Prilikom korišćenja numeričkih algoritama kao rezultat dobijamo aproksimaciju tačnog rešenja, odnosno približno rešenje. Greška je vrednost za koju se približno rešenje razlikuje od tačnog rešenja. Za početak ćemo definisati greške numeričkih algoritama koje možemo da izračunamo samo ako imamo tačno rešenje.

## Prava greška

#### Prvi i osnovni tip greške je prava greška (*true error*). Ona predstavlja razliku između rešenja dobijenog numeričkom metodom $x_A$ i tačnog rešenja $x_T$:
#### $$E_T=x_T-x_A$$
#### Veoma često nam nije značajan znak, već samo vrednost greške, pa tada koristimo apsolutnu pravu grešku (*absolute true error*):
#### $$E_T=|x_T-x_A|$$
#### Različite tipove grešaka u ovom poglavlju demonstriraćemo na primeru određivanja prvog izvod pomoću numeričke metode. Postoji nekoliko formula za određivanje numeričkog prvog izvoda. Koristimo centralnu razliku:
#### $$f'(x)\approx \frac{f(x+h)-f(x-h)}{2h}$$
#### Radi jednostavnosti određivaćemo prvi izvod polinoma $4x^3–2x^2+3x+1$ u tački $x=1$. Analtičko rešenje je:
#### $$f'(x)=12x^2-4x+3⇒f'(1)=12-4+3=11=x_T$$
#### Za numeričko rešenje koristimo $h=0.5$, i dobijamo ga na sledeći način:
#### $$f'(1)≈\frac{f(1+0.5)-f(1-0.5)}{2 \cdot 0.5}=\frac{f(1.5)-f(0.5)}{1}=12$$
#### Na osnovu formule za pravu i apsolutnu pravu grešku imamo:
#### $$E_T=x_T-x_A=11-12=-1$$
#### $$E_T=|11-12|=1$$


## Relativna greška
#### Vrednost prave greške izražena je u jedinicama u kojima se meri vrednost rešenja. Ponekad nam na osnovu same vrednosti nije lako da odredimo da li je greška koju smo dobili mala ili velika. Iz tog razloga koristimo relativnu grešku (*relative error*): 
#### $$E_R=\frac{x_T-x_A}{x_T}$$ 
#### Kao i kod prave greške, možemo koristiti i apsolutnu vrednost:
#### $$E_R=\frac{|x_T-x_A|}{|x_T|}$$
#### Relativna greška se može posmatrati kao udeo prave greške u tačnom rešenju, odnosno meri koliko puta se vrednost prave greške pojavljuje u tačnom rešenju. Na primer ako je prava greška 5, a tačna vrednost 10, udeo prave greške je 0.5. Ako nam je to od značaja, vrednost relativne greške možemo pomnožiti sa 100% i tako dobiti grešku u procentima.
#### Relativnu grešku demonstriramo pomoću prethodnog primera.
#### Ako znamo da je $x_T=11$, a $x_A=12$, relativna greška je:
#### $$E_r=\frac{11-12}{11}=-0.0909 ⇒ E_r \cdot 100\% =-0.0909 \cdot 100\% =-9.0909\%$$

## Aproksimirana greška
#### Prirodna siutacija prilikom koje koristimo numeričke algoritme je rešavanje problema kod kojih nemamo unapred poznato tačno rešenje. Kod ovakvih slučajeva ne možemo da izračunamo pravu greška, pa iz tog razloga definišemo aproksimiranu grešku (*approximate error*):
#### $$E_A=x_i-x_{i-1}$$
#### , gde je $i$ indeks koji označava iteraciju. 
#### Aproksimirana greška je razlika između rešenja koje imamo u trenutnoj iteraciji (sa indeksom $i$)  i rešenja koje smo dobili u prethodnoj iteraciji (sa indeksom $i–1$). Kao i kod prave greške, možemo koristiti apsolutnu vrednost i takođe definisati i relativnu aproksimiranu grešku:
#### $$E_{AR}=\frac{|x_i-x_{i-1}|}{|x_i|}$$
#### Za izračunavanje aproksimirane greške ne moramo imati iterativni algoritam, važno je samo da na neki način možemo da izračunamo više potencijalnih rešenja problema koji rešavamo. Na primer, za određivanje prvog izvoda pomoću centralne razlike dva potencijalna rešenja možemo dobiti tako što koristimo $h=0.5$ i $h=0.25$:
#### Sa indeksom jedan označićemo rešenje koje smo dobili primenom centralne razlike za $h=0.5$, odnosno $x_1=12$. Sada izračunavamo rešenje za $h=0.25$:
#### $$f'(1)≈\frac{f(1+0.25)-f(1-0.25)}{2 \cdot 0.25}=\frac{f(1.25)-f(0.75)}{0.5}=11.25$$
#### Dobijeno rešenje označavamo sa indeksom $2$ tj. $x_2=11.25$. Sada izračunavamo aproksimiranu i relativnu aproksimiranu grešku, koristićemo i apsolutnu vrednost:
#### $$E_A=|x_i-x_{i-1}|=|x_2-x_1 |=|11.25-12|=0.75$$
#### $$E_{AR}=\frac{|x_i-x_{i-1}|}{|x_i|}=\frac{0.75}{11.25}=0.0667 \cdot 100 \%=6.667\%$$
#### Sa obzirom na to da nam tačno rešenje nije poznato, aproksimirana greška nije adekvatna zamena za procenu tačnosti algoritma, ali nam može reći nešto o ponašanju algoritma. Uz pretpostavku da naš algoritam konvergira, pomoću aproksimirane greške možemo da saznamo koliko se rešenje promenilo u odnosu na prethodnu iteraciju. Ako je ta promena veoma mala, možemo zaustaviti algoritam jer nam naredne iteracije neće mnogo povećati kvalitet rešenja. 
#### Ako sa ε označimo vrednost pomoću koje definišemo malu promenu onda alogritam zaustavljamo ako važi:
#### $$E_A=|x_i-x_{i-1}|<ε$$


## Izvori grešaka
#### Do sada smo se bavili načinima za merenje grešaka numeričkih algoritama, ali nismo naveli uzroke za njihovo nastajanje. Ako izuzmemo greške mernih instrumenata, kao i ljudske greške, postoje dva osnovna izvora grešaka numeričkih algoritama:
#### 1.Greške odbacivanja (*truncation errors*) koje nastaju kao posledica korišćenja pojednostavljenih matematičkih izraza ili formula. Na primer korišćenjem samo prva dva člana Tejlorovog razvoja kako bi aproksimirali vrednost neke funkcije u tački.  
#### 2.Greške zaokruživanja (*roundoff errors*) koje su rezultat zaokruživanja brojeva zbog ograničenog kapaciteta računara za njihovo smeštanje.
#### Ukupna greška koja nastaje upotrebom numeričkih alogritama na računaru je zbir greške odbacivanja i greške zaokruživanja. U nastvaku ćemo detaljno objasniti oba tipa grešaka.

## Greška odbacivanja
#### Greška odbacivanja nastaje kada koristimo aproksimaciju nekog matematičkog izraza ili formule umesto kompetnog izraza (formule). Tipičan primer za ovu vrstu greške je korišćenje Tejlorovog razvoja.
#### Može se pokazati da se funkcija $sin(x)$ može za prozivoljno x aproksimirati pomoću sledećeg razvoja:
#### $$sin(x)=x-\frac{1}{3!}x^3+\frac{1}{5!}x^5-\frac{1}{7!}x^7+⋯$$
#### Recimo da želimo da koristimo samo prva dva člana Maklorenovog razvoja za sin(x). Tada je greška odbacivanja jednaka:
#### $$E_{TR}=|sin(x)-x-\frac{1}{3!}x^3|$$
#### Na primer za $x=\frac{π}{2}$ imamo:
#### $$E_{TR}=|sin(\frac{π}{2})-\frac{π}{2}-\frac{1}{3!}(\frac{π}{2})^3 |=|1-0.9248|=0.0752$$

## Greške zaokruživanja
#### Greške zaokruživanja su posledica korišćenja računara za izvršavanje numeričkih algoritama. Računari imaju ograničen kapacitet za smeštanje brojeva. To znači da prilikom smeštanja brojeva na računar moramo da vršimo odgovarajuća zaokruživanja koja onda rezultuju gubitkom informacija.

## Reprezentacija brojeva na računaru
#### Ljudi najčešće koriste dekadnu reprezentaciju, odnosno reprezentaciju sa osnovom 10. Svaki realan broj reprezentujemo pomoću cifara čije pozicije odgovaraju stepenima broja 10. Na primer, broj 345.28 reprezentuje se kao:
#### $$345.28=3\cdot 10^2+3\cdot 10^1+5\cdot 10^1+2\cdot 10^{-1}+8\cdot 10^{-2}$$
#### Međutim, računari ne koriste dekadni zapis već binarni. Svaki broj se reprezentuje pomoću cifara 0 i 1, a pozcija cifre odgovara stepenu broja 2. Na primer, binarna reprezentacija broja 14.6250 je:
#### $$ (1110.101)_2=(1\cdot 2^3+1\cdot 2^2+1\cdot 2^1+0\cdot 2^0+1\cdot 2^{-1}+0\cdot 2^{-2}+1\cdot 2^{-3})_{10}$$


## Konverzija celog broja u binaran
#### Algoritam za konverziju celog broja u binaran je veoma jednostavan i oslanja se na ostatak pri deljenju sa brojem 2.

# <center><img src="int2bin.png" width="400" height="400"></center>

#### Važno je napomenuti da se svaki ceo broj pomoću prikazanog algoritma može konvertovati u binaran. U nastavku je dat jedan primer.

# <center><img src="int2bin_primer.png" width="300" height="300"></center>

## Konverzija broja nakon decimalne tačke u binaran
#### Proces konverzije broja nakon decimalne tačke u binaran je drugačiji u odnosu na konverziju celog broja. Alogritam koristi množenje sa dva, kao i razdvajanje relanog broja na broj pre i posle decimalne tačke.

# <center><img src="real2bin.png" width="400" height="400"></center>

#### Primer konverzije broja 0.6250 dat je u nastavku.

# <center><img src="real2bin_primer.png" width="600" height="600"></center>

#### Za razliku od celih brojeva, kod kojih se algoritam konverzije uvek završava, odnosno uslov zaustavljanja uvek bude zadovoljen, to nije slučaj za brojeve iza decimalne tačke. Postoji određen broj vrednosti kod kojih algoritam za konverziiju neće terminirati. Kao primer konvertovaćemo broj 0.1 u binaran.

# <center><img src="real2bin_primer01.png" width="600" height="600"></center>

#### Implementaciju konverzije decimalnog broja u binaran prikazujemo iz dva dela. Prvo prikazujemo koverziju dela pre decimalne tačke, pa onda dela nakon decimalne tačke.
#### Za prvi deo konverzije potrebno je primetiti da ako na primer konvertujemo broj 8 da je ((8/2)/2)/2 isto što i 8/2^3, što je isto što i 8*2^-3.
#### Tehnički detalji implemtacije dati su u vidu komentara u samom kodu.

In [1]:
import numpy as np

a = 8 #broj koji se konvertuje
n = 4 #broj bitova za celobrojni deo (pre decimalne tačke) 
m = 0 #broj bitova za razlomački deo (posle decimalne tačke)

# binaran broj
d2b = np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2))
print(d2b)

[1. 0. 0. 0.]


In [2]:
#svaki korak koverzije je prikazan posebno
print('Vrednosti na koje stepenujemo broj 2:')
print(np.arange(-(n-1),m+1))
print('Vrednosti stepenovanja broja 2:')
print(np.power(2.,np.arange(-(n-1),m+1)))
print('Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:')
print(a*np.power(2.,np.arange(-(n-1),m+1)))                                #((8/2)/2)/2=1, a to je isto sto i 8/2^3 ili 8*2^-3, dok je rem(((8/2)/2)/2,2)=1
print('Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:')
print(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2))                #((8/2)/2)/2=1, a to je isto sto i 8/2^3 ili 8*2^-3, dok je rem(((8/2)/2)/2,2)=1
print('Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:')
print(np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2)))

Vrednosti na koje stepenujemo broj 2:
[-3 -2 -1  0]
Vrednosti stepenovanja broja 2:
[0.125 0.25  0.5   1.   ]
Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:
[1. 2. 4. 8.]
Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:
[1. 0. 0. 0.]
Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:
[1. 0. 0. 0.]


In [3]:
a = 14
n = 4
m = 0
print('Vrednosti na koje stepenujemo broj 2:')
print(np.arange(-(n-1),m+1))
print('Vrednosti stepenovanja broja 2:')
print(np.power(2.,np.arange(-(n-1),m+1)))
print('Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:')
print(a*np.power(2.,np.arange(-(n-1),m+1)))
print('Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:')
print(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2))
print('Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:')
print(np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2)))

Vrednosti na koje stepenujemo broj 2:
[-3 -2 -1  0]
Vrednosti stepenovanja broja 2:
[0.125 0.25  0.5   1.   ]
Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:
[ 1.75  3.5   7.   14.  ]
Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:
[1.75 1.5  1.   0.  ]
Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:
[1. 1. 1. 0.]


#### U nastavku je dato nekoliko izraza kao pomoć za razumevanje konverzije dela broja posle decimalne tačke. 
#### Može se videti da se cifre rezultujućeg binarnog broja poklapaju u prvom postupku, koji smo opisali pomoću dijagrama i tabele i u drugom koji smo sada implementirali.

In [4]:
print(0.625*2)
print(0.25*2)
print(0.5*2)

1.25
0.5
1.0


In [5]:
print(np.fix(np.remainder(0.625*2,2)))
print(np.fix(np.remainder(0.25*2,2)))
print(np.fix(np.remainder(0.5*2,2)))

1.0
0.0
1.0


In [6]:
print(0.625*2)
print(0.625*2*2)
print(0.625*2*2*2)

1.25
2.5
5.0


In [7]:
print(np.fix(np.remainder(0.625*2,2)))
print(np.fix(np.remainder(0.625*2*2,2)))
print(np.fix(np.remainder(0.625*2*2*2,2)))

1.0
0.0
1.0


In [8]:
a = 0.625
n = 0
m = 4
print('Vrednosti na koje stepenujemo broj 2:')
print(np.arange(-(n-1),m+1))
print('Vrednosti stepenovanja broja 2:')
print(np.power(2.,np.arange(-(n-1),m+1)))
print('Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:')
print(a*np.power(2.,np.arange(-(n-1),m+1)))                                 #za pozitivne stepene broja 2 imamo na primer: ((0.625*2)*2)*2=0.625*2^3 
print('Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:')
print(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2))
print('Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:')
print(np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2)))

Vrednosti na koje stepenujemo broj 2:
[1 2 3 4]
Vrednosti stepenovanja broja 2:
[ 2.  4.  8. 16.]
Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:
[ 1.25  2.5   5.   10.  ]
Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:
[1.25 0.5  1.   0.  ]
Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:
[1. 0. 1. 0.]


In [9]:
2**-1+0+2**-3+0

0.625

#### Sada kada smo objasnili dva algoritma koji su nam potrebni da bi konvertovali realan broj u binaran, ostaje nam da izvršimo kompletnu konverziju vrednosti 14.6250 koju smo koristili kao primer:
#### $$(14)_{10}=(1110)_2$$
#### $$(0.6250)_{10}=(0.101)_2$$
#### $$(14.6250)_{10}=(1110.101)_2$$

In [10]:
a = 14.625
n = 4
m = 4
print('Vrednosti na koje stepenujemo broj 2:')
print(np.arange(-(n-1),m+1))
print('Vrednosti stepenovanja broja 2:')
print(np.power(2.,np.arange(-(n-1),m+1)))
print('Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:')
print(a*np.power(2.,np.arange(-(n-1),m+1))) 
print('Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:')
print(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2))
print('Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:')
print(np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2)))

Vrednosti na koje stepenujemo broj 2:
[-3 -2 -1  0  1  2  3  4]
Vrednosti stepenovanja broja 2:
[ 0.125  0.25   0.5    1.     2.     4.     8.    16.   ]
Broj koji se konvertuje pomnožen vrednostima stepenovanja broja 2:
[  1.828125   3.65625    7.3125    14.625     29.25      58.5
 117.       234.      ]
Ostatak pri deljenju sa 2, vrednosti stepenovanja broja 2:
[1.828125 1.65625  1.3125   0.625    1.25     0.5      1.       0.      ]
Prva cifra pre decimalne tacke ostataka iz prethodnog koraka:
[1. 1. 1. 0. 1. 0. 1. 0.]


In [11]:
2**3+2**2+2**1+0+2**-1+0+2**-3+0

14.625

#### Prikazujemo konverziju broja 0.1 kod koje možemo da primetimo da koliko god povećavali broj bitova za razlomački deo algoritam konverzije nikad nije završen. Na primer, niz bitova 110011 se stalno ponavlja.

In [12]:
a = 0.1 #broj koji se konvertuje
n = 16 #broj bitova za celobrojni deo (pre decimalne tačke) 
m = 25 #broj bitova za razlomački deo (posle decimalne tačke)

# binaran broj
d2b = np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2))
print(d2b)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1.
 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 1. 1.]


## Pokretni zarez (floating point) reprezentacija
#### Reprezentacija realnih brojeva pomoću pokretnog zareza ima za cilj da postigne ravnotežu između raspona (*range*) i preciznosti (*precision*). Raspon se odnosi na što veći spektar brojeva, od jako malih do jako velikih. Preciznost je vezana za mogućnost reprezentovanja što više značajnih cifara broja. 
#### Opšti oblik broja u pokretnom zarezu sastoji se do:
#### $$znak\cdot mantisa\cdot {baza}^{eksponent}$$
#### $$σ\cdot m\cdot b^e$$
#### , gde znak određuje da li repezentujemo pozitivan ili negativan broj, mantisa može biti ceo ili decimalan broj koji sadrži značajne cifre reprezentovanog broja, baza zavisi od sistema koji koristimo (za dekadni je 10, dok je za binarni 2, itd.), a eksponent određuje veličinu broja. Primer broja u reprezentaciji pokretnog zareza dat je u nastavku:
#### $$-3.4785\cdot 10^{-4}$$
#### $$σ=-1, m=3.4785, b=10, e=-4$$

## Normalizovani oblik
#### Kod normalizovanog oblika broj u pokretnom zarezu ima samo jednu cifru mantise pre decimalne tačke i ta cifra je uvek različita od nule:
#### $$±d.f_1 f_2 f_3 f_4 f_5\cdot 10^{±e}, d≠0$$
#### Na primer, broj $-3.4785\cdot 10^{-4}$ je normalizovan, dok broj $-347.85\cdot 10^{-6}$ nije normalizovan, ali se može normalizovati promenom eksponenta:
#### $$-347.85\cdot 10^{-6}⟶-3.4785\cdot 10^{-4}$$
#### Pored toga što predstavlja pogodan način za prikaz brojeva u pokretnom zarezu, normalizovani oblik ima veliku prednost prilikom reprezentacije binarnih brojeva u pokretnom zarezu. 


## Binarna reprezentacija
#### Kod binarne reprezentacije brojeva u pokretnom zarezu koristimo bazu b=2, pa vrednosti mantise i eksponenta moraju biti binarni brojevi, dok se znak može reprezentovati na različite načine, kao što ćemo videti do kraja poglavlja. Na primer: 
#### $$(14.6250)_{10}=(1110.101)_2=(11.10101)_2\cdot 2^2=(11.10101)_2\cdot 2^{(10)_2}$$
#### $$σ=+1, m=(11.10101)_2, b=2, e=10$$
#### Normalizovani oblik binarne reprezentacije takođe ima samo jednu cifru mantise pre decimlane tačke, i ta cifra ima vrednost 1 (jer mora biti različita od 0):
#### $$±1.f_1 f_2 f_3 f_4 f_5\cdot 2^{±e}$$


#### Za razliku od dekadne reprezentacije, svi binarni brojevi u normalizovanom obliku imaju istu prvu cifrnu pre decimalne tačke tj. cifru 1. To je velika prednost jer kad znamo da je prva cifra mantise 1, ne moramo da je čuvamo na računaru, odnosno ne moramo da potrošimo bit na njeno skladištenje. Time dobijamo još jedan bit za decimalni deo mantise, odnosno povećavamo preciznost reprezentacije.

#### Recimo da na raspolaganju imamo računar koji koristi 10 bitiova za reprezentovanje brojeva u pokretnom zarezu, organizovanih na sledeći način: 1 bit za znak mantise, 1 bit za znak eksponenta, 5 bitova za mantisu, i 3 bita za eksponent. Pokazaćemo proces reprezentovanja broja 73.75.
#### $$(73.75)_{10}=(01001001.11)_2=(1.00100111)_2 \cdot 2^6=(1.00100111)_2 \cdot 2^{(110)_2}≅(1.00100)_2\cdot 2^{(110)_2}$$

In [13]:
a = 73.75 #broj koji se konvertuje
n = 5 #broj bitova za celobrojni deo (pre decimalne tačke) 
m = 5 #broj bitova za razlomački deo (posle decimalne tačke)

# binaran broj
d2b = np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m+1)),2))
print(d2b)

[0. 1. 0. 0. 1. 1. 1. 0. 0. 0.]


# <center><img src="binaran_broj_primer.png" width="400" height="400"></center>

## IEEE 754 standard za reprezentaciju realnih brojeva
#### Za primer reprezentacije broja 73.75 proizvoljno smo odabrali broj i raspored bitova na za naš računar. Na isti način, svaki proizvođač računara mogao bi proizvoljno da odabere veličinu kao i način raspoređivanja bitova na računaru koji proizvodi.
#### Sa ciljem standardizacije načina za reprezentovanje brojeva, Institut Inženjera Elektrotehnike i Elektronike (Institute of Electrical and Electronics Engineers, IEEE) je 1985 uveo standard IEEE 754 koji većina savremenih računara koristi za repreznetovanje brojeva u pokretnom zarezu.
#### Po IEEE 745 standardu binarna reprezentacija broja u pokretnom zarezu sastoji se do: 
#### <center>znaka (s), eksponenta uz bias (e’), i mantise (m)</center> 
#### Podrazumevana je baza 2 jer je broj binaran. Veličina (u bitivoima) mantise i eksponenta utiče na raspon i preciznost respektivno. Tabela u nastavku prikazuje dva vrlo često korišćena formata po IEEE 754 standardu, a to su tzv. jednostruka (*single*) preciznost ukupne dužine 32 bita i dvostruka (*double*) preciznost ukupne dužine 64 bita.

# <center><img src="IEEE754_1.png" width="500" height="500"></center>
# <center><img src="IEEE754_2.png" width="700" height="700"></center>

#### Standard takođe podrazumeva da se brojevi pre skladištenja normalizuju pa se realna vrednost iz reprezentacije dobija na sleći način:
#### $$vrednost=(-1)^σ \cdot (1.m)_2 \cdot 2^{e'-bias\_eksponenta}$$
## Bias eksponenta
####  Sa obzirom na to da je cilj standarda da reprezentuje kako veoma velike tako i veoma male vrednosti, potrebno je omogućiti da eksponent bude negativan. Jedan od načina za reprezentovanje negativnih biarnih brojeva je komplement dvojke. 
#### Međutim, kreatori standarda su imali za cilj da omoguće jednostavno poređenje dva repezentovana broja bit po bit, gde je prvi bit posle znaka najznačajniji i tako redom. Upotreba komplementa dvojke onemogućava poređenje bit po bit i samim ti usporava proces poređenja (za detalje pogledati udžbenik).

#### Vrednost biasa određuje se kao:
### $$2^{dužina\_eksponenta−1}−1$$
#### jer želimo da reprezentujemo jednak broj negativnih i pozitivnih eksponenata i takođe vrednost 0 za eksponent.
#### Recimo da koristimo reprezentaciju dužine 8 bita: znak 1 bit, eksponent 3 bita, mantisa 4 bita. Konvertujemo brojeve 6.2500 i 0.3594 u binarn zapis.
#### Pošto imamo 3 bita za eksponent, možemo ukupno da reprezentujemo 8 različtihih brojeva: 0, 1, 2, 3, 4, 5, 6, 7. Želimo da imamo i negativne eksponente tj. da možemo da reprezentujemo: -3, -2, -1, 0, 1, 2, 3, 4. Iz tog razloga koristimo bias koji ima vrednost:
### $$2^{3−1}−1=3$$
#### Sa biasom od 3, možemo da reprezentujemo: 0-3, 1-3, 2-3, 3-3, 4-3, 5-3, 6-3, 7-3. Na primer, eksponent -1 reprezentujemo kao: 2-3, odnosno u reprezentaciji čuvamo eksponent e'=2, a prilikom konverzije imamo:
### $$2^{e'-bias\_eksponenta}=2^{2-3}=2^{-1}$$
#### Kovertujemo prvo broj 6.2500 pa onda 0.3594.

In [18]:
a = 6.2500
n = 6   # broj bitova za celobrojni deo (pre decimalne tačke)     
m = 6  # broj bitova za razlomački deo (posle decimalne tačke)   
# binaran broj
d2b = np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m)),2))

celobrojni_deo=d2b[0:n-1]

razlomacki_deo=d2b[n:m+n-1]
print('Celobrojni deo:')
print(celobrojni_deo)
print('Razlomacki deo:')
print(razlomacki_deo)
print('Kompletan broj:')
tmp_str=np.array_repr(d2b).replace('\n','').replace(',','')
print(' '.join(tmp_str.split()))

Celobrojni deo:
[0. 0. 0. 1. 1.]
Razlomacki deo:
[0. 1. 0. 0. 0.]
Kompletan broj:
array([0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0.])


#### Na osnovu rezultata konverzije imamo:
#### $$110.0100=1.100100 \cdot 2^2=(-1)^0 \cdot (1.1001)_2 \cdot 2^2$$
#### Da bi dobili eksponent 2 u reprezentaciji treba da čuvamo vrednost 5, pa imamo:
#### <center>0 101 1001</center>

In [21]:
a = 0.3594
n = 6   # broj bitova za celobrojni deo (pre decimalne tačke)     
m = 16  # broj bitova za razlomački deo (posle decimalne tačke)   
# binaran broj
d2b = np.fix(np.remainder(a*np.power(2.,np.arange(-(n-1),m)),2))

celobrojni_deo=d2b[0:n-1]

razlomacki_deo=d2b[n:m+n-1]
print('Celobrojni deo:')
print(celobrojni_deo)
print('Razlomacki deo:')
print(razlomacki_deo)
print('Kompletan broj:')
tmp_str=np.array_repr(d2b).replace('\n','').replace(',','')
print(' '.join(tmp_str.split()))

Celobrojni deo:
[0. 0. 0. 0. 0.]
Razlomacki deo:
[0. 1. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Kompletan broj:
array([0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.])


#### Na osnovu rezultata konverzije imamo:
#### $$0.010111=1.0111 \cdot 2^{-2}=(-1)^0 \cdot (1.0111)_2 \cdot 2^{-2}$$
#### Da bi dobili eksponent -2 u reprezentaciji treba da čuvamo vrednost 1, pa imamo:
#### <center>0 001 0111</center>
#### Ako sada uporedimo reprezentacije brojeva 6.2500 i 0.3594:
#### <center>0 101 1001</center>
#### <center>0 001 0111</center>
#### Vidimo da se eksponenti mogu porediti bit po bit i odmah i vrlo lako se može uvrditi koji je broj veći.

#### Vratićemo se sada na jednostruku preciznost po IEEE 754 standardu, kako bi pokazali primer konverzije jednog konkretnog broja datog na slici ispod:
### $$vrednost=(-1)^σ \cdot (1.m)_2 \cdot 2^{e'-127}$$
### $$vrednost=(-1)^1 \cdot (1.10011)_2 \cdot 2^{(00101100)_2-127}$$
### $$vrednost=-1.5938 \cdot 2^{44-127}=-1.5938 \cdot 2^{-83}$$


# <center><img src="IEEE754_3.png" width="700" height="700"></center>

## Specijalne vrednosti
#### Videli smo da po IEEE 754 standardu kod jednostruke preciznosti za eksponent uz bias imamo 8 bitova. Ako znamo da je maksimalna vrednost koju možemo dobiti pomoću 8 bitova $2^8–1=255$, kao i da je vrednost biasa 127 zaključujemo da bi vrednosti eksponenta koje možemo da reprezentujemo trebalo da budu u sledećem rasponu:
#### $$0≤e'≤255$$
#### $$0-127≤ e≤255-127$$
#### $$-127≤e ≤128$$
#### Međutim u tabeli iznad naznačeno je da je raspon eksponenta od −126 do +127. Vidimo da nam vrednosti −127 i 128 nisu dostupne. To je zato što su po IEEE 754 standardu eksponenti −127 i 128 rezervisani za repezentaciju posebnih vrednosti, kao što su NaN (Not a Number) tj. vrednost koja nije broj, ili  ±∞, kao i ±0.

# <center><img src="IEEE754_4.png" width="500" height="500"></center>

## Zaokruživanje
#### Razlozi za primenu zaokruživanja su višestruki: ograničen fizički kapaciteta računara, vrednosti koje ne mogu biti potpuno tačno konvertovane u binarne, brojevi kao što su π, e, √2 itd. U ovoj sekciji razmotrićemo nekoliko opšte poznatih postupaka zaokruživanja i objasniti kako se ono tačno vrši po IEEE 754 standardu.
## Odsecanje
#### Odsecanje (*chopping*) je najjednostavniji metod za zaokruživanje. Kod ovog metoda se od odabrane cifre sve ostale cifre sa desne strane uklone, odnosno odseku.
## Zaokruživanje na najbliži
#### Postupak zaokruživanja na najbliži (*round to nearest*) koristi vrednost cifre na osnovu koje vrišimo zaokruživanje d, na sledeći način:
#### d>5 zaokružimo na najbliži veći broj koji može da se reprezentuje
#### d<5 zaokružimo na najbliži manji broj koji može da se reprezentuje
#### d=5 postoji više različitih načina, po IEEE 754 zaokružuje se na najbliži paran broj koji može da se reprezentuje
#### Važno je još jednom istaći da se zokruživanje vrši ne na najbliži realan broj već na najbliži broj koji se može reprezentovati u sistemu (standardu) u kome radimo. Primeri odsecanja i zaokruživanja na najbliži po IEEE 754 standardu, posle prve cifre nakon decimalne tačke, dati su u tabeli u nastavku.

# <center><img src="zaokruzivanje.png" width="600" height="600"></center>

#### Po IEEE 754, u slučaju kod koga je poslednja cifra 5 zaokruživanje se vrši na najbliži paran broj. Vidimo da je vrednost 1.450 zaokružena na 1.4, a vrednost 1.550 na 1.6. Upravo ovaj primer ilustruje svrhu uvođenja zaokruživanja na najbliži paran broj u IEEE 754. Na ovaj način će u nekom numeričkom procesu približno polovina brojeva biti zaokružena na najbliži manj, a druga polovina na najbliži veći broj, čime se izbegava pristrasnost ka manjim, odnosno većim vrednostima tokom zaokruživanja.

## Brojevna prava
#### Shodno tome da na računaru ne možemo da reprezentujemo sve moguće brojeve u pokretnom zarezu, brojevna prava po IEEE 754 standardu ima specifičan izgled.
#### Za ilustraciju brojevne prave upotrebićemo sledeća ograničenja: znak 1 bit, eksponent 3 bita, mantisa 2 bita. Prikazujemo samo pozitivne brojeve i nulu.

# <center><img src="brojevna_prava.png" width="700" height="700"></center>

#### Prostor između nule i najmanje vrednosti koja može da se reprezentuje u sistemu naziva se „rupa“ podkoračenja kod nule (underflow whole at zero). 
#### Pojam podkoračenja (underflow) označava siutaciju u kojoj računar ne može da reprezentuje neki broj jer je suviše mali.
#### Kako bi se smanjila „rupa“ podkoračenja kod nule IEEE 754 dozvoljava upotrebu denormalizovanih brojeva. Kod denormalizovanih brojeva dozvoljava se da prva cifra pre decimalne tačke bude nula. Ovi brojevi se koriste kada se prilikom konverzije zaključi da je za njihovu reprezentaciju potreban manji eksponent nego što IEEE 754 može da podrži. Zato denormalizovani brojevi imaju uvek najmanji mogući podržani eksponent i nulu kao prvu cifru pre decimalne tačke.
#### Do prekoračenja (*overflow*) dolazi kada sistem treba da reprezentuje broj koji je veći od najvećeg mogućeg broja koji može da se prikaže u tom sistemu.
#### Sa slike je uočljivo da razmak brojeva nije svuda jednak. Razmak je samo jednak za brojeve koji imaju isti eksponent.

## Mašinski Epsilon
#### Mašinski epsilon predstavlja gornju granicu relativne greške koja nastaje prilikom zaokruživanja u radu sa brojevima u pokretnom zarezu. Vrednost mašinskog epsilona zavisi od odabrane reprezentacije brojeva na računaru, i pruža nam informaciju o preciznosti („granularnosti“ ili „finoći“) te reprezentacije. 
#### U  slučaju upotrebe zaokruživanja na najbliži definicija mašinskog epsilona je:
#### $$ε_{mach}=\frac{1}{2} b^{1-ml}$$
#### gde je $b$ baza, a $ml$ dužina mantise (u ciframa ili bitovima) koju koristi posmatrana reprezentacija. 

#### Ako sa  $fl(x)$ označimo broj koji možemo da reprezentujemo, a koji je najbliži broju $x$, odnosno $fl(x)$ je broj na koji smo zaokružili $x$ da bi mogli da ga reprezentujemo, ako koristimo zaokruživanje na najbliži onda imamo sledeće ograničenje za relavitnu grešku:
#### $$\frac{|x-fl(x)|}{|x|} ≤\frac{1}{2} b^{1-ml}=ε_{mach}$$


## IEEE 754 i mašinski epsilon
#### Po IEEE 754 standardu imamo 52 bita za mantisu u dvostrukoj preciznosti, odnosno 53 deklarisana bita zbog korišćenja normalizovanog oblika. Tako dobijamo da je mašinski epsilon:
#### $$ε_{mach}= \frac{1}{2} b^{1-ml}=\frac{1}{2} 2^{1-53}=1.1102 \cdot 10^{-16}$$
#### To znači da u dvostrukoj preciznosti možemo da skladištimo približno 16 decimlanih cifara broja. 
#### Ponekad se u literaturi mašinski epsilon definiše bez $\frac{1}{2}$, pri čemu se naglašava da se u pri upotrebi zaokruživanja na najbliži koristi polovina mašinskog epsilona. 
#### Numpy, kao i MATLAB i Octave koriste upravu takvu definiciju i imaju specijalnu konstantu $eps$.

In [16]:
print(np.finfo(float).eps)
# 2.22044604925e-16

print(np.finfo(np.float64).eps)

2.220446049250313e-16
2.220446049250313e-16


In [17]:
print(np.finfo(float).eps/2)

1.1102230246251565e-16


#### Mašinski epsilon nam omogućava uvid u greške koje nastaju kao posledica izvršavanja artitmetičkih operacija sa brojevima u pokretnom zarezu. 
#### Po IEEE 754 standardnu artimetičke operacije se izvršavaju u beskonačnoj preciznosti pa se onda rezultat zaokružuje u odabranu preciznost. Ako sa ● označimo artimetičku operaciju (+, –, *, /) u artitmetici pokretnog zareza, a sa ○ označimo artimetičku operaciju u beskonačnoj preciznosti, onda važi:
#### $$x ●y=fl(x○y)$$
#### gde je $fl(x○y)$ broj na koji smo zaokružili vrednost $x○y$ da bi mogli da je reprezentujemo na računaru.
#### Sledeća nejednakost (dokaz dat u udžbeniku) omogućava da vidimo koliko se makismalno može razlikovati rezultat neke aritmetičke operacije na računaru (sa konačnom preciznošću) u odnosu na beskonačnu preciznost:
#### $$|x ● y|=|fl(x○y)|)≤|x○y|(1+ε_{mach})$$
#### Na taj način možemo da izračunamo makismalnu grešku koju možemo da očekujemo kao rezultat izvršavanja nekog niza aritmetičkih operacija na računaru koji koristimo.

## Značajne cifre
####  Svrha značajnih cifara je da nam ne dozvoli da tumačimo rezultate numeričkih algoritama pouzdanijim nego što stvarno jesu. Drugim rečima rezultat numeričkog algoritma ne može biti pouzdaniji od pouzdanosti ulaznih vrednosti. Pouzdanost izražavamo pomoću značajnih cifara.

#### Postoje dve vrste vrednosti sa stanovišta pouzdanosti: 
#### (1) egzaktne vrednosti tj. vrednosti kod kojih nema nepouzdanosti, kao na primer 16 studenata u grupi, 5 prstiju na ruci, 4 točka na automobilu itd.; 
#### (2) inegzaktne vrednosti tj. vrednosti koje imaju određen procenat nepouzdanosti, na primer vrednost sa brzinomera na automobilu ili dužina izmerena lenjirom itd. 
#### Generalno sve vrednosti koje su dobijene pomoću nekog mernog instrumenta su inegzaktne. 
#### Na primer, merimo svoju težinu i vaga pokazuje da je težina između 60kg i 61kg. Ako primetimo da je kazaljka bliža 61kg nego 60kg možemo da kažemo da je naša težina otprilike 61 kilogram. Pouzdani smo u ovu procenu jer bi dve ili više razumnih osoba donele isti zaključak. Recimo da se insistira da svoju težinu sapoštimo pomoću jedne cifre nakon decimalne tačke. Za ovaj slučaj jedna osoba bi mogla da kaže da je naša težina 60.7, a druga recimo 60.9 kilograma. Zbog toga za ovu konkretnu vagu može se reći da samo vrednost prve cifre nema nikakvih nepouzdanosti, odnosno da je potpuno pouzdana. Vrednosti druge i svih narednih cifara treba tumačiti kao procene. Bilo bi besmisleno da sapoštimo da je naša težina 60.92344634 kilograma. Kako bi izbegli nedoumice prilikom saopštavanja, kao i prilikom tumačenja izmerenih vrednosti, uvodimo pojam značajanih cifara.

#### Značajne cifre su one cifre koje mogu da se koriste sa pouzdanšću. Kada saopštavamo neku izmerenu vrednost treba imat u vidu sledeće pravilo: broj značajnih cifara odgovara broju cifara koje su potpuno pouzdane i još jednoj procenjenoj cifri. Time otklanjamo sve nedoumice onome koji tumači saopštenu vrednost. Za primer vage iz prethodnog pasusa, ako saopštimo vrednost od 61kg ta vrednost ima dve značajne cifre jer je prva cifra potpuno pouzdana, a druga procenjena.

#### Pored pravila za saopštavnje značajnih cifara, postoje i pravila za tumačenje broja značajnih cifara iz saopštene vrednosti:
#### 1.	Sve cifre različite od 0 su značajne (1.234 ima četiri značajne cifre, dok 1.2 ima dve).
#### 2.	Nule između cifara različitih od 0 su značajne (1003 ima četiri značajne cifre, dok 3.05 ima tri)
#### 3.	Nule pre prve cifre različite od 0 nisu značajne, služe samo kao indikator položaja decimalne tačke, odnosno broj značajnih cifara ne zavisi od jedinice merenja (vrednosti 0.0457m, 0.457cm, i 4.57mm sve imaju tri značajne cifre)
#### 4.	Ako je broj decimalan, sve nule posle poslednje cifre različite od 0 su značajne (0.0180 ima tri značajne cifre, dok 0.50 ima dve)
#### 5.	Ako broj nije decimalan, a ima nule na kraju, za njih se ne može tvrditi da li su značajne ili ne, odnosno potrebne su dodatne informacije od onoga koji je saopštio vrednost (130 može imati dve ili tri značajne cifre, 40300 može imati tri, četiri ili pet značajnih cifara)


#### Da bi se izbegle bilo kakve nedoumice oko broja značajnih cifara u saopštenoj vrednosti, preporučuje se upotreba normalizovane naučne notacije (*normalized scientifc notation*). Normalizovana naučna notacija podrazumeva saopštavanje vrednosti tako da sadrži mantisu, bazu i eksponet, kao i da je pre decimalne tačke tačno jedna cifra koja mora biti različita od nule. Na primer za sledeće vrednosti broj značajnih cifara se vrlo jasno može odrediti:
#### • $4.05 \cdot 10^3$ (3 značajne cifre), 
#### • $4.050 \cdot 10^3$ (4 značajne cifara), 
#### • $4.0500 \cdot 10^3$ (5 značajnih cifara).

## Značajne cifre i aritmetičke operacije
#### Rezultati svih aritmetičkih operacija koje uključuju inegzaktne vrednosti su inegzaktni. Značajne cifre nam takođe mogu poslužiti za procenu pouzdanosti rezultata računskih operacija u kojima učestvuju ingezaktni brojevi.
### Množenje i deljenje. 
#### Kod ove dve računske operacije rezultat ima onoliko značajnih cifara koliko i operand sa najmanje značajnih cifara. Recimo da imamo sledeći proizvod:
#### $$3.452∙1.91=6.5933$$
#### Prvi činilac ima četiri značajne cifre, a drugi ima tri, pa shodno prethodno navedenom pravilu proizvod ima tri značajne cifre. Dakle proizvod moramo da zaokružimo na tri značajne cifre i tako dobijamo:
#### $$3.452∙1.91=6.59$$

#### Kako bi pokazali zašto je neophodno da korigujemo broj značajnih cifara u rezultatu množenja, posmatrajmo činioce u prethodnom proizvodu kao stranice pravougaonika date u metrima. Prvu stranicu 3.452m smo izmerili pomoću uređaja koji meri na nivou milimetra, odnosno hiljaditog dela metra, dok smo drugu stranicu mogli da izmerimo samo na nivou centimentra (stotog dela metra). Tada proizvod predstavlja površinu pravougaonika:
#### $$3.452m∙1.91m=6.5933m^2$$
#### Sa obzirom na to da smo jednu od stranica mogli da izmerimo samo na nivou centimetra ne bi bilo korektno da sapoštimo rezultat kod koga imamo cifre koje su na nivou 10^−4 metra tj. manje od milimetra. Nakon zaokruživanja na tri značajne cifre, dobijena površina od $6.59m^2$ je korektno sapoštena jer je na nivou centimetra i svaka cifra je pouzdana jer oba merna uređaja pouzdano mere na nivou centimentra.

### Sabiranje i oduzimanje 
#### Kod sabiranja i oduzimanja broj značjanih cifara posle decimalne tačke rezultata odgovara broju cifara koji ima operand sa najmanje cifara posle decimalne tačke. Na primer, ako imamo sledeći zbir:
#### $$21.34+3.135+2.8267=127.3017$$
#### Prvi sabirak ima dve značajne cifre posle decimalne tačke, drugi tri, a treći četiri. Dakle, po prethodno prikazanom pravilu, zbir može imati najviše dve značajne cifre posle decimalne tačke, odnosno zbir je:
#### $$121.34+3.135+2.8267=127.30$$
#### Recimo da imamo tri predmeta dužina 121.34m, 3.135m i 2.8267m i da hoćemo da sabiranjem odredimo njihovu ukupnu dužinu. Prvi sabirak ($121.34m$) izmeren je na nivou centimetra, drugi sabirak ($3.135m$) na nivou milimetra, a treći ($2.8267m$) na nivou 10^−4 metra. Očigledno je da je ne možemo da kažemo da se u ukupnoj dužini možemo pouzdati na nivou od 10^−4 metra jer tako veliku preciznost imamo samo za jedan od delova. Ono što možemo da kažemo je da je ukupna dužina pouzdana na nivou centimetra jer je na tom nivou imamo pouzdane mere za sva tri dela. Vidmo da bi primena pravila za proizvod i količnik u ovom slučaju imala za rezultat $127.3m$ što je preciznost na nivou decimetra, što je lošija preciznost od one koje realno imamo.