<img src="Slike/vua.png">

# Vizualizacija podataka
Vizualizacija podataka uključuje istraživanje putem grafičkog prikaza. Povezana
je s dubinskom analizom podataka , koji koristi kod za pronalaženje uzoraka u
skupu podataka. Skup podataka može biti mali niz brojeva koji se nalazi u jednom
retku ili više gigabajta podataka. Kada podatke prikažemo vizualno, njihovo
značenje je lakše vidljivo gledateljima. Srećom, za vizualizaciju podataka nije
potrebno superračunalo. Python prilično učinkovito i brzo može obraditi velike
količine podataka. Podatci ne moraju biti brojevi te uz osnove koje smo naučili
možemo analizirati i tekstualne podatke. Za rad s grafičkim prikazom koristit
ćemo modul *matplotlib*. Ako želite vidjeli podržane vrste vizualizacija koje
možemo napraviti pomoću modula *matplotlib*, posjetite
<https://matplotlib.org/tutorials/introductory/sample_plots.html>. Tamo su
prikazani različiti grafovi s primjerima kako ih napraviti. Kako u Pythonu
radimo preko Jupytera, moramo nakon učitavanja *matplotlib* modula upisati:
„%matplotlib inline“ da prikaže rezultat na stranici. Kada budete radili
programe lokalno, to možete izostaviti i svi prikazi će biti u novim skočnim
prozorima.

In [None]:
import matplotlib

%matplotlib inline

Nacrtajmo jednostavan linijski graf koristeći modul *pyplot* iz biblioteke
*matplotlib*. Kao podatke za grafikon koristit ćemo slijed kvadratnih brojeva 1,
4, 9, 16, 25.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

kvadrati = [1, 4, 9, 16, 25]
plt.plot(kvadrati)
plt.show()

Prvo učitavamo modul *pyplot* i koristimo naredbu *as* da joj damo nadimak (lat.
*alias*) tako da kod korištenja, umjesto *matplotlib.pyplot*, jednostavno
napišemo *plt*. Modul *matplotlib* sadrži brojne funkcije koje pomažu u
stvaranju grafikona. Zatim dodajemo naredbu koja omogućuje da se graf prikaže na
stranici na kojoj radimo vježbu. Zatim kreiramo listu brojeva koju prosljeđujemo
funkciji *plot()* koja je dio modula *matplotlib*. Naposljetku koristimo
funkciju *show()* da bismo prikazali grafikon.

Iako prikaz pokazuje da se brojevi povećavaju, oznake su premale. *Matplotlib*
omogućuje da prilagodimo svaku značajku vizualizacije. Napravit ćemo nekoliko
prilagodbi kako bismo poboljšali čitljivost.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

kvadrati = [1, 4, 9, 16, 25]
plt.plot(kvadrati, linewidth=5)
plt.title("Kvadrati brojeva", fontsize=24)
plt.xlabel("Broj", fontsize=14)
plt.ylabel("Kvadrat broja", fontsize=14)
plt.tick_params(axis='both', labelsize=12)
plt.show()

U funkciji *plot()* parametar *linewidth* kontrolira debljinu linije. Funkcija
*title()* postavlja naslov grafikona uz parametre teksta i veličine slova.
Funkcije *xlabel()* i *ylabel()* omogućuju opisivanje svake osi. Funkcija
*tick_params()* definira veličinu oznaka na osima. Prikazani argumenti utječu na
obje osi (axis = 'both') i postavljaju veličinu fonta na 12 (labelsize = 12).

Budući da sada možemo bolje pročitati grafikon, vidimo da podatci nisu ispravno
iscrtani. Uočite na kraju grafikona da je kvadrat od 4.0 prikazan kao 25! Kada
funkciji *plot()* proslijedimo niz brojeva, ona pretpostavlja da se prva
vrijednost odnosi na poziciju x = 0, a prva točka je za poziciju x = 1. To
možemo popraviti tako što ćemo funkciji *plot()* proslijediti i niz za os x,
odnosno ulazne vrijednosti za izračun kvadrata.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

ulaz = [1, 2, 3, 4, 5]
kvadrati = [1, 4, 9, 16, 25]
plt.plot(ulaz, kvadrati, linewidth=5)
plt.title("Kvadrati brojeva", fontsize=24)
plt.xlabel("Broj", fontsize=14)
plt.ylabel("Kvadrat broja", fontsize=14)
plt.tick_params(axis='both', labelsize=12)
plt.show()

Sada funkcija *plot()* graf prikazuje ispravno, jer smo proslijedili podatke za
obje osi. Kada koristimo funkciju *plot* imamo na raspolaganju brojne argumente
za prilagodbu grafičkog prikaza. Sa svim njima se možete upoznati na
web-stranici [https://matplotlib.org](https://matplotlib.org/), a neke od njih
koristit ćemo u nastavku.

Ponekad je korisno crtati i oblikovati pojedinačne točke na temelju određenih
značajki. Na primjer, možete ucrtati male vrijednosti u jednoj boji i veće
vrijednosti u drugoj boji. Također, možete ucrtati veliki skup podataka s jednim
skupom mogućnosti oblikovanja, a zatim naglasiti pojedinačne točke tako da ih
ponovno postavite s različitim opcijama. Za ucrtavanje jedne točke koristimo
funkciju *scatter()* kojoj prosljeđujemo koordinate (x, y).

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.scatter(2,4)
plt.show()

Uredimo prikaz da bude zanimljiviji. Dodat ćemo naslov, označiti osi i
provjeriti je li tekst dovoljno velik za čitanje. U kod poziva funkcije
*scatter* dodali smo i parametar *s* kojim definiramo veličinu točke.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.scatter(2,4, s=200)

plt.title("Kvadrati brojeva", fontsize=24)
plt.xlabel("Broj", fontsize=14)
plt.ylabel("Kvadrat broja", fontsize=14)
plt.tick_params(axis='both', which='major', labelsize=12)

plt.show()

Ako želimo ispisati više točaka, funkciji *scatter* prosljeđujemo listu brojeva na osi x i y.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]

plt.scatter(x,y, s=100)

plt.show()

Uredimo prikaz da bude zanimljiviji. Dodat ćemo naslov, označiti osi i
provjeriti je li tekst dovoljno velik za čitanje. U kod poziva funkcije
*scatter* dodali smo i parametar *s* kojim definiramo veličinu točke.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = list(range(1,30))
y = [a**2 for a in x]

plt.scatter(x, y, s=100)
plt.axis([0, 30, 0, 900])

plt.show()

Počinjemo s popisom ulaznih vrijednosti (x) koje sadrže brojeve od 1 do 30.
Zatim, generiramo izlazne (y) vrijednosti tako što kvadriramo svaki broj iz
ulazne liste. Zatim ulazne i izlazne liste prosljeđujemo funkciji *scatter()*.
Kako se radi o većem skupu podataka, koristimo manju veličinu točke. Nakon toga
koristimo funkciju *axis()* da definiramo raspone na svakoj od osi. Funkcija
*axis()* prihvaća listu s 4 vrijednosti koje predstavljaju minimalnu i
maksimalnu vrijednost za os x i os y. U ovom primjeru os x od 0 do 30, a os y od
0 do 900. Funkcija *scatter()* oko svake točke crta i liniju, koju možemo
maknuti postavljanjem parametra *edgecolor* na „*none*“.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = list(range(1,30))
y = [a**2 for a in x]

plt.scatter(x, y, edgecolor='none', s=100)
plt.axis([0, 30, 0, 900])

plt.show()

Naravno, možemo i promijeniti boju ispisa dodavanjem parametra za boju, *color*, uz koji pišemo i naziv boje.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = list(range(1,30))
y = [a**2 for a in x]

plt.scatter(x, y, color='red', edgecolor='none', s=100)
plt.axis([0, 30, 0, 900])

plt.show()

Boju možemo definirati i da prosljeđivanjem vrijednosti sustava iz RGB po
komponentama u rasponu od 0 do 1. Neki od parametara koji se često koriste imaju
i skraćenu verziju naziva, pa umjesto *color* možemo koristiti i *c*.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = list(range(1,30))
y = [a**2 for a in x]

plt.scatter(x, y, c=(0,0.8,0.8), edgecolor='none', s=100)
plt.axis([0, 30, 0, 900])

plt.show()

Kada koristimo boje, možemo koristiti i *colormap* koji predstavlja niz boja u
gradijentu koji se kreće od početne do završne boje. *Colormaps* se koriste u
vizualizacijama kako bi se naglasili neki obrasci u podatcima. Primjerice, niske
vrijednosti možete obojiti svjetlom bojom, a visoke tamnijom bojom. Modul
*pyplot* iz biblioteke *matplotlib* uključuje skup ugrađenih boja. Kako bismo
koristili jednu od tih boja, moramo dodijeliti boje svakoj točki u skupu
podataka. Pogledajmo kako to učiniti na temelju vrijednosti *y*.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = list(range(1,30))
y = [a**2 for a in x]

plt.scatter(x, y, c=y, cmap=plt.cm.Blues, s=100)
plt.axis([0, 30, 0, 900])

plt.show()

Proslijedili smo listu vrijednosti *y* u *c* i zatim definirali *colormap* da koristi *cmap* i dodjeljuje boju na osnovu vrijednosti *y* od svijetlo do tamno plave boje.

Ako želite da program automatski snimi graf u datoteku, možete zamijeniti *plt.show()* s *plt.savefig()*:
```python
plt.savefig ('slika.png', bbox_inches='tight')
```
Prvi argument je naziv datoteke, koja će biti spremljena u istom direktoriju kao program. Drugi argument miče dodatni prazni prostor oko slike.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = list(range(1,30))
y = [a**2 for a in x]

plt.scatter(x, y, c=y, cmap=plt.cm.Blues, s=100)
plt.axis([0, 30, 0, 900])

plt.savefig('slika.png', bbox_inches ='tight')

Ako otvorimo mapu *Dan 5,* vidjet ćemo novi dokument *slika.png*. Sliku možemo spremiti u više različitih formata. Za detalje pogledajte <https://matplotlib.org/api/_as_gen/matplotlib.pyplot.savefig.html>.

<br><div class="alert alert-info"><b>Vježba</b></div>

Napišite program koji grafički prikazuje brojeve od 1 do 5 na treću potenciju.

Prilagodite prethodni program da prikazuje brojeve na treću od 1 to 5000.

Prilagodite prethodni program i primijenite *colormap* na prikaz. Rezultat spremite u obliku slike formata SVG u datoteku *slika2.svg*.

<br><div class="alert alert-info"><b>Kraj</b></div>