<img src="Slike/vua.png">

# Vizualizacija - nastavak
Na internetu se može pronaći nevjerojatno mnogo raznovrsnih podataka. Sposobnost
analize ovih podataka omogućuje otkrivanje uzoraka i veza koje nitko drugi nije
pronašao. Pristupit ćemo i vizualizirati podatke pohranjene u dva uobičajena
formata, CSV i JSON. Korištenjem modula *CSV* obradit ćemo vremenske podatke
pohranjene u formatu CSV i analizirati visoke i niske temperature tijekom
određenog razdoblja na dvije različite lokacije. Zatim ćemo koristiti modul
*matplotlib* za generiranje grafikona na temelju preuzetih podataka za prikaz
varijacija temperature u dva različita okruženja: Sitka, Aljaska i Dolina Smrti,
Kalifornija.

Jednostavan način pohranjivanja podataka u tekstualnu datoteku jest zapisivanje
podataka kao niza vrijednosti odvojenih zarezima. Na primjer, ovdje je jedan red
podataka o vremenu u formatu CSV:
```python
2014-1-5,61,44,26,18,7,-1,56,30,9,30.34,30.27,30.15,,,,10,4,,0.00,0,,195
```
Ovo su podatci o vremenu za 5. siječnja 2014. u Sitki, Aljaska. Uključuju
najviše i najniže dnevne temperature, kao i brojna druga mjerenja od tog dana.
CSV nizovi su za ljude nezgodni za čitanje, ali programi ih lako obrađuju i iz
njih izvlače vrijednosti, što ubrzava proces analize podataka. Započet ćemo s
malim skupom podataka o vremenu u Sitki, Aljaska. Datoteke se nalaze u mapi
*Podaci*. Standardni modul *CSV* analizira retke u CSV datoteci i omogućuje brzo
izdvajanje vrijednosti koje nas zanimaju. Počnimo ispitivanjem prvog retka
datoteke, koji sadrži niz naziva stupaca u setu podataka.

In [None]:
import csv
datoteka = 'Podaci/sitka_weather_07-2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    print(zaglavlje)

Nakon učitavanja modula *CSV*, pohranimo naziv datoteke s kojom radimo. Zatim
otvorimo datoteku i pohranimo datotečni objekt u varijablu *f*. Zatim pozivamo
funkciju *csv.reader()* i proslijedimo joj objekt koji predstavlja datoteku te u
varijablu *čitaj* spremimo datoteku. Modul *CSV* sadrži funkciju *next()*, koja
vraća sljedeći redak u datoteci. Korištenjem funkcije *next()* u varijablu
*zaglavlje* pohranjujemo listu sa sadržajem prvog retka. Funkcija *reader()*
obrađuje prvu liniju vrijednosti odvojenih zarezom u datoteci i pohranjuje svaku
kao stavku u listu. Primjerice 'AKDT' predstavlja dnevno ljetno vrijeme Aljaske.
Položaj nam govori da će prva vrijednost u svakom retku biti datum. *Max
TemperatureF* govori nam da je druga vrijednost u svakom retku maksimalna
temperatura za taj datum. Da bismo lakše razumjeli podatke zaglavlja, ispišimo
svaki posebno, s pripadajućim pozicijama.

In [None]:
import csv
datoteka = 'Podaci/sitka_weather_07-2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    for index, naziv_stupoca in enumerate(zaglavlje):
        print(index, naziv_stupoca)

Koristimo funkciju *enumerate()* na listi kako bismo dobili indeks svakog zapisa
zajedno s vrijednostima. Ovdje vidimo da su datumi i vrijednosti najviše
temperature pohranjeni u stupcima 0 i 1. Izdvojimo samo te stupce za daljnju
analizu.

In [None]:
import csv
datoteka = 'Podaci/sitka_weather_07-2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    visoka_t = []
    for redci in citaj:
        visoka_t.append(redci[1])
    print(visoka_t)

Dodali smo praznu listu *visoka_t*. Zatim dodajemo petlju koja pregledava retke
u datoteci. Objekt *citaj* nastavlja od mjesta gdje je stao u CSV datoteci i
automatski vraća svaku liniju koja slijedi nakon trenutnog položaja. Budući da
smo već pročitali redak zaglavlja, petlja će započeti u drugom retku, gdje
počinju stvarni podatci. U svakom prolazu kroz petlju, podatke s pozicije indexa
1 (drugog stupca) dodajemo u listu *visoka_t*. Da bismo vizualizirali podatke o
temperaturi, prvo ćemo izraditi jednostavan prikaz najviših dnevnih temperatura
uz pomoć modula *matplotlib*.

In [None]:
import csv
from matplotlib import pyplot as plt
%matplotlib inline

datoteka = 'Podaci/sitka_weather_07-2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    visoka_t = []
    for redci in citaj:
        visoka_t.append(redci[1])
        
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(visoka_t, c='red')
plt.title("Najviše dnevne temerature, 07/2014", fontsize=24)
plt.xlabel('', fontsize=16)
plt.ylabel("Temperature (F)", fontsize=16)
plt.tick_params(axis='both', which='major', labelsize=16)
plt.show()

Prosljeđujemo listu najviših temperatura u funkciju *plot()* i parametar *c =
'red'* za crtanje crvenom bojom. Zatim navodimo nekoliko drugih detalja
oblikovanja, kao što su veličina fonta i oznaka. Budući da još nismo dodali
datume, nećemo označavati x-os, ali *plt.xlabel()* modificira veličinu fonta
kako bi zadane oznake bile čitljivije. Dodajmo datume u svoj grafikon kako bismo
ga učinili korisnijim. Prvi datum iz datoteke s podatcima o vremenu nalazi se u
drugom redu datoteke:
```python
2014-1-5,61,44,26,18,7,-1,56,30,9,30.34,30.27,30.15,,,,10,4,,0.00,0,,195
```
Podatci se čitaju kao niz znakova (tekst), pa moramo pretvoriti niz '2014-7-1' u
objekt koji predstavlja datum. Možemo konstruirati objekt koji predstavlja 1.
srpnja 2014., koristeći metodu *strptime()* iz modula *datetime*. Pogledajmo
prvo primjer da bismo vidjeli kako radi *datetime()*.

In [None]:
from datetime import datetime
datum = datetime.strptime('2014-7-1', '%Y-%m-%d')
print(datum)

Prvo smo učitali razred *datetime* iz modula *datetime*. Zatim varijabli *datum*
dodjeljujemo izlaz metode *strptime()* kojoj smo proslijedili niz znakova
(tekst) „2014-7-1“ kao prvi argument. Drugi argument označava na koji način je
zapisan datum. U ovom primjeru „% Y-„ označava da se od početka prvog argumenta
do znaka **-** (minus) nalazi godina, zatim „% m-„ da se do drugog znaka **-**
nalazi mjesec i, naposljetku, „% d“ da se do kraja nalazi dan u mjesecu. Metoda
*strptime()* može prihvatiti različite argumente kako bi odredila kako
interpretirati datum. Za više informacija pogledajte opis u službenoj
dokumentaciji:
<https://docs.python.org/3/library/datetime.html?highlight=strptime#datetime.datetime.strptime>

Sad kad smo vidjeli kako možemo raditi s datumima, preuzmimo ih iz datoteke da
ih možemo proslijediti funkciji *plot()* te da ona na x osi ispisuje datume.

In [None]:
import csv
from datetime import datetime
from matplotlib import pyplot as plt
%matplotlib inline

datoteka = 'Podaci/sitka_weather_07-2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    datum, visoka_t = [], []
    for redci in citaj:
        datum.append(datetime.strptime(redci[0], "%Y-%m-%d"))
        visoka_t.append(redci[1])
    
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(datum, visoka_t, c='red')
plt.title("Najviše dnevne temerature, 07/2014", fontsize=24)
plt.xlabel('', fontsize=16)
fig.autofmt_xdate()
plt.ylabel("Temperature (F)", fontsize=16)
plt.tick_params(axis='both', which='major', labelsize=16)
plt.show()

Sada smo prvo izradili dvije prazne liste za pohranu datuma i najviših
temperatura iz datoteke. Zatim pretvaramo podatke koji sadrže informacije o
datumu u objekt *datetime*. Nadalje, pregledavamo sve zapise i dodajemo elemente
u pripremljene liste koje ćemo proslijediti funkciji *plot()*. Dodatno pozivamo
metodu *fig.autofmt_xdate()* na osi x da se natpisi ne preklapaju. Prikažimo
podatke za cijelu godinu.

In [None]:
import csv
from datetime import datetime
from matplotlib import pyplot as plt
%matplotlib inline

datoteka = 'Podaci/sitka_weather_2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    datum, visoka_t = [], []
    for redci in citaj:
        datum.append(datetime.strptime(redci[0], "%Y-%m-%d"))
        visoka_t.append(redci[1])
    
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(datum, visoka_t, c='red')
plt.title("Najviše dnevne temerature, 2014", fontsize=24)
plt.xlabel('', fontsize=16)
fig.autofmt_xdate()
plt.ylabel("Temperature (F)", fontsize=16)
plt.tick_params(axis='both', which='major', labelsize=8)
plt.show()

Promijenili smo samo naziv datoteke u sitka_weather_2014.csv i naslov grafa.
Učinimo ga još korisnijim uključivanjem najnižih temperatura.

In [None]:
import csv
from datetime import datetime
from matplotlib import pyplot as plt
%matplotlib inline

datoteka = 'Podaci/sitka_weather_2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    datum, visoka_t, niska_t = [], [], []
    for redci in citaj:
        datum.append(datetime.strptime(redci[0], "%Y-%m-%d"))
        visoka_t.append(int(redci[1]))
        niska_t.append(int(redci[3]))
    
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(datum, visoka_t, c='red')
plt.plot(datum, niska_t, c='blue')
plt.title("Najviše i najniže dnevne temerature, 2014", fontsize=24)
plt.xlabel('', fontsize=16)
fig.autofmt_xdate()
plt.ylabel("Temperature (F)", fontsize=16)
plt.tick_params(axis='both', which='major', labelsize=8)
plt.show()

Ponovno dodajemo još jednu listu za najniže temperature, a zatim izdvajamo i
pohranjujemo i najnižu temperaturu za svaki datum (redci[3]). Potom dodajemo još
jednu funkciju *plot()* kojoj prosljeđujemo datum i najniže temperature i
definiramo da se ispisuju plavom bojom. Na kraju smo još promijenili i naslov.
Nakon što smo dodali dvije serije podataka, sada možemo ispitati raspon
temperatura za svaki dan. Dodajmo ispunu koja će prikazati razlike između
najviše i najniže temperature. Upotrijebit ćemo metodu *fill_between()* koja
uzima liste *x* i *y*, te popunjava prostor između njih.

In [None]:
import csv
from datetime import datetime
from matplotlib import pyplot as plt
%matplotlib inline

datoteka = 'Podaci/sitka_weather_2014.csv'
with open(datoteka) as f:
    citaj = csv.reader(f)
    zaglavlje = next(citaj)
    datum, visoka_t, niska_t = [], [], []
    for redci in citaj:
        datum.append(datetime.strptime(redci[0], "%Y-%m-%d"))
        visoka_t.append(int(redci[1]))
        niska_t.append(int(redci[3]))
    
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(datum, visoka_t, c='red', alpha=0.5)
plt.plot(datum, niska_t, c='blue', alpha=0.5)
plt.fill_between(datum, visoka_t, niska_t, facecolor='blue', alpha=0.1)
plt.title("Najviše i najniže dnevne temerature, 2014", fontsize=24)
plt.xlabel('', fontsize=16)
fig.autofmt_xdate()
plt.ylabel("Temperature (F)", fontsize=16)
plt.tick_params(axis='both', which='major', labelsize=8)
plt.show()

Argument *alfa* u funkciji *plot()* definira prozirnost boje. Vrijednost
*alfa=0* je potpuno prozirna, *alfa=1* (unaprijed definirana vrijednost) je
potpuno neprozirna. Postavljanjem argumenta *alfa* na 0.5, crvena i plava linija
postaju svjetlije odnosno prozirne. Zatim pozivamo *fill_between()* i
prosljeđujemo listu s datumima za os x i dvije liste s vrijednostima najnižih i
najviših temperatura. Argument *facecolor* određuje boju ispunjavanja, a
argument *alfa*, ponovno, prozirnost.

<br><div class="alert alert-info"><b>Vježba</b></div></br>

Napravite dva prikaza podataka za najviše temperature iz datoteka *sitka_weather_2014.csv* i *death_valley_2014.csv*.  
Primijetite da je os *y* različita.  
Pokušajte to promijeniti tako da koriste iste vrijednosti na osi *y*, da ih možete vizualno usporediti.

Prikažite podatke iz obje datoteke različitim bojama na jednom grafu.

<br><div class="alert alert-info"><b>Kraj</b></div></br>