## <center>DataFrames biblioteka</center>

   Paket **DataFrames** u programskom jeziku **Julia**, pruža mogućnost učitavanja podataka predstavljenih u formatu vrednosti razdvojenih zarezom (comma separated values) u **DataFrame** objekat. Takođe, moguće je kreirati **DataFrame** objekat navođenjem željenih kolona i pridruženih vrednosti odgovarajućoj koloni. Nakon učitavanja podataka u instancu tipa DataFrame ili kreiranja **DataFrame**-a, moguće je koristiti različite implementirane funkcije za manipulaciju podacima.

In [186]:
using DataFrames
using Statistics
using CSV

### Kreiranje novog DataFrame-a

- Da bi se kreirao novi **DataFrame**, najpre je potrebno učitati **DataFrames** biblioteku (**using DataFrames** naredba)
- Kolone **DataFrame**-a se tretiraju kao nizovi, tako da je najpre moguće kreirati sve nizove koji predstavljaju individualne kolone
- Kreiranje **DataFrame**-a postiže se instanciranjem tipa DataFrame i prosleđivanjem nizova kreiranih kolona, odnosno atributa kao argumenata
- Prilikom štampanja kreiranog **DataFrame**-a, **Jupyter notebook** će pored naziva kolona prikazati i tipove vrednosti koje svaka kolona sadrži
- Svaka vrsta odnosno red u kreiranom **DataFrame**-u predstavlja instancu (opservaciju), dok kolone predstavljaju obeležja (eng. **features**), odnosno atribute


In [187]:
grad = ["Niš", "Beograd", "Novi Sad"]
broj_stanovnika = [260237, 1166763, 250439]
df = DataFrame(grad=grad, broj_stanovnika=broj_stanovnika)

Unnamed: 0_level_0,grad,broj_stanovnika
Unnamed: 0_level_1,String,Int64
1,Niš,260237
2,Beograd,1166763
3,Novi Sad,250439


### Dodavanje nove instance (opservacije) u DataFrame

- Dodavanje nove opservacije postiže se pozivom **push** metode (**push!** ukoliko želimo da promene izvršimo u originalnom **DataFrame**-u)
- Kao prvi argument prosleđujemo **DataFrame** objekat, a kao drugi element prosleđujemo vektor vrednosti koje želimo da dodamo. 
- Ukoliko ne navodimo argument kome pridružujemo vrednost, vrednosti navodimo istim redosledom koji smo navodili prilikom kreiranja atributa (prvo navodimo ima grada, a nakon toga broj stanovnika)

In [188]:
push!(df, ["Leskovac", 144206])

Unnamed: 0_level_0,grad,broj_stanovnika
Unnamed: 0_level_1,String,Int64
1,Niš,260237
2,Beograd,1166763
3,Novi Sad,250439
4,Leskovac,144206


- Ukoliko želimo da atribute prilkom dodavanja nove opservacije navodimo u proizvoljnom redosledu, kao drugi argument pri pozivu metode **push!** navodimo rečnik (eng. **dictionary**)
- Rečnik je kolekcija parova, gde je prvi član para naziv atributa, a drugi član vrednost koju dodeljujemo atributu

In [189]:
push!(df, Dict(:broj_stanovnika => 40267, :grad => "Pirot"))

Unnamed: 0_level_0,grad,broj_stanovnika
Unnamed: 0_level_1,String,Int64
1,Niš,260237
2,Beograd,1166763
3,Novi Sad,250439
4,Leskovac,144206
5,Pirot,40267


### Dodavanje nove kolone u DataFrame

In [190]:
df[:, :okrug] = ["nišavski", "beogradski", "južnobački", "jablanički", "pirotski"]
df

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Leskovac,144206,jablanički
5,Pirot,40267,pirotski


### Određivanje dimenzija DataFrame-a

- Funkcija **size** sa prosleđenim **DataFrame**-om kao argumentom vraća torku (eng. **tuple**) dva elementa.
- Torka je u ovom slučaju uređena dvojka elmenata, gde prvi element ukazuje na broj opservacija u **DataFrame**-u, a druga kolona broj obeležja (kolona)

In [192]:
size(df)

(5, 3)

- Funkcija name sa prosleđenim **DataFrame**-om kao argumentom vraća niz čiji su elementi nazivi kolona

In [193]:
for column_name in names(df)
   println(column_name) 
end

grad
broj_stanovnika
okrug


### Promena naziva kolona

- Ukoliko bismo najpre dodali kolonu pod nazivom **trest** umesto **test** i otkrili da smo načinili grešku, istu možemo ispraviti pomoću metode **rename**
- U primeru ispod, najpre je dodata kolona pod nazivom **trest**, a zatim je ispravljena greška pozivom metode **rename**

In [194]:
df[:, :trest] = ["test 1", "test 2", "test 3", "test 4", "test 5"]
df

Unnamed: 0_level_0,grad,broj_stanovnika,okrug,trest
Unnamed: 0_level_1,String,Int64,String,String
1,Niš,260237,nišavski,test 1
2,Beograd,1166763,beogradski,test 2
3,Novi Sad,250439,južnobački,test 3
4,Leskovac,144206,jablanički,test 4
5,Pirot,40267,pirotski,test 5


In [195]:
# ispravljanje greške nastale prilikom imenovanja kolone

rename!(df, :trest => :test)
df

Unnamed: 0_level_0,grad,broj_stanovnika,okrug,test
Unnamed: 0_level_1,String,Int64,String,String
1,Niš,260237,nišavski,test 1
2,Beograd,1166763,beogradski,test 2
3,Novi Sad,250439,južnobački,test 3
4,Leskovac,144206,jablanički,test 4
5,Pirot,40267,pirotski,test 5


### Uklanjanje kolone

In [196]:
select!(df, Not(:test))

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Leskovac,144206,jablanički
5,Pirot,40267,pirotski


### Uklanjanje reda

In [200]:
# Najpre dodajemo novi red koji ćemo iskoristiti u svrhu demonstracije brisanja

push!(df, ["Test grad", 300000, "test okrug"])


Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Leskovac,144206,jablanički
5,Pirot,40267,pirotski
6,Test grad,300000,test okrug


In [201]:
# Uklanjanje dodatog grada sa indeksom 6
# Prvi argument metode delete! je DataFrame, a drugi indeks reda koji želimo da uklonimo

delete!(df, 6)

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Leskovac,144206,jablanički
5,Pirot,40267,pirotski


- Vrlo često dolazi do situacije da greškom unesemo jedan red veći broj puta
- unique! metoda će ukloniti sve duplikate iz DataFrame-a

In [203]:
push!(df, ["Pirot", 40267, "pirotski"])
push!(df, ["Pirot", 40267, "pirotski"])

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Leskovac,144206,jablanički
5,Pirot,40267,pirotski
6,Pirot,40267,pirotski
7,Pirot,40267,pirotski


In [204]:
# Pozivom metode unique! i prosleđivanjem DataFrame objekta kao argumenta uklanjaju se duplirani redovi

unique!(df)

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Leskovac,144206,jablanički
5,Pirot,40267,pirotski


### Obilazak DataFrame objekta, vrstu po vrstu

- Metodom **eachrow** moguće je obići **DataFrame** objekat, vrstu po vrstu
- Vrednosti svakog pojedinačnog atributa unutar reda pristupa se preko rečnika

In [206]:
for row in eachrow(df)
   println("Grad: ", row.grad, " broj stanovnika: ", row.broj_stanovnika) 
end

Grad: Niš broj stanovnika: 260237
Grad: Beograd broj stanovnika: 1166763
Grad: Novi Sad broj stanovnika: 250439
Grad: Leskovac broj stanovnika: 144206
Grad: Pirot broj stanovnika: 40267


### Pristupanje koloni DataFrame objekta

In [207]:
df[:, :grad]

5-element Array{String,1}:
 "Niš"
 "Beograd"
 "Novi Sad"
 "Leskovac"
 "Pirot"

- U primeru ispod, demonstrirano je pristupanje koloni pod nazivom **"grad"** i iteriranje kroz **for** petlju, u svrhu pristupanja svakoj vraćenoj vrednosti pojedinačno

In [208]:
for grad in df[:, :grad]
    println(grad)
end

Niš
Beograd
Novi Sad
Leskovac
Pirot


- Još jedan od načina za pristupanje pojedinačnoj koloni **DataFrame** objekta demonstriran je u primeru ispod
- Najpre se navodi naziv **DataFrame**-a, a onda iza tačke i naziv kolone čijim vrednostima želimo da pristupimo

In [209]:
df.grad

5-element Array{String,1}:
 "Niš"
 "Beograd"
 "Novi Sad"
 "Leskovac"
 "Pirot"

### Pristupanje redovima DataFrame objekta

Pristupanje vrsti sa rednim brojem 1 i svim atributima (kolonama) tog reda (što je označeno sa **:**) demonstrirano je na primeru ispod

In [210]:
df[1, :]

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski


- Međutim, ukoliko bismo želeli da pristupimo vrednosti samo jednog atributa, umesto navođenja znaka **:** u oznaci kolone navodimo redni broj atributa
- U primeru ispod, demonstrirano je pristupanje vrednosti drugog atributa instance koja se nalazi u prvoj vrsti

In [211]:
df[1, 2]

260237

Isto smo mogli postići i navođenjem naziva kolone putem simbola umesto indeksiranja atributa

In [212]:
df[1, :broj_stanovnika]

260237

Umesto navođenja naziva samo jednog atributa, možemo navesti listu simbola koji predstavljaju nazive atributa čijim vrednostima želimo da pristupimo

In [213]:
df[1, [:grad, :broj_stanovnika]]

Unnamed: 0_level_0,grad,broj_stanovnika
Unnamed: 0_level_1,String,Int64
1,Niš,260237


Analogno pristupanju većem broju atributa (kolona), nismo ograničeni ni na samo jedan red, tako da korišćenjem operatora raspona možemo pristupiti većem broju redova

In [214]:
df[2:3, :broj_stanovnika]

2-element Array{Int64,1}:
 1166763
  250439

### Pisanje upita

- Nad vektorima u programskom jeziku **Julia** možemo vršiti pokomponentne (pojedinačne) operacije
- U primeru ispod, prikazana je upotreba operatora **==** koji će se izvršiti na svakom elementu navedenog vektora
- Rezultat operacije je ponovo vektor koji sadrži jedinice na svim mestima gde je element imao vrednost **"Leskovac"**, odnosno nulu tamo gde to nije slučaj

In [215]:
df.grad .== "Leskovac"

5-element BitArray{1}:
 0
 0
 0
 1
 0

Inače, gore pomenuta pokomponentna operacija nad elementima vektora je samo skraćeni zapis za poziv **map** funkcije, kao što je prikazano u primeru ispod

In [216]:
map(value -> value == "Leskovac", df.grad)

5-element Array{Bool,1}:
 0
 0
 0
 1
 0

- U programskom jeziku **Julia**, nizom koji sadrži logičke vrednosti (**true** ili **false**) ili vrednosti 0 ili 1 možemo indeksirati vektore
- Na identičan način možemo indeksirati i **DataFrame** objekte, čime postižemo filtriranje, odnosno "generisanje upita"
- U primeru ispod, demonstrirano je pristupanje svim redovima koji za vrednost atributa "grad" imaju "Leskovac", a potom pristupanje atributu **"broj_stanovnika"**

In [217]:
df[df.grad .== "Leskovac", :].broj_stanovnika

1-element Array{Int64,1}:
 144206

Ukoliko bismo, na primer, želeli da izvršimo filtriranje svih gradova čije ime nije **"Leskovac"**, to možemo učiniti naredbom koja je prikazana ispod

In [218]:
df[df.grad .!= "Leskovac", :]

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Pirot,40267,pirotski


- Isti rezultat mogli smo postići upotrebom funkcije **filter**, kao što je prikazano u primeru ispod
- Drugi argument funkcije je **DataFrame**, dok je prvi argument funkcija koja će biti pozvana za svaku vrstu **DataFrame**-a
- Funkcija koja je prosleđena kao prvi argument (anonimna funkcija) **DataFrame**-u vraća logičku vrednost, na osnovu koje se određuje da li u novom **DataFrame**-u treba zadržati red koji je u odgovarajućoj iteraciji prosleđen funkciji ili ne (**true** - zadržati red, **false** - odbaciti red)

In [219]:
filter(row -> row.grad != "Leskovac", df)

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Beograd,1166763,beogradski
3,Novi Sad,250439,južnobački
4,Pirot,40267,pirotski


Ukoliko bismo, na primer, želeli da izvršimo filtriranje svih gradova čiji je broj stanovnika manji ili jednak 300000, to možemo postići kodom prikazanim na primeru ispod

In [220]:
df[df.broj_stanovnika .<= 300000, :]

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Novi Sad,250439,južnobački
3,Leskovac,144206,jablanički
4,Pirot,40267,pirotski


Naravno, kao i u primeru gde smo ispitivali da li je naziv grada različit od **"Leskovac"** i to učinili indeksiranjem **DataFramea** nizom, ali i primenom **filter** funkcije, i ovde možemo upotrebiti **filter** funkciju u cilju izdvajanja svih gradova čija je populacija manja ili jednaka 300000

In [221]:
filter(row -> row.broj_stanovnika <= 300000, df)

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Niš,260237,nišavski
2,Novi Sad,250439,južnobački
3,Leskovac,144206,jablanički
4,Pirot,40267,pirotski


- Redove **DataFrame**-a možemo sortirati po vrednosti odgovarajuće kolone, baš kao što je prikazano u primeru ispod 
- Redovi su sortirani po vrednosti kolone **"broj_statovnika"**, u rastućem redosledu

In [222]:
sort(df, :grad)

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Beograd,1166763,beogradski
2,Leskovac,144206,jablanički
3,Niš,260237,nišavski
4,Novi Sad,250439,južnobački
5,Pirot,40267,pirotski


Ukoliko želimo da redovi budu sortirani u opadajućem redosledu vrednosti atributa **"broj_stanovnika"**, možemo upotrebiti parametar **"rev"** i proslediti mu vrednost **"true"**

In [223]:
sort(df, :grad, rev=true)

Unnamed: 0_level_0,grad,broj_stanovnika,okrug
Unnamed: 0_level_1,String,Int64,String
1,Pirot,40267,pirotski
2,Novi Sad,250439,južnobački
3,Niš,260237,nišavski
4,Leskovac,144206,jablanički
5,Beograd,1166763,beogradski


### Grupisanje

Naredbom grupisanja je, kao što samo ime kaže, omogućeno grupisanje vrsta **DataFrame**-a na osnovu vrednosi navedenog atributa

In [224]:
id = [1, 2, 3, 4, 5, 6, 7, 8, 9]
ime = ["Marko", "Milan", "Jovan", "Petar", "Ivan", "Ana", "Jelena", "Milica", "Jovana"]
grad = ["Niš", "Beograd", "Niš", "Niš", "Beograd", "Beograd", "Novi Sad", "Novi Sad", "Novi Sad"]
zarada = [50000, 60000, 70000, 50000, 90000, 70000, 60000, 50000, 100000]
df_1 = DataFrame(id=id, grad=grad, ime=ime, zarada=zarada)

Unnamed: 0_level_0,id,grad,ime,zarada
Unnamed: 0_level_1,Int64,String,String,Int64
1,1,Niš,Marko,50000
2,2,Beograd,Milan,60000
3,3,Niš,Jovan,70000
4,4,Niš,Petar,50000
5,5,Beograd,Ivan,90000
6,6,Beograd,Ana,70000
7,7,Novi Sad,Jelena,60000
8,8,Novi Sad,Milica,50000
9,9,Novi Sad,Jovana,100000


- **groupby** je funkcija kojom se vrši grupisanje
- kao prvi argument navodi se **DataFrame** objekat, a kao drugi atribut po čijim se vrednostima vrši grupisanje


In [225]:
groupby(df_1, :grad)

Unnamed: 0_level_0,id,grad,ime,zarada
Unnamed: 0_level_1,Int64,String,String,Int64
1,1,Niš,Marko,50000
2,3,Niš,Jovan,70000
3,4,Niš,Petar,50000

Unnamed: 0_level_0,id,grad,ime,zarada
Unnamed: 0_level_1,Int64,String,String,Int64
1,7,Novi Sad,Jelena,60000
2,8,Novi Sad,Milica,50000
3,9,Novi Sad,Jovana,100000


- Kao rezultat primene funkcije **groupby** na **DataFrame** objektu, dobija se iterator koji se može obići **for** petljom
- U svakoj iteraciji **for** petlje postoji referenca na pojedinačni **DataFrame** objekat koji se trenutno obilazi
- Svi redovi **DataFrame**-a u tekućoj iteraciji imaju istu vrednost atributa po kome se vršilo grupisanje 
- U primeru ispod, grupisanje je izvršeno na osnovu vrednosti atributa **"grad"**
- Sve vrste u tekućoj iteraciji **for** petlje imaju istu vrednost atributa **"grad"**, što je iskorićeno da se izračuna i odštampa na izlazu prosečna vrednost zarada u svakom gradu

In [226]:
for frame in groupby(df_1, :grad)
   city_name = frame[1, :grad]
   mean_salary = mean(frame.zarada)
   println("Grad: $(city_name)", " zarada: $(mean_salary)") 
end

Grad: Niš zarada: 56666.666666666664
Grad: Beograd zarada: 73333.33333333333
Grad: Novi Sad zarada: 70000.0


- Petlja kojom se vrši obilazak pojedinačnih **DataFrame** objekata, nakon izvršenog grupisanja može se jednostavno zameniti kodom prikazanim ispod
- Upotrebom **combine** funkcije nakon grupisanja vrsta na osnovu vrednosti navedenog atributa i dobijenog iteratora, vrši se ponvo grupisanje **DataFrame** objekata na osnovu navedenog atributa i funkcije agregacije (u navedenom primeru kao funkcija agregacije upotrebljena je **"mean"** funkcija zato što računamo prosečnu zaradu)
- Nakon izvršenja **combine** funkcije, možemo videti novoformirani **DataFrame** koji sadrži informacije o prosečnim zaradma po gradovima

In [227]:
combine(groupby(df_1, :grad), :zarada => mean)

Unnamed: 0_level_0,grad,zarada_mean
Unnamed: 0_level_1,String,Float64
1,Niš,56666.7
2,Beograd,73333.3
3,Novi Sad,70000.0


### Kombinovanje (udruživanje) dva DataFrame-a

In [228]:
id = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]
age = [30, 27, 25, 36, 45, 56, 51, 27, 43, 29, 34, 38, 20, 57, 52]
df_2 = DataFrame(id=id, age=age)

Unnamed: 0_level_0,id,age
Unnamed: 0_level_1,Int64,Int64
1,1,30
2,2,27
3,3,25
4,4,36
5,5,45
6,6,56
7,7,51
8,8,27
9,9,43
10,10,29


- Funkcijom **innerjoin** omogućeno je udruživanje dva **DataFrame** objekta na osnovu navedenog kriterijuma poklapanja (vrednosti odgovarajućeg atributa koje su iste za vrste oba navedena **DataFrame**-a)
- Sve vrste koje ne nađu svog "parnjaka" biće odbačene

In [229]:
innerjoin(df_1, df_2, on=:id)

Unnamed: 0_level_0,id,grad,ime,zarada,age
Unnamed: 0_level_1,Int64,String,String,Int64,Int64
1,1,Niš,Marko,50000,30
2,2,Beograd,Milan,60000,27
3,3,Niš,Jovan,70000,25
4,4,Niš,Petar,50000,36
5,5,Beograd,Ivan,90000,45
6,6,Beograd,Ana,70000,56
7,7,Novi Sad,Jelena,60000,51
8,8,Novi Sad,Milica,50000,27
9,9,Novi Sad,Jovana,100000,43


- Funkcijom **leftjoin** je isto kao i funkcijom **innerjoin** omogućeno kombinovanje dva **DataFrame** objekta
- Za razliku od **innerjoin** funkcije, **leftjoin** funkcija će zadržati i sve redove prvog navedenog **DataFramea** koji ne nađu svoje "parnjake" u drugom navedenom **DataFrame**-u, a kao vrednosti atributa drugog **DataFrame**-a zadržaće specijalnu vrednost **"missing"** 

In [230]:
leftjoin(df_2, df_1, on=:id)

Unnamed: 0_level_0,id,age,grad,ime,zarada
Unnamed: 0_level_1,Int64,Int64,String?,String?,Int64?
1,1,30,Niš,Marko,50000
2,2,27,Beograd,Milan,60000
3,3,25,Niš,Jovan,70000
4,4,36,Niš,Petar,50000
5,5,45,Beograd,Ivan,90000
6,6,56,Beograd,Ana,70000
7,7,51,Novi Sad,Jelena,60000
8,8,27,Novi Sad,Milica,50000
9,9,43,Novi Sad,Jovana,100000
10,10,29,missing,missing,missing


### Snimanje DataFrame-a

- Snimanje dataframea je omogućeno primenom funkcije **write**, koja je definisana u **CSV** biblioteci
- Kao prvi argument funkcije navodi se putanja do fajla, a kao drugi **DataFrame** objekat koji želimo da sačuvamo

In [231]:
CSV.write("./test_dataframe.csv", df)

"./test_dataframe.csv"

### Učitavanje csv fajla u DataFrame objekat

- Učitavanje fajla sa ekstenzijom **csv**, koji sadrži vrednosti razdvojene zarezom (eng. **comma separated values**) u **DataFrame** objekat, vrši se funkcijom **read** koja je definisana u **CSV** biblioteci
- Kao prvi argument **read** funkcije navodi se putanja do **csv** fajla, a kao drugi **DataFrame** kompozitni tip

In [232]:
df_loaded = CSV.read("indians.csv", DataFrame)

Unnamed: 0_level_0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64,Float64,Float64
1,6,148,72,35,0,33.6,0.627
2,1,85,66,29,0,26.6,0.351
3,8,183,64,0,0,23.3,0.672
4,1,89,66,23,94,28.1,0.167
5,0,137,40,35,168,43.1,2.288
6,5,116,74,0,0,25.6,0.201
7,3,78,50,32,88,31.0,0.248
8,10,115,0,0,0,35.3,0.134
9,2,197,70,45,543,30.5,0.158
10,8,125,96,0,0,0.0,0.232


### Nedostajuće vrednosti

- U programskom jeziku **Julia**, uveden je poseban tip za označavanje nedostajućih vrednosti
- U pitanju je tip **Missing**, a literal koji se koristi za kreiranje konkretne vrednosti je **missing**
- U primeru ispod, primenom funkcije **typeof** možemo videti kog je tipa literal **missing** 

In [233]:
typeof(missing)

Missing

- Problem se može javiti zbog načina na koji **Julia** tretira nedostajuće vrednosti
- Ukoliko vršimo neku aritmetičku operaciju između neke vrednosti i vrednosti tipa **missing**, kao rezultat dobićemo **missing** vrednost
- U kodu koji je prikazan ispod, prikazan je rezultat sabiranja vrednosti tipa **Int64** i vrednosti **missing**

In [234]:
a = 10
a + missing

missing

Gotovo identično gore navedenoj situaciji, ukoliko pokušamo da sumiramo elemente niza koji sadrži makar jednu **missing** vrednost, kao rezultat dobićemo **missing** vrednost

In [235]:
a_1 = [1 2 3 missing 5 6 missing 7 8 missing 9]
sum(a_1)

missing

Upotrebom funkcije **skipmissing** možemo eksplicitno navesti da želimo izostavljanje nedostajućih vrednosti, ukoliko one postoje u nizu

In [236]:
sum(skipmissing(a_1))

41

### Uklanjanje vrsta koje sadrže nedostajuće (missing) vrednosti iz DataFrame objekta

U kodu uspod, kreiran je novi DataFrame objekat koji sadrži nedostajuće vrednosti

In [237]:
id = [1, 2, 3, 4, 5, 6, 7, 8, 9]
ime = ["Marko", missing, "Jovan", missing, "Ivan", "Ana", "Jelena", "Milica", missing]
grad = ["Niš", "Beograd", "Niš", "Niš", "Beograd", "Beograd", "Novi Sad", "Novi Sad", "Novi Sad"]
zarada = [50000, 60000, missing, 50000, missing, 70000, missing, 50000, 100000]
df_3 = DataFrame(id=id, grad=grad, ime=ime, zarada=zarada)

Unnamed: 0_level_0,id,grad,ime,zarada
Unnamed: 0_level_1,Int64,String,String?,Int64?
1,1,Niš,Marko,50000
2,2,Beograd,missing,60000
3,3,Niš,Jovan,missing
4,4,Niš,missing,50000
5,5,Beograd,Ivan,missing
6,6,Beograd,Ana,70000
7,7,Novi Sad,Jelena,missing
8,8,Novi Sad,Milica,50000
9,9,Novi Sad,missing,100000


Funkcijom **dropmissing**, navođenjem samo jednog argumenta (**DataFrame** objekta), uklanjaju se sve vrste koje sadrže makar jednu **missing** vrednost

In [238]:
dropmissing(df_3)

Unnamed: 0_level_0,id,grad,ime,zarada
Unnamed: 0_level_1,Int64,String,String,Int64
1,1,Niš,Marko,50000
2,6,Beograd,Ana,70000
3,8,Novi Sad,Milica,50000


- Takođe, moguće je navesti i željenu kolonu koja će se ispitivati na pojavu nedostajuće vrednosti
- U slučaju da se u navedenoj koloni javi nedostajuća vrednost, uklanja se cela vrsta čiji atribut sadrži nedostajuću vrednost
- U primeru ispod, izbacuju se sve vrste koje imaju vrednost **missing** u koloni **"zarada"** 

In [239]:
println(df_3)
dropmissing(df_3, :zarada)

[1m9×4 DataFrame[0m
[1m Row [0m│[1m id    [0m[1m grad     [0m[1m ime     [0m[1m zarada  [0m
[1m     [0m│[90m Int64 [0m[90m String   [0m[90m String? [0m[90m Int64?  [0m
─────┼───────────────────────────────────
   1 │     1  Niš       Marko      50000
   2 │     2  Beograd  [90m missing [0m   60000
   3 │     3  Niš       Jovan   [90m missing [0m
   4 │     4  Niš      [90m missing [0m   50000
   5 │     5  Beograd   Ivan    [90m missing [0m
   6 │     6  Beograd   Ana        70000
   7 │     7  Novi Sad  Jelena  [90m missing [0m
   8 │     8  Novi Sad  Milica     50000
   9 │     9  Novi Sad [90m missing [0m  100000


Unnamed: 0_level_0,id,grad,ime,zarada
Unnamed: 0_level_1,Int64,String,String?,Int64
1,1,Niš,Marko,50000
2,2,Beograd,missing,60000
3,4,Niš,missing,50000
4,6,Beograd,Ana,70000
5,8,Novi Sad,Milica,50000
6,9,Novi Sad,missing,100000
