# Nedostajuće vrednosti

Neretko u skupovima podataka kojima raspolažemo postoje nedostajuće vrednosti. U bibliotekama jezika `Python` nedostajućim vrednostima se smatraju `None` i `NaN` vrednosti. Ovaj skup vrednosti se može proširiti i svim vrednostima koje nisu iz zadovoljavajućih opsega ili kategorija za posmatrani problem. Na primer, redni broj meseca ne može imati vrednost 13 ili prosečan broj pacijenata jedne ordinacije ne može biti negativan. U tom smislu bi se ove vrednosti mogle zameniti nedostajućim. 

Cilj narednih primera je da približe rad sa funkcijama koje omogućavaju manipulaciju nedostajućim vrednostima, kao i da uvedu primene linearne regresije u oceni nedostajućih vrednosti. 

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
from sklearn import linear_model
from sklearn import preprocessing
from sklearn import metrics

Prvo ćemo generisati proizvoljni skup tačaka u ravni.

In [3]:
np.random.seed(7)

Dalje su pobrojane neke tehnike koje imamo na raspolaganju ukoliko su nedostajuće vrednosti prisutne u skupu podataka sa kojim radimo.


## Brisanje nedostajućih vrednosti 

Za brisanje nedostajućih vrednosti može se koristi funkcija `dropna` Pandas biblioteke. Njenim parametrima se utiče na brisanje vrsta ili kolona (parametar `axis`), način brisanja (parametar `how`) i rezultujuću vrednost poziva funkcije (parametar `inplace`). 

## Zamena nedostajuće vrednosti prosečnom vrednošću, medijanom ili modom

Sledećim blokom koda se prvo izračunava srednja vrednost svojstva `y`, a potom se korišćenjem funkcije `replace` vrši zamena nedostajućih vrednosti. Parametar `to_replace` ukazuje na vrednosti koje treba zameniti, a parametar `value` na vrednost koju treba koristiti prilikom zamene.

## Zamena nedostajućih vrednosti nekim proizvoljnim vrednostima iz skupa vrednosti

Funkcija `random_imputation` zamenjuje nedostajuće vrednosti u koloni određenoj parametrom `feature` na slučajan način.

In [21]:
def random_imputation(data, feature):
    pass

## Aproksimiranje nedostajućih vrednosti na osnovu vrednosti suseda

U primeru koji sledi hteli bismo da na osnovu poznatih vrednosti atributa korišćenjem linearne regresije aproksimiramo vrednosti atributa koje nedostaju. Skup podataka sa kojim ćemo raditi je preuzet sa [adrese](https://www.kaggle.com/ranjeetjain3/seaborn-tips-dataset) i sadrži informacije o napojnicama zaposlenih u jednom restoranu. Osim visine napojnice poznati su i iznos ukupnog računa, informacija o kom obroku se radilo, danu u nedelji, veličini grupe, polu osobe koja je platila i sekciji restorana za pušače ili nepušače. 

Prvo ćemo učitati podatke i pripremiti ih za dalji rad.

In [None]:
data = pd.read_csv('data/tips.csv')