### Nedostajuće vrednosti

Neretko u skupovima podataka kojimo raspolažemo postoje nedostajuće vrednosti. U `Python` bibliotekama nedostajućim vrednostima se smatraju `None` i `NaN` vrednosti. Ovaj skup vrednosti se može proširiti i svim vrednostima koje nisu iz zadovoljavajućih opsega ili kategorija za posmatrani problem. Na primer, redni broj meseca ne može imati vrednost 13 ili prosečan broj pacijenata jedne ordinacije ne može biti negativan. U tom smislu bi se ove vrednosti mogle zameniti nedostajućim. 

Cilj narednih primera je da približe rad sa funkcijama koje omogućavaju manipulaciju nedostajućim vrednostima, kao i da uvedu primene linearne regresije u oceni nedostajućih vrednosti. 

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
from sklearn import linear_model
from sklearn import preprocessing
from sklearn import metrics

Prvo generisemo proizvoljni skup tacaka.

In [3]:
np.random.seed(7)

In [4]:
N = 10
x = np.random.randn(N)
y = np.random.rand(N)

In [5]:
points = pd.DataFrame({'x':x, 'y': y})

In [6]:
points.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   x       10 non-null     float64
 1   y       10 non-null     float64
dtypes: float64(2)
memory usage: 288.0 bytes


#### Neke od opcija koje imamo na raspolaganju ukoliko su nedostajuće vrednosti prisutne u skupu podataka: 


1. brisanje nedostajućih vrednosti 

2. zamena nedostajuće vrednosti prosečnom vrednošću, medijanom ili modom

3. zamena nedostajućih vrednosti nekim proizvoljnim vrednostima iz skupa vrednosti

4. aproksimiranje vrednosti na osnovu vrednosti nekih suseda

U primeru koji sledi bi hteli da na osnovu poznatih vrednosti atributa korišćenjem linearne regresije aproksimiramo vrednosti koje nedostaju. Skup podataka sa kojim ćemo raditi je preuzet sa [adrese](https://www.kaggle.com/ranjeetjain3/seaborn-tips-dataset) i sadrži informacije o napojnicama zaposlenih u jednom restoranu. Osim visine napojnice poznati su i iznos ukupnog računa, informacija o kom obroku se radilo, danu u nedelji, veličini grupe, polu osobe koja je platila i sekciji restorana za pušače ili nepušače. 

In [7]:
data = pd.read_csv('data/tips.csv')