# Uvod u Python Pandas
## Sedmi deo

## Rad sa nedostajućim vrednostima i čišćenje podataka



### Rad sa nedostajućim vrednostima
U radu sa podacima se često susrećemo sa nedostajućim vrednostima. Ponekad korisnici zaborave da unesu sve podatke ili se podaci izgube prilikom uvoženja iz baze podataka, dok je ponekad u pitanju programska ili neka druga nenamerna greška. 

Pre čišćenja skupa podataka bilo bi dobro da pregledamo podatke da imamo neku opštu sliku. U našem slučaju to znači da ćemo otvoriti csv tabelu i pregledati je da utvrdimo kog su tipa nedostajuće ili nedefinisane vrednosti.

Pogledajmo prvo da li ima nedostajućih vrednosti. Koristićemo metodu `isnull()` u kombinaciji sa metodom `sum()`.

In [1]:
import pandas as pd
df = pd.read_csv('../datasets/data.csv')
df.head(3)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110.0,130,409.1
1,60,,145,479.0
2,60,103.0,135,340.0


In [2]:
df.shape

(169, 4)

In [3]:
df.isnull().head(3)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,False,False,False,False
1,False,True,False,False
2,False,False,False,False


Da bi utvrdili broj nedostajućih vrednosti u kolonama koristićemo metodu za sumiranje.

In [4]:
df.isnull().sum()

Duration    0
Pulse       2
Maxpulse    0
Calories    5
dtype: int64

Vidimo da kolona Pulse ima dve, a kolona Calories ima pet nedostajućih vrednosti.

Uklanjanje je preporučljivo u slučaju kada imamo mali broj nedostajućih podataka. U ostalim slučajevima vršimo zamenu nedostajućih vrednosti. Uklonimo sada redove koji sadrže nedostajuće vrednosti.


In [5]:
# Uklanjanje redova koji sadrže prazne ćelije
new_df = df.dropna() # vraća novi DataFrame i neće promeniti original

new_df.head(3)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110.0,130,409.1
2,60,103.0,135,340.0
3,45,109.0,175,282.4


In [6]:
new_df.shape

(162, 4)

### Zamena praznih ćelija

In [7]:
df.fillna(300, inplace = True) # na sva prazna mesta u tabeli (početnom DataFreme-u) biće umetnuta vrednost 300

In [8]:
df.isnull().sum()

Duration    0
Pulse       0
Maxpulse    0
Calories    0
dtype: int64

Primetimo da sada nema praznih ćelija u tabeli

In [9]:
# Zamena samo za određene kolone
import pandas as pd

df = pd.read_csv('../datasets/data.csv')
df


Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110.0,130,409.1
1,60,,145,479.0
2,60,103.0,135,340.0
3,45,109.0,175,282.4
4,45,117.0,148,406.0
...,...,...,...,...
164,60,105.0,140,290.8
165,60,110.0,145,300.0
166,60,115.0,145,310.2
167,75,120.0,150,320.4


In [10]:
df["Calories"].fillna(300, inplace = True) # na sva prazna mesta u koloni Calories biće umetnuta vrednost 300
print(df.to_string())

     Duration  Pulse  Maxpulse  Calories
0          60  110.0       130     409.1
1          60    NaN       145     479.0
2          60  103.0       135     340.0
3          45  109.0       175     282.4
4          45  117.0       148     406.0
5          60  102.0       127     300.0
6          60  110.0       136     374.0
7          45    NaN       134     253.3
8          30  109.0       133     195.1
9          60   98.0       124     269.0
10         60  103.0       147     329.3
11         60  100.0       120     250.7
12         60  106.0       128     345.3
13         60  104.0       132     379.3
14         60   98.0       123     275.0
15         60   98.0       120     215.2
16         60  100.0       120     300.0
17         45   90.0       112     300.0
18         60  103.0       123     323.0
19         45   97.0       125     243.0
20         60  108.0       131     364.2
21         45  100.0       119     282.0
22         60  130.0       101     300.0
23         45  1

In [11]:
df.isnull().sum()

Duration    0
Pulse       2
Maxpulse    0
Calories    0
dtype: int64

Nedostajuće vrednosti moguće je zameniti vrednostima aritmetičke sredine, medijane ili moda.
U te svrhe prvo se vrši vizualizacija podataka iz kolona sa nedostajućim vrednostima pomoću box plot dijagrama i histograma, kako bismo se lakše odlučili koju od pomenutih vrednosti da umetnemo.

In [12]:
# primer zamene sa prosečnom vrednosti kolone Pulse
x = df["Pulse"].mean()
x

107.42514970059881

In [13]:
df["Pulse"].fillna(x, inplace = True)
df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110.00000,130,409.1
1,60,107.42515,145,479.0
2,60,103.00000,135,340.0
3,45,109.00000,175,282.4
4,45,117.00000,148,406.0
...,...,...,...,...
164,60,105.00000,140,290.8
165,60,110.00000,145,300.0
166,60,115.00000,145,310.2
167,75,120.00000,150,320.4
