## Suočavanje s nedostajućim vrijednostima
### učitavanje potrebnih paketa

In [45]:
import pandas as pd
import numpy as np

#### učitavanje stvorene CSV datoteke sa standardnim i nestandardnim nedostajućim vrijednostima

In [46]:
df = pd.read_csv("dijelovi data.csv")
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Unnamed: 5,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3,4,1000
1,100002000.0,197.0,GUME LJETNE,N,3,4.5,--
2,100003000.0,,FELGE,N,,2,850
3,100004000.0,201.0,BRISACI PREDNJI,12,1,,700
4,,203.0,BRISACI STRAZNJI,Y,3,2,1600
5,100006000.0,207.0,BRISACI,Y,,1,800
6,100007000.0,,Zracni FILTER,,2,HURLE,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1,5,
8,100009000.0,215.0,ANTIFRIZ,Y,na,3,1800


In [47]:
# Looking at the 'broj artikla' column
print(df['broj artikla'])

0    104.0
1    197.0
2      NaN
3    201.0
4    203.0
5    207.0
6      NaN
7    213.0
8    215.0
Name: broj artikla, dtype: float64


In [48]:
print(df['broj artikla'].isnull())

0    False
1    False
2     True
3    False
4    False
5    False
6     True
7    False
8    False
Name: broj artikla, dtype: bool


In [49]:
# Looking at the komada u skladistu column
print(df['komada u skladistu'])

0      3
1      3
2    NaN
3      1
4      3
5    NaN
6      2
7      1
8     na
Name: komada u skladistu, dtype: object


In [50]:
print(df['komada u skladistu'].isnull())

0    False
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8    False
Name: komada u skladistu, dtype: bool


#### standardne nedostaju'e vrijednosti prikazane su kao NaN, a u našem slučaju postoje i ne standardne vrijednosti  prikazane kao "na", pa ih dodajemo na popis nedostajućih vrijednosti

In [51]:
# Making a list of missing value types
missing_values = ["na"]
df = pd.read_csv("dijelovi data.csv", na_values = missing_values)

In [52]:
# Looking at the komada u skladistu column
print(df['komada u skladistu'])

0    3.0
1    3.0
2    NaN
3    1.0
4    3.0
5    NaN
6    2.0
7    1.0
8    NaN
Name: komada u skladistu, dtype: float64


In [53]:
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Unnamed: 5,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,--
2,100003000.0,,FELGE,N,,2,850
3,100004000.0,201.0,BRISACI PREDNJI,12,1.0,,700
4,,203.0,BRISACI STRAZNJI,Y,3.0,2,1600
5,100006000.0,207.0,BRISACI,Y,,1,800
6,100007000.0,,Zracni FILTER,,2.0,HURLE,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5,
8,100009000.0,215.0,ANTIFRIZ,Y,,3,1800


#### Ovaj je primjer malo zamršeniji, numerička vrijednost pojavljuje se u stupcu kategorijskih vrijednosti, ali nije prepoznata kao nedostajuća vrijednost

In [54]:
# Looking at the dostupnost column
print(df['dostupnost'])

0      Y
1      N
2      N
3     12
4      Y
5      Y
6    NaN
7      Y
8      Y
Name: dostupnost, dtype: object


In [55]:
print(df['dostupnost'].isnull())

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7    False
8    False
Name: dostupnost, dtype: bool


#### sljedeća funkcija proći će kroz stupac i klasificirati numeričku vrijednost kao nedostajuću vrijednost

In [56]:
# Detecting numbers 
cnt=0
for row in df['dostupnost']:
    try:
        int(row)
        df.loc[cnt, 'dostupnost']=np.nan
    except ValueError:
        pass
    cnt+=1

In [57]:
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Unnamed: 5,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,--
2,100003000.0,,FELGE,N,,2,850
3,100004000.0,201.0,BRISACI PREDNJI,,1.0,,700
4,,203.0,BRISACI STRAZNJI,Y,3.0,2,1600
5,100006000.0,207.0,BRISACI,Y,,1,800
6,100007000.0,,Zracni FILTER,,2.0,HURLE,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5,
8,100009000.0,215.0,ANTIFRIZ,Y,,3,1800


#### različiti primjeri brojanja i prikazivanja nedostajućih vrijednosti u podatkovnom okviru

In [58]:
# Total missing values for each feature
print(df.isnull().sum())

PID                   1
broj artikla          2
Ime artikla           0
dostupnost            2
komada u skladistu    3
Unnamed: 5            1
cijena                1
dtype: int64


In [59]:
# Any missing values?
print(df.isnull().values.any())

True


In [60]:
# Total number of missing values
print(df.isnull().sum().sum())

10


#### primjer zamjene svih nedostajućih vrijednosti u stupcu istom novom vrijednošću

In [61]:
# Replace missing values with a number
df['broj artikla'].fillna(125, inplace=True)

In [62]:
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Unnamed: 5,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,--
2,100003000.0,125.0,FELGE,N,,2,850
3,100004000.0,201.0,BRISACI PREDNJI,,1.0,,700
4,,203.0,BRISACI STRAZNJI,Y,3.0,2,1600
5,100006000.0,207.0,BRISACI,Y,,1,800
6,100007000.0,125.0,Zracni FILTER,,2.0,HURLE,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5,
8,100009000.0,215.0,ANTIFRIZ,Y,,3,1800


#### promjena naziva stupca

In [63]:
df.rename(columns={'Unnamed: 5':'Rejting'}, inplace=True)
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Rejting,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,--
2,100003000.0,125.0,FELGE,N,,2,850
3,100004000.0,201.0,BRISACI PREDNJI,,1.0,,700
4,,203.0,BRISACI STRAZNJI,Y,3.0,2,1600
5,100006000.0,207.0,BRISACI,Y,,1,800
6,100007000.0,125.0,Zracni FILTER,,2.0,HURLE,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5,
8,100009000.0,215.0,ANTIFRIZ,Y,,3,1800


#### zamjena točno pronađenih nedostajućih ili netočnih vrijednosti novima

In [64]:
df.loc[4,'PID'] = 100005000.0
df.loc[6,'Rejting'] = 4
df.loc[1,'cijena'] = 1000
df.loc[7,'cijena'] = 980

In [65]:
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Rejting,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4.0,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,1000
2,100003000.0,125.0,FELGE,N,,2.0,850
3,100004000.0,201.0,BRISACI PREDNJI,,1.0,,700
4,100005000.0,203.0,BRISACI STRAZNJI,Y,3.0,2.0,1600
5,100006000.0,207.0,BRISACI,Y,,1.0,800
6,100007000.0,125.0,Zracni FILTER,,2.0,4.0,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5.0,980
8,100009000.0,215.0,ANTIFRIZ,Y,,3.0,1800


#### zamijenite nedostajuće vrijednosti koristeći srednju vrijednost median

In [66]:
# Replace using median 
median = df['komada u skladistu'].median()
df['komada u skladistu'].fillna(median, inplace=True)

In [67]:
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Rejting,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4.0,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,1000
2,100003000.0,125.0,FELGE,N,2.5,2.0,850
3,100004000.0,201.0,BRISACI PREDNJI,,1.0,,700
4,100005000.0,203.0,BRISACI STRAZNJI,Y,3.0,2.0,1600
5,100006000.0,207.0,BRISACI,Y,2.5,1.0,800
6,100007000.0,125.0,Zracni FILTER,,2.0,4.0,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5.0,980
8,100009000.0,215.0,ANTIFRIZ,Y,2.5,3.0,1800


#### izračunavanje prosječne ocjene i zamjena nedostajućih vrijednosti s prosjekom

In [68]:
avg_rejting = df['Rejting'].astype("float").mean(axis=0)
print("Prosjecan Rejting:", avg_rejting) 

Prosjecan Rejting: 3.1875


In [69]:
df['Rejting'].replace(np.nan, avg_rejting, inplace = True)

In [70]:
df

Unnamed: 0,PID,broj artikla,Ime artikla,dostupnost,komada u skladistu,Rejting,cijena
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4.0,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,1000
2,100003000.0,125.0,FELGE,N,2.5,2.0,850
3,100004000.0,201.0,BRISACI PREDNJI,,1.0,3.1875,700
4,100005000.0,203.0,BRISACI STRAZNJI,Y,3.0,2.0,1600
5,100006000.0,207.0,BRISACI,Y,2.5,1.0,800
6,100007000.0,125.0,Zracni FILTER,,2.0,4.0,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5.0,980
8,100009000.0,215.0,ANTIFRIZ,Y,2.5,3.0,1800


In [71]:
#### changing column names to upper case

In [72]:
df.columns = map(lambda x: str(x).upper(), df.columns)

In [73]:
df

Unnamed: 0,PID,BROJ ARTIKLA,IME ARTIKLA,DOSTUPNOST,KOMADA U SKLADISTU,REJTING,CIJENA
0,100001000.0,104.0,GUMA ZIMSKE,Y,3.0,4.0,1000
1,100002000.0,197.0,GUME LJETNE,N,3.0,4.5,1000
2,100003000.0,125.0,FELGE,N,2.5,2.0,850
3,100004000.0,201.0,BRISACI PREDNJI,,1.0,3.1875,700
4,100005000.0,203.0,BRISACI STRAZNJI,Y,3.0,2.0,1600
5,100006000.0,207.0,BRISACI,Y,2.5,1.0,800
6,100007000.0,125.0,Zracni FILTER,,2.0,4.0,950
7,100008000.0,213.0,KLINASTI REMEN,Y,1.0,5.0,980
8,100009000.0,215.0,ANTIFRIZ,Y,2.5,3.0,1800
