In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
penzici = pd.read_excel ("penzioneri.xlsx", sheet_name = "drugi")

In [4]:
penzici.head(10)

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
3,Zagreb,,obrtnik,f,3500.0,4500.0
4,Split,59.0,,,,
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
7,Pula,,obrtnik,,3000.0,10000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,


# Dataset penzioneri
Financijski podaci o starijim građanima koje skuplja jedna financijska institucija

Pregledom podataka utvrđuje se da postoje neki podaci koji su označeni oznakom NaN

Radi se o missing vrijednostima, podacima koji jednostavno nedostaju

Možda je došlo do greške pri unosu podataka, možda podaci nikad nisu bili ni zapisani, možda su se zagubili pri migracijama podataka

In [6]:
penzici.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   grad       21 non-null     object 
 1   starost    18 non-null     float64
 2   zanimanje  19 non-null     object 
 3   spol       19 non-null     object 
 4   primanja   20 non-null     float64
 5   stednja    18 non-null     float64
dtypes: float64(3), object(3)
memory usage: 1.1+ KB


In [7]:
penzici.describe()

Unnamed: 0,starost,primanja,stednja
count,18.0,20.0,18.0
mean,67.111111,3882.5,11227.777778
std,10.681974,1823.622407,8040.105761
min,52.0,1250.0,2000.0
25%,59.0,2375.0,6275.0
50%,63.5,3750.0,9600.0
75%,74.75,4925.0,13500.0
max,92.0,8200.0,33000.0


In [8]:
penzici.isna().sum()

grad         0
starost      3
zanimanje    2
spol         2
primanja     1
stednja      3
dtype: int64

**isna().sum()** je naredba koja sumira koliko ima missing vrijednosti po stupcu

In [9]:
isna_values = penzici[penzici.isna().any(axis=1)]

In [10]:
isna_values

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
3,Zagreb,,obrtnik,f,3500.0,4500.0
4,Split,59.0,,,,
7,Pula,,obrtnik,,3000.0,10000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,
11,Pula,,obrtnik,m,4500.0,


In [11]:
penzici2 = penzici.copy()

Pokazat ćemo nekoliko načina rješavanja missing vrijednosti. Kako bismo sačuvali originalni dataset, radimo novu kopiju
Prvi način, kao i kod outliera je brisanje

In [12]:
penzici2.dropna(how = "any")

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
10,Zagreb,60.0,penzioner,f,1700.0,2500.0
12,Osijek,58.0,obrtnik,f,3000.0,11000.0
13,Zagreb,83.0,penzioner,m,3500.0,14000.0
14,Split,74.0,obrtnik,f,4900.0,16000.0
15,Zagreb,92.0,penzioner,m,6000.0,20000.0


Kod naredbe dropna() mora se koristiti parametar inplace = True ako zaista želimo obrisati missing values
Ako nismo koristili inplace = True, dobili smo samo klasični upit koji bi nam pokazao kako bi izgledao dataset bez missing vrijendnosti

In [13]:
penzici2.head(10)

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
3,Zagreb,,obrtnik,f,3500.0,4500.0
4,Split,59.0,,,,
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
7,Pula,,obrtnik,,3000.0,10000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,


Redovi 3, 4, 7 i 8 su opet tu

In [14]:
penzici2.dropna(how = "any", inplace = True)

In [15]:
penzici2.head(10)

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
10,Zagreb,60.0,penzioner,f,1700.0,2500.0
12,Osijek,58.0,obrtnik,f,3000.0,11000.0
13,Zagreb,83.0,penzioner,m,3500.0,14000.0
14,Split,74.0,obrtnik,f,4900.0,16000.0
15,Zagreb,92.0,penzioner,m,6000.0,20000.0


Problem s brisanjem redaka koji imaju missing value je taj što možete obrisati previše

Možda želimo obrisati redak 4, korisnik iz Splita jer u njemu ima previše nedostajućih vrijednosti, ostale ćemo zadržati

Kadkada je jako teško doći do podataka, naročito recimo u medicini - ne možete samo izaći na ulicu i anketom prikupiti podatke o osobama koje boluju od karcinoma

In [16]:
penzici3 = penzici.copy()

In [17]:
penzici3.head(10)

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
3,Zagreb,,obrtnik,f,3500.0,4500.0
4,Split,59.0,,,,
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
7,Pula,,obrtnik,,3000.0,10000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,


In [18]:
penzici3

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
3,Zagreb,,obrtnik,f,3500.0,4500.0
4,Split,59.0,,,,
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
7,Pula,,obrtnik,,3000.0,10000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,


Uvodimo parametar thresh koji nam označava koji minimum podataka s ne NaN vrijednosću nam mora ostati

Naša tablica ima 6 kolona, ako je thresh = 5, dozvoljen je jedan NaN

Ako ima dva ili više NaNova, podatak se briše

In [19]:
penzici3.dropna(thresh = 5, inplace = True)

In [20]:
penzici3

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
3,Zagreb,,obrtnik,f,3500.0,4500.0
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,
10,Zagreb,60.0,penzioner,f,1700.0,2500.0
12,Osijek,58.0,obrtnik,f,3000.0,11000.0


In [21]:
penzici4 = penzici.copy()

Preporuka je brisati podatke samo ako imamo 1 - 2 posto podataka s missing vrijednostima. Ako želimo sačuvati vrijednosti, možemo opet koristiti metode imputacije

Na mjesto missing numeričkih vrijednosti, stavit ćemo prosjek

In [22]:
prosjek_godina = penzici4 ["starost"].mean()

In [23]:
prosjek_godina

np.float64(67.11111111111111)

In [24]:
penzici4 ["starost"] = penzici4 ["starost"].fillna (prosjek_godina)

Svako prazno polje (NaN) u stupcu Starost zamjenjujemo s prosjekom stupca

Kad smo radili s putlierima, računali smo prosjek stupca bez vrijednosti redaka u kojima je outlier. Nismo htjeli da outlieri utječu na prosjek

Kad radimo s prosjekom koji želimo iskoristiti za missing vrijednosti, polja NaN se automatski isključuju

In [25]:
penzici4

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
3,Zagreb,67.111111,obrtnik,f,3500.0,4500.0
4,Split,59.0,,,,
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
7,Pula,67.111111,obrtnik,,3000.0,10000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,


Prosjek možemo koristiti samo za numeričke stupce, ne pomaže nam kod kategoričkih

Na kategoričkim stupcima koristimo mjeru mod (najčešća vrijednost)

In [26]:
penzici4["spol"].mode()

0    m
Name: spol, dtype: object

In [27]:
penzici4 ["spol"] = penzici4 ["spol"].fillna(value = "m") 

In [28]:
penzici4

Unnamed: 0,grad,starost,zanimanje,spol,primanja,stednja
0,Split,55.0,obrtnik,m,2500.0,10000.0
1,Zagreb,77.0,penzioner,m,1700.0,5000.0
2,Split,62.0,penzioner,m,1800.0,2000.0
3,Zagreb,67.111111,obrtnik,f,3500.0,4500.0
4,Split,59.0,,m,,
5,Zagreb,71.0,penzioner,m,1250.0,6500.0
6,Osijek,59.0,obrtnik,m,4000.0,12000.0
7,Pula,67.111111,obrtnik,m,3000.0,10000.0
8,Zagreb,65.0,,m,2000.0,7000.0
9,Split,52.0,obrtnik,m,5000.0,


# Zadatak 1
U stupcima zanimanje, primanja i stednja imamo missing values. Na kopiji penzici 4 riješite te probleme.