# Kratak pregled `pandas` biblioteke

Primer koriscenja biblioteke pandas za rad sa podacima.

Iris skup podataka:
https://en.wikipedia.org/wiki/Iris_flower_data_set

In [2]:
import pandas as pd

In [5]:
df = pd.read_csv('iris.csv')

# Prikazujemo prvih 5 instanci iz skupa podataka
print('Prvih 5 instanci:')
df.head()

Prvih 5 instanci:


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [7]:
# Izracunavamo neke statistike nad podacima
print('\nOpis podataka:')
df.describe()


Opis podataka:


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [11]:
# Broj elemenata
print('Broj instanci:', df.size)

# Dimenzionalnost
# (150, 5)
# 150   -> broj instanci
# 5     -> 5 atributa
print('Dimenzije podataka:', df.shape)

print('Broj atributa:', df.shape[1])

Broj instanci: 750
Dimenzije podataka: (150, 5)
Broj atributa: 5


In [13]:
print("Kolone (atributi):")
for col in df.columns:
#     print('- {}'.format(col))
    print(f'- {col}')
# - sepal_length
# - sepal_width
# - petal_length
# - petal_width
# - species

Kolone (atributi):
- sepal_length
- sepal_width
- petal_length
- petal_width
- species


In [None]:
# Uzorkovanje, na primer zelimo da uzmemo 10% uzorka skupa podataka
df_sample = df.sample(frac=0.1)
print('\nVelicina uzorka: {}'.format(df_sample.size))

### Odabir atributa (vrlo **vazno**)

Odabir atributa moze biti vrlo bitan korak u koraku pripreme podataka
jer dimenzionalnost podataka moze biti visoka.

Smanjivanje dimenzionalnosti
moze doprineti **boljem** ponasanju algoritama masinskoug ucenja, te je korisno
izostaviti neke atribute. Prica oko odabira atributa je vrlo opsirna u samoj
oblasti i u okviru ovog kursa joj necemo posvetiti previse paznje, ali treba imati
u vidu da veliki broj atributa u podacima moze doprineti losijem ponasanju algoritama.

In [16]:
df[['sepal_length', 'sepal_width']].head()

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


Zelimo da podatke podelimo na vektore `X` i `y`, odnsono da izvrsimo odabir atributa
i izdvojimo ciljnu promenljivu.

Za atribute uzimamo prva 4 atributa u podacima.

Funkciju `iloc` se koristi za odabir vrsti/kolona koristeci indeksiranje brojevima.
`:` kao prva koordinata oznacava da se uzmu sve vrste.
`0:4` oznacava da se uzmu prva 4 elemente

In [17]:
X = df.iloc[:, :4]
X.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Slicno smo mogli postici i sa funkcijom `loc` koja prihvata labele (ime vrste/kolone)


In [18]:
X_tmp = df.loc[:, ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
X_tmp.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Kraca sintaksa.

In [19]:
X_tmp = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
X_tmp.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Vrsimo odabir ciljne promenljive.

In [20]:
y = df['species']
y.head()

0    setosa
1    setosa
2    setosa
3    setosa
4    setosa
Name: species, dtype: object

In [21]:
# Ili
y = df[['species']]
y.head()

Unnamed: 0,species
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa


Razlika izmedju `[species]` i `[[species]]` je u povratnoj vrednosti. Prva varijanta vraca `pandas.Series` objekat,
a druga varijanta vraca `pandas.DataFrame` objekat - pandas varijantu tabelarnih podataka.

Mozete zamisljati da je `pandas.DataFrame` u stvari tabelarna kolekcija `pandas.Series` objekata.

In [None]:
Pretpostavimo da smo primenom neke metode zakljucili da su nam bitni
samo atributi sepal_length i sepal_width, a da ostala dva mozemo izostaviti.

In [22]:
X = df[['sepal_length', 'sepal_width']]             # nacin 1
X = df.iloc[:, :2]                                  # nacin 2
print(X.head())

   sepal_length  sepal_width
0           5.1          3.5
1           4.9          3.0
2           4.7          3.2
3           4.6          3.1
4           5.0          3.6
