# Pandas - Python Data Analysis Library

Znamo da Python ima nekoliko tipova podataka koji se odnose na kolekcije. To su liste, rječnici, n-terci. Rad s ovim tipovima podataka nije tako brz kao u jezicima baziranim na C-u ili u Fortranu. Zbog toga su nastale biblioteke koje imaju učinkovitost kao da su pisane u C-u ili Fortranu, a istovremeno imaju jednostavnost pisanja kôda kao u Pythonu.

Pandas je jedna od njih. To je Python biblioteka za analizu i manipulaciju podataka, strukturiranih u obliku  tablice. Pandas koristi NumPy biblioteku kao podlogu. Njegova osnovna karakteristika je također rad s tabličnim tipom podataka koji može pohraniti samo podatke koji se zbrajaju i množe (najčešće brojeve). Pandas, s druge strane, također radi s tabličnim tipom podataka, ali za razliku od NumPy biblioteke, nema uvjet koji se tip podatka može pohraniti u tablici.

Pandas je jako korisna biblioteka i ovo su samo neke od situacija u kojima se koristi:<br>
- upravljanje podacima koji nedostaju u tablicama s brojevima (na njihova mjesta dodaje *NaN - Not a Number*)
- mogućnost promjene veličine objekta tako što se dodaju ili oduzimaju kolone iz *DataFrame* objekta
- fleksibilno, a opet učinkovito grupiranje podataka koje omogućava modifikacije kao što su podjela, dodavanje, kombiniranje...
- jednostavna konverzija Python i NumPy struktura podataka, bez obzira na način indeksacije izvornih objekata u *DateFrame* objekt
- mogućnost izdvajanja dijelova podataka u zasebne cjeline na osnovi naziva kolona
- promjena oblika i rotacija (eng. *pivoting*) tablica
- uvoz i izvoz podataka iz datoteka CSV, Excel, baze podataka.

... i još puno drugih.

In [1]:
# pip install pandas

import pandas as pd

# Pandas struktura podataka

Pandas se koristi za rad s podacima u obliku tablice. Nudi mogućnost da se učita cijela tablica i od nje napravi Python objekt s kojim možemo raditi svakojake manipulacije na podacima unutar tog objekta.

## Dataframe

Tablični oblik pohrane podataka zastupljen je u bazama podataka, tabličnim kalkulatorima (Excel, CSV). Ovakav, tablični tip podataka u Pandasu naziva se ***DataFrame*** i on predstavlja tablicu koja ima više redaka i stupaca. *DataFrame* ima retke i stupce pa kažemo da ima dvije dimenzije (os 0 - stupci i os 1 - redovi).

<img src="slike/01_table_dataframe.svg" alt="pandas dataframe"/>

In [2]:
data = {
    "Stupac 1": ["S1_Podatak 1", "S1_Podatak 2", "S1_Podatak 3", "S1_Podatak 4", "S1_Podatak 5"],
    "Stupac 2": ["S2_Podatak 1", "S2_Podatak 2", "S2_Podatak 3", "S2_Podatak 4", "S2_Podatak 5"],
    "Stupac 3": ["S3_Podatak 1", "S3_Podatak 2", "S3_Podatak 3", "S3_Podatak 4", "S3_Podatak 5"],
    "Stupac 4": ["S4_Podatak 1", "S4_Podatak 2", "S4_Podatak 3", "S4_Podatak 4", "S4_Podatak 5"],
}

In [3]:
df = pd.DataFrame(data)

df

Unnamed: 0,Stupac 1,Stupac 2,Stupac 3,Stupac 4
0,S1_Podatak 1,S2_Podatak 1,S3_Podatak 1,S4_Podatak 1
1,S1_Podatak 2,S2_Podatak 2,S3_Podatak 2,S4_Podatak 2
2,S1_Podatak 3,S2_Podatak 3,S3_Podatak 3,S4_Podatak 3
3,S1_Podatak 4,S2_Podatak 4,S3_Podatak 4,S4_Podatak 4
4,S1_Podatak 5,S2_Podatak 5,S3_Podatak 5,S4_Podatak 5


## Pandas `series` ili serija

Drugi oblik podataka, za čiju obradu se koristi Pandas je *Series* ili serija kako ćemo je mi zvati. Serija predstavlja stupac u *DataFrame* tablici i zbog toga ima samo jednu dimenziju (os 0).

<img src="slike/01_table_series.svg" alt="pandas dataframe"/>

In [4]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


### Pristup podacima iz `dataframe-a`

In [5]:
df

Unnamed: 0,Stupac 1,Stupac 2,Stupac 3,Stupac 4
0,S1_Podatak 1,S2_Podatak 1,S3_Podatak 1,S4_Podatak 1
1,S1_Podatak 2,S2_Podatak 2,S3_Podatak 2,S4_Podatak 2
2,S1_Podatak 3,S2_Podatak 3,S3_Podatak 3,S4_Podatak 3
3,S1_Podatak 4,S2_Podatak 4,S3_Podatak 4,S4_Podatak 4
4,S1_Podatak 5,S2_Podatak 5,S3_Podatak 5,S4_Podatak 5


In [10]:
stupac = df["Stupac 1"]
stupac
# print(type(df["Stupac 1"]))

0    S1_Podatak 1
1    S1_Podatak 2
2    S1_Podatak 3
3    S1_Podatak 4
4    S1_Podatak 5
Name: Stupac 1, dtype: object

In [11]:
stupac.name

'Stupac 1'

In [16]:
serija = pd.Series([5, 8, 2, 6, 5, 4, 8], name="Testna serija")
serija

0    5
1    8
2    2
3    6
4    5
5    4
6    8
Name: Testna serija, dtype: int64

In [20]:
serija_indeksi = pd.Series([5, 8, 2, 6], name="Indeks serija", index=["prvi", "drugi", "treci", "cetvrti"])
serija_indeksi

prvi       5
drugi      8
treci      2
cetvrti    6
Name: Indeks serija, dtype: int64

In [21]:
serija_indeksi["prvi"]

5

In [23]:
serija_indeksi[1]

8

In [30]:
serija_indeksi[::2]

prvi     5
treci    2
Name: Indeks serija, dtype: int64

In [31]:
serija_indeksi

prvi       5
drugi      8
treci      2
cetvrti    6
Name: Indeks serija, dtype: int64

In [34]:
serija_umnozak = serija_indeksi * 2

In [35]:
serija_umnozak

prvi       10
drugi      16
treci       4
cetvrti    12
Name: Indeks serija, dtype: int64

In [36]:
serija_indeksi

prvi       5
drugi      8
treci      2
cetvrti    6
Name: Indeks serija, dtype: int64

In [37]:
serija_indeksi["prvi"] = 7

In [38]:
serija_indeksi

prvi       7
drugi      8
treci      2
cetvrti    6
Name: Indeks serija, dtype: int64

In [39]:
serija_veci_od_6 = serija_indeksi[serija_indeksi > 6]

In [41]:
serija_indeksi > 6

prvi        True
drugi       True
treci      False
cetvrti    False
Name: Indeks serija, dtype: bool

In [40]:
serija_veci_od_6

prvi     7
drugi    8
Name: Indeks serija, dtype: int64

In [43]:
serija_duza = pd.Series([5, 6, 1, 7, 8, 2, 3, 1, 6, 7, 1, 5, 1, 6], name="Duza serija")
serija_duza

0     5
1     6
2     1
3     7
4     8
5     2
6     3
7     1
8     6
9     7
10    1
11    5
12    1
13    6
Name: Duza serija, dtype: int64

In [46]:
serija_duza.unique()  # jedinstveni elementi (bez ponavljanja)

array([5, 6, 1, 7, 8, 2, 3], dtype=int64)

In [47]:
print(type(serija_duza.unique()))

<class 'numpy.ndarray'>


In [50]:
# prebrojiti vrijednosti u seriji
serija_duza.value_counts().sort_values(ascending=False)

1    4
6    3
5    2
7    2
8    1
2    1
3    1
Name: Duza serija, dtype: int64

In [51]:
serija_duza.isin([1, 5, 7])

0      True
1     False
2      True
3      True
4     False
5     False
6     False
7      True
8     False
9      True
10     True
11     True
12     True
13    False
Name: Duza serija, dtype: bool

In [52]:
serija_duza[serija_duza.isin([1, 5, 7])]

0     5
2     1
3     7
7     1
9     7
10    1
11    5
12    1
Name: Duza serija, dtype: int64

## Zadatak

Generirajte nasumičnih 100 brojeva te ih pohranite u Python listu. Od te liste kreirajte Pandas seriju te joj dajte nekakav naziv.

- Provjerite, koliko ima brojeva koji se ponavljaju te koliko se puta svaki od njih ponavlja?
- Koji je broj najveći, a koji najmanji?
- Modificirajte podatke u seriji tako da se svedu na postotke (neka budu u rasponu od 0 do 1).
- Promijenite vrijednosti najvećeg broja tako da je identična vrijednosti najmanjeg broja. Provjerite koji je sada najveći broj.

In [59]:
import random as rd
lista = []

for i in range(100):
    lista.append(rd.randint(1, 101))

random_serija = pd.Series(lista, name="Random serija")

In [57]:
random_serija

0     69
1     45
2     47
3     55
4     81
      ..
95    18
96    44
97    67
98    58
99    90
Name: Random serija, Length: 100, dtype: int64

In [60]:
random_serija.value_counts().sort_values(ascending=False)

57    5
96    4
40    3
36    3
3     3
     ..
46    1
21    1
42    1
33    1
53    1
Name: Random serija, Length: 63, dtype: int64

In [63]:
random_serija.min()  # najmanja vrijednost u seriji

1

In [64]:
random_serija.max()  # najveća vrijednost u seriji

99

In [65]:
random_serija = random_serija / 100

In [66]:
random_serija

0     0.67
1     0.40
2     0.52
3     0.74
4     0.70
      ... 
95    0.16
96    0.57
97    0.85
98    0.47
99    0.53
Name: Random serija, Length: 100, dtype: float64