# Pandas

Pandas je alat za analizu i obradu podataka za Python programski jezik

In [None]:
!pip install pandas

Najčešće se importuje na sledeći način:

In [None]:
import pandas as pd

U pandas-u se tabela naziva **DataFrame**.

![DataFrame](images/dataframe.png)

Jedan od načina za kreiranje DataFrame-a je preko dictionary-ja:

In [None]:
df = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    }
)

In [None]:
df

### Pregled podataka

Sa ```DataFrame.head()``` i ```DataFrame.tail()``` mogu se videti prvi i poslednji redovi DataFrame-a

In [None]:
df.head()

In [None]:
df.tail(3)

```info()``` metoda prikazuje osnovne informacije o DataFrame-u uključujući kolone i njihove tipove podataka, ne-nedostajajućim vrednostima, indeksu

In [None]:
df.info()

Sa ```describe()``` mogu se dobiti osnovni statistički podaci

In [None]:
df.describe()

In [None]:
df.sort_values(by="C")

*Napomena*: dodela vrednosti

In [None]:
df

In [None]:
df = df.sort_values(by="C")

In [None]:
df

### Selekcija

Selekcija i filtriranje specifičnih redova/kolona, filtriranje podataka na osnovu uslova

Selekcija jedne kolone. Vraća ```Series``` objekat.

Series je još jedna osnovna struktura podataka u pandas-u. Predstavlja jednodimenzionalni niz sa labelama.

In [None]:
df["A"]

Selekcija više kolona

In [None]:
df[['A', 'B']]

Selekcija preko [] 'iseca' redove po poziciji

In [None]:
df[0:3]

##### Selekcija preko labele

Metode za indeksiranje na bazi celobrojne labele

In [None]:
df2 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["aa", "bb", "cc", "dd", "ee", "ff", "gg", "hh", "ii", "jj"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [None]:
df2

In [None]:
df2.loc['d']

Selekcija više osa preko labele

In [None]:
df2.loc['d', ["A", "B"]]

*Note:* Kod selekcije preko labele, selektovanje je uključno sa obe strane

In [None]:
df2.loc["b":"d", ["C", "D"]]

Dobavljanje skalarne vrednosti

In [None]:
df2.loc['d', "A"]

In [None]:
df2.at['d', "A"]

##### Selekcija po poziciji

Metode za indeksiranje na bazi celobrojne pozicije.

*Note*: Kod selekcije po poziciji, početna vrednost je uključna a krajnja isključna!

In [None]:
df2.iloc[3]

In [None]:
df2.iloc[3:5, 0:2]

Isecanje redova

In [None]:
df2.iloc[1:3, :]

Isecanje kolona

In [None]:
df2.iloc[:, 1:3]

Dobavljanje skalarne vrednosti

In [None]:
df2.iloc[1, 1]

In [None]:
df2.iat[1, 1]

##### Boolean indeksiranje

Selektovanje podataka na osnovu vrednosti iz jedne kolone

In [None]:
df2[df2["A"] > 5]

In [None]:
df2["A"] > 5

In [None]:
(df2["A"] > 5) & (df2["B"]=="I")

##### Korišćenje isin() za filtriranje

In [None]:
df2[df2["B"].isin(["G", "J"])]

### Dodela vrednosti

##### Dodela vrednosti preko labele

In [None]:
df3 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [None]:
df3.at['b', "A"] = -1

In [None]:
df3

##### Dodela vrednosti preko pozicije

In [None]:
df4 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [None]:
df4.iat[0, 1] = 'M'

In [None]:
df4

Dodela vrednosti pomoću niza

In [None]:
df5 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"],
    },
    index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
)

In [None]:
df5.loc[:, "D"] = [-1, -2, -3, -4, -5, -6, -7, -8, -9, -10]

In [None]:
df5

### Nedostajući podaci

In [None]:
df6 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ['dog', 'cat', None, 'lion', 'bear', 'penguin', 'horse', 'dolphin', 'panda', 'seagull'],
    },
    index=list('abcdefghij')
)

In [None]:
df6

Odbacivanje redova koji imaju nedostajajuće podatke

In [None]:
df6.dropna(how="any")

Odbacivanje kolona koje imaju nedostajajuće podatke

In [None]:
df6.dropna(how="any", axis=1)

```fillna()``` popunjava nedostajajuće podatke:

In [None]:
df6.fillna(value=555)
df6

### Kreiranje novih kolona na osnovu postojećih


Kreiranje nove kolone

Za kreiranje nove kolone, koriste se uglaste zagrade ```[]``` sa nazivom nove kolone sa leve strane dodele

In [None]:
df7 = pd.DataFrame(
    {
        "A": [1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0],
        "B": ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"],
        "C": [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
        "D": ['dog', 'cat', None, 'lion', 'bear', 'penguin', 'horse', 'dolphin', 'panda', 'seagull'],
    },
    index=list('abcdefghij')
)

In [None]:
df7["A_double"] = df7["A"] * 2

In [None]:
df7["A*C"] = df7["A"] * df7["C"]

In [None]:
df7

Promena naziva kolona

In [None]:
df8 = df7.rename(
    columns = {
        "B": "letters",
        "D": "animals"
    }
)

In [None]:
df8

### Kombinovanje podataka iz različitih tabela

##### Concat

Spajanje DataFrame-ova po osi preko ```concat()```

In [None]:
dfa = df2[:3]
dfb = df2[3:7]
dfc = df2[7:]

In [None]:
dfa

In [None]:
dfb

In [None]:
dfc

In [None]:
pd.concat([dfa,dfb,dfc])

##### Join

```merge()``` omogućava spajanje u SQL stilu

In [None]:
left = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)
left

In [None]:
right = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2"],
        "C": ["C0", "C1", "C2",],
        "D": ["D0", "D1", "D2"],
    }
)
right

In [None]:
result = pd.merge(
    left, # DataFrame ili Series objekat
    right, # DataFrame ili Series objekat
    left_on="key", # kolone levog DataFrame-a po kojima se vrši join
    right_on="key", # kolone desnog DataFrame-a po kojima se vrši join
    how="left" # Jedno od: 'left', 'right', 'outer', 'inner', 'cross'
)
result

```how``` argument specificira koji ključevi će biti uključeni u rezultujuću tabelu:

left - LEFT OUTER JOIN - Koristi samo ključeve iz levog DataFrame-a

right - RIGHT OUTER JOIN - Koristi samo ključeve iz desnog DataFrame-a

outer - FULL OUTER JOIN - Koristi uniju ključeva oba DataFrame-a

inner - INNER JOIN - Koristi presek ključeva oba DataFrame-a

cross - CROSS JOIN - Kreiraj dekartov proizvod redova oba DataFrame-a. Svaki red iz prve tabele se uparuje sa svakim redom iz druge tabele, rezultirajući u novoj tabeli sa brojem redova jednakim proizvodu broja redova u učestvujućim tabelama.

In [None]:
result2 = pd.merge(
    left, # DataFrame ili Series objekat
    right, # DataFrame ili Series objekat
    left_on="key", # kolone levog DataFrame-a po kojima se vrši join
    right_on="key", # kolone desnog DataFrame-a po kojima se vrši join
    how="inner" # Jedno od: 'left', 'right', 'outer', 'inner', 'cross'
)
result2

In [None]:
result3 = pd.merge(
    left, # DataFrame ili Series objekat
    right, # DataFrame ili Series objekat
    how="cross" # Jedno od: 'left', 'right', 'outer', 'inner', 'cross'
)
result3

### Grupisanje

Grupisanje obuhvata:
	1	Podelu podataka na grupe na osnovu nekih kriterijuma
	2	Primenu funkcije nezavisno na svaku od grupa
	3	Kombinovanje rezultata u strukturu podataka

In [None]:
df8 = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": [1, 2, 3, 4, 5, 6, 7, 8],
        "D": [0, 1, 2, 3, 4, 5, 6, 7],
    }
)
df8

Grupisanje pa primena ```sum()``` funkcije na grupe:

In [None]:
df8.groupby("A")["C"].sum()

In [None]:
df8.groupby("A")[["C", "D"]].sum()

In [None]:
df8.groupby(["A", "B"]).sum()

### Obrada tekstualnih podataka

In [None]:
df_text = pd.DataFrame({
    "A" : [1, 2, 3, 4],
    "B": ["ThiS TeXt iS Wobbly", "this text is lowercase", "THIS TEXT IS UPPERCASE", "   has whitespace             "]
})
print(df_text)

In [None]:
print(df_text['B'].str.lower())

In [None]:
print(df_text['B'].str.upper())

In [None]:
print(df_text["B"].str.strip())

In [None]:
print(df_text["B"].str.len())

### Čitanje i pisanje tabelarnih podataka

Pandas ima ugradjenu podršku za razne fajl formate (csv, excel, json.. )
Učitavanje podataka iz tih formata radi se preko funkcija sa prefiksom read_*. to_* metode se koriste za skladištenje podataka.

![Učitavanje i skladištenje podataka](images/pandas_read_write.png)

In [None]:
df_foo = pd.read_csv("data/foo.csv")
df_foo

In [None]:
#df_foo.to_csv("foo2.csv")

In [None]:
#df_foo.to_json("foo2.json", orient = "table", index=False)