# Kratki uvod u Pandas

Pandas je Python biblioteka funkcija za manipulaciju i obradu podataka koju odlikuje velika fleksibilnost ali i brzina. Pandas je pisan u Pythonu no kritički dijelovi su pisani u Cythonu i C-u kako bi se postigla velika brzina. U sklopu ovog poglavlja bit će opisane dvije bitne strukture podataka s kojima Pandas raspolaže, Series and DataFrame. Za početak potrebno je učitati `pandas`, a često je potrebno učitati i `numpy`.

Dodatni resursi:
- [Instalacija jupyter bilježnica](https://jupyter.org/install)
- [Šalabahter za Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [10-minutni uvod](https://pandas.pydata.org/docs/user_guide/10min.html#min)
- [Pandas službeni vodić](https://pandas.pydata.org/docs/user_guide/index.html)

Dodatna pitanja na eugen.vusak@fer.hr. 

In [25]:
import pandas as pd
import numpy as np

## Series 

Series is a one-dimensional labeled array capable of holding any data type (integers, strings, floating point numbers, Python objects, etc.). The axis labels are collectively referred to as the index. The basic method to create a Series is to call:

Series objekt je jednodimenzionalni označeni niz koji može spremiti bilo koji tip podataka (cijele brojeve, nizove znakova, brojeve s pomičnom točkom, Python objekte, itd.) Osi oznaka kolektivno se nazivaju indeksom serije. Osnovna metoda za stvaranje Series objekta je

```py
>>> s = pd.Series(data, index=index)
```

Ovdje `data` može biti mnogo različitih stvari
- Python `dict`
- `ndarray`
- skalar

`index` je ovdje lista naziva osi.

Series objekt se ponaša slično kao numpy `ndarray`, tj. moguće je nad njim provoditi većinu NumPy funkcija i vektorskih operacija (zbrajanje, vektorsko množenje, sumiranje...), no više o tome u budućim laboratorijskim vježbama. Osim toga Series objekt je sličan i Python `dict` objektu tj moguće je jednostavno dohvatiti vrijednost na indeksu s npr:

`s["a"]` ili `s.get("f", np.nan)`

### 1. Stvaraje s `ndarray` objektom

In [26]:
# with implicit index
print(np.random.randn(5))
pd.Series(np.random.randn(5))


[ 1.85485227 -0.90538221  0.70287227  0.26132773 -0.39031695]


0    0.894000
1   -0.614971
2    1.290822
3   -0.238903
4    0.060823
dtype: float64

In [27]:
# with explicit index (same length as data)
pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

a    0.211110
b    1.177918
c    0.331057
d    0.153740
e   -0.680795
dtype: float64

### 2. Stvaranje s `dict` objektom

In [28]:
d = {"b": 1, "a": 0, "c": 2}
pd.Series(d)

b    1
a    0
c    2
dtype: int64

In [29]:
d = {"a": 0.0, "b": 1.0, "c": 2.0}
pd.Series(d, index=["b", "c", "d", "a"])


b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

### 3. Stvaranje sa skalarom

u ovom slučaju argument `index` je nužan te se vrijednost ponavlja do duljine argumenta `index`

In [30]:
pd.Series(5.0, index=["a", "b", "c", "d", "e"])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

## DataFrame

`DataFrame` je dvodimenzijska označena struktura podatak sa stupcima koji mogu međusobno razlikovati po tipu podataka. Može se na `DataFrame` gledati kao na proračunsku tablicu ili na `dict` koji kao vrijednosti sadrži `Series` objekte. `DataFrame je najčešće korišten pandas objekt te ga se može stvarati pomoću raznih:
- `dict` jednodimenzionalnih `ndarray`, `dict` ili `Series` objekata
- 2D `ndarray`
- Strukturirani `ndarray`
- `Series` objekt
- drugi `DataFrame`

Uz `data` agument, dodatno se može poslati `index` (oznake redova) ili `columns` (oznake stupaca)

In [31]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}

pd.DataFrame(d)

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [32]:
pd.DataFrame(d, index=["d", "b", "a"])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [33]:
pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


In [34]:
pd.DataFrame({
    "one": [1.0, 2.0, 3.0, 4.0], 
    "two": [4.0, 3.0, 2.0, 1.0]
})


Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [35]:
pd.DataFrame([
    {"a": 1, "b": 2}, 
    {"a": 5, "b": 10, "c": 20}
])

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [36]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]],
    index=['a', 'b', 'c'], 
    columns=["first", "second", "third"]
)

Unnamed: 0,first,second,third
a,1,2,3
b,4,5,6
c,7,8,9


# Izvori podataka

Pandas može raditi s puno izvora podataka dokle god se podatci mogu zapisati pomoću dva tipa objekta navedena u prošlom poglavlju , u ovoj vježbi fokus će biti na podatcima zapisanim u proračunskoj tablici, .csv datoteci i bazi podataka (sqlite3). U direktoriju `data` nalaze se tri datoteke za svaki od spomenutih izvora. U datoteci `db.sqlite` se nalazi tablica naziva studenti, dok .csv i .xlsx datoteke sadrže samo jednu tablicu. Sve tablice sadrže iste podatke. 

Učitavanje podataka s Pandas bibliotekom je često vrlo jednostavno kada su podatci u ispravnom obliku, to će biti i pokazano u nastavku vježbe za spomenuta tri izvora. Za više informacija o `pandas` funkcijama za čitanje i pohranu podataka i rad s drugim formatima pogledajte https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html. 

## CSV
CSV (Comma Separated Values) datoteka je tekstualna datoteka u kojoj se zarez koristi za odvajanje vrijednosti. Svaki red u datoteci predstavlja novi zapis. Zapis se sastoji od više polja koja su odvojena zarezom. Prvi redak često se koristi za zadavanje naziva polja koji su također odvojeni zarezom. CSV datoteka jednostavan je način zapisivanja strukturiranih podataka te se zato često koristi i u praksi.

U ovoj laboratorijskoj vježbi koristi se primjerna datoteka `data/students.csv` koja se pomoću `pandas` biblioteke učitava koristeči `read_csv` funkciju. Dodatne opcije te funkcije mogu dostupne su na https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html. 

In [37]:
pd.read_csv("data/students.csv")

Unnamed: 0,ID,name,JMBAG,grade,repeating
0,0,Jeanette Washington,1230001,3,0
1,1,Kellie Carter,1230002,3,0
2,2,Armando Cooper,1230003,4,0
3,3,Tamara Dixon,1230004,5,0
4,4,Rufus Bishop,1230005,3,0
5,5,Stewart Sandoval,1230006,4,1
6,6,Brian May,1230007,3,0
7,7,Felix Morton,1230008,3,0
8,8,Jessica Hughes,1230009,3,1
9,9,Maureen Chapman,1230010,4,0


## Proračunske tablice

Proračunske tablice su često korištene za rad s tabličnim podatcima te pružaju mnogo korisnih usluga korisnih podatkovnim znanstvenicima, no ponekad je potrebno obraditi podatke koji se nalaze u takvim tablicama pomoću programskog jezika Python. U tom slučaju te tablice jednostavno je učitati koristeći `pandas` funkciju `read_excel()`.

Za potrebe ove laboratorijske vježbe koristi se datoteka `data/students.xlsx` iz koje se učitava `

Dodatne informacije o funkciji `read_excel()` i njenim opcijama dostupne su na https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html?highlight=read_excel.

In [38]:
pd.read_excel("data/data.xlsx", sheet_name="students")

  warn(msg)


Unnamed: 0,ID,name,JMBAG,grade,repeating
0,0,Jeanette Washington,1230001,4,0
1,1,Kellie Carter,1230002,4,0
2,2,Armando Cooper,1230003,4,0
3,3,Tamara Dixon,1230004,5,1
4,4,Rufus Bishop,1230005,4,1
5,5,Stewart Sandoval,1230006,3,0
6,6,Brian May,1230007,3,1
7,7,Felix Morton,1230008,3,1
8,8,Jessica Hughes,1230009,4,1
9,9,Maureen Chapman,1230010,4,1


## SQL

Baze podataka se često koriste za spremanje podataka i njihovu osnovnu analizu, no ponekad su potrebne naprednije metode, pogotovo u polju znanosti o podatcima. Iz tog razloga je standardno učitati podatke u `DataFrame` te raditi analizu koristeći funkcionalnost biblioteke `pandas`. 

Kako bi se dohvatili podatci iz baze prvo je potrebno napraviti konekciju prema bazi podataka. Radi veće generalnosti `pandas` to prepušta korisniku. To je moguće izvesti pomoću biblioteke `sqlite3` za SQLite baze podataka ili pomoću [`SQLAlchemy` biblioteke](https://www.sqlalchemy.org) za ostale baze podataka. Danas će se radi jednostavnosti napraviti pregled koristeći `sqlite3`.

Dodatne informacije o funkcijama `read_sql()`, `read_sql_query` i `read_sql_table` te njihovim opcijama dostupne mogu se naći [ovdje](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html), [ovdje](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql_query.html) i [ovdje](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql_table.html) respektivno. 

In [39]:
import sqlite3

conn = sqlite3.connect("data/data.sqlite")
query = "select * from students"

students = pd.read_sql_query(query, conn)
students

Unnamed: 0,ID,name,JMBAG,grade,repeating
0,0,Jeanette Washington,1230001,3,0
1,1,Kellie Carter,1230002,3,0
2,2,Armando Cooper,1230003,4,0
3,3,Tamara Dixon,1230004,5,0
4,4,Rufus Bishop,1230005,3,0
5,5,Stewart Sandoval,1230006,4,1
6,6,Brian May,1230007,3,0
7,7,Felix Morton,1230008,3,0
8,8,Jessica Hughes,1230009,3,1
9,9,Maureen Chapman,1230010,4,0


# Usporedba Pandas biblioteke sa SQL-om

## SELECT

### primjer 1

```sql
SELECT JMBAG, grade
FROM students 
```

In [40]:
students[["JMBAG", "grade"]]

Unnamed: 0,JMBAG,grade
0,1230001,3
1,1230002,3
2,1230003,4
3,1230004,5
4,1230005,3
5,1230006,4
6,1230007,3
7,1230008,3
8,1230009,3
9,1230010,4


## WHERE

### primjer 1 - logičko indeksiranje

```sql
SELECT *
FROM students
where grade > 3;
```

In [41]:
students[students.grade > 3]

Unnamed: 0,ID,name,JMBAG,grade,repeating
2,2,Armando Cooper,1230003,4,0
3,3,Tamara Dixon,1230004,5,0
5,5,Stewart Sandoval,1230006,4,1
9,9,Maureen Chapman,1230010,4,0
13,13,Angie Stewart,1230014,4,0
14,14,Dana Erickson,1230015,5,0
23,23,Jimmie Poole,1230024,5,0


In [42]:
students.grade > 3
# students['grade'] > 3 

0     False
1     False
2      True
3      True
4     False
5      True
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13     True
14     True
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23     True
24    False
Name: grade, dtype: bool

### primjer 2

```sql
SELECT JMBAG
FROM students
WHERE grade == 5 AND repeating = FALSE
```

In [43]:
students[
    (students.grade == 5) &
    (students.repeating == False)
]["JMBAG"]

3     1230004
14    1230015
23    1230024
Name: JMBAG, dtype: object

## GROUP BY

### primjer 1

```sql
SELECT grade, count(*)
FROM students
GROUP BY grade
```

In [44]:
students.groupby('grade').size()

grade
2     2
3    16
4     4
5     3
dtype: int64

### primjer 2

```sql
SELECT repeating, avg(grade), count(*)
FROM students
GROUP BY repeating
```

In [45]:
students.groupby('repeating').agg({
    'grade': np.mean,
    'repeating': np.size
})

Unnamed: 0_level_0,grade,repeating
repeating,Unnamed: 1_level_1,Unnamed: 2_level_1
0,3.4375,16
1,3.111111,9


## UPDATE

```sql
UPDATE students
SET grade = 5
WHERE grade = 4
```

In [46]:
students.loc[students.grade == 4, 'grade'] = '4+'

students

Unnamed: 0,ID,name,JMBAG,grade,repeating
0,0,Jeanette Washington,1230001,3,0
1,1,Kellie Carter,1230002,3,0
2,2,Armando Cooper,1230003,4+,0
3,3,Tamara Dixon,1230004,5,0
4,4,Rufus Bishop,1230005,3,0
5,5,Stewart Sandoval,1230006,4+,1
6,6,Brian May,1230007,3,0
7,7,Felix Morton,1230008,3,0
8,8,Jessica Hughes,1230009,3,1
9,9,Maureen Chapman,1230010,4+,0


In [47]:
# students.loc[students.grade == 3, ('JMBAG', 'grade')]
students.iloc[[2,4,6], [0, 2]]


Unnamed: 0,ID,JMBAG
2,2,1230003
4,4,1230005
6,6,1230007


## DELETE

### primjer 1

```sql
DELETE FROM students
WHERE repeating == 1

In [48]:
first_timers = students.loc[students.repeating == 0]

first_timers


Unnamed: 0,ID,name,JMBAG,grade,repeating
0,0,Jeanette Washington,1230001,3,0
1,1,Kellie Carter,1230002,3,0
2,2,Armando Cooper,1230003,4+,0
3,3,Tamara Dixon,1230004,5,0
4,4,Rufus Bishop,1230005,3,0
6,6,Brian May,1230007,3,0
7,7,Felix Morton,1230008,3,0
9,9,Maureen Chapman,1230010,4+,0
12,12,Kristen Garcia,1230013,3,0
13,13,Angie Stewart,1230014,4+,0


## Pohrana DataFrame objekata

DataFrame objekte je vrlo jednostavno pohraniti koristeći `to_<format>()` funkcije. Njih je također moguće pregledati na https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html. Ovdje je dan primjer spremanja tablice u tekstualnu `JSON` datoteku i binarnu `pickle` datoteku. 

In [49]:
filename = "fisttimers.json"

# save file
first_timers.to_json(filename)

# read file
print(pd.read_json(filename))


    ID                 name    JMBAG grade  repeating
0    0  Jeanette Washington  1230001     3          0
1    1        Kellie Carter  1230002     3          0
2    2       Armando Cooper  1230003    4+          0
3    3         Tamara Dixon  1230004     5          0
4    4         Rufus Bishop  1230005     3          0
6    6            Brian May  1230007     3          0
7    7         Felix Morton  1230008     3          0
9    9      Maureen Chapman  1230010    4+          0
12  12       Kristen Garcia  1230013     3          0
13  13        Angie Stewart  1230014    4+          0
14  14        Dana Erickson  1230015     5          0
15  15          Erma Ortega  1230016     3          0
18  18       Barbara Porter  1230019     2          0
19  19          Luz Douglas  1230020     2          0
23  23         Jimmie Poole  1230024     5          0
24  24     Emanuel Jennings  1230025     3          0


In [50]:
filename = "fisttimers.pkl"

# save file
first_timers.to_pickle(filename)

# read file
print(pd.read_pickle(filename))


    ID                 name    JMBAG grade  repeating
0    0  Jeanette Washington  1230001     3          0
1    1        Kellie Carter  1230002     3          0
2    2       Armando Cooper  1230003    4+          0
3    3         Tamara Dixon  1230004     5          0
4    4         Rufus Bishop  1230005     3          0
6    6            Brian May  1230007     3          0
7    7         Felix Morton  1230008     3          0
9    9      Maureen Chapman  1230010    4+          0
12  12       Kristen Garcia  1230013     3          0
13  13        Angie Stewart  1230014    4+          0
14  14        Dana Erickson  1230015     5          0
15  15          Erma Ortega  1230016     3          0
18  18       Barbara Porter  1230019     2          0
19  19          Luz Douglas  1230020     2          0
23  23         Jimmie Poole  1230024     5          0
24  24     Emanuel Jennings  1230025     3          0


## REST data

REST (Representational state transfer) je programska arhitektura koja pruža smjernice za dizajn web aplikacijskih sučelja koja je široko prihvaćena. Zato je često podatke moguće dohvatiti u obliku HTML, XML ili JSON dokumenata. 

U ovoj laboratorijskoj vježbe prikazan je jednostavan primjer dohvaćanja odgovora na zahtjev s [Reqres](reqres.in) stranice pomoću Python `requests` biblioteke funkcija. 

In [51]:
import requests
import pprint

response = requests.get(url="https://reqres.in/api/users", params={'page': 2})

print(response)
pprint.pprint(response.json())

<Response [200]>
{'data': [{'avatar': 'https://reqres.in/img/faces/7-image.jpg',
           'email': 'michael.lawson@reqres.in',
           'first_name': 'Michael',
           'id': 7,
           'last_name': 'Lawson'},
          {'avatar': 'https://reqres.in/img/faces/8-image.jpg',
           'email': 'lindsay.ferguson@reqres.in',
           'first_name': 'Lindsay',
           'id': 8,
           'last_name': 'Ferguson'},
          {'avatar': 'https://reqres.in/img/faces/9-image.jpg',
           'email': 'tobias.funke@reqres.in',
           'first_name': 'Tobias',
           'id': 9,
           'last_name': 'Funke'},
          {'avatar': 'https://reqres.in/img/faces/10-image.jpg',
           'email': 'byron.fields@reqres.in',
           'first_name': 'Byron',
           'id': 10,
           'last_name': 'Fields'},
          {'avatar': 'https://reqres.in/img/faces/11-image.jpg',
           'email': 'george.edwards@reqres.in',
           'first_name': 'George',
           'id': 11,
    

In [52]:
users = response.json()

users['data'][0]['first_name']

'Michael'