# Kratki uvod u Pandas

Pandas je Python biblioteka funkcija za manipulaciju i obradu podataka koju odlikuje velika fleksibilnost ali i brzina. Pandas je pisan u Pythonu no kritički dijelovi su pisani u Cythonu i C-u kako bi se postigla velika brzina. U sklopu ovog poglavlja bit će opisane dvije bitne strukture podataka s kojima Pandas raspolaže, Series and DataFrame. Za početak potrebno je učitati `pandas`, a često je potrebno učitati i `numpy`.

dodatni resursi:
- [Šalabahter za Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [10-minutni uvod](https://pandas.pydata.org/docs/user_guide/10min.html#min)
- [Pandas službeni vodić](https://pandas.pydata.org/docs/user_guide/index.html)

In [None]:
import pandas as pd
import numpy as np

## Series 

Series is a one-dimensional labeled array capable of holding any data type (integers, strings, floating point numbers, Python objects, etc.). The axis labels are collectively referred to as the index. The basic method to create a Series is to call:

Series objekt je jednodimenzionalni označeni niz koji može spremiti bilo koji tip podataka (cijele brojeve, nizove znakova, brojeve s pomičnom točkom, Python objekte, itd.) Osi oznaka kolektivno se nazivaju indeksom serije. Osnovna metoda za stvaranje Series objekta je

```py
>>> s = pd.Series(data, index=index)
```

Ovdje `data` može biti mnogo različitih stvari
- Python `dict`
- `ndarray`
- skalar

`index` je ovdje lista naziva osi. Stvaranje liste možemo dakle podijeliti ovisno o tipu podataka. 

Series objekt se ponaša slično kao numpy `ndarray`, tj. moguće je nad njim provoditi većinu NumPy funkcija i vektorskih operacija (zbrajanje, vektorsko množenje, sumiranje...), no više o tome u budućim laboratorijskim vježbama. Osim toga Series objekt je sličan i Python `dict` objektu tj moguće je jednostavno dohvatiti vrijednost na indeksu s npr:

`s["a"]` ili `s.get("f", np.nan)`

### 1. Stvaraje s `ndarray` objektom

In [None]:
# with implicit index
pd.Series(np.random.randn(5))

In [None]:
# with explicit index (same length as data)
pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

### 2. Stvaranje s `dict` objektom

In [None]:
d = {"b": 1, "a": 0, "c": 2}
pd.Series(d)

In [None]:
d = {"a": 0.0, "b": 1.0, "c": 2.0}
pd.Series(d, index=["b", "c", "d", "a"])


### 3. Stvaranje sa skalarom

u ovom slučaju argument `index` je nužan te se vrijednost ponavlja do duljine argumenta `index`

In [None]:
pd.Series(5.0, index=["a", "b", "c", "d", "e"])

## DataFrame

`DataFrame` je dvodimenzijska označena struktura podatak sa stupcima koji mogu međusobno razlikovati po tipu podataka. Može se na `DataFrame` gledati kao na proračunsku tablicu ili na `dict` koji kao vrijednosti sadrži `Series` objekte. `DataFrame je najčešće korišten pandas objekt te ga se može stvarati pomoću raznih:
- `dict` jednodimenzionalnih `ndarray`, `dict` ili `Series` objekata
- 2D `ndarray`
- Strukturirani `ndarray`
- `Series` objekt
- drugi `DataFrame`

Uz `data` agument, dodatno se može poslati `index` (oznake redova) ili `columns` (oznake stupaca)

In [None]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}

pd.DataFrame(d)

In [None]:
pd.DataFrame(d, index=["d", "b", "a"])

In [None]:
pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"])

In [None]:
pd.DataFrame({
    "one": [1.0, 2.0, 3.0, 4.0], 
    "two": [4.0, 3.0, 2.0, 1.0]
})


In [None]:
pd.DataFrame([
    {"a": 1, "b": 2}, 
    {"a": 5, "b": 10, "c": 20}
])

In [None]:
pd.DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]],
    index=['a', 'b', 'c'], 
    columns=["first", "second", "third"]
)

# Izvori podataka

Pandas može raditi s puno izvora podataka dokle god se podatci mogu zapisati pomoću dva tipa objekta navedena u prošlom poglavlju , u ovoj vježbi fokus će biti na podatcima zapisanim u proračunskoj tablici, .csv datoteci i bazi podataka (sqlite3). U direktoriju `data` nalaze se tri datoteke za svaki od spomenutih izvora. U datoteci `db.sqlite` se nalazi tablica naziva studenti, dok .csv i .xlsx datoteke sadrže samo jednu tablicu. Sve tablice sadrže iste podatke. 

Učitavanje podataka s Pandas bibliotekom je često vrlo jednostavno kada su podatci u ispravnom obliku, to će biti i pokazano u nastavku vježbe za spomenuta tri izvora. Za više informacija o `pandas` funkcijama za čitanje i pohranu podataka i rad s drugim formatima pogledajte https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html. 

## CSV
CSV (Comma Separated Values) datoteka je tekstualna datoteka u kojoj se zarez koristi za odvajanje vrijednosti. Svaki red u datoteci predstavlja novi zapis. Zapis se sastoji od više polja koja su odvojena zarezom. Prvi redak često se koristi za zadavanje naziva polja koji su također odvojeni zarezom. CSV datoteka jednostavan je način zapisivanja strukturiranih podataka te se zato često koristi i u praksi.

U ovoj laboratorijskoj vježbi koristi se primjerna datoteka `data/students.csv` koja se pomoću `pandas` biblioteke učitava koristeči `read_csv` funkciju. Dodatne opcije te funkcije mogu dostupne su na https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html. 

In [None]:
pd.read_csv("data/students.csv")

## Proračunske tablice

Proračunske tablice su često korištene za rad s tabličnim podatcima te pružaju mnogo korisnih usluga korisnih podatkovnim znanstvenicima, no ponekad je potrebno obraditi podatke koji se nalaze u takvim tablicama pomoću programskog jezika Python. U tom slučaju te tablice jednostavno je učitati koristeći `pandas` funkciju `read_excel()`.

Za potrebe ove laboratorijske vježbe koristi se datoteka `data/students.xlsx` iz koje se učitava `

Dodatne informacije o funkciji `read_excel()` i njenim opcijama dostupne su na https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html?highlight=read_excel.

In [None]:
pd.read_excel("data/data.xlsx", sheet_name="students")

## SQL

Baze podataka se često koriste za spremanje podataka i njihovu osnovnu analizu, no ponekad su potrebne naprednije metode, pogotovo u polju znanosti o podatcima. Iz tog razloga je standardno učitati podatke u `DataFrame` te raditi analizu koristeći funkcionalnost biblioteke `pandas`. 

Kako bi se dohvatili podatci iz baze prvo je potrebno napraviti konekciju prema bazi podataka. Radi veće generalnosti `pandas` to prepušta korisniku. To je moguće izvesti pomoću biblioteke `sqlite3` za SQLite baze podataka ili pomoću [`SQLAlchemy` biblioteke](https://www.sqlalchemy.org) za ostale baze podataka. Danas će se radi jednostavnosti napraviti pregled koristeći `sqlite3`.

Dodatne informacije o funkcijama `read_sql()`, `read_sql_query` i `read_sql_table` te njihovim opcijama dostupne mogu se naći [ovdje](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html), [ovdje](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql_query.html) i [ovdje](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql_table.html) respektivno. 

In [None]:
import sqlite3

conn = sqlite3.connect("data/data.sqlite")
query = "select * from students"

students = pd.read_sql_query(query, conn)
students

# Usporedba Pandas biblioteke sa SQL-om

## SELECT

### primjer 1

```sql
SELECT JMBAG, grade
FROM students 
```

In [None]:
students[['JMBAG', 'grade']]

## WHERE

### primjer 1 - logičko indeksiranje

```sql
SELECT *
FROM students
where grade > 3;
```

In [None]:
students[students.grade > 3]

In [None]:
students.grade > 3
# students['grade'] > 3 

### primjer 2

```sql
SELECT JMBAG
FROM students
WHERE grade == 5 AND repeating = FALSE
```

In [None]:
students[
    (students.grade == 5) & 
    (students.repeating == False)
]['JMBAG']

## GROUP BY

### primjer 1

```sql
SELECT grade, count(*)
FROM students
GROUP BY grade
```

In [None]:
students.groupby('grade').size()

### primjer 2

```sql
SELECT repeating, avg(grade), count(*)
FROM students
GROUP BY repeating
```

In [None]:
students.groupby('repeating').agg({
    'grade': np.mean,
    'repeating': np.size
})

## UPDATE

```sql
UPDATE students
SET grade = 5
WHERE grade = 4
```

In [None]:
students.loc[students.grade == 4, 'grade'] = '4+'

students

In [None]:
students.loc[students.grade == 3, ('JMBAG', 'grade')]
# students.loc[[2,4,6], ('JMBAG', 'grade')]


## DELETE

### primjer 1

```sql
DELETE FROM students
WHERE repeating == 1

In [None]:
firsttimers = students.loc[students.repeating == 1]

firsttimers

## Pohrana DataFrame objekata

DataFrame objekte je vrlo jednostavno pohraniti koristeći `to_<format>()` funkcije. Njih je također moguće pregledati na https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html. Ovdje je dan primjer spremanja tablice u tekstualnu `JSON` datoteku i binarnu `pickle` datoteku. 

In [None]:
filename = "fisttimers.json"

# save file
firsttimers.to_json(filename)

# read file
print(pd.read_json(filename))


In [None]:
filename = "fisttimers.pkl"

# save file
firsttimers.to_pickle(filename)

# read file
print(pd.read_pickle(filename))


## REST data

REST (Representational state transfer) je programska arhitektura koja pruža smjernice za dizajn web aplikacijskih sučelja koja je široko prihvaćena. Zato je često podatke moguće dohvatiti u obliku HTML, XML ili JSON dokumenata. 

U ovoj laboratorijskoj vježbe prikazan je jednostavan primjer dohvaćanja odgovora na zahtjev s [Reqres](reqres.in) stranice pomoću Python `requests` biblioteke funkcija. 

In [None]:
import requests
import pprint

response = requests.get(url="https://reqres.in/api/users", params={'page': 2})

print(response)
pprint.pprint(response.json())

In [None]:
users = response.json()

users['data'][0]['first_name']