### [Camelot]()

Python biblioteka za izlučivanje tablica iz PDF dokumenata.

"*Sadly, a lot of today’s open data is trapped in PDF tables.*"

Radi na dva osnovna principa, koristeći ideje prikazane s pdfminer.six bibliotekom s mnoštvom heurističkih pravila za ekstrakciju ili koristeći ideje iz obrade slika pomoću OpenCV biblioteke.
- Više o načinu rada: https://camelot-py.readthedocs.io/en/master/user/how-it-works.html

Instalacija:

In [None]:
# !pip3 install "camelot-py[base]"

Import i jednostavno korištenje:

In [None]:
import camelot

tables = camelot.read_pdf('/UTOR/DINPovi/DINP_FIDIT_2023_2024_PPJ.pdf', pages="6")

i = 0

print(tables[i]) # Objekt koji odgovara prvoj tablici
print(tables[i].parsing_report) # Evaluacija uspješnosti parsiranja tablice

tablica1 = tables[i].df # Tablica u obliku Pandas DataFrame

In [None]:
tablica1

### Kratki uvod u [Pandas](https://pandas.pydata.org/docs/user_guide/10min.html)

Brz, pouzdan i fleksibilan alat otvorenog koda za analizu i manipulaciju podacima temeljen na programskom jeziku Python.

Osnovni objekti za manipulaciju podacima: 
- [`Series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series) - jednodimenzionalni objekt nalik nizu
- [`DataFrame`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame) - dvodimenzionalna struktura podataka nalik "tablici" s retcima i stupcima

Pandas cheat sheetovi: [Pandas basics](https://github.com/FavioVazquez/ds-cheatsheets/blob/master/Python/Datacamp/pandas_basics.pdf) i [Pandas](https://github.com/FavioVazquez/ds-cheatsheets/blob/master/Python/Datacamp/pandas.pdf).

In [None]:
# Ispis
tablica1

# Drugi stupac
tablica1[1]

# Dohvaćnje naziva stupaca
tablica1.columns

# Dohvaćanje prvog stupca
tablica1[0] # Dohvaćanje po nazivu stupca

# Dohvaćanje prvog retka
tablica1.iloc[0] # Dohvaćanje po integeru

# Dohvaćanje raspona od prva tri retka
tablica1.iloc[0:3] # Ispravno
tablica1[0:3] # Pandas interpretira oboje kao .iloc[]

# Dohvaćane raspona od prva tri stupca
tablica1.iloc[:, 0:3]

# Dohvaćanje prva tri stupca prva tri retka
tablica1.iloc[0:3, 0:3]

Postavimo prvi redak kao zaglavlje tablice (`DataFrame` objekta).

In [None]:
# Postavljanje prvog retka kao zaglavlje DataFrame objekta
tablica1.columns = tablica1.iloc[0]
tablica1 = tablica1[1:]

In [None]:
# Dohvaćanje po nazivu stupca
tablica1["Datum"]

# Dohvaćanje naziva stupaca
tablica1.columns

# Dohvaćanje raspona redaka za stupac Izvođač
tablica1["Izvođač"].iloc[5:10]

# Uvjetno selektiranje DataFrame
tablica1[tablica1["Tj."] == "5."]

# Uvjetno selektiranje Series
tablica1["Izvođač"][tablica1["Tj."] == "5."]

> Zadatak 11: Prebrojite vježbe koje održava Karlo Babić.

In [None]:
tablica1[tablica1["Izvođač"]=="K. Babić"].count()

> Zadatak 12: Odstranite sve retke koji sadrže riječ "kolokvij". Pronađite prikladnu metodu koju nudi Pandas alat.


In [None]:
tablica1[tablica1["Tema"].str.contains("olokvij") != True]
tablica1[~tablica1["Tema"].str.contains("olokvij")]

> Zadatak 13: Učitajte tablicu još jednog proizvoljnog [DINP-a](https://www.inf.uniri.hr/images/nastava/izvedbeni/2023_2024/DS/1/DINP_FIDIT_2023_2024_PZUI.pdf) te ju dodajte na postojeću. (npr pomoću metode `append`) 

In [None]:
tables = camelot.read_pdf('/UTOR/DINPovi/DINP_FIDIT_2023_2024_PZUI.pdf', pages="5")
i = 0

print(tables[i]) # Objekt koji odgovara prvoj tablici
print(tables[i].parsing_report) # Evaluacija uspješnosti parsiranja tablice

tablica2 = tables[i].df # Tablica u obliku Pandas DataFrame

Usporedimo li ekstrahiranu tablicu sa orginalnom tablicom iz PDF-a, primjećujemo da nam nedostaje dio redaka - sadržaj tablice prelazi na novu stranicu.

In [None]:
tablica2

In [None]:
tables = camelot.read_pdf('/UTOR/DINPovi/DINP_FIDIT_2023_2024_PZUI.pdf', pages="5,6")

i = 0

print(tables[i]) # Objekt koji odgovara prvoj tablici
print(tables[i].parsing_report) # Evaluacija uspješnosti parsiranja tablice

tablica2_1 = tables[i].df # Tablica u obliku Pandas DataFrame
tablica2_2 = tables[i+1].df

In [None]:
tablica2 = tablica2_1.append(tablica2_2)

In [None]:
tablica2

In [None]:
# Postavljanje prvog retka kao zaglavlje DataFrame objekta
tablica2.columns = tablica2.iloc[0]
tablica2 = tablica2[1:]

In [None]:
# Povezivanje dvaju tablica metodom concat
import pandas as pd
tablica12 = pd.concat([tablica1, tablica2])

In [None]:
tablica12

> Zadatak 14: Prebrojite koliko puta se nastava odvija na isti dan.


Podaci unutar stupca `Datum` nisu konzistentni:

In [None]:
tablica12["Datum"].iloc[[1, 37]]

>> Zadatak 14.1: Napravite podatke stupca `Datum` konzistentnima korištenjem metode [`apply`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html).

In [None]:
def popravi_datum(datum):
    if len(datum.split(".")) > 3:
        return datum
    elif len(datum.split(".")) < 4:
        return datum+"2023."

tablica12["Datum"] = tablica12["Datum"].apply(popravi_datum)

In [None]:
datumi = tablica12["Datum"].value_counts() 
print(len(datumi[datumi > 1]))

> Zadatak 15: Povežite DINP tablice svih izvedbenih programa.

### Pandas i rad sa strukturama podataka

#### Izvoz

Pandas alat nudi mogućnost izvoza nativnih objekata (`DataFrame`, `Series`) u razne formate i strukture podataka pomoću niza metoda [`.to_<format>`](https://pandas.pydata.org/pandas-docs/stable/search.html?q=to_), u nastavku su isprobane metode: [`to_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html#pandas.DataFrame.to_csv), [`to_json`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html#pandas.DataFrame.to_json), [`to_xml`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_xml.html#pandas.DataFrame.to_xml).

In [None]:
tablica12.to_csv("/UTOR/EXP/tablica12.csv")
tablica12.to_json("/UTOR/EXP/tablica12.json")
tablica12.to_xml("/UTOR/EXP/tablica12.xml")

``` shell
ValueError: DataFrame index must be unique for orient='columns'.
```

Neki izvozni oblici zahtjevaju jedinstvene vrijednosti indeksa, neprazne vrijednosti te isključivo alfanumeričke vrijednosti unutar naziva stupaca!

In [None]:
tablica12 = tablica12.reset_index() # Reindeksiranje
tablica12.fillna("empty", inplace=True) # Popunjavanje praznih vrijednosti
tablica12.columns = [a.replace(" ", "_").replace("*", "__") if len(a)>1 else "Sati" for a in tablica12.columns] # Ispravljanje imena stupaca

In [None]:
tablica12

In [None]:
tablica12.to_csv("/UTOR/EXP/tablica12.csv")
tablica12.to_json("/UTOR/EXP/tablica12.json")
tablica12.to_xml("/UTOR/EXP/tablica12.xml")

#### Uvoz

> Zadatak 16: Uvezite podatke iz jednog od dostupnih oblika te ih izvezite u formatu koji nije korišten na vježbama!

In [None]:
# Uvoz
uvezena_tablica = pd.read_xml("/UTOR/EXP/tablica12.xml")
print(uvezena_tablica.head())

# Izvoz
uvezena_tablica.to_excel("/UTOR/EXP/tablica12.xlsx")