# Pisanje i čitanje dokumenata

## Uvod

* Provjera zadaća i komentiranje koda
* Tipovi dokumenata: text, csv (Excel i Word?), (grafika?), (import libraries: pandas i pil)
* Zadaci:
    - Analiza književnog teksta (npr nađi imena likova) (rijec.istitle())
    - Statistička analiza padalina u Zagrebu 2023
    - Prosječna boja zastava država EU
    - (Provjeri podjelu vremena s lekcijom 8)


## Teme

* Pisanje i čitanje dokumenata
* Tekstualne datoteke
    - context manager
    - seek
    - mode
* Binarne datoteke
    - 

## Pisanje i čitanje dokumenata


Dokumente možemo generalno podijeliti u dvije skupine: tekstualne i binarne. Pojednostavljeno, tekstualni dokumenti su oni koje možemo čitati pod pretpostavkom da se sastoje od znakova nekog encoding principa. Binarni, s druge strane, sadrže drugačije podatke koje je potrebno protumačiti kroz neku specifičnu logiku. Tako, na primjer, tekstualne dokumente čine .txt, .log, .csv, .html i slični dokumenti, dok su binarni dokumenti .docx, .xlsx, .pdf i tako dalje. 

Tekstualne datoteke možemo čitati izravno, za binarne nam trebaju dodatni paketi.

## Tekstualne datoteke


Tekstualne datoteke mogu biti:
* nestrukturirane
    - običan tekst
    - .txt, .md, .nfo, ...
* strukturirane
    - postoji interna logika
    - .htmnl, .csv, .json, .xml, ...

Oba tipa možemo čitati "ručno", a strukturirane i preko dodatnih paketa.


### Otvaranje datoteka

#### ručno


Čitanje i pisanje datoteka ("ručno") se radi kroz sljedeći pristup:
1. otvori datoteku
2. pročitaj/zapiši
3. zatvori datoteku

```python
file = open(filename, mode)
text = file.read()
file.close()
```

Ako ne "zatvorimo" file OS ga bilježi da je u upotrebi pa može doći do problema (npr. Windows ne dozvoli brisanje).

#### context manager


Bolji način za otvaranje i zatvaranje je tzv "context manager". Struktura koja nam omogućuje da neke zahvate
radimo unutar blokova. Otvaranje fileova je jedan od tih stvari, a omogućuje da se po završetku datoteka
automatski sama zatvori:

```python
with open(filename, mode) as file:
    text = file.read()
```

#### mode



Parametar mode nam govori kako Python treba otvoriti datoteku. Postoji nekoliko tipova:

* 'r'
    - read
* 'w'
    - write
* 'a'
    - append
* 'x'
    - exclusive write
* '+'
    - dodaje se na jedan od prethodnih modova
    - omogućuje i čitanje i pisanje u isto vrijem
    - osnovi mod prati ista pravila kao i prije

| Mode | Ako postoji | Ako ne postoji |
| --- | --- | --- |
| r | učita na početak | greška |
| w | pobriše ga | napravi ga |
| a | učita na kraj | napravi ga |
| x | greška | napravi ga |


### Metode

Na otvorenom fileu postoje neki atributi koji nam nose informacije o samom fileu:

* file.closed
    - Je li file zatvoren ili ne
* file.encoding
    - Koji tip abecede je korišten u fileu (npr ASCII, UTF-8, ... )
* file.mode
    - Koji mode je korišten za otvaranje filea
* file.name
    - Koje je ime filea (uključuje i nastavak, npr. "raspored.csv")

Uz to postoje i metode koje nešto izvršavaju na fileu:

* file.close()
    - Sprema promjene i zatvara file, oslobađajući ga za OS
* file.read([n])
    - Čita ili cijeli file (ako nema n) ili samo n sljedećih znakova.
* file.readline([n])
    - Čita ili sljedeću liniju u fileu (ako nema n) ili n znakova sljedeće linije.
* file.readlines()
    - Vraća listu koja sadrži sve linije filea odvojene jedna po jedna
* file.seek(n, ref)
    - Pomiče trenutačni položaj u fileu za n znakova naprijed ili nazad (negativno).
    - Pomak je relativan prema ref:
        - 0 = relativno prema početku filea
        - 1 = relativno prema trenutačnom položaju u fileu
        - 2 = relativno prema kraju filea
* file.write(text)
    - Piše dani tekst u file, počevši od trenutačne pozicije u fileu

### Čitanje fileova

Za manje fileove nam je prihvatljivo napraviti jednostavno čitanje:

```python
output = file.read()
```

U slučaju manjih fileova koji su razdvojeni po redovima, moguće je čitati red po red i raditi iteraciju:

```python
for line in file.readlines():
    do_something_with_line(line)
```

Ukoliko nam je file ogroman, gornja opcija ne radi jer ga svejedno čita odjednom, pa je potrebno ići liniju po liniju:

```python
while True:
    line = file.readline()
    if uvjet_za_kraj:
        break
    do_something_with_line(line)
```

Ako je file ogroman, ali samo jedna linija, onda možemo napraiviti slično, čitajući file blok po blok:

```python
while True:
    block = file.read(1024)
    if uvjet_za_kraj:
        break
    do_something_with_block(block)
```

## Binarne datoteke


Za binarne datoteke je potrebno koristiti zasebne pakete, pa je previše opcija za ulaziti u dubinu. U pravilu svaki
paket ima svoj način čitanja i pisanja fileova. Uzet ćemo 3 primjera i na njima pokazati kako:

* pročitati
* kreirati
* izmjeniti


### Word (docx)

Za word dokumente koristimo python-docx paket. On otvara docx format, za stariji format (doc) i open
document formate (open office ili google office) je potrebno naći druge pakete.

```
pip install python-docx
```

#### Čitanje

```python
import docx
doc = docx.Document('demo_files/read_demo.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)
```


#### Pisanje

```python
from docx import Document
doc = Document()
doc.add_heading("Naslov dokumenta", 0)
doc.add_paragraph("Neki tekst ovdje.\nDodan novi red.")
doc.save('demo_files/write_demo.docx')
```


#### Izmjena

```python
from docx import Document
doc = Document('demo_files/edit_demo.docx')
for paragraph in doc.paragraphs:
    text = paragraph.text
    if 'calibre' in text:
        text = text.replace('calibre', 'Calibre')
    paragraph.text = text
doc.save('demo_files/edit_demo.docx')
```


### Excel (xlsx)

Za Excel dokumente (xlsx) ćemo koristiti paket pandas, jedan od najpopularnijih Python paketa. Pandas također
ima i podršku za csv dokumente, iako su oni čisto tekstualni oblik. U internacionalnom kontekstu je lakše koristiti
pandas nego ručno čitati, zbog razlike između delimitera i decimalne točke/zareza.

PAŽNJA: Pandas za čitanje xlsx dokumenata zahtjeva i openpyxl paket, pa ga je potrebno dodatno instalirati:
```
pip install pandas
pip install openpyxl
```

Pandas za obradu tabličnih podataka koristi svoje vlastite formate - DataFrame i Series - pa po otvaranju filea
automatski čita i pretvara u DataFrame, koji se sastoji od Series. Taj format ima mnoga svoja pravila i načine
ponašanja u koje nećemo puno ulaziti, osim okvirnog prikaza.

Za ilustraciju ćemo koristiti ovakav file:

| | number | string | boolean |
| --- | --- | --- | --- |
| 0 | 1 | two | True |
| 1 | 3 | four | False |


#### Čitanje

```python
import pandas as pd
file = pd.read_excel('demo_files/read_demo.xlsx')
file.loc[1, 'string']  # prikaže podatak u redu 1 (drugi redak) i stupcu 'string' = four
file.loc[1, :]  # Vrati vrijednosti u redu 1 (drugi red) = 3, four, False
file.loc[:, 'string']  # Vraća vrijednosti u stupcu 'string' = two, four
```

#### Kreiranje

Postoji nekoliko načina kako je moguće kreirati DataFrame, ovisno o tome koja nam je logika razumljivija za problem.
Svi ovi df-ovi će rezultirati istim xlsx fileom.

```python
import pandas as pd
data_dict_redovi = [
    {'dan': 'PON', 'sati': 3},
    {'dan': 'UTO', 'sati': 5},
]
df = pd.DataFrame(data_dict_redovi)

data_dict_stupci = {
    'dan': ['PON', 'UTO'],
    'sati': [3, 8]
}
df = pd.DataFrame(data_dict_stupci)

data_list = [
    ['PON', 3],
    ['UTO', 8]
]
df = pd.DataFrame(data_list, columns=['dan', 'sati'])
df.to_excel('demo_files/write_demo.xlsx', index=False)
```

#### Izmjena

```python
import pandas as pd
file = pd.read_excel('demo_files/edit_demo.xlsx')
file.loc[0, 'string'] = 'three'
file.to_excel('demo_files/edit_demo.xlsx', index=False)
```

### Portable Document Format (PDF)

PDF format je format vrlo sličan docx, u smislu da sadrži tekst, slike, tablice i slično, no za razliku od
docx sadrži sve podatke za prikaz, npr fontove. Za čitanje PDF fileoa ćemo koristiti paket pypdf, a za pisanje ćemo koristiti PyFPDF.

PAŽNJA:
PDF je prilično kompliciran format i ne postoji jedan jednostavan način i jedan paket koji bi jednostavno kreirao, čitao i editirao PDF.

#### Čitanje

```python
import pypdf
pdf = pypdf.PdfReader('demo_files/read_demo.pdf')
for page in pdf.pages:
    print(page.extract_text())
```

#### Kreiranje

```python
from fpdf import FPDF
pdf = FPDF()
pdf.add_page()
pdf.set_font('Arial', 'B', 16)
pdf.cell(40, 10, 'Hello World!')
pdf.output('demo_files/write_demo.pdf', 'F')
```


#### Izmjena

S obzirom na kompliciranost, najjednostavniji način za editiranje je čitanje prethodnog dokumenta i
kreiranje novog temeljenog na njemu.

Zadaci:
1. Zapiši dictionary u tablicu
2. Napravi formular od templatea i liste adresa

Zadaci:
1. Spoji periode godišnjih za zaposlenike
2. Napravi output za DSP factory

Zadaci:
1. Otvori https://www.wmaccess.com/downloads/sample-invoice.pdf i ispiši samo non-0 stvari.
2. Generiraj invoice
