## Úvod

---

1. [Práce se soubory a složkami](#Práce-se-soubory-a-složkami),
2. [Soubory CSV](#Soubory-CSV),
3. [Soubory JSON](#Soubor-JSON),
4. [Spouštění s ARGS](#Spouštění-skriptu-s-argumenty),
5. [Domácí úloha](#Domácí-úloha).

---

Nápady:
1. Přidat shrnutí Pathlib
2. Ukázat procházení souborů a zapisování do csv
3. Ukázat XML
4. Ukázat request a JSON

## Práce se soubory a složkami

V lekci 9 jsme se naučili pracovat se soubory, ale chybí nám znalost jak pracovat se složkami, jak soubory mazat, přesouvat kopírovat atd.

V krátkosti si zde představíme knihovny:

1. [Pathlib](https://docs.python.org/3/library/pathlib.html): knihovna, která manipule s cestami k souboru
2. [Shutil](https://docs.python.org/3/library/shutil.html): knihovna, která zavádí funkčnost z přikazové řádky (mazaní, přesouvání, kopírování atd.)

### 1. Manipulace se složkami


- **Vytváření složky**
 

In [None]:
from pathlib import Path

In [None]:
help(Path)

In [None]:
# Vytvoření nové složky
folder = Path("new_directory")

In [None]:
print([_ for _ in dir(folder) if not _.startswith("_")])

In [None]:
print(help(folder.mkdir))

In [None]:
folder.mkdir(parents=True, exist_ok=True)

- **Přejmenování složky**

In [None]:
new_folder = folder.rename("renamed_directory")

- **Mazání složky**

In [None]:

new_folder.rmdir()  # Smaže složku, pokud je prázdná

### 2. Kopírování, přesouvání a mazání souborů

Tyto operace jsou klíčové při práci s různými verzemi dat nebo zálohami.

- **Kopírování souborů**
  
   `pathlib` nemá přímou podporu pro kopírování, proto použijeme `shutil`.

In [None]:
zdroj = Path("zdrojovy_soubor.txt")
zdroj.write_text("Ahoj")

In [None]:
import shutil

cilova_slozka = Path("destinace")
cilova_slozka.mkdir(parents=True, exist_ok=True)
shutil.copy(zdroj, cilova_slozka)  # Kopíruje soubor na novou cestu

- **Přesouvání souborů**

In [None]:
Path(cilova_slozka / zdroj.name).rename(cilova_slozka / "kopie.txt")  # Přesune soubor na novou cestu

- **Mazání souborů**
  

In [None]:
kopie = cilova_slozka / "kopie.txt"
if kopie.exists():
    kopie.unlink()  # Smaže soubor


In [None]:
cilova_slozka.rmdir()

### 3. Hledání souborů podle vzorů

Vyhledání souborů podle specifických vzorů (např. všech `.txt` souborů) se často hodí při zpracování souborů stejného typu.

- **Vyhledání všech `.txt` souborů ve složce**

In [None]:
folder = Path(".")
txt_files = list(folder.glob("*.txt"))  # Vrátí seznam všech .txt souborů v adresáři
print(txt_files)

- **Rekurzivní hledání všech `.txt` souborů ve složce a podadresářích**

In [None]:
txt_files_recursive = list(folder.rglob("*.txt"))
print(txt_files_recursive)

In [None]:
# Nastavte cestu ke složce, kterou chcete procházet
root_folder = Path().resolve().parent

# Rekurzivně procházejte všechny soubory a složky
for item in root_folder.rglob("*"):
    if item.is_file():
        print(f"Soubor: {item}")
    elif item.is_dir():
        print(f"Složka: {item}")

In [None]:
# Nastavte cestu ke složce, kterou chcete procházet
root_folder = Path("..")

# Rekurzivně procházejte všechny soubory a složky
for item in root_folder.rglob("*"):
    if item.is_file():
        print(f"Soubor: {item}")
    elif item.is_dir():
        print(f"Složka: {item}")

### 4. Kontrola existence a typu souboru nebo složky

Před čtením nebo zápisem je užitečné zkontrolovat, zda soubor existuje a jestli je to soubor nebo složka.

- **Kontrola existence**

In [None]:
file = Path("demo.txt")
if file.exists():
    print("Soubor existuje")


- **Kontrola, zda jde o soubor nebo složku**

In [None]:
if file.is_file():
    print("Jedná se o soubor")
elif file.is_dir():
    print("Jedná se o složku")

### 5. Získávání informací o souborech

Metadata souborů, jako je velikost, datum vytvoření nebo modifikace, mohou být užitečné pro správu dat.

- **Velikost souboru**

In [None]:
size = file.stat().st_size  # Velikost v bytech
print(f"Velikost souboru: {size} bajtů")

- **Datum modifikace**

In [None]:
import arrow # better datetime

modification_time = arrow.get(file.stat().st_mtime)
print(f"Datum modifikace: {modification_time.format("dddd, D. MMMM YYYY", locale="cs")}")


### 7. Práce s cestami a formátování cest

Práce s cestami zahrnuje vytváření, úpravy a analýzu cest k souborům a složkám, což je zásadní pro zajištění přenositelnosti a robustnosti kódu.

- **Spojování cest**  
  `pathlib` umožňuje snadno kombinovat cesty pomocí `/` operátoru, což dělá kód čitelnější a zabraňuje chybám při vytváření cest.
  

In [None]:
base_dir = Path("task")
sub_dir = base_dir / "sub_directory"
file_path = sub_dir / "file.txt"
print(file_path)  # Výstup: base_directory/sub_directory/file.txt


- **Získání absolutní cesty**
  Použití `.resolve()` vám umožní získat absolutní cestu k souboru nebo složce, což může být užitečné při práci s různými adresáři.

In [None]:
absolute_path = file_path.resolve()
print(f"Absolutní cesta: {absolute_path}")

- **Rodičovské složky**  
  Pomocí `.parent` můžeme přistupovat k rodičovské složce souboru nebo složky, a `.parents` poskytuje přístup k vyšším úrovním v cestě.

In [None]:
print(file_path.parent)  # Vrátí jednu úroveň nad file_path
print(file_path.parents[0])  # Taky jednu úroveň nad file_path
print(file_path.parents[1])  # Dvě úrovně nad file_path


- **Rozdělení cesty na části**  
  Pomocí atributu `.parts` lze rozdělit cestu na jednotlivé části, což se hodí při analýze cesty.

In [None]:
parts = file_path.parts
print(parts)  # Výstup: ('base_directory', 'sub_directory', 'file.txt')

- **Název souboru a přípona**  
  Cesta může být rozdělena na samotný název souboru a jeho příponu. To se hodí při kontrole typu souboru nebo přejmenování.

In [None]:
print(file_path.name)     # Výstup: 'file.txt' - název souboru s příponou
print(file_path.stem)     # Výstup: 'file' - pouze název bez přípony
print(file_path.suffix)   # Výstup: '.txt' - pouze přípona souboru


- **Změna přípony souboru**  
  `with_suffix()` umožňuje změnit příponu, což je užitečné, pokud pracujeme s různými formáty dat nebo potřebujeme ukládat kopie v jiném formátu.

In [None]:
new_file_path = file_path.with_suffix(".md")
print(new_file_path)  # Výstup: base_directory/sub_directory/file.md


- **Kontrola, zda je cesta absolutní nebo relativní**  
  Cesty mohou být buď absolutní (od kořene souborového systému) nebo relativní (od aktuálního pracovního adresáře). `pathlib` umožňuje snadno zjistit, zda je cesta absolutní.
  

In [None]:
print(file_path.is_absolute())  # Výstup: False, protože je relativní
print(file_path.resolve().is_absolute())  # Výstup: True


- **Iterace přes podadresáře a soubory**  
  Metoda `.iterdir()` umožňuje procházet adresář a získat všechny položky v něm.

In [None]:
for item in base_dir.iterdir():
    print(item)  # Vypíše všechny soubory a složky v base_directory


- **Normalizace cesty**  
  `pathlib` automaticky normalizuje cesty odstraněním nadbytečných lomítek a řešením zkratek jako `.` a `..`.

In [None]:
normalized_path = Path("some_dir/../some_dir/file.txt").resolve()
print(normalized_path)  # Výstup: absolutní cesta k 'some_dir/file.txt'

- **Kombinace s relativní cestou**  
  Můžeme kombinovat cesty pomocí `.relative_to()`, což nám umožňuje získat relativní cestu k určitému základnímu adresáři.

In [None]:
relative_path = file_path.relative_to(base_dir)
print(relative_path)  # Výstup: sub_directory/file.txt


<br>

### 🧠 CVIČENÍ 🧠, Vyzkoušej si práci se složkami:

Ve složce `files` jsou ukryty soubory s příponou txt. Napiš funkci, která vrátí list, který bude obsahovat všechny cesty k souborům daného typu. Funkci pojmenuj `najdi_soubory(slozka, pripona)`, která přijme parametr cestu ke složce a příponu. Funkce musí ověřit, že se jedná o existující složku. Pomocí této funkce vypiš všechny textové soubory.

<details>
  <summary>▶️ Klikni zde pro zobrazení řešení</summary>

```python
def najdi_soubory(slozka: str, pripona: str) -> Generator:
    dir_path = Path(slozka)
    if not dir_path.exists():
        raise FileNotFoundError(f"Sozka '{slozka}' neexistuje.")

    return dir_path.rglob(f"*{pripona}")

path = Path().resolve() / "files"
print(list(najdi_soubory(str(path), ".txt")))
```
</details>

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.3vUw9kaVMOQPBQOvNZ9OkgHaHa%26pid%3DApi&f=1&ipt=5d535e2a1b28bb87b209c1395babc2cf0a51f8fafe7e55085f8b7643f2e8c554&ipo=images" width="200">

## Soubory CSV

---

- [Oficiální dokumentace na python.org](https://docs.python.org/3/library/csv.html)

---

**CSV (Comma-Separated Values)** je jednoduchý formát textového souboru pro ukládání tabulkových dat. Klíčové vlastnosti:  

- **Struktura:** Data jsou organizována do řádků (záznamů) a sloupců (atributů).

- **Oddělovač:** Hodnoty jsou odděleny čárkou (`,`), ale mohou být použity i jiné znaky (např. středník `;`).

- **Řádek záhlaví:** První řádek obvykle obsahuje názvy sloupců.

- **Textové hodnoty:** Jsou často uzavřeny v uvozovkách (`" "`), zejména pokud obsahují čárku.

- **Podporovanost:** CSV je široce podporován v textových editorech, tabulkových procesorech (Excel, LibreOffice Calc) a programovacích jazycích.

- **Dialekt CSV:**  
    Formát CSV nemá pevný standard, a proto existují různé **dialekty**, které se liší v:  
    - **Oddělovači:** Čárka (`,`), středník (`;`), tabulátor (`\t`).  
    - **Znak pro uvození textu:** Uvozovky (`"`), apostrofy (`'`).  
    - **Znak pro nový řádek:** LF (`\n`) nebo CRLF (`\r\n`).  
    - **Escapování speciálních znaků:** Použití zpětného lomítka (`\`) nebo zdvojení uvozovek (`""`).  

Dialekt je třeba brát v úvahu při importu/exportu dat, aby nedošlo k nesprávné interpretaci.

**Příklad:**
```csv
jmeno,prijmeni,email, projekt
Matous,Holinka,m.holinka@firma.cz,hr
Petr,Svetr,p.svetr@firma.cz,devops
```

Používá se pro jednoduchou výměnu dat mezi různými systémy.

**CSV soubor** (*Comma Separated Values*) ukládá *tabulková data*, podobně jako například soubory **.xlsx** (*MS Excel* nebo *LibreOffice*), které pravděpodobně znáš.

<a href="https://imgur.com/3zomtvk"><img src="https://i.imgur.com/3zomtvk.png" title="source: imgur.com" width="600" /></a>

Rozdíl spočívá v tom, že soubor **CSV** je ukládá v **textové podobě**.

<br>

**CSV soubor** je tedy mnohem univerzálnější, můžeš ho normálně otevřít prakticky ve všech tabulkových procesorech:
* *MS Excel*,
* *LibreOffice Calc*,
* v textových editorech jako je *Notepad* nebo *Poznámkový blok*,
* a navíc se s ním dobře pracuje v Pythonu.

Ať už konkrétně typ souboru **.csv** nebo jeho příbuzní **.xls** nebo **.xlsx** aj., pracuje tento typ souboru výborně pro ukládání jednotlivých záznámů řádek po řádku.

<br>

---

Protože se u **CSV souborů** nejedná o nativní formát Pythonu, jako takový jej nemůžeš v Pythonu napsat.

Platí, že pokud budeš chtít pracovat **s CSV soubory** v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**:

In [None]:
import csv

In [None]:
help(csv)

In [None]:
dir(csv)

#### Vyzkoušej si následující

---

| jméno objektu | účel metody |
| :-| :- |
| `csv.reader(m)` | funkce vrátí iterovatelný objekt (co cyklus, to řádek) |
| `csv.writer(m)` | funkce zapíše objekt do souboru (+ `writerows`)|
| `csv.DictWriter(m)` | třída pro zápis slovníku do souboru |
| `csv.DictReader(m)` | třída pro čtení souboru do slovníku |

<br>


*pozn* `m` je objekt (proměnná)

<br>

Základní dva procesy (obdobně jako pro textové soubory), které budeš provádět jsou:
1. __čtení__ souboru `csv`
2. __zápis__ do souboru `csv`

<br>

### Vytvoříš soubor s příp. `.csv`

Nejprve nahraj potřebnou knihovnu:

In [None]:
import csv

Vytvoř údaje, ze kterých soubor založíš.

Tedy *záhlaví* a dva řádky *záznamů* v tabulce.

In [None]:
hlavicka = ["jmeno", "prijmeni", "vek"]
osoba_1 = ["Matous", "Holinka", "28"]
osoba_2 = ["Petr", "Svetr", "27"]

Při tvorbě objektu je nutné zadat znak, který se bude objevovat **na konci řádků**:

In [None]:
csv_soubor = open(
    "prvni_tabulka.csv",
    mode="w",
    encoding="utf-8",
    newline=""  # None
)

In [None]:
print(csv_soubor)

Jakmile vytvoříš **spojovací objekt**, můžeš definovat, co do něj zapíšeš.

U knihovny `csv` se využívá tzv. *zapisovací* (*writer*) funkce.

Ten je zase specifický tím, že zadáš oddělovač, který oddělí **jednotlivé buňky** v tabulce:

In [None]:
zapisovac = csv.writer(csv_soubor, delimiter=",")

In [None]:
zapisovac.writerow(hlavicka)
zapisovac.writerow(osoba_1)
zapisovac.writerow(osoba_2)  # writerows(iterable)

In [None]:
zapisovac.writerows((hlavicka, osoba_1, osoba_2))

Po zaznamenání údajů a na konci workflow nezapomeň objekt načtený *interpretem* **ukončit**.

In [None]:
csv_soubor.close()

Pokud si nebudeš jistý, jestli je *stream* zavřený, vyzkoušej metodu `closed`.

Ta vrací `True`, pokud je *spojení* opravdu **ukončené**:

In [None]:
csv_soubor.closed

### DictWriter

Objekty v Pythonu, použité před chvílí, byly **sekvenčního typu**.

Pokud ovšem dostaneš mapovaný objekt, můžeš vyzkoušet další typ zapisovače, `DictWriter`:

In [None]:
osoba_1 = {"jmeno": "Matous", "prijmeni": "Pokoj", "vek": "28"}
osoba_2 = {"jmeno": "Petr", "prijmeni": "Svetr", "vek": "27"}

Pokud argument `newline` nepotřebuješ, můžeš pracovat s jeho defaultní hodnotou `None`:

In [None]:
dalsi_csv = open(
    "druha_tabulka.csv",
    mode="w",
    encoding="utf-8"
)

Objektu zapisovače opět předáš přichystaný proměnnou `dalsi_csv` a **jména sloupečků** (záhlaví):

In [None]:
zapisovac = csv.DictWriter(dalsi_csv, fieldnames=osoba_1.keys())

Můžeš záznamy zapsat **postupně**:

In [None]:
zapisovac.writeheader()

In [None]:
zapisovac.writerow(osoba_1)
zapisovac.writerow(osoba_2)

eventuálně zapsat také **hromadně**:

In [None]:
zapisovac.writerows((osoba_1, osoba_2))

a nakonec *stream* zase důsledně uzavřít:

In [None]:
dalsi_csv.close()

In [None]:
dalsi_csv.closed

### Přečti obsah souboru `.csv`

In [None]:
obsah_csv = open(
    "druha_tabulka.csv",
    encoding="utf-8",
    mode="r"  # Default
)

In [None]:
cteni = csv.reader(obsah_csv)

Obsah souboru je možné vrátit **jako sekvenci**:

In [None]:
tuple(cteni)

In [None]:
obsah_csv.seek(0)

Případně pro další processing **procházet smyčkou**:

In [None]:
for radek in cteni:
    print(radek)

In [None]:
obsah_csv.close()

### DictReader

Analogicky je možnost data obsažená v *CSV* souboru reprezentovat s *interpretem* jako `dict`:

In [None]:
moje_csv = open(
    "druha_tabulka.csv",
    mode="r",
    encoding="utf-8"
)

In [None]:
obsah = csv.DictReader(moje_csv)

In [None]:
print(tuple(obsah))

In [None]:
moje_csv.seek(0)

In [None]:
for radek in obsah:
    print(radek)

In [None]:
moje_csv.close()

### Kontextový manažer

Prakticky neustále se postup pro manipulaci se soubory kombinuje s manažerem `with`:

In [None]:
import csv

In [None]:
jmeno_csv = "druha_tabulka.csv"

In [None]:
with open(jmeno_csv, encoding="utf-8", mode="r") as csv_soubor:
    cteni = csv.DictReader(csv_soubor)

    for zaznam in cteni:
        print(zaznam)

In [None]:
csv_soubor.closed

Takže tabulkový formát je zpracovaný, co když budeš potřebovat soubor **organizovaný pomocí klíčů**.

<br>

### 🧠 CVIČENÍ 🧠, Vyzkoušej si práci s *csv*:

Za úkol máš zpracovat tabulku o platech zaměstnanců. Tvým úkolem bude vyfiltrovat zaměstnance, kteří mají vyšší plat než je 1500 €. Data jsou uložená v souboru `salaries.csv` ve složce `data`.

1. Vytvořte funkci `load_data`, která přijme jako parametr `file`, což je cesta k souboru a vrátí data jako `list`.
1. Vytvořte funkci `filter_data_by_salary`, která přijme parametr `data` jako list a `salary` jako int nebo float a vrátí data, která jsou větší než položka `salary`. Data vrátí jako list.
1. Vytvořte funkci `save_data`, která přijme parametr file, což je název souboru jako str a uloží vyfiltrovaná data do nového souboru

<details>
  <summary>▶️ Klikni zde pro zobrazení řešení</summary>

  ```python
  import csv

def load_data(file: str) -> list:
    with open(file, mode='r') as file:
        reader = csv.DictReader(file)
        return [row for row in reader]

def filter_data_by_salary(data:list, salary: int | float):
    result = [row for row in data if float(row['prijem']) > salary]
    return result

def save_data(data: list, file: str="output.csv") -> None:
    with open(file, mode='w') as file:
        writer = csv.DictWriter(file, fieldnames=['jmeno', 'vek', 'mesto', 'prijem'])
        writer.writeheader()
        writer.writerows(data)

def main():
    data = load_data('./data/salaries.csv')
    filtered_data = filter_data_by_salary(data, 1500)
    save_data(filtered_data)

main()
```
</details>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.HE9t18rjtPfxKI4noPxHiwHaHa%26pid%3DApi&f=1&ipt=75010c912a1bd645939e0cce59df21f5842a62439ba97cda758a4c7002f40ae6&ipo=images" width="200">

## Soubor JSON

---

### Další materiály

- [Oficiální dokumentace python.org](https://docs.python.org/3/library/json.html)
- [Neoficiální tutoriál realpython.com](https://realpython.com/python-json/)
- [Pyladies materiály](https://naucse.python.cz/lessons/intro/json/)

---

### Co je JSON?
- JSON (JavaScript Object Notation) je lehký datový formát pro výměnu informací.
- Jedná se o textový formát, který je snadno čitelný pro lidi a jednoduše zpracovatelný stroji.

### Hlavní vlastnosti JSON
- **Jednoduchý textový formát**: Data jsou reprezentována jako text, což usnadňuje jejich ukládání a přenos.
- **Jazyková nezávislost**: I když má kořeny v JavaScriptu, je podporován většinou programovacích jazyků.
- **Strukturovaný formát**: Umožňuje reprezentaci složitějších datových struktur.

### Základní datové typy v JSON
- **Objekt**: Složený z dvojic `klíč: hodnota`, obalený `{}`.
  - Příklad:
    ```json
    { "jmeno": "Daniel", "vek": 30 }
    ```
- **Pole (Array)**: Seznam hodnot obalený `[]`.
  - Příklad:
    ```json
    [ "Python", "JavaScript", "C++" ]
    ```
- **Primitivní typy**:
  - **String**: `"řetězec"`
  - **Číslo**: `123`, `45.6`
  - **Boolean**: `true`, `false`
  - **Null**: `null`

### Použití JSON
- **Výměna dat**: Mezi klientem a serverem (např. v REST API).
- **Ukládání dat**: Např. v konfiguračních souborech.
- **Zpracování dat**: Jednoduché parsování a serializace v různých jazycích.

### Výhody JSON
- Lehký a snadno přenositelný.
- Lidsky čitelný a snadno upravitelný.
- Široká podpora v různých ekosystémech a knihovnách.

**JSON** si můžeš představit následovně:
```json
{
  "nazev": "Inception",
  "rok": 2010,
  "reziser": "Christopher Nolan",
  "zanry": ["Sci-fi", "Akční", "Thriller"],
  "hodnoceni": {
    "imdb": 8.8,
    "rottentomatoes": 87,
    "csfd": 90
  },
  "hlavni_herci": [
    {
      "jmeno": "Leonardo DiCaprio",
      "role": "Dom Cobb"
    },
    {
      "jmeno": "Joseph Gordon-Levitt",
      "role": "Arthur"
    },
    {
      "jmeno": "Elliot Page",
      "role": "Ariadne"
    }
  ],
  "doba_trvani_min": 148,
  "jazyk": "Angličtina",
  "rozpocet_usd": 160000000,
  "vydelky_usd": 829895144,
  "je_dostupny_streaming": true
}
```


Na první pohled můžeš říct, že se hodně podobá **Pythonovskému slovníku**.

Nicméně má svoji vlastní charakteristickou **sadu pravidel** pro převod datových typů.

Níže jsou uvedená některá pravidla, která se týkají ukázky výše (všechna pravidla najdeš [zde](https://docs.python.org/3/library/json.html#encoders-and-decoders)):


| JSON | Python |
| :-: | :-: |
| string | str |
| true | True |
| false | False |
| null | None |

Účelem tohoto souboru je zejména **přenos dat** (*JavaScript Object Notation*).

Jde o záměrně zjednodušený formát, který **není standardním datovým typem pro Python**.

Poměrně často se s ním setkáš u **webových aplikací** různých *eshopů*, které ti vykresují nabídku na základě informací získaných z databází.

**Web**:
- Ukázka API: https://api.chucknorris.io/jokes/random
- Ukázka jak funguje načítání dat z API na webu: 

#### Balíček `json`:

---

Protože **JSON** není standardním datovým typem, jako takový jej nemůžeš v Pythonu použít.

Pokud budeš chtít pracovat s JSON v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**.


V rámci <a href="https://docs.python.org/3/library/index.html" target="_blank">seznamu dokumentace Pythonu</a>  najdeš knihovnu `json`.

Právě tato knihovna ti umožní pomocí *interpretu* Pythonu *vytvořit* nebo *načíst* JSON.

In [None]:
import json  # nahrátí knihovny

In [None]:
help(json)   # nápověda

In [None]:
dir(json)    # seznam všech metod

In [None]:
tuple(       # bez magických metod
    object
    for object in dir(json)
    if not object.startswith("__")
)

<br>

#### Vyzkoušíme si následující:

---

<br>

| jméno metody | účel metody |
| :-| :- |
| json.load(m) | načte JSON data ze souboru (objektu) |
| json.loads(m) | načte JSON data ze stringu |
| json.dump(m, n) | zapíše JSON objekt do souboru (objektu) |
| json.dumps(m) | zapíše JSON objekt do stringu |

<br>

*pozn* `m` je objekt (proměnná), `n` je jméno souboru

<br>

#### Vytvoření souboru `.json`:

---

Obecně se při práci se soubory typu `json` mluví o procesech *serialization* a *deserialization* (tedy čtení a zápis), ke kterým patří příslušné funkce uvedené výše v tabulce.

In [None]:
chuck_sl = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "doplneni": "Łukasz",
}

In [None]:
print(type(chuck_sl))

In [None]:
vypis_json = json.dumps(chuck_sl)

In [None]:
# null (None), true/false (True/False)!
vypis_json

In [None]:
# json arrays!
json.dumps({"tuple": (1, 2, 3)})

In [None]:
# not a tuple!
json.loads(json.dumps({"tuple": (1, 2, 3)}))

In [None]:
print(type(vypis_json))

In [None]:
json.dumps(chuck_sl)

In [None]:
# compact string
json.dumps(chuck_sl, separators=(",", ":"))

In [None]:
# pretty string
json.dumps(chuck_sl, indent=4)

In [None]:
print(json.dumps(chuck_sl, indent=14))

In [None]:
# to file (wrong)
zapis_json_jako_soubor = json.dump(chuck_sl, "prvni_json.json")

In [None]:
# to file
json_soubor = open("prvni_json.json", mode="w")
zapis_json_jako_soubor = json.dump(chuck_sl, json_soubor)
zapis_json_jako_soubor

In [None]:
json_soubor.close()

In [None]:
# Zapis pomoci kontextoveho manageru `with`
with open("prvni_json_kontext.json", mode="w") as json_soubor:
    json.dump(chuck_sl, json_soubor)

<br>

#### Načteme existující soubor `.json`:

---

In [None]:
# from file
existujici_json = open("prvni_json.json") 

In [None]:
print(existujici_json)

In [None]:
obsah_json = json.load(existujici_json)

In [None]:
print(obsah_json)

In [None]:
type(obsah_json)

In [None]:
existujici_json.close()

### Recap

In [None]:
# Q: what is error?
json.loads('{"jmeno": "Chuck Norris", "neuspech": None, "kliky": "vsechny", "konkurence": False, "doplneni": "Łukasz"}')

In [None]:
json.loads('{"jmeno": "Chuck Norris", "neuspech": null, "kliky": "vsechny", "konkurence": false, "doplneni": "Łukasz"}')


#### Doplňující argumenty:
1. `indent = 4` - odsadí zapsaný `json` o 4 mezery
2. `sort_keys` - seřadí klíče (`True`/`False`)
3. `ensure_ascii` - `False` zapíše původní znak, `True` zapíše reprezentaci znaku pomocí lomítek.
4. `allow_nan`

In [None]:
json.dumps(obsah_json, indent=4)

In [None]:
json.dumps(obsah_json, indent=10)

In [None]:
json.dumps(obsah_json, sort_keys=True)

In [None]:
json.dumps(obsah_json, ensure_ascii=False)

In [None]:
# the most useful thing in all today's lecture
json.dumps({"smiley": "\U0001f600"}, ensure_ascii=False)

In [None]:
json.dumps({"smiley": "\U0001f600"}, ensure_ascii=True)

In [None]:
import math

json.dumps({"float_nan": math.nan})  # Not a Number 

In [None]:
json.dumps({"float_nan": math.nan}, allow_nan=False)

In [None]:
# and more...
json.loads('{"one": 1.0}')

In [None]:
def add_one(x):
    return float(x) + 1.

json.loads('{"one": 1.0}', parse_float=add_one)

In [None]:
# and more and more complex...

json.loads('{"__complex__": true, "real": 1, "imag": 2}')

In [None]:
def as_complex(d):
    if '__complex__' in d:
        return complex(d['real'], d['imag'])
    return d

json.loads('{"__complex__": true, "real": 1, "imag": 2}', object_hook=as_complex)

In [None]:
# remembering exceptions :)

json.loads('{"name":"Valerie", "age": null, "universityCompleted": true}')

In [None]:
try:
    json.loads('{"name":"Valerie", "age": null, "universityCompleted": true},{"name":"Valerie", "age": null, "universityCompleted": true}')
except json.JSONDecodeError:
    print("Bad formatted json")

---

#### Serializace do binární podoby `Pickle`

Pokud chceme ukládat objekty Pythonu a nelze využít JSON, tak můžeme použít knihovnu `Pickle`, která ukládá objekty v binární podobě.

**Kdy lze použít**:

- Ukládání stavu programu.
- Mezipamět pro rychlejší výpočty (nátrénovaný model strojového učení).
- Ukládání složitých datových struktur.


**Příklad**

In [None]:
import pickle

# Definice vlastní třídy
class User:
    def __init__(self, username, age):
        self.username = username
        self.age = age

    def greet(self):
        return f"Hello, {self.username}!"

# Vytvoření instance
user = User("Daniel", 18)

# Serializace pomocí Pickle
with open("user.pkl", "wb") as file:
    pickle.dump(user, file)
print("User object saved!")

# Deserializace
with open("user.pkl", "rb") as file:
    loaded_user = pickle.load(file)
print("Loaded User:", loaded_user.greet())


<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP._kpwh7Nlbd9zz581knhxIgHaHa%26pid%3DApi&f=1&ipt=8b3537d53bff97aa8ee01b5f42a34e5740448207c5c479158e94be6a62b75cdc&ipo=images" width="220">

## Spouštění skriptu s argumenty

---

#### knihovna `sys`

Tato knihovna ti umožní různé operace.

Od spouštění různých systémových příkazů, zpřístupní nejrůznější systémové proměnné.

Dále umí také doplnit spuštění tvého skriptu.

Jak předáš jednoduchému skriptu informaci, že tvoje jméno je `"Matouš"`?

In [None]:
jmeno = input("zadej jméno:".upper())

In [None]:
print(jmeno)

Velkou nevýhodou takového zápisu je ovšem samotná funkce `input`.

Zejména kvůli:
* **nepraktickému** chování (funkce zkrátká čeká),
* následnému **testování** (potřeba přepisovat *"mockovat"* funkcionalitu).

Proto ji **v produkčním prostředí** prakticky nepotkáš.

Jak tedy elegantně zadat hodnotu pro tvůj program?

### Knihovna SYS

Další způsob, jak efektivně předat hodnotu pro tvůj skript, je pomocí spouštěcích argumentů této knihovny:

<br>

#### Simulace příkazové řádky

---

Příkazy pro spuštění v konzoli se v prostředí Jupyter označují vykřičníkem na začátku řádku. Poté následuje zápis shodný s příkazem psaným do příkazové řádky.

In [None]:
%%file test_sys.py

import sys

print(sys.argv)

In [None]:
!python test_sys.py ahoj čau

V ukázce výše je `sys.argv` objekt typu `list`.

Tím pádem jej můžeš indexovat, jak budeš potřebovat.

In [None]:
%%file test_sys.py

import sys

print(
    "0: Nultý index:", sys.argv[0],
    "1: První index:", sys.argv[1],
    sep="\n"
)

In [None]:
!python test_sys.py ahoj čau

Kde platí:
1. **Nultý index** reprezentuje vždy jméno souboru, který spouštíš,
2. **První index** potom první údaj, který zadáš.

Argumenty takhle můžeš zadávat různými způsoby.

Pokud potřebuješ **specifický údaj**, můžeš přidat podmínku:

In [None]:
%%file test_sys.py

import sys

if sys.argv[1] not in ("ano", "ne"):
    print("Neplatný argument")
else:
    print("Pokračuji")

In [None]:
!python test_sys.py ano

In [None]:
!python test_sys.py blbost

<br>

Pokud budeš potřebovat určité množství argumentů, můžeš hlídat jejich počet:

In [None]:
%%file test_sys.py

import sys

if len(sys.argv) != 3:
    print(
        "Chybné spuštění",
        "Příklad: python jmeno.py 'arg1' 'arg2'",
        sep="\n"
    )
else:
    print("Pokračuji")

In [None]:
!python test_sys.py ahoj lidi

In [None]:
!python test_sys.py ahoj


<br>

Pracování s několika argumenty:

In [None]:
%%file test_sys.py

import sys

vsechny_hodnoty = sys.argv[1:]
pocet_hodnot = len(sys.argv[1:])

print(vsechny_hodnoty, pocet_hodnot, sep="\n")

In [None]:
!python test_sys.py 1 2 3


<br>

Ovšem i tento způsob pracování s argumenty není elegantním řešením pro složitější zadání.

Další varianty:
1. Knihovny `argparse` ([dokumentace](https://docs.python.org/3/library/argparse.html?highlight=argparse#module-argparse)), *zabudovaná* knihovna,
2. knihovna `click` ([dokumentace](https://pypi.org/project/click/)), knihovna *třetí strany*.



#### Knihovna `argparse`

In [None]:
%%file test_argparse.py

import argparse

# Vytvoření parseru
parser = argparse.ArgumentParser(
    description="Ukázka klíčových funkcí knihovny argparse."
)

# Povinný poziční argument
parser.add_argument(
    "soubor",                    # Název argumentu
    type=str,                    # Typ argumentu (řetězec)
    help="Cesta k vstupnímu souboru"  # Popis argumentu
)

# Volitelný argument s výchozí hodnotou
parser.add_argument(
    "--vystup",                  # Volitelný argument
    type=str,                    # Typ argumentu (řetězec)
    default="output.txt",        # Výchozí hodnota
    help="Cesta k výstupnímu souboru (výchozí: output.txt)"
)

# Argument s omezením na konkrétní hodnoty
parser.add_argument(
    "--format",
    choices=["text", "json", "csv"],  # Omezení na povolené hodnoty
    default="text",              # Výchozí hodnota
    help="Formát výstupu: text, json nebo csv (výchozí: text)"
)

# Přepínač (True, pokud je uveden)
parser.add_argument(
    "-v", "--verbose",
    action="store_true",         # Přepínač
    help="Zapne detailní výstup"
)

# Argument, který přijímá více hodnot
parser.add_argument(
    "--filtry",
    nargs="+",                   # Přijímá jednu nebo více hodnot
    type=str,                    # Typ každé hodnoty (řetězec)
    help="Seznam filtrů pro zpracování dat (např. filter1 filter2)"
)

# Číselný argument s výchozím rozsahem
parser.add_argument(
    "--iterace",
    type=int,                    # Typ argumentu (integer)
    default=1,                   # Výchozí hodnota
    help="Počet iterací zpracování (výchozí: 1)"
)

# Parsování argumentů
args = parser.parse_args()

# --- Použití argumentů ---
print(f"Vstupní soubor: {args.soubor}")
print(f"Výstupní soubor: {args.vystup}")
print(f"Formát výstupu: {args.format}")

if args.verbose:
    print("Detailní výstup je zapnut.")

if args.filtry:
    print(f"Aktivní filtry: {', '.join(args.filtry)}")
else:
    print("Žádné filtry nebyly zadány.")

print(f"Počet iterací: {args.iterace}")


In [None]:
!python test_argparse.py --help

In [None]:
!python test_argparse.py zdrojovy_soubor.txt

In [None]:
!python test_argparse.py zdrojovy_soubor.txt --vystup results.csv --format csv -v --filtry filter1 filter2 --iterace 5


##### Knihovna `click`

**📄 Oficální dokumentace: https://click.palletsprojects.com/en/stable/**

**💪 Zase ty dekorátory**

In [70]:
%%file test_click.py

import click

# Definice hlavní funkce
@click.command()
@click.argument("soubor")  # Povinný poziční argument
@click.option(
    "--vystup", "-o",
    default="output.txt",
    help="Cesta k výstupnímu souboru (výchozí: output.txt)"
)
@click.option(
    "--format", "-f",
    type=click.Choice(["text", "json", "csv"], case_sensitive=False),
    default="text",
    help="Formát výstupu: text, json nebo csv (výchozí: text)"
)
@click.option(
    "--verbose", "-v",
    is_flag=True,
    help="Zapne detailní výstup"
)
@click.option(
    "--filtry", "-fl",
    multiple=True,  # Umožňuje zadat více hodnot
    help="Seznam filtrů pro zpracování dat"
)
@click.option(
    "--iterace", "-i",
    default=1,
    type=int,
    show_default=True,
    help="Počet iterací zpracování"
)
def cli(soubor, vystup, format, verbose, filtry, iterace):
    """
    Ukázka klíčových funkcí knihovny Click.
    """
    # --- Použití argumentů ---
    click.echo(f"Vstupní soubor: {soubor}")
    click.echo(f"Výstupní soubor: {vystup}")
    click.echo(f"Formát výstupu: {format}")

    if verbose:
        click.echo("Detailní výstup je zapnut.")

    if filtry:
        click.echo(f"Aktivní filtry: {', '.join(filtry)}")
    else:
        click.echo("Žádné filtry nebyly zadány.")

    click.echo(f"Počet iterací: {iterace}")

    # Simulace iterací
    for i in range(iterace):
        click.echo(f"Iterace {i + 1}...")

# Spuštění programu
if __name__ == "__main__":
    cli()


Overwriting test_click.py


In [71]:
!python test_click.py --help

Usage: test_click.py [OPTIONS] SOUBOR

  Ukázka klíčových funkcí knihovny Click.

Options:
  -o, --vystup TEXT             Cesta k výstupnímu souboru (výchozí:
                                output.txt)
  -f, --format [text|json|csv]  Formát výstupu: text, json nebo csv (výchozí:
                                text)
  -v, --verbose                 Zapne detailní výstup
  -fl, --filtry TEXT            Seznam filtrů pro zpracování dat
  -i, --iterace INTEGER         Počet iterací zpracování  [default: 1]
  --help                        Show this message and exit.


In [72]:
!python test_click.py zdrojovy_soubor.txt

Vstupní soubor: zdrojovy_soubor.txt
Výstupní soubor: output.txt
Formát výstupu: text
Žádné filtry nebyly zadány.
Počet iterací: 1
Iterace 1...


In [74]:
!python test_click.py zdrojovy_soubor.txt --vystup results.csv --format csv -v --filtry filter1 --filtry filter2 --iterace 5


Vstupní soubor: zdrojovy_soubor.txt
Výstupní soubor: results.csv
Formát výstupu: csv
Detailní výstup je zapnut.
Aktivní filtry: filter1, filter2
Počet iterací: 5
Iterace 1...
Iterace 2...
Iterace 3...
Iterace 4...
Iterace 5...


<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.GMJvJ-GG0YS8H5JmHR3CbwHaHm%26pid%3DApi&f=1&ipt=110157bae9409977a59d895a970a6d51afa8a31e0c7fca53a1f95fd2402f9a35&ipo=images" width="200">

## Domácí úloha

---

Napiš *skript*, který:

1. Načte soubor typu `JSON`,
2. rozdělí obsah **podle klíčů**,
3. zapíšeš rozdělená data do sloupečků **v CSV souboru**,
4. (nepovinné), zadávání vstupního a výstupního jména souborů proběhne pomocí spouštěcích argumentů.

Vstupní **JSON** soubor:

```
    {
        "id": 1,
        "first_name": "Dorri",
        "last_name": "Di Bernardo",
        "email": "ddibernardo0@nba.com",
        "gender": "Female",
        "ip_address": "158.223.131.8"
    },
    {
        "id": 2,
        "first_name": "Nisse",
        "last_name": "Noye",
        "email": "nnoye1@theatlantic.com",
        "gender": "Female",
        "ip_address": "252.57.218.72"
    },
    ...
```

Výstupní **CSV**:
```
["id", "first_name", "last_name", "email", "gender", "ip_address"],
["1", "Dorri", "Di Bernardo", "ddibernardo0@nba.com", "Female", "158.223.131.8"],
["2", "Nisse", "Noye", "nnoye1@theatlantic.com", "Female", "252.57.218.72"],
...
```

---

# Když zbyde čas ⌛

Knihovna Marshmallow

Knihovna PyDantic

XML, TOML, YAML

Ukázka argparse