# Python akademie, pokročilí

<br>

## Obsah

---

1. [Prezentace](https://docs.google.com/presentation/d/1qjP9jFeUioAePlyRv9c7spgyQhSh7-KPJvF4HDvwG2M)
1. [Úvod do IO]()
2. [Textové soubory]()
    - [Úvod k souborům]()
    - [Čtení souborů]()
    - [Zápis do souborů]()
    - [Opakovaný zápis do souboru]()
3. [Tabulkové soubory]()
    - [Dialekt CSV souborů]()
    - [Vytvoříš soubor s příp. `.csv`]()
    - [DictWriter]()
    - [Přečti obsah souboru `.csv`]()
    - [DictReader]()
4. [JSON soubory]()
    - [Vytvoření souboru objektu a souboru `.json`]()
    - [Načti existující soubor `.json` nebo string]()
    - [Zápis s kontextovým manažerem]()
5. [Domácí úkol]()

<br>

### 🧠 CVIČENÍ 0 🧠, Opakování:
---

- Definuj funkci `rozdel_text`, která splňuje:
    - parametr: `vzorek` (string),
    - vrací: seznam slov,
    - popis: Tato funkce rozdělí textový řetězec na slova a vrátí seznam slov. Pokud vstupní argument není řetězec, vyvolá výjimku.

- definuj funkci `analyzuj_text`, která splňuje:
    - parametr: `slova` (list),
    - vrací: slovník s klíči `'Počet slov'`, `'Nejběžnějších 5'` a `'Průměrná délka'`,
    - popis: Tato funkce analyzuje seznam slov a vrací statistiky ve formě slovníku.

- definuj funkci `vypis_statistiky`, která splňuje:
    - parametr: `statistiky` (dict),
    - vrací: nic,
    - popis: Tato funkce vypíše statistiky ve formátované podobě.

In [3]:
from collections import Counter


def rozdel_text(vzorek: str) -> list:
    if isinstance(vzorek, str):
        return vzorek.split()
    else:
        raise Exception("Parametr 'vzorek' nedostal datový typ 'str'")


def analyzuj_text(slova: list) -> dict:
    pocet_slov = len(slova)  # ošetřit diakritiku ze zadání
    nejcistejsich_pet = Counter(slova).most_common(5)  # (['se', 15], ['a', 10], ...)
    return {
        'Počet slov': pocet_slov,
        'Nejčastějších 5': nejcistejsich_pet
    }

In [6]:
def test_rozdeli_fce_text_spravne():
    testovaci_vzorek_1 = "foo bar"
    assert rozdel_text(testovaci_vzorek_1) == ['foo', 'bar', 'moo'], "Neočekávaný výstup!"


def test_probehne_spravne_analyza_slov():
    testovaci_vzorek_2 = ["se", "ani", "onak"]
    assert analyzuj_text(testovaci_vzorek_2) == {
        'Počet slov': 3,
        'Nejčastějších 5': [('se', 1), ('ani', 1), ('onak', 1)]
        # 'Průměrná délka': 3
    }
        

test_rozdeli_fce_text_spravne()
test_probehne_spravne_analyza_slov()

AssertionError: Neočekávaný výstup!

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    from collections import Counter

    def rozdel_text(vzorek: str) -> list:
        if isinstance(vzorek, str):
            return vzorek.split()
        else:
            raise Exception(f"Argument 'vzorek' není string!")
    
    
    def analyzuj_text(slova: list) -> tuple:
        rozbor = Counter(slova)
        pocet_slov = len(slova)
        nejbeznejsich_pet = rozbor.most_common(5)
        prumerna_delka = sum(len(slova) for slovo in slova) / len(slova)
        return {
            'Počet slov': pocet_slov,
            'Nejběžnějších 5': nejbeznejsich_pet,
            'Průměrná délka': prumerna_delka
        }
    
    
    def vypis_statistiky(statistiky: dict) -> None:
        pocet_slov, nejbeznejsi_slovo, prumerna_delka = statistiky
        for klic, hodnota in statistiky.items():
            print(f"{klic}\t --> {hodnota}")
    ```
</details>

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.BPYuvKj05Xo_oF_oXiL1yAHaHa%26pid%3DApi&f=1" width="250" style="margin-left:auto; margin-right:auto">


## Úvod do IO

---

Nyní pracuješ pouze s objekty **Pythonu vlastními** nebo **s jeho knihovnami**.

Všechny tyto *objekty* jsi vytvoříš a zpracováváš **v rámci paměti RAM** (*random access memory*).

<br>

*Paměť RAM* je **velmi rychlá**, ale současně náročná a vyžaduje **neustálý zdroj** (není elektřina, ztratíš data).

Takový **disk počítače** je o dost **pomalejší** než paměť *RAM*, ale umožňuje ti uchovávat tebou získaná, zpracovaná data.

<br>

Proto je dobré osvojit si pravidla a postupy v Pythonu, jak vytvořit **persistentní data**.

<br>

In [None]:
# data --> rozdelim --> "ocistim" --> pracuji
# data --> rozdelim --> znaky v pismenu a-zA-Z --> pracuji (import string)

### File Input/Output (~vstupní soubor, výstupní soubor)

---

Klasickou cestou, jak vytvořit obyčejný soubor je poskládat údaje (bajty) za hlavičkou, tedy **jménem souboru**.

<br>

Než ale začneš se souborem pracovat, potřebuješ si v Pythonu vytvořit *pomocný objekt*, který jej bude **zastupovat** (nebo se na něj odkazovat):

```python
muj_soubor = open(jmeno_souboru, pravidla)  # pomocný objekt

# ... libovolná ohlášení

muj_soubor.close()
```

1. `muj_soubor`, je **Pythonovský objekt** odkazující na **soubor**,
2. `open()`, *zabudovaná funkce*, která **vytváří spojení** (*stream*) mezi objektem a souborem,
3. `jmeno_souboru`, jméno souboru (*relativní* cesta/*absolutní* cesta),
4. `pravidla`, výběr argumentů upřesňujících, **jak soubor otevřít**,
5. `muj_soubor.close`, způsob, kterým **ukončíš spojení** mezi objektem a souborem.

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.JhMJc09m94e9V3oKtb_n3AHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Textové soubory

---

Nejlepším souborem na začátek bude prostý **textový soubor**.

Textovým souborem rozuměj jakýkoliv soubor, který má příponu `.txt`.

#### Demo: Ukázka textového souboru

<br>

### Úvod k souborům

---

Základními procesy pro práci se soubory obecně jsou:
1. **Čtení** souborů,
2. **Zápis** do souborů.

### Čtení souborů

---

Otevřít a přečíst *textový soubor* pomocí *editorů* jistě ovládáš.

Teď se podívej, jak můžeš naučit otevírání a čtení souborů také **interpreta Pythonu**:

In [12]:
#help(rozdel_text)

In [13]:
muj_txt_soubor = open(demo.txt)

NameError: name 'demo' is not defined

<br>

Dávej pozor, jakým způsobem **jméno souboru** používáš. Python potřebuje pracovat s takovým datovým typem, který dobře zná.

In [15]:
!pwd

/home/matous/projects/engeto-python-academy-advanced/shared/notebooks


In [17]:
!ls -l ../data/

total 20
-rw-rw-r-- 1 matous matous   38 zář  7 14:13 demo.txt
-rw-rw-r-- 1 matous matous  421 zář  7 10:39 logs.txt
-rw-rw-r-- 1 matous matous  270 zář  7 10:45 prodeje.csv
-rw-rw-r-- 1 matous matous  297 zář  7 11:13 produkty.json
-rw-rw-r-- 1 matous matous 3132 zář  7 13:28 txt_sample.py


In [18]:
muj_txt_soubor = open("../data/demo.txt")

Další kolizí může být **umístění** souboru.

<br>

*Interpret* pracuje v aktuálním umístění. Takže buď soubor přesuneš, nebo na něj odkážeš pomocí:
1. **Relativní cesty** (tedy vzhledem k aktuálnímu umístění),
2. **absolutní cesty** (celá cesta od *roota* nebo *jména disku*).

#### Relativní cesta
```
"muj_textovy_soubor.txt"                # v aktuální složce
"../muj_textovy_soubor.txt"             # v rodičovské složce
"shared/onsite/muj_textovy_soubor.txt"  # v dceřinné složce 'shared', v dceřinné složce 'onsite'
```

#### Absolutní cesta, Windows
```
"C:\users\admin\docs\muj_textovy_soubor.txt"
```

#### Absolutní cesta, unix
```
"/home/user/project/shared/onsite/muj_textovy_soubor.txt"
```

In [None]:
muj_txt_soubor = open("../onsite/lesson07/muj_textovy_soubor.txt")

In [19]:
print(muj_txt_soubor)

<_io.TextIOWrapper name='../data/demo.txt' mode='r' encoding='UTF-8'>


In [20]:
print(type(muj_txt_soubor))

<class '_io.TextIOWrapper'>


Metody **pro čtění obsahu** *TextIOWrapper* objektu:

1. `read` - přečte celý soubor jako jeden string,
2. `readline` - přečte pouze první řádek jako string,
3. `readlines` - přečte celý soubor jako list (co řádek, to údaj)

<br>

In [21]:
obsah_txt = muj_txt_soubor.readlines()

Jakmile tvoje práce s textovými souborem skončí, nezapomeň soubor zavřít.

In [22]:
print(obsah_txt)

['prvni radek,\n', 'druhy radek,\n', 'treti radek.']


In [23]:
obsah_txt_2 = muj_txt_soubor.readlines()

In [24]:
print(obsah_txt_2)

[]


In [25]:
muj_txt_soubor.seek(0)  # dobre vedet!

0

In [26]:
obsah_txt_2 = muj_txt_soubor.read()

In [27]:
print(obsah_txt_2)

prvni radek,
druhy radek,
treti radek.


In [29]:
muj_txt_soubor.closed

False

In [30]:
muj_txt_soubor.close()

In [31]:
muj_txt_soubor.closed

True

<br>

### Zápis do souborů

---

Pokud všem žádný textový soubor nemáš, nebo jej chceš naopak **vytvořit**, musíš jej prvně **zapsat**:

In [36]:
muj_txt = "Toto je můj nový soubor^.^"

*String* `muj_txt` máš aktuálně k dispozici pouze jako nějaký objekt Pythonu.

Opět je potřeba nejprve spojit **objekt v Pythonu** se skutečným souborem na disku.

In [34]:
muj_soubor = open("../data/demo_zapis.txt", mode='w')  # jméno souboru jako "str"

In [33]:
!ls -l ../data

total 20
-rw-rw-r-- 1 matous matous   38 zář  7 14:13 demo.txt
-rw-rw-r-- 1 matous matous  421 zář  7 10:39 logs.txt
-rw-rw-r-- 1 matous matous  270 zář  7 10:45 prodeje.csv
-rw-rw-r-- 1 matous matous  297 zář  7 11:13 produkty.json
-rw-rw-r-- 1 matous matous 3132 zář  7 13:28 txt_sample.py


In [37]:
muj_soubor.write(muj_txt)

26

In [38]:
muj_soubor.close()

In [None]:
muj_soubor = open("../onsite/lesson07/muj_textovy_soubor.txt", mode="w")  # vybrat vhodný režim

In [None]:
muj_soubor.write(muj_txt)

In [None]:
muj_soubor.closed

In [None]:
muj_soubor.close()

Soubor si následně můžeš otevřít, ale zjistíš, že je **v tento moment prázdný**.

Funkce `open` pouze vytvoří (*~iniciuje*) nový objekt `muj_novy_soubor`.

Příslušný text teprve musíme zapsat, pomocí vhodné *funkce* `write`:

In [None]:
muj_soubor = open("muj_novy_soubor.txt", mode="w")  # vybrat vhodný režim

In [None]:
help(muj_soubor.write)

In [None]:
muj_soubor.write(obsah_souboru)

Pokud si budeš chtít nyní prohlédnout **zapsaný soubor na disku**, zjistíš, že je stále prázdný.

Protože *stále není ukončený*, nedovedeš s ním nijak manipulovat.

Pokud zjistíš, že není ukončený, ukončíš jej pomocí metody `close`.

In [None]:
muj_soubor.close()

Teprve po ukončení *streamu* (nebo také zápisu) objektu, můžeš soubor `muj_novy_soubor.txt` prozkoumat.

### Opakovaný zápis do souboru

---

Máš situaci, kdy tebou vytvořený soubor existuje a ty jej chceš znovu otevřít a rozšířit:

In [39]:
dalsi_text = "\nRád čtu a hraji na klavír"

Opět potřebuješ inicializovat **pomocný objekt**, jako v předchozích scénářích:

In [40]:
muj_soubor = open("../data/demo_zapis.txt", mode="w")
muj_soubor.write(dalsi_text)
muj_soubor.close()

In [None]:
help(muj_soubor.writelines)

Když zkontroluješ, jak vypadá **nově přidaný text**, bude vypadat zmateně.

<br>

Pokud opětovně načteš **stejný soubor** v režimu `w`, přesuneš "zapisovač" (*představ si jej jako blikající kurzor v editoru*) opět **na začátek souboru**.

*Interpret* zapisuje od místa, kde se zapisovač nachází, takže dojde **k přepsání původního obsahu**.

<br>

Pokud chceš automaticky zapisovat **od konce souboru**, otevři soubor s argumentem `mode="a"`, tedy v režimu `append`.

In [42]:
prvni_radek = "Ahoj, ja jsem Matous (:"
dalsi_txt = "\nRad ctu, hraji na klavir"

In [43]:
muj_soubor = open("../data/demo_zapis.txt", mode="w")
muj_soubor.write(prvni_radek)
muj_soubor.close()

In [44]:
muj_soubor = open("../data/demo_zapis.txt", mode="")
muj_soubor.write(dalsi_txt)
muj_soubor.close()

Pokud budeš někdy pracovat se stejným souborem tak, že jej budeš současně:
1. **číst** soubor,
2. **zapisovat** do něj.
    
Vyzkoušej režim `r+`.

<br>

### 🧠 CVIČENÍ 1 🧠, práce s textovými souborem:
---

- Definuj funkci `precti_logy`, která splňuje:
    - parametr: `soubor` (string),
    - vrací: seznam záznamů z logovacího souboru,
    - popis: Tato funkce přečte obsah logovacích souboru. Kde každý řádek bude oddělený údaj sekvence.

- definuj funkci `vyber_pouze_typ`, která splňuje:
    - parametr: `obsah_souboru` (list),
    - vrací: tuple,
    - popis: Tato funkce ze zadaného seznamu logů rozdělí každý řádek a uloží pouze typ logovací zprávy (`INFO`, `WARN`, ...). Výsledný údaj vrať jako `tuple`.

In [None]:
INFO 2023-07-26 10:30:22 Aplikace úspěšně spuštěna
INFO 2023-07-26 10:31:12 Uživatel přihlášen
WARN 2023-07-26 10:35:05 Nedostatek místa na disku
INFO 2023-07-26 10:36:17 Data úspěšně uložena
ERROR 2023-07-26 10:40:44 Připojení k databázi selhalo
WARN 2023-07-26 10:45:30 Možná chyba v konfiguraci
ERROR 2023-07-26 10:50:01 Nelze odeslat e-mail
INFO 2023-07-26 10:55:12 Aplikace úspěšně ukončena

In [None]:
!ls ../data

In [45]:
def precti_logy(soubor: str) -> list:
    if isinstance(soubor, str):
        muj_soubor = open(soubor, mode="r", encoding='utf-8')
        obsah = muj_soubor.readlines()
        muj_soubor.close()
        return obsah
    else:
        raise Exception("soubor should be string!")

In [47]:
r = precti_logy('../data/logs.txt')

In [52]:
r[0].split(" ")[0]

'INFO'

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    def precti_logy(soubor: str) -> list:
        with open(soubor) as txt_soubor:
            return txt_soubor.readlines()

    def vyber_pouze_typ(obsah_souboru: list) -> tuple:
        return tuple(
            [log.split()[0] for log in obsah_souboru if len(log) > 3]
        )
    ```
</details>

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.LKBKt07b_VB9u7U7EaEBgQHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Tabulkové soubory

---


**CSV soubor** (*Comma Separated Values*) ukládá *tabulková data*, podobně jako například soubory **.xlsx** (*MS Excel* nebo *LibreOffice*), které pravděpodobně znáš.

Rozdíl spočívá v tom, že soubor **CSV** je ukládá v **textové podobě**.

**CSV soubor** je tedy mnohem univerzálnější, můžeš ho normálně otevřít v tabulkových procesorech (jako je například *MS Excel*), v textových editorech jako je *Notepad* nebo *Poznámkový blok* a navíc se s ním dobře pracuje v Pythonu.

<br>

Přesto, že v různých softwarových řešeních najdeš data úhledně graficky naformátovaná do:
1.  **řádků** *(na obrázku 1, 2, 3)*,
2.  **a sloupců** *(na obrázku A, B, C, D)*.

<a href="https://imgur.com/3zomtvk"><img src="https://i.imgur.com/3zomtvk.png" title="source: imgur.com" width="600" /></a>

.., reprezentované hodnoty **v jednoduchém editoru** vypadají jinak:
```
jmeno;prijmeni;email;projekt
Matous;Holinka;m.holinka@firma.cz;hr
Petr;Svetr;p.svetr@firma.cz;devops
```

Aby měl takový **CSV** konzistentní vzhled a formát, potřebuje zadaný **dialekt**.

<br>

### Dialekt CSV souborů

---
Dialektem rozuměj nějaký **formátovací pravidla**, podle kterých je tvůj **CSV** soubor zadaný.

**Dialekt** udává jakými znaky jsou:
1. oddělované **jednotlivé buňky** (na obrázku výše středník `;`),
2. oddělované **řádky** (na obrázku není vybraný žádný symbol).

Další možnosti **upřesnění dialektu** jako výběr *escape znaků*, použití uvozovek, aj. můžeš najít <a href="https://docs.python.org/3/library/csv.html#dialects-and-formatting-parameters" target="_blank">zde</a>.

<br>

Ať už konkrétně typ souboru **.csv** nebo jeho příbuzní **.xls** nebo **.xlsx** aj., pracuje tento typ souboru výborně pro ukládání jednotlivých záznámů řádek po řádku.

<br>

Protože se u **CSV souborů** nejedná o nativní formát Pythonu, jako takový jej nemůžeš v Pythonu napsat.

Opět platí, že pokud budeš chtít pracovat **s CSV soubory** v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**.

In [53]:
import csv  # nahrajeme knihovnu

In [None]:
# help(csv)   # nápověda knihovny

In [None]:
# dir(csv)    # objekty knihovny

#### Vyzkoušíme si následující

---

| jméno objektu | účel metody |
| :-| :- |
| `csv.reader(m)` | funkce vrátí iterovatelný objekt (co cyklus, to řádek) |
| `csv.writer(m)` | funkce zapíše objekt do souboru (+ `writerows`)|
| `csv.DictWriter(m)` | třída pro zápis slovníku do souboru |
| `csv.DictReader(m)` | třída pro čtení souboru do slovníku |

<br>


*pozn* `m` je objekt (proměnná)

<br>

Základní dva procesy, které budeme provádět jsou:
1. __čtení__ souboru `csv`
2. __zápis__ do souboru `csv`

<br>

### Vytvoříš soubor s příp. `.csv`

In [54]:
import csv

In [55]:
hlavicka = ["jmeno", "prijmeni", "vek"]
osoba_1 = ["Matous", "Holinka", "28"]
osoba_2 = ["Petr", "Svetr", "27"]

In [56]:
zapis_csv = open(
    "../data/zamestnanci.csv",
    mode="w",
    newline=""
)

In [57]:
print(zapis_csv)

<_io.TextIOWrapper name='../data/zamestnanci.csv' mode='w' encoding='UTF-8'>


In [None]:
# help(csv.writer)

In [59]:
zapisovac = csv.writer(zapis_csv, delimiter=",")

In [62]:
zapisovac.writerow(hlavicka)
zapisovac.writerow(osoba_1)
zapisovac.writerow(osoba_2)

15

In [None]:
#zapisovac.writerows((hlavicka, osoba_1, osoba_2))

In [63]:
zapis_csv.close()

### DictWriter

In [66]:
osoba_1 = {"jmeno": "Matous", "prijmeni": "Pokoj", "vek": "28"}
osoba_2 = {"jmeno": "Petr", "prijmeni": "Svetr", "vek": "27"}

In [64]:
nove_csv = open(
    "../data/zamestnanci_nove.csv",
    mode="w",
    newline=""
)

In [67]:
zapisovac = csv.DictWriter(
    nove_csv,
    fieldnames=osoba_1.keys()  # ['jmeno', 'prijmeni', 'vek']
)

In [68]:
zapisovac.writeheader()
zapisovac.writerow(osoba_1)
zapisovac.writerow(osoba_2)

15

In [None]:
# zapisovac.writerows(#iterable)

In [69]:
nove_csv.close()

### Přečti obsah souboru `.csv`

In [None]:
import csv

In [70]:
cteni_csv = open(
    "../data/zamestnanci.csv",
    mode='r',
    encoding="utf-8"
)

In [71]:
nacteny_obsah = csv.reader(cteni_csv)

In [72]:
print(nacteny_obsah)

<_csv.reader object at 0x7fc9c0c276d0>


In [73]:
tuple(nacteny_obsah)

(['jmeno', 'prijmeni', 'vek'],
 ['Matous', 'Holinka', '28'],
 ['Petr', 'Svetr', '27'])

In [None]:
for radek in nacteny_obsah:
    print(radek)

In [74]:
cteni_csv.close()

### DictReader

In [None]:
import csv

In [None]:
moje_csv = open(
    "../data/lesson07/zamestnanci.csv",
    mode="r",
    encoding="utf-8"
)

In [None]:
obsah = csv.DictReader(moje_csv)

In [None]:
print(tuple(obsah))

In [None]:
moje_csv.close()

<br>

### 🧠 CVIČENÍ 2 🧠, práce s tabulkovým souborem:
---

- Definuj funkci `precti_csv`, která splňuje:
    - parametr: `soubor` (string), `pocitadlo` (funkce),
    - vrací: dict,
    - popis: Tato funkce přečte obsah csv souboru. Dále zavolá další uživatelskou funkci, která vypočítá maximální denní obrat, pro každý den.

- definuj funkci `napocitej_denni_prodeje`, která splňuje:
    - parametr: `reader` (list),
    - vrací: dict,
    - popis: Tato funkce ze zadaného objektu `reader` přeskočí první záznam (záhlaví) a postupně načítá hodnoty prodeje po dni pro všechna poskytnutá data.

In [None]:
datum,produkt,cena,množství
2023-07-01,batoh,500,3
2023-07-01,taška,300,5
2023-07-02,batoh,500,7
2023-07-02,penál,150,10
2023-07-03,notýsek,50,20
2023-07-03,pero,30,50
2023-07-04,penál,150,8
2023-07-04,taška,300,4
2023-07-05,batoh,500,6
2023-07-05,notýsek,50,30

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    import csv

    def precti_csv(jmeno_souboru: str, pocitadlo: callable) -> csv.reader:
        with open(jmeno_souboru, 'r') as f:
            obrat = pocitadlo(csv.reader(f))
            return obrat
    
    
    def napocitej_denni_prodeje(reader: csv.reader):
        obrat_na_den = dict()
        
        for index, radek in enumerate(reader):
            if not index:
                continue
            datum, _, cena, mnozstvi = radek
            obrat_na_den[datum] = int(obrat_na_den.get(datum, 0)) + (int(cena) * int(mnozstvi))
    
        else:
            return obrat_na_den
    ```
</details>

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.knlvD9puLdhcleGXAbzgIwHaD4%26pid%3DApi&f=1" width="400" style="margin-left:auto; margin-right:auto">

## JSON soubory

---


Tento typ souboru možná ještě neznáš. Jedná se o příponu u souborů **.json**.

Celé jméno souboru může vypadat třeba jako `uzivatele.json`.

**JSON** si můžeš představit následovně:
```python
{
    "jmeno": "Chuck Norris",
    "neuspech": null,
    "kliky": "vsechny",
    "konkurence": false,
}
```

Na první pohled můžeš říct, že se hodně podobá **Pythonovskému slovníku**.

Nicméně má svoji vlastní charakteristickou **sadu pravidel** pro převod datových typů.

Níže jsou uvedená některá pravidla, která se týkají ukázky výše (všechna pravidla najdeš [zde](https://docs.python.org/3/library/json.html#encoders-and-decoders)):


| JSON | Python |
| :-: | :-: |
| string | str |
| true | True |
| false | False |
| null | None |

Účelem tohoto souboru je zejména **přenos dat** (*JavaScript Object Notation*).

Jde o záměrně zjednodušený formát, který **není standardním datovým typem pro Python**.

Poměrně často se s ním setkáš u **webových aplikací** různých *eshopů*, které ti vykresují nabídku na základě informací získaných z databází.

Protože **JSON** není standardním datovým typem, jako takový jej nemůžeš v Pythonu použít.

Pokud budeš chtít pracovat s JSON v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**.

V rámci <a href="https://docs.python.org/3/library/index.html" target="_blank">seznamu dokumentace Pythonu</a>  najdeš knihovnu `json`.

Právě tato knihovna ti umožní pomocí *interpretu* Pythonu *vytvořit* nebo *načíst* JSON.

In [75]:
import json  # nahrátí knihovny

In [None]:
# help(json)   # nápověda

In [None]:
# dir(json)    # seznam všech metod

In [None]:
# tuple(       # bez magických metod
#     object
#     for object in dir(json)
#     if not object.startswith("__")
# )

<br>

V rámci **základní manipulace** se zaměř hlavně na tyto funkce:

| Funkce | Účel |
| :- | :- |
| `json.dump(m, n)` | zapíše objekt do souboru JSON |
| `json.dumps(m)` | zapíše objekt do `str` |
| `json.load(m)` | načte JSON data ze souboru |
| `json.loads(m)` | načte JSON data ze `str` |

Detail tabulky:
- `m` představuje jméno objektu,
- `n` představuje jméno souboru.

### Vytvoření souboru objektu a souboru `.json`

Obecně se při práci se soubory typu `json` mluví o procesech *serialization* a *deserialization* (tedy čtení a zápis), ke kterým patří příslušné funkce uvedené výše v tabulce.

In [76]:
chuckuv_slovnik = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "doplneni": "Łukasz",
}

In [77]:
print(type(chuckuv_slovnik))

<class 'dict'>


In [78]:
vypis_json = json.dumps(chuckuv_slovnik)  # výstup pouze jako str

In [79]:
print(vypis_json)

{"jmeno": "Chuck Norris", "neuspech": null, "kliky": "vsechny", "konkurence": false, "doplneni": "\u0141ukasz"}


Jakmile se podíváš na výstup, všimni si následujícího:
1. `null`, klíč `neuspech` už neobsahuje `None`,
2. `false`, klíč `konkurence` už neobsahuje `False`,
3. `"\u0141ukasz"`, klíč `fanousek` se nějak zkomolil.

Důvodem pro výše **zdůrazněné změny** je právě změna *Python objektů* na *JSON objekty*.

<br>

V klíči `fanousek` dostaneš string `"\u0141ukasz"`, jak je to možné?

Defaultně totiž funkce `dump` všechny *non-ASCII* znaky (které nenajdeš v ASCII tabulce) převede na znaky doplněné **zpětným lomítkem** (tedy `Ł` na `\u0141`).

In [None]:
print(vypis_json)

In [None]:
print(type(vypis_json))

In [80]:
json_soubor = open(
    "../data/prvni_json.json",
    mode="w",
    encoding="utf-8"
)

In [81]:
json.dump(chuckuv_slovnik, json_soubor)

In [82]:
json_soubor.close()

### Načti existující soubor `.json` nebo string


In [83]:
existujici_json = open(
    "../data/prvni_json.json",
    mode="r",
    encoding="utf-8"
)

In [None]:
print(existujici_json)

In [84]:
obsah_json = json.load(existujici_json)

In [85]:
print(obsah_json)

{'jmeno': 'Chuck Norris', 'neuspech': None, 'kliky': 'vsechny', 'konkurence': False, 'doplneni': 'Łukasz'}


In [86]:
existujici_json.close()

In [87]:
print(type(obsah_json))

<class 'dict'>


In [90]:
# json.dumps?

In [91]:
string_json = json.dumps(obsah_json, indent=4, ensure_ascii=False)

In [92]:
print(type(string_json))

<class 'str'>


In [93]:
print(string_json)

{
    "jmeno": "Chuck Norris",
    "neuspech": null,
    "kliky": "vsechny",
    "konkurence": false,
    "doplneni": "Łukasz"
}


In [None]:
chuck_sl = {
    "jmeno": "Chuck Norris",
    "neuspech": "null",
    "kliky": "vsechny",
    "konkurence": "false",
    "doplneni": "\u0141ukasz"
}

##### Doplňující argumenty:
1. `indent=4` - odsadí zapsaný `json` o 4 mezery
2. `sort_keys` - seřadí klíče (`True`/`False`)
3. `ensure_ascii` - `False` zapíše původní znak, `True` zapíše reprezentaci znaku pomocí lomítek.

In [None]:
json_z_str = json.dumps(
    chuck_sl,
    ensure_ascii=False,
    indent=4,
    sort_keys=True
)

In [None]:
print(json_z_str)

### Zápis s kontextovým manažerem

Nejenom *textové soubory*, ale i JSON můžeš zapsat pomocí **kontextového manažeru** a klíčového slova `with`:

In [94]:
muj_soubor = open("../data/demo.txt", mode="r")  # open
print(muj_soubor.readlines())                    # processe
muj_soubor.close()                               # close

['prvni radek,\n', 'druhy radek,\n', 'treti radek.']


In [94]:
with open("../data/demo.txt", mode="r") as muj_soubor:  # open
    print(muj_soubor.readlines())                       # process + close
print()

['prvni radek,\n', 'druhy radek,\n', 'treti radek.']


In [None]:
# bez knihovny nemůžeš pracovat s JSON objekty
import json

In [None]:
chuckuv_slovnik = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "fanousek": "Łukasz"
}

In [None]:
with open("../onsite/lesson07/druhy_json.json", mode="w") as json_soubor:
    json.dump(
        chuckuv_slovnik,
        json_soubor,
        ensure_ascii=False,
        indent=4,
        sort_keys=True
    )

In [None]:
json_soubor.closed

<br>

#### 🧠 CVIČENÍ 3 🧠, práce s JSON souborem:
---

- Definuj funkci `nacti_JSON_soubor`, která splňuje:
    - parametr: `soubor` (string),
    - vrací: list,
    - popis: Tato funkce přečte obsah JSON souboru. Následně tento obsah vrací.

- definuj funkci `ziskej_minimum`, která splňuje:
    - parametr: `produkty` (list),
    - vrací: tuple,
    - popis: Tato funkce ze zadaného parametru najde produkt s nejmenší hodnotou množství. Vrací jak minimální hodnotu, tak produkt s minimální hodnotou.

In [None]:
[
    {"název": "Produkt1", "cena": 200, "množství": 10},
    {"název": "Produkt2", "cena": 300, "množství": 15},
    {"název": "Produkt3", "cena": 150, "množství": 20},
    {"název": "Produkt4", "cena": 250, "množství": 5},
    {"název": "Produkt5", "cena": 100, "množství": 30}
]

<details>
    <summary>▶️ Řešení</summary>
    
    ```
    import json


    def nacti_JSON_soubor(soubor: str) -> dict:
        with open(soubor, 'r') as f:
            return json.load(f)
    
    
    def ziskej_minimum(produkty: dict) -> tuple:
        minimum = 100
    
        for produkt in produkty:
            if produkt['množství'] < minimum:
                minimum = produkt['množství']
                min_detail = produkt

        return minimum, min_detail
    ```
</details>


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.GMJvJ-GG0YS8H5JmHR3CbwHaHm%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto" />


## Domácí úkol

---

Napiš *skript*, který:

1. Načte soubor typu `JSON`,
2. rozdělí obsah **podle klíčů**,
3. zapíšeš rozdělená data do sloupečků **v CSV souboru**.

Vstupní **JSON** soubor:
    

```
    {
        "id": 1,
        "first_name": "Dorri",
        "last_name": "Di Bernardo",
        "email": "ddibernardo0@nba.com",
        "gender": "Female",
        "ip_address": "158.223.131.8"
    },
    {
        "id": 2,
        "first_name": "Nisse",
        "last_name": "Noye",
        "email": "nnoye1@theatlantic.com",
        "gender": "Female",
        "ip_address": "252.57.218.72"
    },
    ...
```

Výstupní **CSV**:
```
["id", "first_name", "last_name", "email", "gender", "ip_address"],
["1", "Dorri", "Di Bernardo", "ddibernardo0@nba.com", "Female", "158.223.131.8"],
["2", "Nisse", "Noye", "nnoye1@theatlantic.com", "Female", "252.57.218.72"],
...
```

---