# Engeto, Python akademie 2021, lekce#11

<img src=https://media.giphy.com/media/Y0b2MpUTfnrUa3jIM7/giphy.gif width="400">

### Obsah lekce:
1. Balík JSON
2. Modul CSV

### Užitečné odkazy:
- [Pomocný nástroj **generátor náhodných slov** (mockaroo.com)](https://mockaroo.com/)
- [Oficiální dokumentace balíku **json** (python.org)](https://docs.python.org/3/library/json.html)
- [Oficiální dokumentace modulu **sys** (python.org)](https://docs.python.org/3/library/sys.html)
- [Oficiální dokumentace modulu **os**(python.org)](https://docs.python.org/3/library/os.html)

### Opakovací cvičení
Nejprve rychle zopakujeme minulé lekce. Proto mějme 4 textové soubory v adresáři `11_json_and_csv/samples`:
* sample_1.txt
* sample_2.txt
* sample_3.txt
* sample_4.txt

Chceme postupně jeden za druhým otevřít, získat jejich obsah a společně uložit do námi vybranné proměnné.

#### Zadaná jména souborů:

In [1]:
import os

In [2]:
JMENA_SOUBORU = [
    "sample_1.txt", "sample_2.txt",
    "sample_3.txt", "sample_3_3/4.txt",
    "sample_4.txt",    
]

#### Vytvoření absolutní/relativní cesty:

In [3]:
# relativni cesta
jmena_souboru = [
    os.path.join("samples", jmeno)
    for jmeno in JMENA_SOUBORU
]

In [4]:
print(jmena_souboru)

['samples/sample_1.txt', 'samples/sample_2.txt', 'samples/sample_3.txt', 'samples/sample_3_3/4.txt', 'samples/sample_4.txt']


In [None]:
# absolutni cesta
jmena_souboru = [
    os.path.join(os.path.abspath(jmeno))
    for jmeno in JMENA_SOUBORU
]

In [None]:
print(jmena_souboru)

In [None]:
jmena_souboruu = map(os.path.abspath, "samples", JMENA_SOUBORU)

#### Čtení jednoho souboru:

In [5]:
def precti_soubor(jmeno: str) -> str:
    try:
        soubor = open(jmeno, mode="r", encoding="utf-8")
    except FileNotFoundError as err:
        print(f"File {jmeno} not found!")
        print(err.args)
    else:
        obsah: str = soubor.read()
        soubor.close()
        return obsah       

#### Celý průběh

In [6]:
from typing import List


def uloz_data(soubory: List[str], prazdny_seznam: None = None) -> str:
    if not prazdny_seznam:
        prazdny_seznam = list()

    for jmeno in soubory:
        prazdny_seznam.append(precti_soubor(jmeno))
    return prazdny_seznam

In [7]:
data: List[str] = uloz_data(jmena_souboru)

File samples/sample_3_3/4.txt not found!
(2, 'No such file or directory')


In [8]:
print(data)

['Toto je prvni radek\n', 'Toto je druhy radek\nToto je treti radek\n', '', None, 'Toto je ctvrty radek\n']


### Soubor `.json`
Účelně zjednoduššený formát, určený pro přenos dat & objektů (JSON ~ JavaScript Object Notation), tedy standartní formát pro výměnu dat.<br />

Jeho účelem je zřejmý, používá se k přenosu dat mezi webovou aplikací a serverem. Je snadno čitelný, lehce formátovatelný, poměrně často používaný.<br />

Při prvním pohledu můžeme říct, že se podobá Pythonovskému slovníku. Nicméně má svoji vlastní charakteristickou sadu pravidel:

| JSON | Python |
| :-: | :-: |
| string | str |
| true | True |
| false | False |
| null | None |

*pozn.* jde o mapování jednotlivý datových typů na jiné ([zdroj](https://docs.python.org/3/library/json.html#encoders-and-decoders))

#### Ukázka souboru `json`

```python
{
    "jmeno": "Chuck Norris",
    "neuspech": null,
    "kliky": "vsechny",
    "konkurence": false,
}
```

#### Co všechno můžeme provést:

In [None]:
import json  # nahrajeme balik 'json'

In [None]:
help(json)

In [None]:
dir(json)

#### Vyzkoušíme si následující
| jméno metody | účel metody |
| :-| :- |
| json.load(m) | načte JSON data ze souboru (objektu) |
| json.loads(m) | načte JSON data ze stringu |
| json.dump(m, n) | zapíše JSON objekt do souboru (objektu) |
| json.dumps(m) | zapíše JSON objekt do stringu |

*pozn* `m` je objekt (proměnná), `n` je jméno souboru

#### Vytvoříme nový soubor `.json`
Obecně se při práci se soubory typu `json` mluví o *serialization* a *deserialization* (tedy čtení a zápis), ke kterým patří příslušné funkce uvedené výše v tabulce.

In [None]:
chuck_sl = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
}

In [None]:
import json

In [None]:
vypis_json = json.dumps(chuck_sl)

In [None]:
print(vypis_json)

In [None]:
zapis_json = open("prvni_json.json", mode="w", encoding="utf-8")
json.dump(chuck_sl, zapis_json, ensure_ascii=False)
zapis_json.close()

#### Načteme existující soubor `.json`

In [None]:
existujici_json = open("prvni_json.json", "r", encoding="utf-8")

In [None]:
print(existujici_json)

In [None]:
obsah_json = json.load(existujici_json)
print(obsah_json)

#### Doplňující argumenty
1. __indent=4__ - odsadí zapsaný `json` o 4 mezery
2. __sort\_keys__ - seřadí klíče (`True`/`False`)

### První část naší úlohy
Získali jsme soubor **json**. Naším prvním úkolem bude tento soubor otevřít a načíst pomocí Pythonu. Nejprve si společně soubor (`ORIG.json`) najdeme a podíváme se, co je jeho obsahem:

In [None]:
import json

In [None]:
with open("ORIG.json", "r", encoding="utf-8") as json_i:
    zamestnanci = json.load(json_i)

In [None]:
print(zamestnanci)

#### Opravdu tento soubor existuje?

In [None]:
import os
import json

In [None]:
rel_cesta = "ORIG.json"

In [None]:
if os.path.isfile(rel_cesta):
    print(f"Soubor \"{rel_cesta}\" nalezen")
    with open("ORIG.json", "r", encoding="utf-8") as json_i:
        zamestnanci = json.load(json_i)
    
else:
    print(f"Soubor \"{rel_cesta}\" neexistuje")

In [None]:
from pprint import pprint
pprint(zamestnanci[1]["email"])

### Druhá část úlohy
Jakmile máme zaměstnance načtené uvnitř proměnné `zamestnanci`, chceme označit jen 3 konkrétní klíče:

1. **jmeno** (`first_name`)
2. **prijmeni** (`last_name`)
3. **email** (`email`)

In [None]:
for zamestnanec in zamestnanci:
    print(zamestnanec["first_name"],
          zamestnanec["last_name"],
          zamestnanec["email"], sep=";")

In [None]:
pars_zamestnanci = {f"{','.join((zamestnanec['first_name'], zamestnanec['last_name']))}": zamestnanec["email"] for zamestnanec in zamestnanci}

In [None]:
print(pars_zamestnanci)

### Modul csv
Je formát založený na hodnotách obecně oddělených určeným oddělovačem (~ comma-separated values). Dále je psaný v určitém
dialektu (ten se může lišit v závislosti na os, zemi, aj.).<br />

Základní stavební jednotkou jsou v podstatě buňky (podobné jako MS Excel), které jsou naskládané do řádků a sloupců.

#### Možnosti modulu csv

In [None]:
import csv

In [None]:
help(csv)

In [None]:
dir(csv)

#### Vyzkoušíme si následující
| jméno objektu | účel metody |
| :-| :- |
| csv.reader(m) | funkce vrátí iterovatelný objekt (co cyklus, to řádek) |
| csv.writer(m) | funkce zapíše objekt do souboru (+ `writerows`)|
| csv.DictWriter(m) | třída pro zápis slovníku do souboru |
| csv.DictReader(m) | třída pro čtení souboru do slovníku |

*pozn* `m` je objekt (proměnná)

Základní dva procesy, které budeme provádět jsou:
1. __čtení__ souboru `csv`
2. __zápis__ do souboru `csv`

#### Vytvoříme soubor s příp. `.csv`

In [None]:
import csv

In [None]:
ZAHLAVI = ["jmeno", "prijmeni", "vek"]
OS_1 = ["Matous", "Holinka", "28"]
OS_2 = ["Petr", "Svetr", "27"]

In [None]:
zapis_csv = open("prvni_tabulky.csv", "w", encoding="utf-8")
print(zapis_csv)

In [None]:
zapis = csv.writer(zapis_csv, delimiter=",")

In [None]:
zapis.writerow(ZAHLAVI)
zapis.writerow(OS_1)
zapis.writerow(OS_2)

In [None]:
zapis_csv.close()

#### Přečteme obsah souboru `.csv`

In [None]:
cteni_csv = open("prvni_tabulky.csv", "r", encoding="utf-8")

In [None]:
cteni = csv.reader(cteni_csv, dialect="excel")

In [None]:
for radek in cteni:
    print(radek)

In [None]:
cteni_csv.close()

### Třetí část naší úlohy
Nyní, když máme nachystané všechny údaje, uložíme je do souboru `csv`. Chceme, aby byl na každém řádku nejprve jméno, příjmení a ve druhém sloupci e-mailová adresa.

In [None]:
with open("ORIG.csv", "w", encoding="utf-8") as csv_out:
    jmena_sl = ["jmeno", "email"]
    zapis = csv.DictWriter(csv_out, fieldnames=jmena_sl)
    zapis.writeheader()
    
    for klic, hodnota in pars_zamestnanci.items():
        zapis.writerow({"jmeno": klic, "email": hodnota})

In [None]:
with open("ORIG.csv", "r", encoding="utf-8") as csv_in:
    cteni = csv.DictReader(csv_in, delimiter=",")
    
    for radek in cteni:
        print(radek)

### Spouštění souboru s argumenty
Pomocí knihovny `sys` a argumentů můžeme náš soubor napsat ještě flexibilnější (*pozn.* spouštím v přík. řádku):

In [None]:
import sys

In [None]:
print(sys.argv)

Nyní doplníme pomocí argumentů jméno vstupního souboru a výstupního souboru. Spouštění souboru s dnešní úlohou by potom mohlo vypadat následně:
```bash
$ python3 <jmeno_souboru> <jmeno_json-u> <jmeno_csv-cka>
```

In [None]:
import os
import sys
import json

In [None]:
if not sys.argv[1] and not sys.argv[2]:
    sys.exit("ukoncuji..")
else:
    jmeno_vstup = sys.argv[1]  # jmeno vstup
    jmeno_vystup = sys.argv[2]  # jmeno vystup

In [None]:
if os.path.isfile(jmeno_vstup):
    print(f"Soubor \"{jmeno_vstup}\" nalezen!")
    with open(jmeno_vstup, "r", encoding="utf-8") as json_i:
        zamestnanci = json.load(json_i)
    
else:
    print(f"Soubor \"{jmeno_vstup}\" neexistuje!")

In [None]:
pars_zamestnanci = {f"{','.join((zamestnanec['first_name'], zamestnanec['last_name']))}": zamestnanec["email"] for zamestnanec in zamestnanci}

In [None]:
with open(jmeno_vystup, "w", encoding="utf-8") as csv_out:
    jmena_sl = ["jmeno", "email"]
    zapis = csv.DictWriter(csv_out, fieldnames=jmena_sl)
    zapis.writeheader()
    
    for klic, hodnota in pars_zamestnanci.items():
        zapis.writerow({"jmeno": klic, "email": hodnota})