# Engeto, Python akademie 2021, lekce#11

---

<img src=https://media.giphy.com/media/Y0b2MpUTfnrUa3jIM7/giphy.gif width="400">

---

### Obsah lekce:
1. [Užitečné odkazy](#Užitečné-odkazy)
2. [Opakovací cvičení](#Opakovací-cvičení)
3. [Knihovna json](#Knihovna-json)
4. [Modul csv](#Modul-csv)
5. [Spouštění souboru s argumenty](#Spouštění-souboru-s-argumenty)

---

### Užitečné odkazy:
- [Pomocný nástroj **generátor náhodných slov** (mockaroo.com)](https://mockaroo.com/)
- [Oficiální dokumentace balíku **json** (python.org)](https://docs.python.org/3/library/json.html)
- [Oficiální dokumentace modulu **sys** (python.org)](https://docs.python.org/3/library/sys.html)
- [Oficiální dokumentace modulu **os**(python.org)](https://docs.python.org/3/library/os.html)

---

### Opakovací cvičení
Nejprve rychle zopakujeme minulé lekce. Proto mějme 4 textové soubory v adresáři `11_json_and_csv/samples`:
* sample_1.txt
* sample_2.txt
* sample_3.txt
* sample_4.txt

Chceme postupně jeden za druhým otevřít, získat jejich obsah a společně uložit do námi vybranné proměnné.

#### Zadaná jména souborů:

In [None]:
import os

In [None]:
JMENA_SOUBORU = [
    "sample_1.txt", "sample_2.txt",
    "sample_3.txt", "sample_3_3/4.txt",
    "sample_4.txt",    
]

#### Vytvoření absolutní/relativní cesty:

In [None]:
# relativni cesta
jmena_souboru = [
    os.path.join("samples", jmeno)
    for jmeno in JMENA_SOUBORU
]

In [None]:
print(jmena_souboru)

In [None]:
# absolutni cesta
jmena_souboru = [
    os.path.join(os.path.abspath(jmeno))
    for jmeno in JMENA_SOUBORU
]

In [None]:
print(jmena_souboru)

In [None]:
jmena_souboru = map(os.path.abspath, "samples", JMENA_SOUBORU)

#### Čtení jednoho souboru:

In [None]:
def precti_soubor(jmeno: str) -> str:
    try:
        soubor = open(jmeno, mode="r", encoding="utf-8")
    except FileNotFoundError as err:
        print(f"File {jmeno} not found!")
        print(err.args)
    else:
        obsah: str = soubor.read()
        soubor.close()
        return obsah       

#### Celý průběh:

In [None]:
from typing import List


def uloz_data(soubory: List[str], prazdny_seznam: None = None) -> str:
    if not prazdny_seznam:
        prazdny_seznam = list()

    for jmeno in soubory:
        prazdny_seznam.append(precti_soubor(jmeno))
    return prazdny_seznam

In [None]:
data: List[str] = uloz_data(jmena_souboru)

In [None]:
print(data)

---
<br>

### Knihovna `json`

#### Obecně `.json`
Účelně zjednoduššený formát, určený pro přenos dat & objektů (JSON ~ JavaScript Object Notation), tedy standartní formát pro výměnu dat.<br />

Jeho účelem je zřejmý, používá se k přenosu dat mezi webovou aplikací a serverem. Je snadno čitelný, lehce formátovatelný, poměrně často používaný.<br />

Při prvním pohledu můžeme říct, že se podobá Pythonovskému slovníku. Nicméně má svoji vlastní charakteristickou sadu pravidel:

| JSON | Python |
| :-: | :-: |
| string | str |
| true | True |
| false | False |
| null | None |

*pozn.* jde o mapování jednotlivý datových typů na jiné ([zdroj](https://docs.python.org/3/library/json.html#encoders-and-decoders))

#### Ukázka souboru `json`:

```python
{
    "jmeno": "Chuck Norris",
    "neuspech": null,
    "kliky": "vsechny",
    "konkurence": false,
}
```

#### Balíček `json`:

In [None]:
import json  # nahrajeme balik 'json'

In [None]:
help(json)

In [None]:
dir(json)

#### Vyzkoušíme si následující:
| jméno metody | účel metody |
| :-| :- |
| json.load(m) | načte JSON data ze souboru (objektu) |
| json.loads(m) | načte JSON data ze stringu |
| json.dump(m, n) | zapíše JSON objekt do souboru (objektu) |
| json.dumps(m) | zapíše JSON objekt do stringu |

*pozn* `m` je objekt (proměnná), `n` je jméno souboru

#### Vytvoření souboru `.json`:
Obecně se při práci se soubory typu `json` mluví o procesech *serialization* a *deserialization* (tedy čtení a zápis), ke kterým patří příslušné funkce uvedené výše v tabulce.

In [None]:
chuck_sl = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "doplneni": "Łukasz",
}

In [None]:
import json

In [None]:
vypis_json = json.dumps(chuck_sl)

In [None]:
print(vypis_json)
print(type(vypis_json))

In [None]:
zapis_json = open("prvni_json.json", mode="w", encoding="utf-8")
json.dump(chuck_sl, zapis_json, ensure_ascii=False, indent=4)
zapis_json.close()

#### Načteme existující soubor `.json`:

In [None]:
existujici_json = open("prvni_json.json", "r", encoding="utf-8")

In [None]:
print(existujici_json)

In [None]:
obsah_json = json.load(existujici_json)
print(obsah_json)

#### Doplňující argumenty:
1. __indent=4__ - odsadí zapsaný `json` o 4 mezery
2. __sort\_keys__ - seřadí klíče (`True`/`False`)
3. __ensure_ascii__ - zapíše originální znak (`True`/`False`)
---
<br>

### První část naší úlohy
Získali jsme soubor **json**. Naším prvním úkolem bude tento soubor otevřít a načíst pomocí Pythonu. Nejprve si společně soubor (`samples/ORIG.json`) najdeme a podíváme se, co je jeho obsahem:

In [1]:
import os
import json

In [2]:
jmena_souboru = [
    jmeno 
    for jmeno in os.listdir("samples") 
    if os.path.splitext(jmeno)[1] == ".json" and "_" in jmeno
]

In [3]:
jmena_souboru

['ORIG_2.json', 'ORIG_1.json', 'ORIG_4.json', 'ORIG_3.json']

In [4]:
def precti_json(jmeno: str) -> str:
    try:
        soub_json = open(
            os.path.join("samples", jmeno), "r", encoding="utf-8"
        )
    except FileNotFoundError as err:
        print(err.__name__)
    else:
        zamestnanci = json.load(soub_json)
        return zamestnanci

In [6]:
zamestnanci = precti_json(jmena_souboru[0])

In [7]:
zamestnanci

[{'id': 251,
  'first_name': 'Eyde',
  'last_name': 'Pragnall',
  'email': 'epragnall6y@elpais.com',
  'gender': 'Female',
  'ip_address': '161.96.16.83'},
 {'id': 252,
  'first_name': 'Drud',
  'last_name': 'Ferroni',
  'email': 'dferroni6z@indiatimes.com',
  'gender': 'Male',
  'ip_address': '121.137.196.156'},
 {'id': 253,
  'first_name': 'Rupert',
  'last_name': 'Aleksandrov',
  'email': 'raleksandrov70@free.fr',
  'gender': 'Male',
  'ip_address': '152.22.254.53'},
 {'id': 254,
  'first_name': 'Gian',
  'last_name': 'Meade',
  'email': 'gmeade71@yolasite.com',
  'gender': 'Male',
  'ip_address': '237.54.44.244'},
 {'id': 255,
  'first_name': 'Benjy',
  'last_name': 'Scanterbury',
  'email': 'bscanterbury72@redcross.org',
  'gender': 'Male',
  'ip_address': '1.237.12.185'},
 {'id': 256,
  'first_name': 'Giacobo',
  'last_name': 'Gristhwaite',
  'email': 'ggristhwaite73@domainmarket.com',
  'gender': 'Male',
  'ip_address': '115.127.15.245'},
 {'id': 257,
  'first_name': 'Kristoforo

#### Opravdu tento soubor existuje?

In [None]:
import os
import json

In [None]:
rel_cesta = "ORIG.json"

In [None]:
if os.path.isfile(rel_cesta):
    print(f"Soubor \"{rel_cesta}\" nalezen")
    with open("ORIG.json", "r", encoding="utf-8") as json_i:
        zamestnanci = json.load(json_i)
    
else:
    print(f"Soubor \"{rel_cesta}\" neexistuje")

In [None]:
from pprint import pprint
pprint(zamestnanci[1]["email"])

---
<br>

### Druhá část úlohy
Jakmile máme zaměstnance načtené uvnitř proměnné `zamestnanci`, chceme označit jen 3 konkrétní klíče:

1. **jmeno** (`first_name`)
2. **prijmeni** (`last_name`)
3. **email** (`email`)

In [9]:
upr_zamestnanci = list()

for zamestnanec in zamestnanci:
    upr_zamestnanci.append({
        "jmeno": zamestnanec['first_name'],
        "prijmeni": zamestnanec['last_name'],
        "email": zamestnanec['email']
    })

In [10]:
print(upr_zamestnanci)

[{'jmeno': 'Eyde', 'prijmeni': 'Pragnall', 'email': 'epragnall6y@elpais.com'}, {'jmeno': 'Drud', 'prijmeni': 'Ferroni', 'email': 'dferroni6z@indiatimes.com'}, {'jmeno': 'Rupert', 'prijmeni': 'Aleksandrov', 'email': 'raleksandrov70@free.fr'}, {'jmeno': 'Gian', 'prijmeni': 'Meade', 'email': 'gmeade71@yolasite.com'}, {'jmeno': 'Benjy', 'prijmeni': 'Scanterbury', 'email': 'bscanterbury72@redcross.org'}, {'jmeno': 'Giacobo', 'prijmeni': 'Gristhwaite', 'email': 'ggristhwaite73@domainmarket.com'}, {'jmeno': 'Kristoforo', 'prijmeni': 'Reddie', 'email': 'kreddie74@weebly.com'}, {'jmeno': 'Louisette', 'prijmeni': 'Provis', 'email': 'lprovis75@wordpress.org'}, {'jmeno': 'Eb', 'prijmeni': 'Tewes', 'email': 'etewes76@yolasite.com'}, {'jmeno': 'Xenos', 'prijmeni': 'Tremoille', 'email': 'xtremoille77@wiley.com'}, {'jmeno': 'Ramsay', 'prijmeni': 'Benzies', 'email': 'rbenzies78@zdnet.com'}, {'jmeno': 'Ange', 'prijmeni': 'Parades', 'email': 'aparades79@hostgator.com'}, {'jmeno': 'Daryl', 'prijmeni': 'Pa

---
<br>

### Modul `csv`

#### Obecně `csv`:
Je formát založený na hodnotách obecně oddělených určeným oddělovačem (~ comma-separated values). Dále je psaný v určitém
dialektu (ten se může lišit v závislosti na os, zemi, aj.).<br />

Základní stavební jednotkou jsou v podstatě buňky (podobné jako MS Excel), které jsou naskládané do řádků a sloupců.

#### Možnosti modulu `csv`:

In [None]:
import csv

In [None]:
help(csv)

In [None]:
dir(csv)

#### Vyzkoušíme si následující:
| jméno objektu | účel metody |
| :-| :- |
| csv.reader(m) | funkce vrátí iterovatelný objekt (co cyklus, to řádek) |
| csv.writer(m) | funkce zapíše objekt do souboru (+ `writerows`)|
| csv.DictWriter(m) | třída pro zápis slovníku do souboru |
| csv.DictReader(m) | třída pro čtení souboru do slovníku |

*pozn* `m` je objekt (proměnná)

Základní dva procesy, které budeme provádět jsou:
1. __čtení__ souboru `csv`
2. __zápis__ do souboru `csv`

#### Vytvoříme soubor s příp. `.csv`:

In [None]:
import csv

In [None]:
ZAHLAVI = ["jmeno", "prijmeni", "vek"]
OS_1 = ["Matous", "Holinka", "28"]
OS_2 = ["Petr", "Svetr", "27"]

In [None]:
zapis_csv = open("prvni_tabulky.csv", "w", encoding="utf-8")
print(zapis_csv)

In [None]:
help(csv)

In [None]:
zapis = csv.writer(zapis_csv, delimiter=",")

In [None]:
zapis.writerow(ZAHLAVI)
zapis.writerow(OS_1)
zapis.writerow(OS_2)

In [None]:
zapis_csv.close()

#### Přečteme obsah souboru `.csv`:

In [None]:
cteni_csv = open("prvni_tabulky.csv", "r", encoding="utf-8")

In [None]:
cteni = csv.reader(cteni_csv, dialect="excel")

In [None]:
for radek in cteni:
    print(radek)

In [None]:
cteni_csv.close()

---
<br>

### Třetí část naší úlohy
Nyní, když máme nachystané všechny údaje, uložíme je do souboru `csv`. Chceme, aby byl na každém řádku nejprve jméno, příjmení a ve druhém sloupci e-mailová adresa.

In [13]:
import csv
from typing import List

#### Zapíšeme naše údaje do souboru:

In [16]:
def zapis_csv(data: List[dict], soubor: str):
    try:
        with open(soubor, "a", encoding="utf-8") as csv_out:
            jmena_sloupcu = data[0].keys()
            zapis = csv.DictWriter(csv_out, fieldnames=jmena_sloupcu)
            zapis.writeheader()
            zapis.writerows(data)

    except KeyError as k_err:
        print(k_err.__name__)

In [18]:
zapis_csv(upr_zamestnanci, "csv_vystup.csv")

#### Kontrola nového souboru csv:

In [None]:
with open("ORIG.csv", "r", encoding="utf-8") as csv_in:
    cteni = csv.DictReader(csv_in, delimiter=",")
    
    for radek in cteni:
        print(radek)

---
<br>

### Spouštění souboru s argumenty
Pomocí knihovny `sys` a argumentů můžeme náš soubor napsat ještě flexibilnější (*pozn.* spouštím v přík. řádku):

In [None]:
import sys

In [None]:
print(sys.argv)

<center>
    
#### _Ukázka v interpretu_
    
</center>

Nyní doplníme pomocí argumentů jméno vstupního souboru a výstupního souboru. Spouštění souboru s dnešní úlohou by potom mohlo vypadat následně:
```bash
$ python3 <jmeno_souboru> <jmeno_json-u> <jmeno_csv-cka>
```

In [None]:
import os
import sys
import json

In [None]:
if not sys.argv[1] and not sys.argv[2]:
    sys.exit("ukoncuji..")
else:
    jmeno_vstup = sys.argv[1]  # jmeno vstup
    jmeno_vystup = sys.argv[2]  # jmeno vystup