### Úvod

---

1. [Úvod do IO](#Úvod-do-IO),
2. [Textové soubory](#Textové-soubory),
3. [Tabulkové soubory](#Tabulkové-soubory),
4. [JSON soubory](),
5. [Domácí úkol](#Domácí-úkol).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.BPYuvKj05Xo_oF_oXiL1yAHaHa%26pid%3DApi&f=1" width="250">


## Úvod do IO

---

Nyní pracuješ pouze s objekty **Pythonu vlastními** nebo **s jeho knihovnami**.

Všechny tyto *objekty* jsi vytvoříš a zpracováváš **v rámci paměti RAM** (*random access memory*).

*Paměť RAM* je **velmi rychlá**, ale současně náročná a vyžaduje **neustálý zdroj** (není elektřina, ztratíš data).

Takový **disk počítače** je o dost **pomalejší** než paměť *RAM*, ale umožňuje ti uchovávat tebou získaná, zpracovaná data.

Proto je dobré osvojit si pravidla a postupy v Pythonu, jak vytvořit **persistentní data**.

<br>

### File Input/Output (~vstupní soubor, výstupní soubor)

Klasickou cestou, jak vytvořit obyčejný soubor, (což je v podstatě jen *sekvence bajtů*), je poskládat údaje za nějakým **jménem souboru**.

Než ale začneš se souborem pracovat, potřebuješ si v Pythonu vytvořit *pomocný objekt*, který jej bude **zastupovat** (nebo se na něj odkazovat):

```python
muj_soubor = open(jmeno_souboru, pravidla)  # pomocný objekt

# ... libovolná ohlášení

muj_soubor.close()
```

1. `muj_soubor`, je odkaz spojující **soubor** a **Pythonovský objekt**,
2. `open()`, *zabudovaná funkce*, která **vytváří spojení** (*stream*) mezi objektem a souborem,
3. `jmeno_souboru`, jméno souboru (*relativní* cesta/*absolutní* cesta),
4. `pravidla`, výběr argumentů upřesňujících, **jak soubor otevřít**,
5. `muj_soubor.close`, způsob, kterým **ukončíš spojení** mezi objektem a souborem.

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.JhMJc09m94e9V3oKtb_n3AHaHa%26pid%3DApi&f=1" width="200">

## Textové soubory

---

Nejlepším souborem na začátek bude prostý **textový soubor**.

Textovým souborem rozuměj jakýkoliv soubor, který má příponu `.txt`.

##### Demo: Ukázka textového souboru

### Úvod k souborům

Základními procesy pro práci se soubory obecně jsou:
1. Čtení souborů,
2. Zápis do souborů.

### Čtení souborů

Otevřít a přečíst *textový soubor* pomocí *editorů* jistě ovládáš.

Teď se podívej, jak můžeš naučit otevírání a čtení souborů také **interpreta Pythonu**:

In [None]:
muj_txt_soubor = open(muj_textovy_soubor.txt)

Dávej pozor, jakým způsobem **jméno souboru** používáš. Python potřebuje pracovat s takovým datovým typem, který dobře zná.

In [None]:
muj_txt_soubor = open("muj_textovy_soubor.txt")

Další kolizí může být **umístění** souboru.

*Interpret* pracuje v aktuálním umístění. Takže buď soubor přesuneš, nebo na něj odkážeš pomocí:
1. **Relativní cesty** (tedy vzhledem k aktuálnímu umístění),
2. **absolutní cesty** (celá cesta od *roota* nebo *jména disku*).

##### Relativní cesta:
```
muj_textovy_soubor.txt"                # v aktuální složce
../muj_textovy_soubor.txt"             # v rodičovské složce
shared/onsite/muj_textovy_soubor.txt"  # v dceřinné složce 'shared', v dceřinné složce 'onsite'
```

##### Absolutní cesta, Windows:
```
"C:/users/admin/docs/muj_textovy_soubor.txt"
```

##### Absolutní cesta, unix:
```
"/home/user/project/shared/onsite/muj_textovy_soubor.txt"
```

In [3]:
muj_txt_soubor = open("../onsite/lesson07/muj_textovy_soubor.txt")

In [None]:
print(muj_txt_soubor)

In [None]:
print(type(muj_txt_soubor))

Metody **pro čtění obsahu** *TextIOWrapper* objektu:

1. `read` - přečte celý soubor jako jeden string
2. `readline` - přečte pouze první řádek jako string
3. `readlines` - přečte celý soubor jako list (co řádek, to údaj)

In [None]:
obsah_txt = muj_txt_soubor.read()

Jakmile tvoje práce s textovými souborem skončí, nezapomeň soubor zavřít.

In [4]:
muj_txt_soubor.close()

### Zápis do souborů

Pokud všem žádný textový soubor nemáš, nebo jej chceš naopak **vytvořit**, musíš jej prvně **zapsat**:

In [None]:
muj_txt = "Toto je můj nový soubor^.^"

*String* `muj_txt` máš aktuálně k dispozici pouze jako nějaký objekt Pythonu.

Opět je potřeba nejprve spojit **objekt v Pythonu** se skutečným souborem na disku.

In [None]:
muj_soubor = open("muj_novy_soubor.txt")  # jméno souboru jako "str"

In [None]:
muj_soubor = open("muj_novy_soubor.txt")  # vybrat vhodný režim

In [None]:
help(open)

Soubor si následně můžeš otevřít, ale zjistíš, že je **v tento moment prázdný**.

Funkce `open` pouze vytvoří (*~iniciuje*) nový objekt `muj_novy_soubor`.

Příslušný text teprve musíme zapsat, pomocí vhodné *funkce* `write`:

In [None]:
muj_soubor = open("muj_novy_soubor.txt", mode="w")  # vybrat vhodný režim

In [None]:
help(muj_soubor.write)

In [None]:
muj_soubor.write(obsah_souboru)

Pokud si budeš chtít nyní prohlédnout **zapsaný soubor na disku**, zjistíš, že je stále prázdný.

Protože *stále není ukončený*, nedovedeš s ním nijak manipulovat.

Pokud zjistíš, že není ukončený, ukončíš jej pomocí metody `close`.

In [None]:
muj_soubor.close()

Teprve po ukončení *streamu* (nebo také zápisu) objektu, můžeš soubor `muj_novy_soubor.txt` prozkoumat.

### Opakovaný zápis do souboru

Máš situaci, kdy tebou vytvořený soubor existuje a ty jej chceš znovu otevřít a rozšířit:

In [None]:
dalsi_text = "Rád čtu a hraji na klavír"

Opět potřebuješ inicializovat **pomocný objekt**, jako v předchozích scénářích:

In [None]:
muj_soubor = open("muj_novy_soubor.txt", mode="w")
muj_soubor.write(dalsi_text)
muj_soubor.close()

Když zkontroluješ, jak vypadá **nově přidaný text**, bude vypadat zmateně.

<br>

Pokud opětovně načteš **stejný soubor** v režimu `w`, přesuneš "zapisovač" (*představ si jej jako blikající kurzor v editoru*) opět **na začátek souboru**.

*Interpret* zapisuje od místa, kde se zapisovač nachází, takže dojde **k přepsání původního obsahu**.

<br>

Pokud chceš automaticky zapisovat **od konce souboru**, otevři soubor s argumentem `mode="a"`, tedy v režimu `append`.

In [None]:
# Vytvořím nový TXT soubor
muj_text_ = "Ahoj, ja jsem Matous (:\n"
muj_soubor = open("muj_druhy_soubor.txt", mode="w")
muj_soubor.write(muj_text_)
muj_soubor.close()

In [None]:
Zkontroluj nyní obsah textového souboru:

In [None]:
# Znovu jej otevřu a doplním další řádek
muj_druhy_str = "Rad ctu, hraji na klavir\n"
muj_soubor = open("muj_novy_soubor.txt", mode="a")  # append
muj_soubor.write(muj_druhy_str)
muj_soubor.close()

Pokud budeš někdy pracovat se stejným souborem tak, že jej budeš současně:
1. **číst** soubor,
2. **zapisovat** do něj.
    
Vyzkoušej režim `r+`.

to-do

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.LKBKt07b_VB9u7U7EaEBgQHaHa%26pid%3DApi&f=1" width="200">

## Tabulkové soubory

---


**CSV soubor** (*Comma Separated Values*) ukládá *tabulková data*, podobně jako například soubory **.xlsx** (*MS Excel* nebo *LibreOffice*), které pravděpodobně znáš.

Rozdíl spočívá v tom, že soubor **CSV** je ukládá v **textové podobě**.

**CSV soubor** je tedy mnohem univerzálnější, můžeš ho normálně otevřít v tabulkových procesorech (jako je například *MS Excel*), v textových editorech jako je *Notepad* nebo *Poznámkový blok* a navíc se s ním dobře pracuje v Pythonu.


Přesto, že v různých softwarových řešeních najdeš data úhledně graficky naformátovaná do:
1.  **řádků** *(na obrázku 1, 2, 3)*,
2.  **a sloupců** *(na obrázku A, B, C, D)*.

<a href="https://imgur.com/3zomtvk"><img src="https://i.imgur.com/3zomtvk.png" title="source: imgur.com" width="600" /></a>

.., reprezentované hodnoty **v jednoduchém editoru** vypadají jinak:
```
jmeno;prijmeni;email;projekt
Matous;Holinka;m.holinka@firma.cz;hr
Petr;Svetr;p.svetr@firma.cz;devops
```

Aby měl takový **CSV** konzistentní vzhled a formát, potřebuje zadaný **dialekt**.

### Dialekt CSV souborů
Dialektem rozuměj nějaký **formátovací pravidla**, podle kterých je tvůj **CSV** soubor zadaný.

**Dialekt** udává jakými znaky jsou:
1. oddělované **jednotlivé buňky** (na obrázku výše středník `;`),
2. oddělované **řádky** (na obrázku není vybraný žádný symbol).

Další možnosti **upřesnění dialektu** jako výběr *escape znaků*, použití uvozovek, aj. můžeš najít <a href="https://docs.python.org/3/library/csv.html#dialects-and-formatting-parameters" target="_blank">zde</a>.

Ať už konkrétně typ souboru **.csv** nebo jeho příbuzní **.xls** nebo **.xlsx** aj., pracuje tento typ souboru výborně pro ukládání jednotlivých záznámů řádek po řádku.

Protože se u **CSV souborů** nejedná o nativní formát Pythonu, jako takový jej nemůžeš v Pythonu napsat.

Opět platí, že pokud budeš chtít pracovat **s CSV soubory** v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**.

In [None]:
import csv  # nahrajeme knihovnu

In [None]:
help(csv)   # nápověda knihovny

In [None]:
dir(csv)    # objekty knihovny

#### Vyzkoušíme si následující

---

| jméno objektu | účel metody |
| :-| :- |
| `csv.reader(m)` | funkce vrátí iterovatelný objekt (co cyklus, to řádek) |
| `csv.writer(m)` | funkce zapíše objekt do souboru (+ `writerows`)|
| `csv.DictWriter(m)` | třída pro zápis slovníku do souboru |
| `csv.DictReader(m)` | třída pro čtení souboru do slovníku |

<br>


*pozn* `m` je objekt (proměnná)

<br>

Základní dva procesy, které budeme provádět jsou:
1. __čtení__ souboru `csv`
2. __zápis__ do souboru `csv`

<br>

#### Vytvoříš soubor s příp. `.csv`

In [None]:
hlavicka = ["jmeno", "prijmeni", "vek"]
osoba_1 = ["Matous", "Holinka", "28"]
osoba_2 = ["Petr", "Svetr", "27"]

In [None]:
zapis_csv = open(
    "prvni_tabulky.csv",
    mode="w",
    newline=""
)

In [None]:
print(zapis_csv)

In [None]:
zapis = csv.writer(zapis_csv, delimiter=";")

In [None]:
zapis.writerow(hlavicka)
zapis.writerow(osoba_1)
zapis.writerow(osoba_2)

In [None]:
zapis_csv.close()

In [None]:
import csv

osoba_1 = {"jmeno": "Matous", "prijmeni": "Pokoj", "vek": "28"}
osoba_2 = {"jmeno": "Petr", "prijmeni": "Svetr", "vek": "27"}

nove_csv = open("druhy_tabulkovy_soubor.csv", mode="w")

zahlavi = osoba_1.keys()

zapisovac = csv.DictWriter(nove_csv, fieldnames=zahlavi)

zapisovac.writeheader()
zapisovac.writerow(osoba_1)
zapisovac.writerow(osoba_2)

nove_csv.close()

<br>

#### Přečti obsah souboru `.csv`

---

In [None]:
cteni_csv = open(
    "prvni_tabulky.csv",
    encoding="utf-8"
)

In [None]:
cteni = csv.reader(cteni_csv)

In [None]:
tuple(cteni)

In [None]:
for radek in cteni:
    print(radek)

In [None]:
cteni_csv.close()

#### DictReader

In [None]:
import csv

moje_csv = open("druhy_tabulkovy_soubor.csv", mode="r")
obsah = csv.DictReader(moje_csv)
print(tuple(obsah))

nove_csv.close()

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.knlvD9puLdhcleGXAbzgIwHaD4%26pid%3DApi&f=1" width="400">

## JSON soubory

---


Tento typ souboru možná ještě neznáš. Jedná se o příponu u souborů **.json**.

Celé jméno souboru může vypadat třeba jako `uzivatele.json`.

**JSON** si můžeš představit následovně:
```python
{
    "jmeno": "Chuck Norris",
    "neuspech": null,
    "kliky": "vsechny",
    "konkurence": false,
}
```

Na první pohled můžeš říct, že se hodně podobá **Pythonovskému slovníku**.

Nicméně má svoji vlastní charakteristickou **sadu pravidel** pro převod datových typů.

Níže jsou uvedená některá pravidla, která se týkají ukázky výše (všechna pravidla najdeš [zde](https://docs.python.org/3/library/json.html#encoders-and-decoders)):


| JSON | Python |
| :-: | :-: |
| string | str |
| true | True |
| false | False |
| null | None |

Účelem tohoto souboru je zejména **přenos dat** (*JavaScript Object Notation*).

Jde o záměrně zjednodušený formát, který **není standartním datovým typem pro Python**.

Poměrně často se s ním setkáš u **webových aplikací** různých *eshopů*, které ti vykresují nabídku na základě informací získaných z databází.

Protože **JSON** není standartním datovým typem, jako takový jej nemůžeš v Pythonu použít.

Pokud budeš chtít pracovat s JSON v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**.

V rámci <a href="https://docs.python.org/3/library/index.html" target="_blank">seznamu dokumentace Pythonu</a>  najdeš knihovnu `json`.

Právě tato knihovna ti umožní pomocí *interpretu* Pythonu *vytvořit* nebo *načíst* JSON.

In [None]:
import json  # nahrátí knihovny

In [None]:
help(json)   # nápověda

In [None]:
dir(json)    # seznam všech metod

In [None]:
tuple(       # bez magických metod
    object
    for object in dir(json)
    if not object.startswith("__")
)

<br>

V rámci **základní manipulace** se zaměř hlavně na tyto funkce:

| Funkce | Účel |
| :- | :- |
| `json.dump(m, n)` | zapíše objekt do souboru JSON |
| `json.dumps(m)` | zapíše objekt do `str` |
| `json.load(m)` | načte JSON data ze souboru |
| `json.loads(m)` | načte JSON data ze `str` |

Detail tabulky:
- `m` představuje jméno objektu,
- `n` představuje jméno souboru.

#### Vytvoření souboru objektu a souboru `.json`

---

Obecně se při práci se soubory typu `json` mluví o procesech *serialization* a *deserialization* (tedy čtení a zápis), ke kterým patří příslušné funkce uvedené výše v tabulce.

In [None]:
chuckuv_slovnik = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "doplneni": "Łukasz",
}

In [None]:
print(type(chuckuv_slovnik))

In [None]:
vypis_json = json.dumps(chuckuv_slovnik)  # výstup pouze jako str

Jakmile se podíváš na výstup, všimni si následujícího:
1. `null`, klíč `neuspech` už neobsahuje `None`,
2. `false`, klíč `konkurence` už neobsahuje `False`,
3. `"\u0141ukasz"`, klíč `fanousek` se nějak zkomolil.

Důvodem pro výše **zdůrazněné změny** je právě změna *Python objektů* na *JSON objekty*.

<br>

V klíči `fanousek` dostaneš string `"\u0141ukasz"`, jak je to možné?

Defaultně totiž funkce `dump` všechny *non-ASCII* znaky (které nenajdeš v ASCII tabulce) převede na znaky doplněné **zpětným lomítkem** (tedy `Ł` na `\u0141`).

In [None]:
print(vypis_json)

In [None]:
print(type(vypis_json))

In [None]:
json_soubor = open("prvni_json.json", mode="w")
json.dump(chuckuv_slovnik, json_soubor)

In [None]:
json_soubor.close()

<br>

#### Načti existující soubor `.json` nebo string

---

In [None]:
existujici_json = open("prvni_json.json")

In [None]:
print(existujici_json)

In [None]:
obsah_json = json.load(existujici_json)

In [None]:
print(obsah_json)

In [None]:
existujici_json.close()

In [None]:
print(type(obsah_json))

In [None]:
json_ = json.dumps(
    chuck_sl,
    ensure_ascii=False,
    indent=4,
    sort_keys=True
)

In [None]:
print(json_)

#### Zápis s kontextovým manažerem

Nejenom *textové soubory*, ale i JSON můžeš zapsat pomocí **kontextového manažeru** a klíčového slova `with`:

In [None]:
# bez knihovny nemůžeš pracovat s JSON objekty
import json

chuckuv_slovnik = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "fanousek": "Łukasz"
}

# funkci 'open' nachystáš objekt v Pythonu
with open("prvni_json_soubor.json", mode="w") as json_soubor:
    # metoda 'dump' uloží objektu do souboru
    json.dump(chuckuv_slovnik, json_soubor)

#### Doplňující argumenty:
1. `indent=4` - odsadí zapsaný `json` o 4 mezery
2. `sort_keys` - seřadí klíče (`True`/`False`)
3. `ensure_ascii` - `False` zapíše původní znak, `True` zapíše reprezentaci znaku pomocí lomítek.


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.GMJvJ-GG0YS8H5JmHR3CbwHaHm%26pid%3DApi&f=1" width="200">


## Domácí úkol

---

Napiš *skript*, který:

1. Načte soubor typu `JSON`,
2. rozdělí obsah **podle klíčů**,
3. zapíšeš rozdělená data do sloupečků **v CSV souboru**.

Vstupní **JSON**:
    

```
    {
        "id": 1,
        "first_name": "Dorri",
        "last_name": "Di Bernardo",
        "email": "ddibernardo0@nba.com",
        "gender": "Female",
        "ip_address": "158.223.131.8"
    },
    {
        "id": 2,
        "first_name": "Nisse",
        "last_name": "Noye",
        "email": "nnoye1@theatlantic.com",
        "gender": "Female",
        "ip_address": "252.57.218.72"
    },
    ...
```

Výstupní **CSV**:
```
["id", "first_name", "last_name", "email", "gender", "ip_address"],
["1", "Dorri", "Di Bernardo", "ddibernardo0@nba.com", "Female", "158.223.131.8"],
["2", "Nisse", "Noye", "nnoye1@theatlantic.com", "Female", "252.57.218.72"],
...
```

---