### Úvod

---

1. [Úvod do IO](),
2. [Textové soubory](),
3. [JSON](),
4. [CSV soubory](),
5. [Domácí úkol]().

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.zN9foYcjK5B3GphAVjLohgHaDs%26pid%3DApi&f=1" width="250">

### Úvod do IO

---

Doposud jsi pracoval pouze s objekty **Pythonu vlastními** nebo **s knihovnami**.

Všechny tyto objekty jsi vytvoříš a zpracováváš **v rámci paměti RAM** (*random access memory*).

*Paměť RAM* je **velmi rychlá**, ale současně náročná a vyžaduje **neustálý zdroj** (není elektřina, ztratíš data).

Takový **disk počítače** je o dost **pomalejší** než paměť *RAM*, ale umožňuje ti uchovávat tebou získaná, zpracovaná data.

Proto je dobré osvojit si pravidla a postupy v Pythonu, jak vytvořit **persistentní data**.

<br>

#### File Input/Output (~vstupní soubor, výstupní soubor)

Klasickou cestou, jak vytvořit obyčejný soubor, což je v podstatě jen *sekvence bajtů*, poskládaná za nějakým **jménem souboru**.

Než ale začneš se souborem pracovat, potřebuješ si v Pythonu vytvořit pomocný objekt, který jej bude v rámci **interpreta zastupovat**:

```python
muj_soubor = open(jmeno_souboru, rezim)

# ... libovolná ohlášení

muj_soubor.close()
```

<br>

1. `muj_soubor`, je objekt spojující soubor a Pythonovský objekt,
2. `open()`, zabudovaná funkce, která vrací spojující objekt a uloží jej do `muj_soubor`,
3. `jmeno_souboru`, jméno souboru (relativní cesta/ absolutní cesta),
4. `rezim`, výběr režimu, ve kterém chci otevřít soubor,
5. `muj_soubor.close`, způsob, kterým ukončíš spojení mezi objektem a souborem.

<br>

<!-- <img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.Xa0BEkwl0Zx4qnY9lMbD7gHaHa%26pid%3DApi&f=1" width="200"> -->

### Textové soubory

---

Nejlepším souborem na začátek bude prostý **textový soubor**.

Textovým souborem rozuměj jakýkoliv soubor, který má příponu `.txt`.

*(onsite/lesson08/pomocny_textovy_soubor.txt)*

<br>

#### Čtení souborů

---

Pro čtení souborů (pomocí Pythonu) opět použiješ zabudovanou funkci `open`:

In [2]:
# !ls -l ../onsite/lesson08/

In [None]:
# Hledání souboru
import os

os.listdir("../")

In [3]:
muj_existujici_soubor = open("../onsite/lesson08/pomocny_textovy_soubor.txt")

In [6]:
# print(muj_existujici_soubor)

In [7]:
# print(type(muj_existujici_soubor))

In [13]:
# help(muj_existujici_soubor.read)

In [11]:
# dir(muj_existujici_soubor)

In [14]:
print(muj_existujici_soubor.read())

Ahoj, ja jsem Matous (:


Metody **pro čtění obsahu** TextIOWrapper objektu:

1. `read` - přečte celý soubor jako jeden string
2. `readline` - přečte pouze první řádek jako string
3. `readlines` - přečte celý soubor jako list (co řádek, to údaj)

In [18]:
muj_existujici_soubor.closed  # je spojení se souborem ukončené?

True

In [17]:
# False -> není, tak jej zavři
muj_existujici_soubor.close()

<br>

#### Zápis do souboru

Pokud ale takový *textový soubor* ještě nemáš, potřebuješ jej nejprve **vytvořit**.


In [19]:
obsah_souboru = "Toto je můj nový soubor^.^"

*String* `obsah_souboru` máme aktuálně k dispozici pouze jako nějaký objekt Pythonu.

Opět je potřeba nejprve spojit objekt v Pythonu se skutečným souborem na disku.

In [20]:
muj_soubor = open(muj_novy_soubor.txt)

NameError: name 'muj_novy_soubor' is not defined

In [None]:
muj_soubor = open("muj_novy_soubor.txt")  # číst TXT soubor

In [21]:
muj_soubor = open("muj_novy_soubor.txt", mode="w")

In [None]:
help(open)

Soubor si následně můžeš otevřít, ale zjistíš, že je v tento moment prázdný.

Funkce `open` pouze vytvoří (*~iniciuje*) nový objekt `muj_soubor`.

Příslušný text teprve musíme zapsat, pomocí vhodné *funkce* `write`:

In [22]:
help(muj_soubor.write)

Help on built-in function write:

write(text, /) method of _io.TextIOWrapper instance
    Write string to stream.
    Returns the number of characters written (which is always equal to
    the length of the string).



In [23]:
muj_soubor.write(obsah_souboru)

26

Pokud si budeš chtít nyní prohlédnout **zapsaný soubor na disku**, zjistíš, že je stále prázdný.

Protože *stále není ukončený*, nedovedeš s ním nijak manipulovat.

Pokud zjistíš, že není ukončený, ukončíš jej pomocí metody `close`.

In [24]:
muj_soubor.close()

Teprve po ukončení *streamu* (nebo také zápisu) objektu, můžeš soubor `muj_novy_soubor.txt` prozkoumat.

<br>

#### Přidej text do souboru

Nyní chceš doplnit další řádek v našem souboru:

In [25]:
dalsi_text = "Rad ctu, hraji na klavir"

Opět potřebuješ inicializovat **pomocný objekt**, jako v předchozích scénářích:

In [26]:
muj_soubor = open("muj_novy_soubor.txt", mode="w")
muj_soubor.write(dalsi_text)
muj_soubor.close()

Zkontrolujeme jak vypadá **nově přidaný text**.

Opatrně na `mode="w"`.

Pokud opětovně načteš **stejný soubor** v tomto režimu, přesuneš "zapisovač" (*představ si jej jako blikající kurzor v editoru*) opět **na začátek souboru**.


*Interpret* zapisuje od místa, kde se zapisovač nachází, takže dojde **k přepsání původního obsahu**.


Pokud chceš automaticky zapisovat **od konce souboru**, otevři soubor s argumentem `mode="a"`, tedy v režimu `append`.

In [27]:
!rm muj_novy_soubor.txt

In [28]:
# Vytvořím nový TXT soubor
muj_str = "Ahoj, ja jsem Matous (:\n"
muj_soubor = open("muj_novy_soubor.txt", mode="w")
muj_soubor.write(muj_str)
muj_soubor.close()

Zkontroluj nyní obsah textového souboru:

In [29]:
# Znovu jej otevřu a doplním další řádek
muj_druhy_str = "Rad ctu, hraji na klavir\n"
muj_soubor = open("muj_novy_soubor.txt", mode="a")  # append
muj_soubor.write(muj_druhy_str)
muj_soubor.close()

<br>

#### Číst a psát současně

Velice často se dostaneš do situace, kdy potřebuješ **nejenom číst**, ale **i zapisovat**.

In [None]:
help(open)

Pomocí režimu `r+` můžeš provést jak čtení, tak zápis:

In [30]:
muj_existujici_soubor = open("muj_novy_soubor.txt", mode="r+")
print(muj_existujici_soubor.readlines())

['Ahoj, ja jsem Matous (:\n', 'Rad ctu, hraji na klavir\n']


In [31]:
muj_existujici_soubor.write("A jeste jeden radek!")

20

In [32]:
muj_existujici_soubor.close()

Pokud zapomeneš vybrat vhodný režim, Python tě upozorní **s příslušnou výjimkou**:

In [33]:
muj_existujici_soubor = open("muj_novy_soubor.txt", mode="r")
print(muj_existujici_soubor.readlines())

['Ahoj, ja jsem Matous (:\n', 'Rad ctu, hraji na klavir\n', 'A jeste jeden radek!']


In [34]:
muj_existujici_soubor.write("A jeste dalsi radek!")

UnsupportedOperation: not writable

In [35]:
muj_existujici_soubor.close()

#### Kontextový manažer

In [None]:
muj_existujici_soubor = open("muj_novy_soubor.txt", mode="r")
print(muj_existujici_soubor.readlines())
muj_existujici_soubor.close()

In [36]:
with open("muj_novy_soubor.txt", mode="r") as txt_s:
    print(txt_s.readlines())

['Ahoj, ja jsem Matous (:\n', 'Rad ctu, hraji na klavir\n', 'A jeste jeden radek!']


<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.knlvD9puLdhcleGXAbzgIwHaD4%26pid%3DApi&f=1" width="300">

### JSON soubory

---

Tento typ souboru možná ještě neznáš. Jedná se o příponu u souborů **.json**.

Celé jméno souboru může vypadat třeba jako `uzivatele.json`.

**JSON** si můžeš představit následovně:
```python
{
    "jmeno": "Chuck Norris",
    "neuspech": null,
    "kliky": "vsechny",
    "konkurence": false,
}
```

Na první pohled můžeš říct, že se hodně podobá **Pythonovskému slovníku**.

Nicméně má svoji vlastní charakteristickou **sadu pravidel** pro převod datových typů.

Níže jsou uvedená některá pravidla, která se týkají ukázky výše (všechna pravidla najdeš [zde](https://docs.python.org/3/library/json.html#encoders-and-decoders)):


| JSON | Python |
| :-: | :-: |
| string | str |
| true | True |
| false | False |
| null | None |

Účelem tohoto souboru je zejména **přenos dat** (*JavaScript Object Notation*).

Jde o záměrně zjednodušený formát, který **není standartním datovým typem pro Python**.

Poměrně často se s ním setkáš u **webových aplikací** různých *eshopů*, které ti vykresují nabídku na základě informací získaných z databází.

Protože **JSON** není standartním datovým typem, jako takový jej nemůžeš v Pythonu použít.

Pokud budeš chtít pracovat s JSON v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**.

V rámci <a href="https://docs.python.org/3/library/index.html" target="_blank">seznamu dokumentace Pythonu</a>  najdeš knihovnu `json`.

Právě tato knihovna ti umožní pomocí *interpretu* Pythonu *vytvořit* nebo *načíst* JSON.

#### Balíček `json`:

In [37]:
import json  # nahrátí knihovny

In [39]:
# help(json)   # nápověda

In [40]:
# dir(json)    # seznam všech metod

In [41]:
tuple(       # bez magických metod
    object
    for object in dir(json)
    if not object.startswith("__")
)

('JSONDecodeError',
 'JSONDecoder',
 'JSONEncoder',
 '_default_decoder',
 '_default_encoder',
 'codecs',
 'decoder',
 'detect_encoding',
 'dump',
 'dumps',
 'encoder',
 'load',
 'loads',
 'scanner')

#### Vyzkoušej si následující:

---

V rámci **základní manipulace** se zaměř hlavně na tyto funkce:

| Funkce | Účel |
| :- | :- |
| `json.dump(m, n)` | zapíše objekt do souboru JSON |
| `json.dumps(m)` | zapíše objekt do `str` |
| `json.load(m)` | načte JSON data ze souboru |
| `json.loads(m)` | načte JSON data ze `str` |

Detail tabulky:
- `m` představuje jméno objektu,
- `n` představuje jméno souboru.

#### Vytvoření souboru `.json`:

---

Obecně se při práci se soubory typu `json` mluví o procesech *serialization* a *deserialization* (tedy čtení a zápis), ke kterým patří příslušné funkce uvedené výše v tabulce.

In [42]:
chuckuv_slovnik = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "doplneni": "Łukasz",
}

In [43]:
print(type(chuckuv_slovnik))

<class 'dict'>


In [None]:
import json

In [44]:
vypis_json = json.dumps(chuckuv_slovnik)  # výstup pouze jako str

In [45]:
print(vypis_json)

{"jmeno": "Chuck Norris", "neuspech": null, "kliky": "vsechny", "konkurence": false, "doplneni": "\u0141ukasz"}


In [46]:
print(type(vypis_json))

<class 'str'>


Jakmile se podíváš na výstup, všimni si následujícího:
1. `null`, klíč `neuspech` už neobsahuje `None`,
2. `false`, klíč `konkurence` už neobsahuje `False`,
3. `"\u0141ukasz"`, klíč `fanousek` se nějak zkomolil.

Důvodem pro výše **zdůrazněné změny** je právě změna *Python objektů* na *JSON objekty*.

<br>

V klíči `fanousek` dostaneš string `"\u0141ukasz"`, jak je to možné?

Defaultně totiž funkce `dump` všechny *non-ASCII* znaky (které nenajdeš v ASCII tabulce) převede na znaky doplněné **zpětným lomítkem** (tedy `Ł` na `\u0141`).

In [47]:
json_soubor = open("prvni_json.json", mode="w")

In [48]:
json.dump(chuckuv_slovnik, json_soubor)

In [49]:
json_soubor.close()

<br>

#### Načti existující soubor `.json`:

---

In [50]:
existujici_json = open("prvni_json.json")

In [51]:
print(existujici_json)

<_io.TextIOWrapper name='prvni_json.json' mode='r' encoding='UTF-8'>


In [52]:
obsah_json = json.load(existujici_json)

In [53]:
print(obsah_json)

{'jmeno': 'Chuck Norris', 'neuspech': None, 'kliky': 'vsechny', 'konkurence': False, 'doplneni': 'Łukasz'}


In [54]:
print(type(obsah_json))

<class 'dict'>


In [57]:
print(type(vypis_json))

<class 'str'>


In [58]:
opet_slovnik = json.loads(vypis_json)

In [60]:
print(opet_slovnik)

{'jmeno': 'Chuck Norris', 'neuspech': None, 'kliky': 'vsechny', 'konkurence': False, 'doplneni': 'Łukasz'}


In [55]:
existujici_json.close()

In [62]:
json_ = json.dumps(
    chuckuv_slovnik,
    ensure_ascii=False,
    indent=4,
    sort_keys=True
)

In [63]:
print(json_)

{
    "doplneni": "Łukasz",
    "jmeno": "Chuck Norris",
    "kliky": "vsechny",
    "konkurence": false,
    "neuspech": null
}


#### Zápis s kontextovým manažerem

Nejenom *textové soubory*, ale i JSON můžeš zapsat pomocí **kontextového manažeru** a klíčového slova `with`:

In [64]:
import json

chuckuv_slovnik = {
    "jmeno": "Chuck Norris",
    "neuspech": None,
    "kliky": "vsechny",
    "konkurence": False,
    "fanousek": "Łukasz"
}

with open("druhy_json_soubor.json", mode="w") as json_soubor:
    json.dump(chuckuv_slovnik, json_soubor)

#### Doplňující argumenty:
1. `indent=4` - odsadí zapsaný `json` o 4 mezery
2. `sort_keys` - seřadí klíče (`True`/`False`)
3. `ensure_ascii` - `False` zapíše původní znak, `True` zapíše reprezentaci znaku pomocí lomítek.

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.uw0oLhKf5KEq2IwUBu3DrgHaHa%26pid%3DApi&f=1" width="170">

### CSV soubory

---

**CSV soubor** (*Comma Separated Values*) ukládá *tabulková data*, podobně jako například soubory **.xlsx** (*MS Excel* nebo *LibreOffice*), které pravděpodobně znáš.

Rozdíl spočívá v tom, že soubor **CSV** je ukládá v **textové podobě**.

**CSV soubor** je tedy mnohem univerzálnější, můžeš ho normálně otevřít v tabulkových procesorech (jako je například *MS Excel*), v textových editorech jako je *Notepad* nebo *Poznámkový blok* a navíc se s ním dobře pracuje v Pythonu.


Přesto, že v různých softwarových řešeních najdeš data úhledně graficky naformátovaná do:
1.  **řádků** *(na obrázku 1, 2, 3)*,
2.  **a sloupců** *(na obrázku A, B, C, D)*.

<a href="https://imgur.com/3zomtvk"><img src="https://i.imgur.com/3zomtvk.png" title="source: imgur.com" width="600" /></a>

.., reprezentované hodnoty **v jednoduchém editoru** vypadají jinak:
```
jmeno;prijmeni;email;projekt
Matous;Holinka;m.holinka@firma.cz;hr
Petr;Svetr;p.svetr@firma.cz;devops
```

Aby měl takový **CSV** konzistentní vzhled a formát, potřebuje zadaný **dialekt**.

### Dialekt CSV souborů
Dialektem rozuměj nějaký **formátovací pravidla**, podle kterých je tvůj **CSV** soubor zadaný.

**Dialekt** udává jakými znaky jsou:
1. oddělované **jednotlivé buňky** (na obrázku výše středník `;`),
2. oddělované **řádky** (na obrázku není vybraný žádný symbol).

Další možnosti **upřesnění dialektu** jako výběr *escape znaků*, použití uvozovek, aj. můžeš najít <a href="https://docs.python.org/3/library/csv.html#dialects-and-formatting-parameters" target="_blank">zde</a>.

Ať už konkrétně typ souboru **.csv** nebo jeho příbuzní **.xls** nebo **.xlsx** aj., pracuje tento typ souboru výborně pro ukládání jednotlivých záznámů řádek po řádku.

Protože se u **CSV souborů** nejedná o nativní formát Pythonu, jako takový jej nemůžeš v Pythonu napsat.

Opět platí, že pokud budeš chtít pracovat **s CSV soubory** v Pythonu, musíš *nahrát* k tomu určenou **built-in knihovnu**.

In [65]:
import csv  # nahrajeme knihovnu

In [67]:
# help(csv)   # nápověda knihovny

In [68]:
dir(csv)    # objekty knihovny

['Dialect',
 'DictReader',
 'DictWriter',
 'Error',
 'QUOTE_ALL',
 'QUOTE_MINIMAL',
 'QUOTE_NONE',
 'QUOTE_NONNUMERIC',
 'Sniffer',
 'StringIO',
 '_Dialect',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 'excel',
 'excel_tab',
 'field_size_limit',
 'get_dialect',
 'list_dialects',
 're',
 'reader',
 'register_dialect',
 'unix_dialect',
 'unregister_dialect',
 'writer']

#### Vyzkoušíme si následující

---

| jméno objektu | účel metody |
| :-| :- |
| `csv.reader(m)` | funkce vrátí iterovatelný objekt (co cyklus, to řádek) |
| `csv.writer(m)` | funkce zapíše objekt do souboru (+ `writerows`)|
| `csv.DictWriter(m)` | třída pro zápis slovníku do souboru |
| `csv.DictReader(m)` | třída pro čtení souboru do slovníku |

<br>


*pozn* `m` je objekt (proměnná)

<br>

Základní dva procesy, které budeme provádět jsou:
1. __čtení__ souboru `csv`
2. __zápis__ do souboru `csv`

<br>

#### Vytvoříš soubor s příp. `.csv`

In [69]:
hlavicka = ["jmeno", "prijmeni", "vek"]
osoba_1 = ["Matous", "Holinka", "28"]
osoba_2 = ["Petr", "Svetr", "27"]

In [70]:
zapis_csv = open(
    "prvni_tabulky.csv",
    mode="w",
    newline=""
)

In [71]:
print(zapis_csv)

<_io.TextIOWrapper name='prvni_tabulky.csv' mode='w' encoding='UTF-8'>


In [72]:
zapis = csv.writer(zapis_csv, delimiter=";")

In [73]:
zapis.writerow(hlavicka)
zapis.writerow(osoba_1)
zapis.writerow(osoba_2)

15

In [74]:
zapis_csv.close()

#### DictWriter

In [75]:
import csv

osoba_1 = {"jmeno": "Matous", "prijmeni": "Pokoj", "vek": "28"}
osoba_2 = {"jmeno": "Petr", "prijmeni": "Svetr", "vek": "27"}

nove_csv = open("druhy_tabulkovy_soubor.csv", mode="w")

zahlavi = osoba_1.keys()

zapisovac = csv.DictWriter(nove_csv, fieldnames=zahlavi)

zapisovac.writeheader()
zapisovac.writerow(osoba_1)
zapisovac.writerow(osoba_2)

nove_csv.close()

In [77]:
import csv

osoba_1 = {"jmeno": "Matous", "prijmeni": "Pokoj", "vek": "28"}
osoba_2 = {"jmeno": "Petr", "prijmeni": "Svetr", "vek": "27"}

nove_csv = open("treti_tabulkovy_soubor.csv", mode="w")

zahlavi = osoba_1.keys()

zapisovac = csv.DictWriter(nove_csv, fieldnames=zahlavi)

zapisovac.writeheader()
zapisovac.writerows((osoba_1, osoba_2))

nove_csv.close()

<br>

#### Přečti obsah souboru `.csv`

---

In [84]:
cteni_csv = open(
    "prvni_tabulky.csv",
    encoding="utf-8"
)

In [85]:
cteni = csv.reader(cteni_csv)

In [80]:
cteni

<_csv.reader at 0x7fd4d8353890>

In [81]:
tuple(cteni)

(['jmeno;prijmeni;vek'], ['Matous;Holinka;28'], ['Petr;Svetr;27'])

In [86]:
for radek in cteni:
    print(radek)

['jmeno;prijmeni;vek']
['Matous;Holinka;28']
['Petr;Svetr;27']


In [87]:
cteni_csv.close()

#### DictReader

In [17]:
import csv

moje_csv = open("druhy_tabulkovy_soubor.csv", mode="r")
obsah = csv.DictReader(moje_csv)
print(tuple(obsah))

nove_csv.close()

({'jmeno': 'Matous', 'prijmeni': 'Pokoj', 'vek': '28'}, {'jmeno': 'Petr', 'prijmeni': 'Svetr', 'vek': '27'})


In [88]:
import csv

with open("druhy_tabulkovy_soubor.csv") as csv_:
    obsah = csv.DictReader(csv_)
    print(tuple(obsah))

({'jmeno': 'Matous', 'prijmeni': 'Pokoj', 'vek': '28'}, {'jmeno': 'Petr', 'prijmeni': 'Svetr', 'vek': '27'})


<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.XxURlbi8RZ3SMPoMRj91VwAAAA%26pid%3DApi&f=1" width="200">

### Domácí úkol

---

Napiš skript, který:
1. Načte soubor typu `JSON`,
2. rozdělí obsah **podle klíčů**,
3. zapíšeš rozdělená data do sloupečků **v CSV souboru**.

Vstupní **JSON**:

```
{
        "id": 1,
        "first_name": "Dorri",
        "last_name": "Di Bernardo",
        "email": "ddibernardo0@nba.com",
        "gender": "Female",
        "ip_address": "158.223.131.8"
    },
    {
        "id": 2,
        "first_name": "Nisse",
        "last_name": "Noye",
        "email": "nnoye1@theatlantic.com",
        "gender": "Female",
        "ip_address": "252.57.218.72"
    },
    ...
}
```

Výstupní **CSV**:
```
["id", "first_name", "last_name", "email", "gender", "ip_address"],
["1", "Dorri", "Di Bernardo", "ddibernardo0@nba.com", "Female", "158.223.131.8"],
["2", "Nisse", "Noye", "nnoye1@theatlantic.com", "Female", "252.57.218.72"],
...
```

---