In [25]:
# Vstup a výstup

In [26]:
# Souborový vstup a výstup
# - textový přístup: komunikace se děje po znacích (v Pythonu se vstup a výstup jeví jako řetězec)
# - znak = každý znak je reprezentován číslem, které závisí na znakové sadě

# Znaková sada
# - = seznam/tabulka znaků, kde pozice/index znaku je jeho reprezentace
# - příklad jednoduché znakové sady: A-Z ... 0-25, A = 0, B = 1, ... , Z = 25

# ASCII
# - 7-bitová znaková sada
# - latinská abeceda + číslice + několik desítek speciálních znaků + řídící znaky(netisknutelné - např. odřádkování))
# - ASCII reprezentace = 0 až 127

# Unicode
# - modernější 24-bitová znaková sada (2^24 -> 16 MiB znaků = 16 milionů znaků) - 24-bitový adresový prostor
# - reálně je tam méně znaků, ale postupně se rozšiřuje (nyní cca 140 000 znaků)
# - obsahuje smajlíky, ...

# Číselná reprezentace znaku
# - posloupnost bytů
# - ASCII => kód je reprezentace uložená jako byte (nejvyšší bit je 0) - "a" je číslo 96, to je převedeno binární reprezentaci a nejvyšší bit je 0
# - Unicode => neexistuje jediné univerzální kódování
# - Unicode index => uložíme jako 32-bitové číslo

# UTF-32
# - kódování, ne moc používé pro soubory
# - výhody: snadná indexaci řetězce
# - nevýhody: prostorově náročné (celý prostor není využit), není jednoznačně určeno pořadí bytů v 32-bitovém čísle

# Endian
# - Big endian: nejvyšší byty jsou na začátku
#   - 0001F354 : 00 - 01 - F3 - 54
# - Little endian: nejvyšší byty jsou konci (přirozenější pro počítače)
#   - 0001F354 : 54 - F3 - 01 - 00
# - př.: UTF-32 BE = použij kódování UTF-32 a big endian

# UTF-16
# - kódování, ukládá se do šestnácti bitů (dva byty)
# - BMP (Basic Multilanguage Plane) - (64 KiB znaků, 65536) = běžně používané znaky
# - Surrogate pair = složí se ze dvou jinak nepoužívaných 16-bitových znaků; pro běžné texty je kompaktnější

# UTF-8
# - nejčastěji používané
# - nezávisí na endiannes
# - kompatibilní s ASCII, kompatibilní se standardní C-knihovnou
# - používá 1-6 bitů pro reprezentaci Unicode indexu
# - kódování, ve kterém může mít každý znak jiný počet bytů
# - pokud se jedná o ASCII znak, tak má 1 byte a vypadá takto: 0XXX-XXXX - všechny ASCII znaky jsou korektně reprezentovány v UTF-8
# - 2 byty = 110X-XXXX-10XX-XXXX - 2^11 znaků - 2048 znaků (azbuka, standardní arabské písmo, ...)
# - 3 byty = 1110-XXXX-10XX-XXXX-10XX-XXXX - celé BMP

In [27]:
# Unicode, pomocí \u přistupujeme k prvním 65536 znakům
print("\u0123")

ģ


In [28]:
# Unicode, pomocí \U přistupujeme k dalším znakům
print("\U0001F354")

🍔


In [29]:
# Základní módy
# w - write
# wt - write text
# wb - write binary


# Stream - objekt reprezentující proud znaků, do kterého zapisujeme, a ten se zapisuje do souboru
# .write vrací počet zapsaných znaků
# .flush - vyprázdní interní buffer

stream = open(file="1_lecture_10.txt", mode="wt", encoding="UTF-8")
stream.write("Hello world!\n")
stream.write("Žluťoučký kůň nežere \U0001F354")
stream.flush()
stream.close()

In [30]:
# Zde lze vidět, že nelze zapsat do souboru s kódováním ASCII české znaky, protože je sada ASCII neexistuje
stream = open(file="2_lecture_10.txt", mode="wt", encoding="ASCII")
stream.write("ŘČŽÝÍĚŠÉÉŘČÉÍÁ")
stream.flush()
stream.close()

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-13: ordinal not in range(128)

In [31]:
stream = open(file="3_lecture_10.txt", mode="wt", encoding="UTF-16 BE")
stream.write("ŘČŽÝÍĚŠÉÉŘČÉÍÁ")
stream.flush()
stream.close()

In [32]:
stream = open(file="4_lecture_10.txt", mode="wt", encoding="UTF-16 LE")
stream.write("ŘČŽÝÍĚŠÉÉŘČÉÍÁ")
stream.flush()
stream.close()

In [38]:
stream = open(file="lecture_10.txt", mode="rt", encoding="UTF-8")
text = stream.read()
print(text)
stream.close()

Hello world!
Žluťoučký kůň nežere 🍔


In [40]:
stream = open(file="lecture_10.txt", mode="rt", encoding="UTF-8")
character = stream.read(1)
print(character)
character = stream.read(1)
print(character)
stream.close()

H
e


In [41]:
# Je-li řetězec příliš velký, může přetéct RAM paměť - což se vlastně nestane, začne swapovat (ukládat na disk), ale to zpomalí aplikaci
# tak moc, že je to téměř nepoužitelné (de facto i toto by mohl být typ útoku - někdo nám tam nahraje velký soubor, my se ho pokusíme
# přečíst najednou úplně celý, a najednou problém)

stream = open(file="lecture_10.txt", mode="rt", encoding="UTF-8")
character = stream.read(1)
while character:
    print(character)
    character = stream.read(1)
stream.close()

H
e
l
l
o
 
w
o
r
l
d
!


Ž
l
u
ť
o
u
č
k
ý
 
k
ů
ň
 
n
e
ž
e
r
e
 
🍔


In [44]:
stream = open(file="lecture_10.txt", mode="rt", encoding="UTF-8")
characters1 = stream.read(4)
characters2 = stream.read(4)
characters3 = stream.read(4)
print(characters1)
print(characters2)
print(characters3)
stream.close()

Hell
o wo
rld!


In [45]:
# Opět nebezpečí příliš dlouhého řádku (př.: řídíme dron, říkáme mu, co dělat a najednou se na něj připojí někdo jiný a pošle 1 GB řádek)

stream = open(file="lecture_10.txt", mode="rt", encoding="UTF-8")
line1 = stream.readline()
line2 = stream.readline()
print(line1)
print(line2)
stream.close()

Hello world!

Žluťoučký kůň nežere 🍔


In [47]:
stream = open(file="lecture_10.txt", mode="rt", encoding="UTF-8")

# Lenivý seznam - čte se postupně, nenačítají se všechny řádky naráz do paměti
for line in stream:
    print(line.strip())
stream.close()

Hello world!
Žluťoučký kůň nežere 🍔


In [52]:
# Přístup s open() a close() vytváří problém
# Pokud vyskočím z metody, soubor se nikdy nezavře
# Musel bych ho zavírat při každém výskoku (duplicitní kód)
def print_file_content(path, end_line):
    stream = open(file=path, mode="rt", encoding="UTF-8")
    for line in stream:
        line = line.strip()
        if line == end_line:
            print(line)
            return
        print(line)
    stream.close()


print_file_content("lecture_10.txt", "Hello world!")

Hello world!


In [53]:
# Klíčové slovo with řeší všechny problémy výše (principielně )
# Na pozadí se volá:
# - stream.__entry__ (vstup do kontextu),
# - stream.__exit__ (výstup z kontextu, vždy zavolá interně .close(), a close() interně zavolá zároveň i .flush())
with open(file="lecture_10.txt", mode="rt", encoding="UTF-8") as stream:
    # stream.__entry__
    print(stream.read())
    # stream.__exit__

Hello world!
Žluťoučký kůň nežere 🍔
