# V minulém díle jste viděli…

Základní kontejnery:

- `str` (_string_ neboli _textový řetězec_) – posloupnost znaků
- `list` (_seznam_) – _modifikovatelná_ (_mutable_) posloupnost libovolných objektů
- `tuple` (_n-tice_) – _nemodifikovatelná_ (_immutable_) posloupnost libovolných objektů
- `set` (_množina_) – datová struktura obsahující unikátní prvky, pro které není určené jejich vzájemné pořadí
- `dict` (_slovník_) – datová struktura, která představuje zobrazení z množiny klíčů (_keys_) na libovolné hodnoty (_values_)

Základní operace s kontejnery:

- _testování_: `var in container` – výraz s hodnotou `True`/`False`
- _iterování_: `for var in container`

Také vždy můžeme použít funkci `len(container)`, která vrací _délku_ neboli počet prvků kontejneru.

Pro zápis seznamů se používají hranaté závorky: `[1, 2, 3]` a pro zápis n-tic se používají kulaté závorky: `(1, 2, 3)`.

Pro zápis množin i slovníků se v kódu používají složené závorky.
Množina obsahuje přímo své prvky oddělené čárkou, kdežto slovník obsahuje dvojice klíč-hodnota oddělené dvojtečkou:

In [1]:
my_set = {1, 2, 3}
my_dict = {1: "a", 2: "b", 3: "c"}

Prázdné složené závorky nedefinují prázdnou množinu, ale prázdný slovník:

In [2]:
var = {}
print(type(var))

<class 'dict'>


Při používání modifikovatelných objektů je potřeba rozlišovat mezi _identitou_ a _hodnotou_ různých proměnných: identita představuje umístění objektu v paměti počítače, kdežto hodnota jen data uložená v dané proměnné.
Proč je to důležité:

- Přiřazovací operátor (např. `a = b`) pouze nastaví odkaz na stejný objekt. (Umíme ale vytvořit skutečnou kopii kontejneru – _mělkou_ nebo _hlubokou_.)
- Předávání parametrů funkcím také předá jen odkaz na daný objekt, takže změny modifikovatelných parametrů uvnitř funkce se projeví i mimo funkci.

# Textové řetězce

__Textový řetězec__ (anglicky a slangově __string__) je _posloupnost_ znaků.
V Pythonu jsou textové řetězce reprezentovány pomocí typu `str`, což je _nemodifikovatelný_ (_immutable_) kontejner.

Python na rozdíl od jiných programovacích jazyků nezavádí samostatný datový typ pro znaky (jako např. <code>char</code> v jazyce C/C++).
Znakem v Pythonu rozumíme string obsahující pouze jeden znak.
Interně jsou stringy uloženy pomocí typu `bytes` (také nemodifikovatelná posloupnost) a nějakého kódování (typicky [UTF-8](https://en.wikipedia.org/wiki/UTF-8)).

## Zápis řetězců a escape sekvence

Pro zápis řetězců v kódu programu používáme nejčastěji jednoduché uvozovky (apostrofy) nebo dvojité uvozovky:

In [3]:
prvni_prazdny_textovy_retezec = ""
druhy_prazdny_textovy_retezec = ''
prvni_neprazdny_textovy_retezec = "Python"
druhy_neprazdny_textovy_retezec = 'C++'

Význam použitých uvozovek se nijak neliší: podobně jako `1.0` a `1.000` jsou dva zápisy téhož čísla, tak i `'slovo'` a `"slovo"` jsou v Pythonu dva zápisy téhož stringu.
Použité uvozovky nejsou součástí hodnoty – Python si "nepamatuje", jakým způsobem byl řetězec uvozen.

Volba hraničních znaků může být ovlivněna tím, zda potřebujeme některý z nich použít uprostřed textu:

In [4]:
s1 = "Potřebuji 'apostrofy'"
s2 = 'Potřebuji "uvozovky"'
print(s1)
print(s2)

Potřebuji 'apostrofy'
Potřebuji "uvozovky"


V případě, že potřebujeme vytvořit string obsahující nějaké speciální znaky, můžeme použit tzv. escapování.
_Escapování_ znaků znamená, že před nějakým znakem napíšeme zpětné lomítko (`\`), kterým začíná speciální posloupnost znaků s jiným významem – tzv. __escape sekvence__ (anglicky __escape sequence__).
Tuto sekvenci Python interpretuje jako jediný speciální znak.
Některé speciální znaky nejsou "viditelné", ale mohou např. vyvolat nějakou akci terminálu.

Např. znak `\n` znamená ukončení řádku:

In [5]:
print("Několika řádkový\ntext")

Několika řádkový
text


Escapování se také často používá pro zápis jednoduchých a dvojitých uvozovek uvnitř stringu: `\'`, `\"`.

In [6]:
print("Teď potřebuji \'apostrofy\' i \"uvozovky\"")
print('Teď potřebuji \'apostrofy\' i \"uvozovky\"')

Teď potřebuji 'apostrofy' i "uvozovky"
Teď potřebuji 'apostrofy' i "uvozovky"


Pokud chceme zapsat string obsahující zpětné lomítko, musíme ho escapovat jako `\\`.
Např. pro vytvoření cesty k adresáři v operačním systému Windows:

In [7]:
print("C:\\ZPRO\\Nový adresář")

C:\ZPRO\Nový adresář


Tyto a některé další příklady escape sekvencí v Pythonu jsou v tabulce níže.

Sekvence     | Krátký popis
-------------|---------------------------------------------------
`\'`         | Jednoduché uvozovky nebo apostrof (kód `\x27`).
`\"`         | Dvojité uvozovky (kód `\x22`).
`\\`         | Zpětné lomítko (kód `\x5c`).
`\n`         | Nový řádek (New Line – NL – kód `\x0a`).
`\t`         | Vodorovný tabulátor (TAB nebo HT – kód `\x09`).
`\v`         | Svislý tabulátor (Vertical Tab – VT – kód `\x0b`).
`\b`         | Backspace (BS – smazání předchozího znaku – kód `\x08`).
`\r`         | Návrat vozíku (Carriage Return – CR – kód `\x0d`).
`\ooo`       | Znak s 8bitovým kódem zadaným v osmičkové soustavě, `o` představuje osmičkovou číslici – např. `'\101' == 'A'`.
`\xhh`       | Znak s 8bitovým kódem zadaným v šestnáctkové soustavě, `h` představuje šestnáctkovou číslici – např. `'\x42' == 'B'`.
`\uhhhh`     | Znak s 16bitovým kódem zadaným v šestnáctkové soustavě, `h` představuje šestnáctkovou číslici – např. `'\u263A' == '☺'`.
`\Uhhhhhhhh` | Znak s 32bitovým kódem zadaným v šestnáctkové soustavě, `h` představuje šestnáctkovou číslici – např. `'\U0000266b' == '♫'`.
`\N{název}`  | Znak, který má v sadě Unicode zadaný název – např. `'\N{DEGREE CELSIUS}' == '\u2103' == '℃'` nebo `'\N{WHITE SMILING FACE}' == '\u263a' == '☺'`.

Jak je vidět z tabulky, se zpětným lomítkem se dá zadat jakýkoli znak – včetně emoji – podle názvu nebo kódu standardu Unicode. Stačí přesné jméno nebo číslo znát (nebo dohledat to na internetu). Jen pro zajímavost zkuste doplnit následující příklad použitím tabulátorů, `\b`, `\r` a  výpisem nějakých "nestandardních" znaků sady Unicode.

In [8]:
print("\N{GREEK CAPITAL LETTER DELTA}")
print("\N{SECTION SIGN}")
print("\N{GRINNING CAT FACE WITH SMILING EYES}")
print("\u30C4")

Δ
§
😸
ツ


Pro zápis víceřádkových stringů v kódu programu může být použití `\n` příliš komplikované.
Alternativou je použít trojice dvojitých uvozovek (`"""`) nebo jednoduchých uvozovek (`'''`) pro ohraničení stringu:

In [9]:
s1 = "Jsem víceřádkový string\nobklopený dvojitými uvozovkami\na obsahující escapování pro nové řádky."
s2 = '''Jsem také víceřádkový string,
ale vytvořený pomocí
trojic jednoduchých uvozovek.'''
print(s1)
print(s2)

Jsem víceřádkový string
obklopený dvojitými uvozovkami
a obsahující escapování pro nové řádky.
Jsem také víceřádkový string,
ale vytvořený pomocí
trojic jednoduchých uvozovek.


## Převod stringu na číselné typy

S textovými řetězci jsme pracovali od prvního cvičení a mnoho operací se stringy již známe.
Umíme např. číst vstup od uživatele pomocí funkce `input()`.
Připomeňme si, že tato funkce vždy vrací textový řetězec a v případě, že potřebujeme pracovat s číselnou hodnotou, musíme provést přetypovaní stringu na vhodný datový typ (např. pomocí funkcí `int()`, `float()`, nebo `complex()`).

Ve funkci `int(x, base=10)` se prvním argumentem předpokládá objekt, který lze převést na celé číslo.
Pokud jde o objekt typu `str`, funkce `int` požaduje, aby vyhovoval pravidlům pro zápis celého čísla v cílové číselné soustavě, navíc jsou povoleny pouze _bílé znaky_ (mezera, tabulátor, nový řádek atd.) _na začátku a na konci_ stringu (ne uvnitř) a podtržítka pro logické oddělení číslic _uvnitř_ stringu.

Druhý argument `base` (`2 <= base <= 36`) určuje číselnou soustavu, do které se bude string převádět.
Číselné soustavy se základem větším než 10 používají v roli dalších číslic písmena `A`–`Z`, resp. `a`–`z`.
Na velikosti použitých písmen přitom nezáleží.

In [10]:
print(int("1010", 2))
print(int("1010", 16))
print(int("No_nazdar", 36))

10
4112
1856027718675


Funkce `float(x=0.0)` vrátí "reálné" číslo vytvořené ze zadaného čísla či stringu.
Je-li argumentem string, funkce požaduje, aby vyhovoval pravidlům pro zápis reálných čísel.
Navíc jsou povoleny pouze bílé znaky na začátku a na konci stringu a několik speciálních "konstant".
Není-li zadán argument, funkce vrátí nulu.

In [11]:
print(float())
print(float("3_513"))
print(float("    -3.5\n"))
print(float("-Infinity"))       # -Nekonečno, také jsou možné zkratky inf, -Inf, atd.
print(float("NaN"))             # Not a Number - hodnota typu float, která není číslo
#print(float("Číslo 1.1"))       # ValueError

0.0
3513.0
-3.5
-inf
nan


Funkce `complex(string)` vrací hodnotu typu `complex`, pokud argument `string` je korektní zápis komplexního čísla _v algebraickém tvaru_ dle Pythonovské notace.
Mezery mezi reálnou a imaginární částmi nejsou povoleny a imaginární jednotku představuje symbol `j`:

In [12]:
print(complex("1+2j"))
#print(complex("1 + 2j"))  # ValueError

(1+2j)


Funkce `bool(x=False)` převádí zadaný objekt `x` na booleovskou hodnotu.
Pokud jde o typ `str`, tak platí:

- prázdný řetězec se vyhodnotí jako `False`
- jakýkoli neprázdný řetězec se vyhodnotí jako `True`

In [13]:
print(bool(""))
print(bool("0"))
print(bool("False"))

False
True
True


## Převod objektů na string

K převodu libovolného objektu na string slouží funkce `str(object='')`.
Není-li zadán argument, funkce vrátí prázdný textový řetězec.

Existuje také funkce `repr(object)`, která se snaží vytvořit jednoznačný textový podpis objektu – v řadě případů je jím text, po jehož zadání interpret vytvoří ekvivalentní objekt.
Jde o _systémový popis_ objektu, používá se např. při výpisu výsledných hodnot v konzoli.

Funkce `str()` naopak vrací "klasický" string, který by měl být pro člověka co nejsrozumitelnější – _uživatelský podpis_.
Návratové hodnoty funkcí `str()` a `repr()` jsou velmi často shodné, ale občas se liší.
Typickým příkladem jsou texty, pro něž funkce `str()` vrací zadaný text, kdežto funkce `repr()` vrací text uzavřený v uvozovkách, tj. text, který můžeme zadat do programu.

In [14]:
print(str('Python'), str("Python"), str("""Python"""))
print(repr('Python'), repr("Python"), repr("""Python"""))

Python Python Python
'Python' 'Python' 'Python'


## Základní funkce a operace s textovými řetězci

Typ `str` je jeden ze základních kontejnerů v Pythonu a tedy můžeme použít všechny společné operace: _testovací operátory_ `in` a `not in` (testují výskyt podřetězce) a _iterování_ (`for char in string`).
Délku stringu můžeme získat pomocí funkce `len()`.
Dále typ `str` představuje posloupnost, můžeme tedy používat _indexování_ znaků ve stringu a _slicing_ (viz cvičení 11).

__Poznámka:__ `my_string[i:j:k]` vybere každý `k`-tý znak na pozicích od `i` do `j-1` včetně.

In [15]:
my_string = "Everybody loves ZPRO with Python!"
print(my_string[2:25:4])
print(my_string[-2:-8:-1])

eolsRi
nohtyP


### Sčítání a násobení

Pro textové řetězce můžeme používat "aritmetické" operátory `+` a `*`.
Sčítání stringů je implementováno jako jejich skládání nebo _zřetězení_ (anglicky _concatenation_).
Při tom nezávisí na tom, jakým způsobem jsou jednotlivé sčítance zadány (tj. jaké uvozovky nebo escape sekvence jsou v kódu použity) – podstatná je jen hodnota jednotlivých stringů.

Navíc Python povoluje nevkládat operátor `+` mezi dva stringy zadané pomocí uvozovek (nikoliv mezi uvozovky ohraničující string a např. nějakou proměnnou).

Na rozdíl od některých dalších programovacích jazyků, Python nepovoluje přičítat k textu něco jiného než text. Před přičtením hodnoty jiného druhu ve smyslu skládání musíme tuto hodnotu nejprve převést na text.

In [16]:
print("Jedna" + """Dva""" + 'Tři' '''Čtyři''')
print("Jedna: " + str(1))
#print("Jedna: " + 1)      # TypeError
#print("Jedna" str(1))     # SyntaxError

JednaDvaTřiČtyři
Jedna: 1


Operátor `*` není definován pro dvojici stringů, ale jen pro string a __celé__ číslo (`int`).
Výsledkem bude text, v němž se textový činitel opakuje tolikrát, kolik je hodnota číselného činitele (na pořadí činitelů nezáleží).

In [17]:
print("abc" * 3)
print(2 * "abc")
#print(2.0 * "abc")    # TypeError

abcabcabc
abcabc


### Funkce `chr()` a `ord()`

Funkce `chr()` a `ord()` jsou vzájemně inverzní funkce, které můžeme používat pro jednoznakové řetězce.
`chr(i)` očekává celé číslo a vrátí string tvořený znakem s kódem `i`.
Aby se znak zobrazil, musí být definován v použitém fontu, jinak se zobrazí jen zástupný symbol.
Funkce `ord(c)` očekává string obsahující jeden znak a vrátí desítkový kód tohoto znaku ve znakové sadě Unicode.

In [18]:
print(chr(0x20ac))    # Znak euro
print(chr(0x1D120))   # Houslový klíč
print(ord("€"))

€
𝄠
8364


### Porovnávání a řazení stringů

Řetězce lze porovnávat pomocí standardních operátorů `==`, `!=`, `<`, `>`, `<=`, `>=`.
Porovnávání se uskutečňuje znak po znaku v pořadí zleva doprava podle kódů znaků se stejným indexem.
Jakmile znaky na stejných pozicích nebudou shodné, je za větší prohlášen ten text, v němž je znak s větším kódem.
Pokud už není co porovnávat, protože jeden ze stringů skončil, za větší je prohlášen ten druhý.

<div style="border-left: 5px solid orange; padding-left: 1em">
<p><strong>Poznámka:</strong>
I když popsaný algoritmus vypadá velmi podobně <em>lexikografickému uspořádání</em>, není to přesně tak. Např. v případě použití písmen s diakritikou nebo nepísmenných znaků můžeme dostat vůbec neočekávaný výsledek. Navíc celá sada velkých písmen latinky (bez diakritiky) se nachází před celou sadou odpovídajících malých písmen. To znamená, že libovolné velké písmeno je dle porovnávacího algoritmu _menší_ než libovolné malé písmeno. Budete-li chtít řadit texty podle pravidel nějakého jazyka, je potřeba vytvořit adaptovaný algoritmus nebo použít knihovnu, která rozumí pravidlům daného jazyka.</p>
</div>

Doplňte níže několik příkladů, které pomohou vyšetřovat "divné" výsledky porovnání stringů. Případně využijte funkci `ord()`, aby bylo zjevně vidět příčiny.

In [19]:
print("země" < "zelí")
print("Země" < "zelí")
print("acd" > 'ac' > "ab" > "a")

False
True
True


# Příklady

1. __Počet výskytů znaků.__ Napište funkci, která pro daný string spočte, kolikrát se v něm vyskytuje daný znak. Zatím nepoužívejte žádné metody třídy `str`.

In [None]:
def count_occurrences(text, c):
    ...

assert count_occurrences("abrakadabra", "a") == 5
assert count_occurrences("abrakadabra", "c") == 0
assert count_occurrences("", "a") == 0

2. __Samohlásky.__ Samohláskami v latinské abecedě jsou písmena A, E, I, O, U a Y. Jiná písmena si považujme za souhlásky. Napište funkci, který spočítá počet samohlásek v daném textu.

In [None]:
def count_vowels(text):
    ...

assert count_vowels("Eighty percent of success is showing up. Woody Allen") == 17

3. __Morseovka.__ Implementujte převod textu na morseovku a zpět pomocí slovníku `to_morse(text)`, `from_morse(text)`.

In [None]:
MORSE_CODE = {
    "A": ".-",      "B": "-...",    "C": "-.-.",    "D": "-..",
    "E": ".",       "F": "..-.",    "G": "--.",     "H": "....",
    "I": "..",      "J": ".---",    "K": "-.-",     "L": ".-..",
    "M": "--",      "N": "-.",      "O": "---",     "P": ".--.",
    "Q": "--.-",    "R": ".-.",     "S": "...",     "T": "-",
    "U": "..-",     "V": "...-",    "W": ".--",     "X": "-..-",
    "Y": "-.--",    "Z": "--..",    "1": ".----",   "2": "..---",
    "3": "...--",   "4": "....-",   "5": ".....",   "6": "-....",
    "7": "--...",   "8": "---..",   "9": "----.",   "0": "-----",
}

In [None]:
def to_morse(text):
    ...

print(to_morse("SOS"))

In [None]:
def from_morse(text):
    ...

print(from_morse(to_morse("SOS")))

4. __Palindrom.__ _Palindrom_ je posloupnost znaků, která se čte stejně pozpátku jako dopředu. Zjistěte, zda zadaný text je palindrom. Nezapomeňte, že mezera se při čtení neprojevuje. Naprogramujte funkci `is_palindrome(string)`, která vrátí `True`, pokud zadaný string je palindrom, a `False`, pokud není. K tomu je možné použit funkci z předchozího úkolu.

In [None]:
def is_palindrome(string):
    ...

assert is_palindrome("kobylamamalybok")
assert is_palindrome("kobylamamalyboky") == False

5. __Diagonála.__ Napište funkci `diagonal(string, lines_count)`, která vypíše zadáný uživatelem řetězec `string` šikmo do `lines_count` řádků:

```python
diagonal("abcdefgh", 2) -> 
a c e g
 b d f h

diagonal("abcdefgh", 3) ->
a d g
 b e h
  c f
```

In [None]:
def diagonal(string, lines_count):
    ...

diagonal("abcdefgh", 2)
diagonal("abcdefgh", 3)

6. __Heterogram.__ _Heterogram_ je slovo, v kterém každý znak se vyskytuje nejvýše jednou. Naprogramujte funkci `is_heterogram(slovo)`, která vrací `True` nebo `False` jako odpověď na otázku, je-li dané slovo heterogram.

In [None]:
def is_heterogram(string):
    ...
    
assert is_heterogram("abcdeb") == False
assert is_heterogram("abcde")

7. __Bláznivé křížení zvířat.__ Máme dva seznamy `s`, `t` s názvy zvířat. Napište funkci `merge_animals(s, t)`, která vytvoří nový seznam, který bude obsahovat "zkřížené" názvy zvířat tak, že z prvního názvu vezmeme vždy první polovinu a z druhého druhou polovinu. Např. `'hroch' a 'tigr' -> 'hrogr'`.

In [None]:
def merge_animals(s, t):
    ...

assert merge_animals(["hroch","potkan"],["žirafa","orangutan","lev"]) == ["hrafa", "potgutan"]

8. __Reverse.__ Napište funkci `reverse(string)`, která vezme textový řetězec a vrátí ho otočený.

In [None]:
def reverse(string):
    ...


9. __Periodické řetězce.__ Budeme říkat, že řetězec _má periodu_ $k$, pokud ho lze vytvořit zřetězením jednoho nebo více opakování jiného řetězce délky $k$. Např. řetězec `"abcabcabcabc"` má periodu 3, protože je tvořen 4 opakováními řetězce `"abc"`. Má také periody 6 (dvě opakování `"abcabc"`) a 12 (jedno opakování `"abcabcabcabc"`). Napište funkci, která určí nejmenší periodu zadaného řetězce.

In [None]:
def find_period(s):
    ...

assert find_period("abcabcabcabc")==3
assert find_period("abcabcabcabc ")==10