# Podmínky a větvení programu

## Pravdivostní hodnoty

Kromě číselných objektů podporuje Python i další třídy jednoduchých (tj. nesložených) objektů. Klíčovou roli hrají především tzv. logické resp. pravdivostní hodnoty (*logical, truth*). 

Logické hodnoty representují výsledek vyhodnocení tzv. výroku, tj. tvrzení, které je buď pravdivé nebo nepravdivé (v jednoduché logice může nastat právě jedna z těchto situací a žádná jiná). Z tohoto důvodu existují jen dvě pravdivostní hodnoty -- `True`, representující pravdivost a `False`  representující nepravdu (lež). Tyto hodnoty patří v Pythonu do jediné třídy označované `bool` (zkratka z označení boolovská (*boolean*) algebra, což je algebraický model dvouhodnotové logiky pojmenovaný podle anglického matematika George Boola).

Pravdivostní hodnoty jsou nejčastěji výsledkem vyhodnocení tzv. relačních operátorů, které umožňují zapisovat výroky o rovnosti, či identitě objektů resp. o jejich upořádání.

#### Relace rovnosti

Základním relačním operátorem je operátor rovnosti zapisovaný pomocí dvou rovnítek (jedno rovnítko má v Pythonu jiný význam, používá se pro přiřazení).  

In [1]:
2 == 3

False

Tento výrok je triviální, neboť jakékoliv celé číslo se rovná pouze samo sobě. Výroky porovnávající celá čísla mohou být i složitější, vlastní porovnání je však triviální (a zcela v souhlase s matematikou).

In [2]:
a = 3
b = 10
b % a == b - 3 * a  # výsledek ověřte

True

> Úkol: Pro několik čísel `n` ověřte, že platí $a^2 - b^2 = (a-b)\cdot(a+b)$

In [83]:
a = 2
b = 3
a**2 - b**2 == (a-b)*(a+b)

True

U necelých čísel rovnost závisí na interní representaci třídy `float`. Dvě `float` čísla jsou shodná, pokud mají stejnou representaci. To je ve většině případů ve shodě s matematickou definicí.

In [12]:
from math import *

print( pi == 22/7 )  # pi se skutečně nerovná tomuto zlomku
print( 1/3 == 2/6 ) # to by se rovnat mělo

False
True


Dozajista však už pro vás není překvapením, že výsledek může být občas z hlediska matematiky mírně řečeno překvapující:

In [8]:
3 * 0.1 == 0.3  # to v matematice platí (ve světě čísel `float` nikoliv)

False

In [9]:
x = 1e16
x + 1 == x   # to je naopak v matematice nepravda ( 0 ≠ 1)

True

Z tohoto důvodu se pro testování čísel třídy `float` často používá nasledující obrat:

In [19]:
x = sin(pi/4)  
y = sqrt(2)/2
epsilon = 1e-15

In [21]:
(abs(x-y) < epsilon)  # x a y je přibližně rovno (s chybou menší než zvolené epsilonT)

True

Přibližná nerovnost řeší většinu problémů s porovnáním čísla třídy `float`. V běžném světě stačí vědět, že 
$\sin\frac{\pi}{4}$  se od $\frac{\sqrt{2}}{2}$ liší méně než o zanedbatelných $10^{-15}$ (to že jsou zcela shodné by měl sice vědět každý středoškolák, ale i ti co si to pamatují to ve valné většině nedovedou dokázat).  Úplně dokonalé řešení to však není, neboť:

1. u komplexnějších výpočtů může být chyba výrazně větší než námi zvolené `epsilon`. Lze ho sice zvolit i větší, ale pak naopak můžeme označit za rovná i čísla, která by měla být rozdílná. Např. zvolíme-li `epsilon = 1e-10`, pak dokážeme, že gravitační konstanta je nulová a gravitační síla neexistuje!
2. přibližná nerovnost neřeší problémy s absolutní ztrátou klíčové informace, jako je tomu v případě pravdivosti výrazu `x + 1 == x`. I když se pokusíte k číslo `1e16` přičíst jedničku opakovaně (potenciálně i nekonečněkrát) stále jeho hodnotu nezvýšíte!
3. zápis není zdaleka tak elegantní a čitelný jako přímé porovnání (takže i zkušení programátoři navzdory nebezpečí dávají přednost běžnému porovnání).

Python nově obsahuje i funkci, která porovnání čísel typu `float` usnadňuje (je součástí modulu `math`). 

In [85]:
isclose(sin(pi/4), sqrt(2)/2)

True

Tato funkce je o něco inteligentnější než náš návrh.

> **Úkol:** podívejte se na dokumentaci funkce na https://docs.python.org/3/library/math.html
Proč je knihovní funkce lepší, než náš návrh.

Vestavěná funkce `isclose` počítá primárně relativní blízkost čísel (o kolik procent nebo platných číslic se liší). Lze je tak využívat i pro porovnání čísel různých řádů.

#### Ostatní relační operátory

Rovnost je základním relačním operátorem. Existují však samozřejmě i další (z nichž ten s operátorem `<` jsme již použili). Shrňme si je v tabulce:

| operátor | matem. zápis | význam                  |
|----------|--------------|-------------------------|
|   ==     |     =        | rovnost (equality)      |
|   !=     |    $\neq$    | nerovnost               |
|   >      |     <        | větší než               |
|   >=     |    $\geq$    | větší nebo rovno        |
|   <      |     >        | menší než               |
|   <=     |    $\leq$    | menší nebo rovno        |

Jejich použití je obdobné rovnosti. Pro celá čísla využivá přirozené uspořádání čísel. U čísel typu `float` je pouze rozumným přiblížením matematickým relacím a výsledky tak mohou být překvapivé resp. je nelze vůbec rozumně využít (u skutečně malých a skutečněvelkých čísel).

In [22]:
pi < 4

True

V Pythonu lze navíc nerovnosti řetězit, tj. lze psát podmínky typu $x < y \leq z$.

In [25]:
2 < 3 < 4 <= 4 < 6

True

A o trochu praktičtější příklad:

In [1]:
a = 0.0
b = 10.0
x = 10.0

# x leží v otevřeném intervalu (a,b) 
a < x <  b

False

In [2]:
# x leží v uzavřeném intervalu [a,b]
a <= x <= b

True

*Upozornění*: Z důvodů nepřesné representace je rozdíl mezi otevřenými a uzavřenými intervaly spíše kosmetický.
Oba zápisy (s operátorem `<` resp. `<=`) lze číst jako, dolní (resp. horní) mez je někde v (těsné) blízkosti  `a` resp. `b`.

#### Logické spojky

Testování přítomnosti bodu v intervalu lze alternativně zapsat i pomocí logoické spojky `and` (česky *a zároveň*).  Zápis je o něco delší a pro začátečníky i méně čitelný, je však použitelný téměř ve všech programovacích jazycích. 

In [11]:
# x leží v uzavřeném intervalu [a,b]
a <= x and  x <= b
# čteme a je menší než x a zároveň x je menší nebo rovno b (obě dílčí podmínky musí být splněny)

True

Při složitějších podmínkách je použití logických spojek nezbytností. Pokud chceme testovat zda číslo leží vně intervalu [a,b] (tj. výraz je pravdivý, pokud leží mimo), pak se logické spojce nevyhneme. Máme přitom hned několik možností.

In [5]:
# negace zřetězených relací
not (a <= x <= b)
# čteme: neplatí tvrzení, že a je menší nebo rovno než x, které je menší nebo rovno než b

False

In [7]:
# negace výrazu s logickou spojkou AND
not (a <= x and x <= b)

False

Nejjednodušší je však zápis využívající spojky OR (česky *nebo*):

In [9]:
x < a or x > b

False

Tuto podmínku lze vymyslet přímo. Číslo leží vně intervalu [a,b] pokud je menší než dolní mez nebo pokud je větší než horní mez (stačí splnění jedné dílčí podmínky). Podívejte se na obrázek.

![interval](interval-out.svg "oblast vně intervalu")

Lze ji však odvodit z podmínky $\neg (a\leq x \vee x \leq b)$ aplikací několika jednoduchých pravidel

1. De Morganův zákon: $\neg(a \vee b)$ je  ekvivalentní $\neg a \wedge \neg b$
   
   Porovnejme tvrzení: *není pravda, že krade a zároveň lže* s ekvivalentním tvrzení *nekrade nebo nelže*   (tj. jedno alespoň jednu věc nečiní).
   
   V našem případě dostaneme podmínku ```not(a <= x) or not(x <= b)```.
   
2. Využijeme skutečnosti, že negací relace `<=` je `>` (a opačně). Pozor skutečně neplatí, že negací ostré nerovnosti (např. menší než) je opačná ostrá nerovnost (např. větší než)! Negací ostré nerovnosti ($<$) je neostrá ($ \geq$) a vice versa.

   V našem případě dostaneme podmínku `a > x or x > b`.  První porovnání lze samozřejmě otočit, čímž dostaneme požadovaný tvar `x < a or x > b`.

*Řešený příklad*: Napište podmínku, která ověří, že celé číslo (`int`) označené identifikátorem `i` je kladné sudé číslo.

Testování kladnosti je snadné. Číslo je kladné pokud je (ostře) větší než 0. Na druhou stranu Python nemá vestavěnou funkci na testování sudosti, můžeme však vyjít z jednoduché definice, že číslo je sudé pokud je dělitelné dvěma beze zbytku (tj. zbytek pod celočíselném dělení dvěma je nula).

Obě podmínky spojíme logickou spojkou AND (číslo musí zároveň kladné i sudé).

In [16]:
i = 42   # náhodně zvolené číslo (zkuste jej změnit)
i > 0 and i % 2 == 0

True

Všimněte si priority operací. Nejvyšší prioritu mají aritmetické operace (zde je to zbytek po dělení), pak se provedou relační operátory a nakonec se provede operátor s nejnižší prioritou – logická spojka AND.

[konec příkladu]

> **Úkol:** Napište výraz, který ověří, že číslo označené proměnou `x` je nezáporné ($\ge 0$) jen za použití operátoru rovnosti (rada: použijte elementární funkci).

In [88]:
x = 2.0
abs(x) == x

True

## Speciální hodnoty (ne-hodnoty)

Kromě běžných hodnot (objektů), které representují reálné objekty dané třídy existují v Pythonu hodnoty, které representují neexistenci hodnoty resp. její nedostupnost.

#### Hodnota `None`

Základní nehodnotou je `None`.  (Ne)hodnota `None` může být interpretována jako neexistující hodnota libovolné třídy (resp. dokonce jako hodnota bez určení třídy či mimo jakoukoliv rozumnou třídu).

In [18]:
i = None

Proměnná `i` nyní sice existuje, označuje však hodnotu, která representuje "nic". Méně kostrbatě: existuje, ale nic neoznačuje.

`None` nejčastěji vyjadřuje dva významy:

1.  Hodnota není dostupná (not available), například rok založení Prahy
2.  Hodnota není aplikovatelná (například spotřeba paliva u elektromobilu)

S hodnotou `None` lze provádět jen jedinou operaci, porovnávat ji samu se sebou nebo s ostatními hodnotami (libovolné třídy). `None` je nicméně rovna jen sama sobě. Proto je efektivnější testovat `None` na identitu a nikoliv na rovnost (existuje jen jeden objekt `None`).

Identita je nejstriktnějším typem rovnosti, neboť dva objekty jsou identické, pokud zaujímají stejné místo v paměti (resp. abstraktněji v časoprostoru).

Rozdíl mezi identitou a rovností lze vysvětlit i na příkladu z běžného světa. Každá bankovka 100 Kč je rovna jakékoliv bankovce 100 Kč (z hlediska hlavního použití, jímž je placení). Můžeme navrhnout i striktnější definici rovnosti (shody) bankovek. Bankovky jsou rovné, pokud nesou stejný identifikátor (tj. číslo bankovky). Nocměné nelze zcela vyloučit situaci, kdy uvidíte najednou dvě bankovky se stejným číslem, které leží vedle sebe (tj. zaujímají různé místo v prostoru). Je zřejmé, že i když jsou podle všech kritérii shodné, nejsou identické.

In [19]:
i == None # testování rovnosti (funguje, ale je pomalé)

True

In [20]:
i is None # doporučené testování, zda je hodnota None

True

Operátor `is` testuje zde je levý operand identický s pravým. V Pythonu se příliš nepoužívá, neboť ve většině případů je důležitější běžná rovnost. Výjimkou jsou jen některé speciální objekty (včetně `None`).

Pokud například použijeme test identity na celá čísla, můžeme získat dosti překvapivé a na zdánlivě rozporné výsledky.

In [24]:
2 is (1 + 1)

True

In [25]:
(2 ** 100) is (2 ** 100)

False

V případě malých čísel platí, že jsou-li výsledky operací rovné pak jsou i identické. Důvodem je skutečnost, že Python šetří paměť tím, že v případě malých čísel uchovává jen jednu kopii celého čísla (často existuje již od okamžiku spuštění programu a nikdy není uvolněno). U velkých čísel je však dlouhodobé uchovávání čísel neefektivní a tak se tyto objekty chovají podle základního modelu. Při výpočtu vznikají vždy nové a poté co je nikdo neodkazuje dochází k destrukci.

> **Úkol**: Oveřte co jsou ve Vašem Pythonu malá a velká čísla (vzhledem k identitě nově vzniklých objektů).

In [93]:
(255 + 1) is (255 + 1)  # poslední "malé" číslo (ve vašem překladači to může být i jiné)

True

O tom jaký přístup ke sdílení čísel bude zvolen rozhoduje překladač a může záviset i na vnějších parametrech (např. velikost operační paměti). Nelze jej proto predikovat a využívat v programu (např. pro urychlení). Důsledek je proto zřejmý: **nikdy nepoužívejte operátor `is` pro testování rovnosti čísel**.

Porovnání (resp. testování identity) je jedinou operací, kterou lze s hodnotou `None` rozumně provádět. Lze ji sice vypsat funkcí `print`, avšak výstupy se mohou lišit podle použitého Pythonu.

In [33]:
print(None)

None


Ostatní operace vyvolají výjimku (tj. výpočet či program se ani nedokončí).

In [35]:
x = None
x + x

TypeError: unsupported operand type(s) for +: 'NoneType' and 'NoneType'

#### Hodnota NaN

V případě čísel v pohyblivé řádové čárce existuje ještě jedna speciální hodnota primárně representující neplatný výsledek některých matematických operací. Tato hodnota je označovabná jako `NaN` tj. *Not A Number*.

In [40]:
import math

x = math.nan

Hodnota `NaN` se chová jako numerická hodnota, která není číslem (to není kontradikce). Patří do třídy `float` a lze na ní aplikovat běžné aritmetické operace.

In [43]:
x + x * x

nan

Výsledkem těchto operací je však vždy opět `NaN` (tj. `NaN` se šíří jako epidemie).  Tp platí i pro funkce z modulu `math`.

In [45]:
math.sin(x)

nan

S `NaN` se proto v případě číslených hodnot pracuje povětšinou lépe než s hodnotou `None` (ta se nešíří, způsobuje rovnou výjimku a tím i potenciální nebezpečí ukončení porogramu). I ona však má své mouchy. Lze ji sice porovnat s libovolným číslem třídy `float` (resp. i `int` po přizpůsobení typu). Platí však, že se nerovná žádnému objektu a dokonce ani sama sobě! Je to jediná Pythonská hodnota s tímto podivným chováním.

In [46]:
math.nan == math.nan

False

Zde nepomůže ani testování identity. To sice může vrátit `True`, to je však jen implementační detail, který navíc narušuje základní elementární tvrzení: pokud nejsou objekty shodné (rovné) pak nemohou být ani identické. Jediným košer způsobem testování, zda není numerická hodnota rovna `NaN` je funkce `math.isnan`.

In [49]:
math.isnan(x)

True

## Větvení programu

Výrazy vracející pravdivostní hodnoty (podmínky) jsou nejčastěji využívány pro tzv. větvení programu, tj. k vykonání určitého kódu jen za určité situace.

Podmíněné vykonání určité činnosti je samozřejmě známé i z běžného života. Naobědvám se, jen tehdy pokud mám hlad (peníze, čas). Ožením/vdám se, pokud někoho miluji (chci ušetřit na daních, potřebuji získat občanství). 

Podmínky v případě počítačového kódu jsou běžně výrazně jednodušší, avšak stejně jako v reálném životě tvoří podmíněné konstrukce podstatnou část programu.

#### Příkaz if

Základní větvící konstrukcí je příkaz `if`, který umožňuje podmíněně vykonávat příkazy (typicky přiřazení, vstupy a výstupy). 
Příkaz `if` si ukážeme na jednoduchém příkladě. Nejdříve však v si rámci přípravy vypíšeme aktuální verzi Pythonu. Využijeme proměnnou `version_info`, která je poskytována modulem `sys` (zkratka za *běhový **systém***).

In [60]:
import sys  # iportování modulu 

sys.version_info

sys.version_info(major=3, minor=6, micro=3, releaselevel='final', serial=0)

Výsledkem je složitý objekt, který obsahuje detailní informaci o verzi aktuálního překladače. Kromě hlavní verze (*major*) obsahuje i číslo dílčí verze (*minor*) a další ještě detailnější údaje. Pokud chceme získat jen hlavní verzi, stačí získat tzv. atribut objektu, uvedením jeho jména za tečkou.

Zápis čteme takto: z modulu `sys` (první tečka) použij proměnnou `version_info`, která odkazuje na objekt, který má atribut se jménem `major`. Atribut odkazuje číselný `int` objekt (jehož hodnota bude vypsána).

In [61]:
sys.version_info.major

3

Nyní již k příkazu `if`, který na základě hodnoty výše uvedeného atributu větví program do dvou větví, z nichž jedna vypíše text *"Používáte správný Python!"* a druhá text *"Používáte zastaralou verzi Pythonu".*

In [62]:
if sys.version_info.major >= 3:
    print("Používáte správný Python!")
else:
    print("Používáte zastaralou verzi Pythonu")

Používáte správný Python!


Nejdříve k **syntaxi** (tj. zápisu) příkazu `if`.

Příkaz `if` začíná klíčovým slovem `if`, za nímž následuje podmínka (tj. výraz, který se vyhodnotí na pravdivostní hodnotu, buď `True` nebo `False`). Poté následuje znak dvojtečky. Tento znak v Pythonu jednoznačně signalizuje, že bude následovat tzv. vnořený blok příkazů.

**Blok příkazů** obsahuje jeden nebo několik příkazů, které tvoří určitý celek. Bloky se v Pythonu definují pomocí odsazení (tj. určitého počtu mezer na začátku řádku). První příkaz v bloku má alespoň o jednu mezeru větší odsazení než předchozí řádek (s dvojtečkou na konci patřící do nadřazeného bloku) tj. je vizuálně více vpravo. Ostatní příkazy v bloku mají stejné odsazení (tj. jsou zarovnány pod sebou). Uvnitř bloku mohou být vnořené bloky (ještě více odsazené). Konec bloku je signalizován návratem k odsazení vnějšího bloku (tj.text je opět méně odsazen tj, začíná víc vlevo). Blok je samozřejmě ukončen i dosažením konce programu.

Zní to složitě, ale je to zcela přirozené. Každým dalším odsazením se dostáváte do hlouběji zanořených bloků, z nichž se pak můžete vracet na vyšší úrovně do nadřazených bloků.

V našem případě je vnořený (osazený) blok tvořen jediným příkazem, který tvoří jednu z větví příkazu `if`.

Poté následuje klíčové slovo `else`, které patří do stejného bloku jako `if`, není tudíž odsazeno. I tento řádek je ukončen dvojtečkou takže lze očekávat, že bude následovat nový vnořený blok, odsazený více vpravo (většina specializovaných editorů včetně Jupyteru proto odsazení vloží automaticky). Tento blok tvoří druhou větev příkazu `if`.

Obecnou syntaxi příkazu `if` tak lze zapsat například takto:

```
if podmínka:
    blok-then
else:
    blok-else
```

Po vyčerpávajícím popisu syntaxe se nyní přesuneme k **sémantice**, tj. k popisu chování konstrukce `if` za běhu aplikace.

Nejdříve dojde k vyhodnocení podmínky. V nejjednodušším případě se podmínka vyhodnotí na objekt třídy `bool`. Tak je tomu i v našem případě, kdy se testuje, zda je hlavní číslo verze větší, nebo rovno třem. 

Pokud je výsledkem `True` (což by mělo platit), pak se vykonají příkazy pouze v prvním vnořeném bloku `blok-then` (následuje za řádkem s `if`). V našem případě se vypíše text *"Používáte správný Python!"* (to by mělo skutečně nastat). 

V opačném případě (podmínka je vyhodnocena na `false`) se vykonají příkazy druhého vnořeného bloku tj. `blok-else`. V našem příkladě se vykoná příkaz `print` vypisující text "Používáte zastaralou verzi Pythonu".

Všimněte si, že bez ohledu na pravdivost podmínky se provede právě jedna z větví (vnořených bloků) příkazu `if`. Nikdy se neprovedou obě dvě, resp. nehrozí, že by se neprovedla žádná z nich.


> **Úkol**:

> Upravte podmínku předchozího příkazu `if` tak, aby testovala zda je využita verze 3.6 resp. novější (správný Python) a nikoliv verze 3.5 a nižší (zastaralý Python). 

> Rada: 
Je nutné, aby to fungovalo i pro případné nové hlavní verze v budoucnosti např. 4.1 nebo 5.0.
Zkuste využít sumární verzi Pythonu například podle vzorce `major * 100 + minor` (vedlejší verze jsou vždy menší než 100).

In [95]:
import sys

if sys.version_info.major * 100 + sys.version_info.minor >= 306:
    print("Verze použitého Pythonu je vyšší nebo rovna 3.6")
else:
    print("Verze použitého Pythonu je menší než 3.6")

Verze použitého Pythonu je vyšší nebo rovna 3.6


Příkaz `if` je jedním z klíčových konstrukcí jazyka Python, takže si uveďmě ještě několik jeho příkladů. Nejdříve si vypočteme trochu divný dvojnásobek celého čísla. Je-li vstupní číslo $x$ sudé, je vypsán skutečný dvojnásobek $2x$, u lichého čísla je vypsána hodnota $2x - 1$ (výsledek tedy zachovává sudost a lichost).

In [9]:
x = int(input("Zadej celé číslo: "))
if x % 2 == 0:  # je-li x sudé
    x *= 2
else: # je-li liché
    x = x*2 - 1
print(x)

Zadej celé číslo: 27246426228428246248262
54492852456856492496524


#### Vstup z konzole (vstupního pole)

Ukázkový program začíná přečtením textu z textového (konzolového) vstupu pomocí vestavěné metody `input`. V případě, že je tato funkce použita v Jupyter notebooku, pak se po každém vyhodnocení vstupní buňky (Ctrl+Shift) objeví vstupní pole, do něhož je možno zadat vstup do programu. Před vstupní pole se napíše text, který je parametrem funkce `input` tzv. výzva (angl. *prompt*).

Výsledkem vyhodnocení funkce `input` je textový objekt, nikoliv číslo (obecně lze totiž zadat zcela libovolný text). Proto je na výsledek funkce `input` zavolána (vestavěná) funkce `int`, která se jakýkoliv rozumný objekt pokusí převést na celé číslo (už jsme se s ní setkali dříve, kdy jsme ji používaly na převod z čísla třídy `float`).

V případě volání na textový objekt (v programátorském slangu na řetězec) je text interpretován jako desítkový zápis nějakého čísla. Výsledkem je interní representace tohoto čísla tj. objekt třídy `int`. Pokud text obsahuje nepřípustné znaky (písmena či např. mezery), je vyvolána výjimka (a výpočet se tudíž nedokončí).

Po načtení následuje větvení programu. Pokud je hodnota označená proměnnou `x` sudá (tj. zbytek po dělení dvěma je roven nula) pak je tato hodnota zdvojnásobena a výsledek je odkazován toutéž proměnnou (složené přiřazení).V opačném případě (větev `else`) je nová hodnota proměnné `x` rovna `2*x - 1` .

Po skončení konstrukce `if` (končí druhý odsazený blok, a následně již není žádné odsazení) je (nepodmíněně) vypsána nová hodnota proměnné `x`.

Vyzkoušejte různé vstupní hodnoty (malá i obrovská celá čísla), neplatný vstup (texty s písmeny, apod.) 

**Poznámka**: Předchozí kód je prvním "skutečným" počítačovým programem v tomto textu. Veškerý předchozí kód vracel vždy stejné výsledky při každém spuštění (tj. vyhodnocení). Takový kód lze vyhodnotit i na jednoduché (tj. neprogramovatelné) kalkulačce. Zahrnutím vstupu jsme toto základní omezení překonali a vytvořili, něco co je vícekrát použitelné. Zatím je to spíše potenciál (po ověření funkce pro různé vstupy, pravděpodobně již nikdy daný kód znovu nespustíte), ale je to ten příslovečný *první krok*.

*Řešený příklad*

Náledující program je o malinko složitější, i když stále nepříliš použitelný. Vyžádá si vstup dvou čísel, a nakonec vypíše, které z nich je větší (tj, je to tzv. maximum). Vstupem mohou být tentokráte čísla i desetinnou části (i když na druhé straně omezená na rozsah cca $-10^{308}$ až $10^{308}$.

In [2]:
x = float(input("x: "))
y = float(input("y: "))

if x > y:
    m = x
else:
    m = y
print(f"Maximum je", m)

x: 3
y: 6
Maximum je 6.0


Pro vstup textu je použita opět funkce `input` (dvakrát). Vložený text je však tentokrát převeden na číslo třídy `float` pomocí stejnojmenné funkce. Vstupní hodnoty jsou označeny proměnnými `x` a `y` (v tomto pořadí). 

Následně je vyhodnocena podmínka zda je první číslo (označené proměnnou `x`) větší než číslo druhé (proměnná `y`). Pokud tomu tak je, je číslo se štítkem `x` označeno i štítkem `m` (tj.přiřazeno do proměnné `m`).

V opačném případě (druhé číslo je větší nebo rovno [!] prvnímu) je štítkem `m` označeno druhé číslo. Pokud je větší je zřejmé proč (je to určitě maximum). Pokud jsou obě čísla rovna, pak je jedno, které z nich bude označeno za maximum.

Výsledek (tj. číslo označené proměnnou `m`) je vypsán pomocí funkce `print`. Ta je volána se dvěma parametry, které postupně vypisuje. Prvním je text (řetězec) a druhým číslo (objekt označený proměnnou `m`). Všimněte si, že mezi oba výstupy se automaticky vkládá mezera.

[konec řešeného příkladu]



Nyní však na chvíli opusťme řídící konstrukce a zaměřme se právě na základní možnosti zpracování textů v Pythonu.

Pro vstup textu je použita opět funkce `input` (dvakrát). Vložený text je však tentokrát převeden na číslo třídy `float` pomocí stejnojmenné funkce. Vstupní hodnoty jsou označeny proměnnými `x` a `y` (v tomto pořadí). 

Následně je vyhodnocena podmínka zda je první číslo (označené proměnnou `x`) větší než číslo druhé (proměnná `y`). Pokud tomu tak je, je číslo se štítkem `x` označeno i štítkem `m` (tj.přiřazeno do proměnné `m`).

V opačném případě (druhé číslo je větší nebo rovno [!] prvnímu) je štítkem `m` označeno druhé číslo. Pokud je větší je zřejmé proč (je to určitě maximum). Pokud jsou obě čísla rovna, pak je jedno, které z nich bude označeno za maximum.

Výsledek (tj. číslo označené proměnnou `m`) je vypsán pomocí funkce `print`. Ta je volána se dvěma parametry, které postupně vypisuje. Prvním je text (řetězec) a druhým číslo (objekt označený proměnnou `m`). Všimněte si, že mezi oba výstupy se automaticky vkládá mezera.

[konec řešeného příkladu]

#### Příkaz `if` s jednou větví 

V příkazu `if` lze vynechat větev `else`, pokud se v této větvi nemusí nic provádět. Typicky se této konstrukce využívá v případě podmíněného výstupu (výstup se provede jen v případě jisté podmínky) nebo při podmíněném ukončení programu (resp. i jiných konstrukcí).

In [38]:
cislo = int(input())
if cislo == 42:  # pokud je to hledané číslo
    print("Bingo")  # vypíše se text `Bingo`
# v opačném případě se nevypíše nic (větev `else` chybí)

42
Bingo


#### Výjimky

Při programování někdy nastanou situace, které nelze jednoduše vyřešit. Uživatel zadá neplatnou hodnotu, chybí prostředky pro provedení dané činnosti (například neexistuje vstupní soubor, chybí připojení k Internetu, dojde k abolutní ztrátě přesnosti, apod.). 

V tomto případě existuje jen jedna správná reakce — vyvolání **výjimky**. Program je přerušen, a pokud kód vyšší úrovně na výjimku nezareaguje, je nakonec i ukončen (s chybovým hlášením). S výjimkami jsme se již setkali, prozatím však vznikaly automaticky v knihovním kódu (tj. kódu nižší úrovně, který jste nenapsali jen ho pasivně využíváte). Výjimky však můžete vyvolávat (spouštět) i sami.

Vyvoláním výjimky se v zásadě zbavujete odpovědnosti za příslušný problém (a přenášíte jej na někoho dalšího, v případě ukončení programu je to uživatel programu). Pokud je problém způsoben vnějšími okolnostmi (chybný vstup, nedostatek prostředků, apod.) je to to nejlepší řešení. Pokud byste problém řešili, pak by se program zbytečně komplikoval a stal se závislým na okolnostech, které nemůžete ovlivnit (například na mechanismu interakce s uživatelem). Platí prosté: **pokud máte problém, který nelze v daném místě vyřešit, pak vyvolejte výjimku.**

PS: Je zřejmé, že pokud je problém ve Vás (například nevíte, jak něco naprogramovat) a děje se to při každém spuštění programu, pak vyvolání výjimky nic nevyřeší (hlavně pokud program vytváříte sami). 

A nyní prakticky. Výjimka se vyvolá příkazem `raise` za nímž následuje konstrukce objektu, který nese informaci o tom co se stalo (resp. co se nestalo). Prozatím budeme využívat jen objekty třídy `Exception` (*exception* je angl. výjimka). Vyvolání výjimky je často uvedeno v jednovětvém příkazu `if`, kde podmínka testuje, zda nastal daný problém. 

In [41]:
hmotnost = float(input("Zadejte hmotnost předmětu: "))
if hmotnost < 0:  # váš program neumí stejně jako fyzika pracovat se zápornými hmotnostmi
    raise Exception("Záporná hmotnost")  # a pokud to nastane, pak to dále neřešíte (někdo to musí vyřešit za Vás)

Zadejte hmotnost předmětu: -3


Exception: Záporná hmotnost

Nyní však na chvíli opusťme řídící konstrukce a zaměřme se na základní možnosti zpracování textů v Pythonu.


 # Řetězce

Jako řetezce v Pythonu označujeme objekty, které representují texty (což nění nic jiného než libovolná posloupnost znaků). Řetězce jsou instancemi třídy `str` (zkratka za anglické `string` pro než se již od počátků programování v Čechách vžil překlad *řetězec*).

Nejjednoduším způsobem jak vytvořit nový řetězec je napsat ho přímo do programu. Aby se však odlišil od ostatního kódu musí být z obou stran opatřen uvozovkami nebo apostrofy (obě možnosti jsou plně ekvivalentní). Vymezující znaky do vlastního řetězce nepatří (proto jsou i při použití uvozovek na výstup vidět apostrofy, i zde hrají jen pomocnou roli)

In [3]:
"Toto je řetězec, který vznikne, je vypsán a poté zanikne

'Toto je řetězec, který vznikne, je vypsán a poté zanikne'

In [4]:
'Toto je jiný řetězec, který je uzavřen v apostrofech'

'Toto je jiný řetězec, který je uzavřen v apostrofech'

Záleží jen na Vás, zda dáte přednost apostrofům nebo uvozovkám (já jsa odkojen programovacím jazykem Pascal preferuji uvozovky). V každém případě doporučuji jednotnost s výjimkou speciálních případů. Například, pokud řetězec obsahuje uvozovky pak se snadněji píše omezený apostrofy (a vice versa).

In [5]:
'A bůh řekl: "Budiž světlo!"'

'A bůh řekl: "Budiž světlo!"'

V běžném pythoním řetězci mohou být v zásadě jakékoliv znaky, kromě omezovačů (tj.znaků, které je omezují) a znaku odřádkování. Speciální význam má i znak zpětného lomítka `\`, které tak nelze uvést přímo.

Znak lomítko se používá pro zápis tzv. escape sekvencí, což je skupina několika znaků, která však realizuje znak jediný. V praxi stačí znát jen několik těchto escape sekvencí:

\n :  znak nového řádku (odřádkování)   
\t :  znak tabulátoru   
\\ :  znak zpětného lomítka   
\" :  znak uvozovky   
\' :  znak apostrofu

In [12]:
print("Řetězec s odřádkováním\n toto je už druhý řádek a tabulátorem \t ...")

Řetězec s odřádkováním
 toto je už druhý řádek a tabulátorem 	 ...


In [10]:
print('Tento řetězec obsahuje "nebezpečné" znaky jako je \' (apostrof) a \\ (zpětné lomítko)')

Tento řetězec obsahuje "nebezpečné" znaky jako je ' (apostrof) a \ zpětné lomítko


#### Formátované řetězce (interpolace výrazů)

Python podporuje kromě běžného zápisu řetězců i několik dalších. Ty se liší uvedením klíčového znaku před počáteční uvozovkou resp. apostrofem.

Nejužitěčnější jsou tzv. formátované řetězce, které v zápise řetězců umožňují tzv. interpolace výrazů. Pokud do těchto řetězců zapíšeme výraz ve složených závorkách, pak je tento výraz nahrazen svým výsledkem v textové podobě. Formátované řetězce musí začínat znakem `f`:

In [13]:
f"1 + 1 = {1+1}"

'1 + 1 = 2'

Všimněte si, jak byl výraz `{1+1}` nahrazen svou hodnotou. Formátované řetezce se hodí pro formátování textového výstupu ve funkci `print` (obecně při jakémkoliv typu výstupu):

In [17]:
from math import *

r = float(input("Zadej poloměr koule v metrech: "))
v = 4/3*r**3  # spočítáme objem podle známého vzorečku
print(f"Objem koule je {v} m^3, což je {1000*v} litrů")

Zadej poloměr koule v metrech: 1
Objem koule je 1.3333333333333333 m^3, což je 1333.3333333333333 litrů


Výsledek je přehledný, až na zbytečný počet desetinných míst (je málo pravděpodobné, že poloměr koule mám změřenu s přesností femtometrů). Interpolace naštěstí umožňují specifikovat i výstupní formát interpolovaných číselm pomocí speciálního formátovacího jazyka. Pro Vás jako začátečníky stačí znát jen dva základní formáty (formáty jsou určeny jediným tzv, formátovacím znakem):

*Univerzální formát `g`*: vypisuje desetinné číslo se zadaným počtem desetinných místm a to preferovaně v běžném tvaru (bez exponentu). Pouze čísla, pro něž je exponenciální tvar stručnější resp. lépe vyjadřuje počet platných číslic, jsou zobrazována s exponentem. Hodí se pro výstupy určené pro lidi (nejlépe přírodovědce):

V tomto formátu lze specifikovat i počet platných číslic míst (nikoliv desetinných!). 

In [31]:
c = 299_792_458.0
au = 149_597_871e3  # vzdálenost Slunce-Země
print(f"Rychlost světla je {c:.3g} m/s, tj. doba letu světla od Slunce k Zemi je cca {au/c:.3g} sekund")


Rychlost světla je 3e+08 m/s, tj. doba letu světla od Slunce k Zemi je cca 499 sekund


Jak lze vidět, formát se zadává uvnitř interpolačních složených závorek a to za příslušný výraz a je oddělený dvojtečkou. Vlastní formát začíná nepovinnou specifikací počtu platných číslic (jenž je sám tvořený znakem tečka a číslem udávajícím daný počet). Na konci formátu je formátovací znak tj. zde `g`.

Velká číslo (rychlost světla) je zobrazeno v exponenciální tvaru zaokrouhlené na tři platné číslice (jsou to číslice 3,0,0, koncové nuly po desetinné tečce se v tomto formátu nezobrazují). Čas letu světla je malé číslo, a tak se zobrazuje bez exponentu právě na 3 platné číslice.

*Úkol*: Zkuste zvýšit resp. snížit počet platných číslic na 4 resp. 2. Proč se v případě dvou platných čísel čas zobrazuje jako `5e2` (přestože je to malé číslo)?.

*Fixní formát `f`*: vždy vypisuje číslo v neexponenciálním tvaru (i když je velké či blízké nule). Hodí se například pro finanční částky.

Číslo za tečkou ve formátu specifikuje v tomto případě počet (povinných) číslic za desetinnou tečkou.

In [40]:
gdp = 193.5e9

print(f"HDP ČR je {gdp:.2f}")

HDP ČR je 193500000000.00


I když je HDP české republiky velké číslo je zobrazeno bez použití exponenciálního zápisu a s dvěma desetinnými místy (je v zásadě vyjádřitelný v haléřích).

Pokud chceme v tomto formátu použít oddělovač tisíců, pak stačí použít znak "," na začátku formátu (oddělovač čárka se využívá v angličtině, nastavení pro češtinu je složitější).

In [43]:
gdp = 193.5e9

print(f"HDP ČR je {gdp:,.2f}")

HDP ČR je 193,500,000,000.00


>**Úkol**: Vypište v základním tvaru (tj. bez použití indexu) největší číslo representovatelné typem `float`. Použijte atribut `max` objektu `sys.float_info`, kde `sys` je jméno modulu (pro přehlednost použijte oddělovače tisíců). Pak číslo přečtete :) 

In [49]:
import sys

max = sys.float_info.max 
print(f"Největší 'float' číslo je {max:,.0f}")

Největší 'float' číslo je 179,769,313,486,231,570,814,527,423,731,704,356,798,070,567,525,844,996,598,917,476,803,157,260,780,028,538,760,589,558,632,766,878,171,540,458,953,514,382,464,234,321,326,889,464,182,768,467,546,703,537,516,986,049,910,576,551,282,076,245,490,090,389,328,944,075,868,508,455,133,942,304,583,236,903,222,948,165,808,559,332,123,348,274,797,826,204,144,723,168,738,177,180,919,299,881,250,404,026,184,124,858,368


**Řešený příklad**:
Vytvořte skript, který pro místo na zadaných geografických souřadnicí vrátí jeho vzdálenost od centra kampusus UJEP. Pozornost soustřeďte na formátování výstupu (pro geo-souřadnice zvolte formát DD°MM.M', pro vzdálenost přesnost na desetiny kilometrů).

Pro výpočet vzdálenosti použijte tento vztah:
    
$d=\arccos\bigl(\sin\phi_1\cdot\sin\phi_2+\cos\phi_1\cdot\cos\phi_2\cdot\cos(\Delta\lambda)\bigr)$.

In [52]:
# vstupy
r = 6371 # poloměr Země v km viz 
f1 = 50.6654175  # zeměpisná šířka UJEP
l1 = 14.024250   # zeměpisná délka UJEP
f2 = float(input("Zem. šířka místa: "))
l2 = float(input("Zem. délka místa: "))

f2stupne = int(f2)  # celá část (stupně) úhlu
f2minuty = abs((f2 - f2stupne) * 60.0) # minuty

l2stupne = int(l2)
l2minuty = abs((l2 - l2stupne) * 60.0)

d = r * acos(sin(radians(f1)) * sin(radians(f2)) 
                + cos(radians(f1)) * cos(radians(f2)) * cos(radians(l2 - l1)))
print(f"Místo se souřadnicemi {f2stupne}°{f2minuty:.1f}' z.š. a {l2stupne}°{l2minuty:.1f}' z.d." +
      f" je vzdáleno {d:.1f} km od UJEP")           

Zem. šířka místa: 50
Zem. délka místa: 15
Místo se souřadnicemi 50°0.0' z.š. a 15°0.0' z.d. je vzdáleno 101.3 km od UJEP



## Operace s řetězci

Nejjednodušší operací nad řetězcem je zjištění jeho délky, tj. počtu znaků v řetězci. Python obsahuje vestavěnou funkci `len` (zkratka za *length*), která vrací délku u všech objektů, u nichž to má smysl (tj. skládají se z nějakého počtu elementárnějších částí)

In [1]:
len("Geralt")

6

In [2]:
len("")  # délka prázdného řetězce

0

Téměř veškeré další manipulace s řetězci lze provádět pomocí tří základních operací: skládání (= spojování) řetězců, indexace (získávání) podřetězců (= souvislých fragmentů řetězů) a hledání podřetězců (i když ne vždy je to nejjednodušší a nejefektivnější).

Řetězce jsou v Pythonu **striktně neměnnými** objekty, tj. žádnou operací nelze změnit obsah řetězce. To se týká i dvou základních operací,

#### Skládání řetězců
Skládání řetězců se zapisuje pomocí operace `+`.

In [53]:
"Frodo" + "Pytlík"

'FrodoPytlík'

Výsledkem operace je nový objekt: řetězec obsahující všechny znaky levého operandu (řetězce vlevo od operátoru `+`) následované znaky pravého operandu (bez jakéhokoliv oddělení).

Skádání dvou přímo zadaných řetězců není příliš užitečné (spojit dva řetězce není na rozdíl od číslené aritmetiky nevyžaduje kalkulačku v hlavě nebo na papíře). Praktičtější využití nabízí následující miniprogram (zadejte si prosím Vaše skutečná jména).

In [54]:
jmeno = input("Vaše křestní jméno: ")
prijmeni = input("Vaše příjmení: ")

celeJmeno = jmeno + " " + prijmeni # spojení tří řetězců
print(f"Vaše celé jméno je {celeJmeno}")

Vaše křestní jméno: Jiří
Vaše příjmení: Fišer
Vaše celé jméno je Jiří Fišer


#### Indexace

Pro získání podřetězce se v Pythonu používá tzv. **indexace**. Na objekt řetězce se aplikuje index v hranatých závorkách. Nejjednodušším indexem je kladné celé číslo.

In [58]:
s = "Samvěd"
s[1]

'a'

Jak lze vidět tak v tomto případě se vrací podřetězec tvořený jediným znakem a to znak na pozici určené indexem. První znak má pozici 0, druhý pozici 1, atd. V našem případě (index = 1) je tedy vrácen řetězec obsahující znak `a`.

Indexování od nuly může být na první pohled překvapivé a poněkud ztěžuje komunikaci programátorů, neboť lidé preferují počítání od jedné. Třetí znak tak má index 2, a desátý index 9 (obecně n-tý znak má index $n-1$). Je však pro počítače přirozenější a má i další výhody a proto se v programovacích jazycích běžně využívá (jsou však i jazyky, ve kterých zvítězil lidský resp. matematický pohled).

Python je zde však důsledný: **ve všech kontextech (nikoliv jen při počítání znaků) se používají indexy počínající nulou**.

Poslední použitelný index je proto roven délce řetězce bez jedné.

In [59]:
s[5]  # poslední znak šestiznakového řetezce

'd'

Pokud použijeme (omylem) větší index je vyvolána výjimka (a program předčasně končí), Všimněte si, že výjimka informuje o příčině potíží.

In [60]:
s[6]

IndexError: string index out of range

Co se však stane, pokud použijeme záporný index (celé číslo může být i záporné).

In [62]:
s[-1]

'd'

Kupodivu, výjimka nevznikla. Python totiž využívá záporné indexy pro indexování od konce (u řetezců od posledního znaku). Poslední znak má index -1 (bez ohledu na délku řetězce), předposlední -2 atd.

In [64]:
s[-6]  # šestý od konce (což je u šestiznakového řetězce první znak)

'S'

#### Výřezy

U získávání jednotlivých znaků však indexace v Pythonu nekončí. Lze získat i delší podřetězce pomocí tzv. výřezů (angl. *slice*).

In [65]:
s[1:3]

'am'

Výřez se skládá ze dvou celých čísel oddělených dvojtečkou. První určuje index prvního znaku podřetězce (opět se indexuje od nuly!). Druhé číslo nicméně neurčuje index posledního znaku, ale index prvního znaku, který už v podřetězci neleží (tj. chápe se jako hraniční pozice vyjma

Zápis 1:3 tedy vyjadřuje pozice od indexu 1 (včetně) do indexu 3 (vyjma) tj. dvě pozice (= dva znaky po indexaci). Délka výsledného řetězce je vždy horní\_mez - dolní\_mez.

In [67]:
s[1:4]  # 3 znaky od druhého (index 0) do pátého (index 4) vyjma (= druhý, třetí, čtvrtý)

'amv'

Výřezem můžeme získat i celý původní řetězec (přesněji jeho kopii, neboť při indexaci vždy vzniká nový objekt)

In [68]:
s[0:6]  # šest znaků (od indexu 0 do indexu 5)

'Samvěd'

To však ještě není vše. Ve výřezech můžete používat i záporné indexy (počítané od konce) a dokonce jednotlivé meze vynechávat. Pokud vynecháte první pak se začíná indexem 0 (první znak) a končí indexem rovným délce seznamu (pozice za posledním znakem).

In [71]:
print (s[0:-1])  # řetězec bez posledního znaku (-1 je index posledníjo znaku, který již do výřezu nepatří)
print (s[2:-2])  # od třetího (včetně) k předpředposlednímu (vyjma) = ke znaku s indexem 6-2 (vyjma) = 4 

Samvě
mv


In [72]:
print(s[:2])    # první dva znaky (od indexu nula včetně do dva vyjma)
print(s[:-2])   # bez posledních dvou znaků (od indexu nula včetně do indexu 6-2 vyjma)

Sa
Samv


In [73]:
print(s[3:])   # od indexu 3 (čtvrtý znak) do konce (= bez prvních tří)
print(s[-1:])  # od posledního do konce (= poslední jeden)

věd
d


A nakonec typický Pythonský ideom (zápis, který se v Pythonu relativně často používá, ale nikdo z  nezasvěcených mu nerozumí).

In [75]:
print(s[:])  # vrací kopii řetězce

Samvěd


> **Poznámka**: Pokud však rozumíte Pythonu opravdu dobře, pak zjistíte, že tento ideom nemusí na řetězce fungovat, neboť je zbytečné vytvářet kopii neměnných objektů. Kopii od originálu totiž u neměnných objektů nikdy nerozlišíte (pro rozlišení by stačilo jeden z objektů změnit, ale to se u neměnných objektů z principu nelze).

> Představte si, že máte rozlišit mezi dvěma identickými jednovaječnými dvojčaty (bez možnosti je vidět pohromadě). Pokud jsou slepí, hluší a nemůžete se jich dotknout (zanechat např. znaménko) tj. jsou neměnní, pak se vám to nikdy nepodaří.

> Jedinou šancí jak tento trik rozpoznat je testování identity objektů, to však praktickou nerozlišitelnost neovlivní (stejně jako, když uvidíte obě dvojčata zároveň).

In [80]:
s[:] is s  # Python je skutečně inteligentní (kopírováním se neobtěžoval, objekt  s je identický s objektem [:])

True

> **Úkol:** Napiště výraz, který z daného řetězce vytvoří nový, jenž nebude obsahovat předposlední znak (rada: nový řetězec není souvislým podřetězcem původního)

In [82]:
mesto = "Praha"
mesto[:-2] + mesto[-1]

'Praa'

#### Hledání podřetězců

Pro ověření, zda je nějaký (pod)řetězec obsažen v jiném řetězci lze využít operátor `in`:

In [97]:
"alf" in "Gandalf"

True

Vlevo je hledaný (podřetězec), vpravo řetězec v němž hledáme. Výsledkem je pravdivostní hodnota ("alf" je obsažen v řetezci "Gandalf" a proto je výsledkem našeho příkladu hodnota `True`).

*Řešený příklad*

Vytvořte jednoduchý program který zjistí, zda je v zadané genomové sekvenci (tvořený posloupností bází, jež jsou representovány znaky ACGU) obsažen zadaný kodon (trojice znaků tvořená kombinací znaků ACGU).

In [98]:
genom = input("Genom (kombinace znaků ACGU):")
kodon = input("Kodon (trojznaková kombinace znaků ACGU):")

if kodon in genom:
    print(f"Kodon {kodon} je obsažen v genomu {genom}")
else:
    print(f"Kodon {kodon} není obsažen v genomu {genom}")

Genom (kombinace znaků ACGU):ACGUAACGC
Kodon (trojznaková kombinace znaků ACGU):CGC
Kodon CGC je obsažen v genomu ACGUAACGC


Tento program má ještě k dokonalosti daleko. Hlavním problémem je testování správnosti vstupu, neboť do vstupních polí můžete zadat libovolný řetězec (nekontroluje se zda obsahují pouze znagy ACGU). 

[dočasné přerušení příkladu]

#### Metody a operace pro testování struktury řetězců

Kontrola, zda řetězec splňuje určitou podmínku ohledně obsahu, není za použití elementárních nástrojů (výřezy, operátor `in`) ve vždy jednoduchá. 

Mezi ty jednoduché operace testování patří:

a) řetězec je obsažen v jiném řetězci

In [2]:
"gard" in "Asgard"

True

b) řetězec není obsažen v jiném řetězci (negace bodu a)

In [4]:
"gard" not in "Asgard"

False

Tento zápis s použitím negace operátoru `not in` je přehlednější (a bližší přirozenému *anglickému* jazyku) než zápis s běžnou negací (závorky jsou zde nutné, negace má vyší prioritu než operátor `in`):

In [5]:
not ("gard" in "Asgard")

False

c) řetězec začíná nějakým podřetězcem (prefixem):

In [6]:
"Asgard"[:2] == "As" # výřez vrací první dva znaky (s indexy 0 a 1)

True

Hledání prefixu je tak běžnou operací, že pro ni existuje i přehlednější zápis využívající metody `startswith`. Metoda je v zásadě speciálním případem volání funkce, v němž je nejdříve uveden objekt, který je hlavním parametrem a teprve poté (po tečce) jméno funkce a ostatní parametry (v závorkách).

In [7]:
"Asgard".startswith("As")

True

Řetězec `"Asgard"` je hlavním parametrem metody (tj. objektem, s nímž se snažíme komunikovat), metoda se jmenuje `startswith` a dalším (vedlejším) parametrem je hledaný prefix (počátek řetězce). Výsledkem je i zde logická hodnota. 

>*Poznámka*: Metody (včetně zápisu jejich volání) pocházejí ze světa tzv. objektově orientovaného programování. To vychází z představy, že různé objekty spolu interagují tím, že si navzájem volají své metody (které mohou být navíc doplněny dalšími parametry tj. interakce nemusí být typu jeden s jedním). To, který objekt je hlavní parametr (v OOP terminologii adresát) a které jsou dodatečné je dáno pouze zvoleným pohledem. V případě metody `startswith` je adresátem prohledávaný řetězec a dodatečným parametrem podřetězec (hledaný prefix). Lze si však představit i opačný model např. volání typu `"As".isprefixof("Asgard")`, který se však v Pythonu neuplatnil.

d) řetězec končí nějakým podřetězcem (sufixem)

I když i zde můžete použít výřez (a porovnání řetězců), tak i pro testování sufixu existuje specializovaná metoda (jejíž jméno určitě odhadnete)

In [10]:
"Asgard"[-2:] == "rd"

True

In [12]:
"Asgard".endswith("rd")

True

e) všechny znaky řetězce patří do určité třídy znaků

Znaky lze podle jejich funkce klasifikovat do několika kategorií. Mezi hlavní kategorie patří *písmena* (znaky použitelné pro zápis přirozeného jazyka), *číslice* (znaky sloužící pro zápis čísel) a mzerové znaky (bílé tj. netištěné oddělovače). U těchto klíčových kategorií (a pár dalších) lze využít metod, které testují, zda všechny znaky řetězce patří do příslušné skupiny.

In [15]:
print("Dobříň".isalpha())  # všechny znaky jsou písmena
print("42".isdigit()) # všechny znaky jsou číslice
print("  \t \n".isspace())  # všechny znaky jsou mezerové znaky (patří tam i tabulátor a odřádkování)

True
True
True


>**Úkol**: Napište program, který pro daný řetězcový vstup ověří, že jeho první i poslední znak je číslo (ostatní znaky mohou být jakékoliv). Pokud řetězec odpovídá, je vypsán text "Platný vstup" (v opačném případě se nic nevypíše).

In [50]:
vstup = input()
if vstup[0].isdigit() and vstup[-1].isdigit(): # výsledkem indexace je jednoznakový řetězec
    print("Platný vstup")

1a2
Platný vstup


I když jsou tyto metody užitečné, mají několik nevýhod. Za prvé je lze využít jen pro pár všeobecně používaných kategorií znaků (mezi tyto tyto kategorie rozhodně nepatří napříkald znaky genetického kódu). Navíc jsou tyto kategorie výrazně širší než byste čekali. Moderní počítače podporují znaky všech jazyků a písmených soustav (včetně např. emotikonů). Tj. písmena nejsou omezena na latinku a číslice na euroarabské dekadické číslice.

In [16]:
print("Ζεύς".isalpha())  # řecké písmo

True


In [17]:
print("٤٢".isdigit()) # arabsko indické číslice

True


I když je užitečné znát všechny výše uvedené metody a operaci `in` existuje v Pythonu nástroj, který je všechny nejen nahradí, ale vyřeší i jejich nedostatky — regulární výrazy.

#### Regulární výrazy I

Regulární výrazy (název pochází z matematické teorie tzv. gramatik) jsou více než užitečným nástrojem pro práci s řetězci. Používány jsou již od sedmdesátých let, ale jejich současná podoba se vyprofilovala v jazyce *Perl* v letech osmdesátých. Python stejně jako většina ostatních programovacích jazyků a aplikací převzala perlovskou syntaxi (s malými omezeními i rozšířeními, tj. různé implementace regulárních jazyků se v detailech mohou lišit, společný základ je však naštěstí dosti rozsáhlý). 

Regulární výrazy jsou velmi komplexním jazykem pro popis struktury řetězců (o regulárních výrazech vycházejí celé knihy). My se omezíme jen na nezbytné základy se kterými se navíc seznámíme jen postupně. Vyhneme se navíc také jejich teorii (i když ta je zajímavá a může výrazně pomoci při tvorbě rozsáhlejších výrazů). 

Regulární výraz je v zásadě řetězec, který jednoznačně definuje určitou množinu řetězců s podobnou strukturou. Tato množina může být i jednoprvková, ale typicky je potenciálně nekonečná (tj. s neomezeným opakováním nějakého vzoru). 

Základní operací nad regulárními výrazy je test shody (angl. *match*). Tato operace testuje zda zadaný řetězec 
odpovídá regulárnímu výrazu či nikoliv. V Pythonu je tato operace implementována pomocí metody `fullmatch` modulu `re` (zkratka ze *Regular Expression*). Funkce má dva parametry: nejprve regulární výraz (vzor, jak by měl řetězec vypadat), a poté testovaný řetězec.

In [22]:
import re
s = input()                  # načteme řetězec
if re.fullmatch("[ab]+", s): # otestujeme, zda řetězec odpovídá regulárnímu výrazu
    print("shoda!")          # pokud ano
else:
    print("špatný řetězec")  # pokud ne

abbababababc
špatný řetězec


Znaky v řetězci regulárního výrazu mají dvě zcela odlišné funkce. Písmena, čísla a bílé znaky (mezery) jsou tzv. **terminály**, tj. znaky, které budou (resp. potenciálně mohou být) obsaženy v popisovaném řetězci (tj. v regulárním označují sebe sama). V našem příkladě jsou to znaky `a` a `b` (výsledný řetězec tak může obsahovat jen tyto znaky a žádné jiné). Ostatní znaky mohou mít speciální význam, který závisí na jejich použití: mohou popisovat výběr z z nějaké skupiny znaků, pozice mezi znaky, operátory nad vnořenými regulárními jazyky, apod.

Hranaté závorky použité v regulárním výrazu `[ab]+`, popisují právě jeden znak, kterým může být buď znak `a` nebo znak `b` (nikoliv oba najednou). Na tento regulární (pod)výraz je aplikován operátor `+`, který v případě regulárních výrazů znamená, že tento řetězec popsaný tímto podvýrazem se může libovolněkrát opakovat (ale musí tam být vždy alespoň jednou). V každém opakování se vždy můžeme rozhodnout mezi `a` nebo `b`, tj. regulární výraz popisuje všechny řetězce libovolné délky (avšak neprázdné!), tvořené znaky `a` a `b`, například `a`, `b`, `ab`, `ba`, `aaa`, `aab`, `aba`, … `abba`, `baba`, atd.

Výsledkem aplikace regulárního výrazu je v případě shody vzoru a řetězce tzv. *match* objekt, který nese dodatečné informace o shodě.  Vyzkoušejme například následující příklad:

In [26]:
pattern = "a+"
s = "aaa"
re.fullmatch(pattern, s)

<_sre.SRE_Match object; span=(0, 3), match='aaa'>

Regulární výraz popisuje řetězce tvořené jen znaky `a` (znak `a` je terminál, který se může libovolně opakovat). Výsledný *match* objekt nemá standardní textovou representaci (jako např. čísla) a tak je vypsána jeho pomocná textová representace: obsahující třídu objektu a jeho klíčové atributy (pozice shody, apod.). Pomocná textová representace je navíc v tzv. lomených závorkách (znaky menší a větší než).

Pomocná textová representace ve většině případů ukazuje, že se snažíme vypsat příliš složitý objekt. Řešením je vypsání některého z jeho atributů nebo přetypování na jednodušší objekt. V našem případě nás zajímá jen logická hodnota (splňuje/nesplňuje), takže zkusíme tento objekt převést na pravdivostní hodnotu:

In [27]:
bool(re.fullmatch(pattern,s))

True

Toto přetypování se provádí u každé podmínky konstrukce `if` a tak lze na místě podmínky použít i složitější objekty, pokud mají rozumné přetypování na logické hodnoty.

Co se však stane pokud, řetězec vzoru neodpovídá.

In [28]:
re.fullmatch(pattern, "aaaaaaaaac")

Zdá se, že v tomto případě metoda nic nevrací. V Pythonu však každá funkce či metoda musí něco vracet. V nejhorším případě vrací hodnotu `None` (to není kontradikce; `None` není nic, jen něco co není dostupné nebo není aplikovatelné). Možná už tušíte co se stane, pokud se pokusíme `None` přetypovat na pravdivostní hodnotu:

In [29]:
bool(None)

False

Ano. 'None' je vždy nepravdivé. Nyní už by mělo být jasné, jak funguje větvení programu v prvním příkladě s regulárními výrazy. Pokud řetězec odpovídá regulárnímu výrazu, pak se jde větví `if` (výsledný *match* objekt je vždy pravdivý), jinak se pokračuje větví `else` (výsledná hodnota `None` je nepravdivá). 

>*Poznámka*: Pro ty, co nechtějí využívat *magického* rozdělené světa Pythonských objektů na pravdivé a nepravdivé (proč je, probůh, například úspěch vždy pravdivý) existuje i explicitnější podmínka: `re.fullmatch(pattern,string) is not None`.  Python podporuje jak pohodlnost implicitnosti tak jistotu explicitnosti (i když Zen of Python tvrdí: 'Explicit is better than implicit.'

>**Úkol**: Jaké řetězce popisuje regulární výraz `(ab)+`? Vyzkoušejte svoji teorii pomocí několika vhodně zvolených příkladů řetězců (všechny vyzkoušet nemůžete, tento regulární výraz popisuje potenciálně nekonečné množství řetězců).

In [30]:
pattern = "(ab)+"
testString = "aabb" # zde můžete zadat zkušební řetězce
bool(re.fullmatch(pattern, testString))

False

Nyní se můžeme vrátit k řešenému příkladu s genetickým kódem. Pomocí regulárních výrazů je snadné otestovat zda je zadaný řetězec tvořen jen znaky využívanými pro zápis genetického kódu (representují jednotlivé nukleotidy). Nejdříve navrhneme regulární výraz popisující genetický kód libovolné délky tj. řetězec obsahující libovolně dlouhou posloupnost znaků `A`,`C`,`G` a `T`.

In [31]:
import re
re.fullmatch("[ACGT]+", "ACCGGCCTTTC") # otestujte i pro jiné (i nepřípustné) řetězce

<_sre.SRE_Match object; span=(0, 11), match='ACCGGCCTTTC'>

Jen o málo složitější je regulární výraz pro trojpísmenné kodony:

In [34]:
re.fullmatch("[ACGT][ACGT][ACGT]", "AAA")

<_sre.SRE_Match object; span=(0, 3), match='AAA'>

Všimněte si, že každá znaková množina popisuje právě jeden znak tj. daným regulárním výrazem jsou popsány jen tříznakové řetězce. Každý znak je navíc z omezené (a velmi malé množiny). Lze tedy snadno spočítat, že existuje právě $4^3$ = 64, které jsou tímto regulárním výrazem definovány.

>**Úkol**: Doplňte program pro nalezení kodonu v genomové sekvenci o testování přípustnosti vstupů pomocí výše uvedených regulárních výrazů. V případě, že  vstup nevyhovuje vyvolejte výjimku pomocí příkazu `raise Exception("popis výjimečné situace")`. Nezapomeňte podmínku negovat (problém je když řetězec neodpovídá vzoru!).

In [37]:
import re

genom = input("Genom (kombinace znaků ACGU):")
if not re.fullmatch("[ACGT]+", genom):    # ověříme přípustnost zápisu genomu (ještě pře zadáním kodonu)
    raise Exception("Neplatný genom")

kodon = input("Kodon (trojznaková kombinace znaků ACGU):")
if not re.fullmatch("[ACGT][ACGT][ACGT]", kodon):  # a poté ověříme i přípustnost zápisu kodonu
    raise Exception("Neplatný kodon")
    
if kodon in genom:
    print(f"Kodon {kodon} je obsažen v genomu {genom}")
else:
    print(f"Kodon {kodon} není obsažen v genomu {genom}")

Genom (kombinace znaků ACGU):AACCCCCGGGGGCCCGGXGGGG


Exception: Neplatný genom

Miniúvod do regulárních výrazů ukončíme popisem asi nejužitečnějšího zástupného symbolu. Znak `.` (tečka) má v regulárním výrazu speciální význam — nahrazuje libovolný znak (avšak vždy jen jeden). Ukažme si několik příkladů:

In [54]:
print( re.fullmatch("...", "abc") )  # tři jakékoliv znaky

print( re.fullmatch("a.+", "ahoj" ))   # řetězec začínající a mající alespoň dva znaky 
# ("a" + 1 až nekonečně mnoho dalších jednotlivých znaků)

print( re.fullmatch("(.a)+", "ratata")) # řetězec s sudým počtem znaků, kde na každé druhé pozici je 'a'

<_sre.SRE_Match object; span=(0, 3), match='abc'>
<_sre.SRE_Match object; span=(0, 4), match='ahoj'>
<_sre.SRE_Match object; span=(0, 6), match='ratata'>


Pokud chceme v regulárním výrazu využít tečku jako terminální znak (tj. tečku, která stojí sama za sebe), je nutno použít zápis `\\.` (zpětné lomítko je zdvojeno proto, že jej lze v pythonském řetězci zapsat jen pomocí tzv. escape sekvence). Podobně lze jako terminály vkládat i další speciální znaky např. `(` nebo `)`.

In [59]:
re.fullmatch("\\(\\..\\.\\)", "(.a.)")

<_sre.SRE_Match object; span=(0, 5), match='(.a.)'>

Tento regulární výraz obsahuje terminály pro vnější dvojici párových závorek,  uvnitř nichž je libovolný znak mezi dvojicí teček (první a třetí tečka je předcházena dvěma lomítky, zatímco druhá nikoliv). Všimněte si, že regulární výraz s větším počtem dvojic zpětných lomítek není příliš přehledný. Mírné zpřehlednění může přinést použití tzv. surových řetězců, v nichž nemá lomítko speciální význam (takže se nemusí zdvojovat). Surové řetězce se zapisují pomocí znaku `r` (angl. *raw*) bezprostředně před uvozovkou resp. apostrofem.

In [61]:
re.fullmatch(r"\(\..\.\)", "(.!.)") # surový řetězec využitý pro zápis regulárních výrazů

<_sre.SRE_Match object; span=(0, 5), match='(.!.)'>

>**Úkol**: Napište program, který pro daný řetězcový vstup ověří, že je tvořen číslem s povinnou desetinou tečkou a desetinnou části.

In [56]:
vstup = input()
if re.fullmatch("[0123456789]+\\.[0123456789]",vstup): # bez použití surového řetězce
    print("Desetinné číslo")

2.6
Desetinné číslo


#### Metody vracející modifikované verze řetězců

V některých situacích se hodí modifikovat některé znaky řetězce (nahradit je jinými, odstranit, či vložit jiné). To však zcela přirozeně nejde, neboť řetězce jsou neměnné objekty.

Náhradním řešením je nahradit (nepřípustnou) modifikaci vytvořením nového řetězce, u něhož jsou dané modifikace provedeny (tj. vytvoří se už v modifikované podobě). Python tento přístup využívá hned u několika metod objektů třídy `string`.

In [44]:
s = "Mis nenasitných sislů"
s.replace("i", "y")   # řetězec označený proměnnou `s` je nezměnen 
# nově vytvořený není po provedení řádku dostupný (zaniká)
print(s)  # vypíše se nezměněný původní řetězec

s = s.replace("i", "y") # nový řetězec je přesměrována proměnná 's', původní objekt zaniká
print(s)

Mis nenasitných sislů
Mys nenasytných syslů


Jak lze vidět na příkladě metody `replace`, výsledek je nutno přiřadit do proměnné (jinak volání nemá žádný efekt). Často to bývá proměnná, která označovala původné řetězec (ten se sice stane nedostupným, avšak to v mnoha případech nevadí).

Volání metody `replace` ukazuje základní rys (objektové) programování — spolupráce několika objektů, jejímž výsledkem je nový objekt. Metoda je volána nad objektem (třídy řetězec)  a předány jsou jí další dva (dočasně vytvořené) objekty: prvním je nahrazovaný (pod)řetězec, druhým nahrazující. Výsledkem je vytvoření nového řetězce, v němž jsou všechny výskyty prvního podřetězce nahrazeny druhým podřetězcem.

Podívejme se na obrázek.

![Objekty ve volání metody replace](replace-object.png)

V první fázi (černá barva) jsou postupně vytvořeny vstupní objekty a jeden z nich (původní řetezec) je opatřen proměnnou `s`.  Ve druhé fázi (modré) se vykoná volání metody, jehož výsledkem je nový objekt se zaměněnými znaky. Třetí (červená) fáze je přiřazení: odkaz v proměnné je přesměrován na nový objekt (štítek je odlepen z původného objektu a přilepen na nový). Po skončení je dostupný pouze jediný objekt (změněný řetězec). Ostatní objekty už vlastně neexistují. 

Zaměňovat lze samozřejmě i delší podřetězce:

In [64]:
s = "Frodo & Sam"
s = s.replace("Frodo", "Bilbo")
print(s)

Bilbo & Sam


Pokud máte ještě složitější požadavky, lze využít funkci `re.sub`, která umožňuje definovat nahrazované řetězce pomocí regulárního výrazu. Jako příklad uveďme nahrazení všech celých čísel v řetězci otazníkem (celé číslo je nahrazeno jediným otazníkem).

In [68]:
s = "333 stříbrných stříkaček stříkalo přes 333 stříbrných střech"
s = re.sub("[0123456789]+", "?", s) # i zde se původní řetězec nemění
print(s)

? stříbrných stříkaček stříkalo přes ? stříbrných střech


Všimněte si, že funkce `re.sub` (není to metoda, `re` není objekt, na nějž je volána, ale modul) má tři parametry v pořadí regulární výraz určující nahrazovanou část (zde libovolná posloupnost číslic), nahrazující řetězec (znak otazníku) a teprve třetím je řetězec, v němž se náhrady provedou (`sub` je zkrácené anglické `substitute`).

>**Úkol**: Vytvořte program, který přečte řetězec a nahradí vícenásobné mezery (tj. mezery tvořené dvěma a více znaky mezer) za mezery jednoduché. To je užitečné, neboť v vložení více mezer za sebou je typickou chybou při zadávání textů. Opravený text následně vypište.

In [69]:
vstup = input()
vstup = re.sub("  +", " ", vstup)  # regulární výraz obsahuje dvě mezery za sebou (druhá se může opakovat)
print(vstup)

Jiří    Fišer
Jiří Fišer


S úpravou víceznakových mezer souvisí i další požadavek. Při zadávání formalizovaných řetězců je nutno preventivně odstraňovat mezery na počátku řetězce a především mezery na jeho konci (ty jsou ve většině případů zcela neviditelné, přesto však mohou negativně ovlivňovat porovnání (i když se řetězce na první pohled neliší, strojově se jedná o dva odlišné řetězce, které se liší už v počtu znaků).

Požadavek na odstranění počátečních a koncových mezer se vyskytuje tak často, že pro něj existuje speciální metida (resp. hned několik speciálních metod).

In [72]:
jmeno = "  Jiří    Fišer   "   # řetězec s nadbytečnými mezerami (na začátku, uprostřed i na  konci)
print( jmeno.lstrip()) # vrací nový řetězec s odstraněnými mezerami na začátku (vlevo = left)
print( jmeno.rstrip()) # vrací nový řetězec s odstraněnými mezerami na konci (vpravo = right)
print( jmeno.strip())  # vrací nových řetezec bez počátečnách i koncových mezer

Jiří    Fišer   
  Jiří    Fišer
Jiří    Fišer


Všiměnte si, že odstranění mezer na konci se vizuálně nijak neprojevilo. Navíc se neodstranili vícenásobné mezery uvnitř (resp. přesněji nenahradily za jednoduchou mezeru). Pro tento účel je nutno spojit metodu `strip` se substitucí pomocí regulárního výrazu:

In [73]:
re.sub("  +", " ", jmeno.strip())

'Jiří Fišer'

Nejdříve se odstraní mezery na počátku a na konci (`strip`) a pak se nahradí vícenásobné mezery za jednoduché. Lze to udělat i obráceně:

In [75]:
re.sub("  +", " ", jmeno).strip()

'Jiří Fišer'

Toto řešení může být o něco méně efektivní, neboť zjednodušujeme i ty vícenádobné mezery, které nakonec stejně odstraníme metodou `strip` (což je pravděpodobně o něco rychlejší než substituce). Tuto teorii v Jupyteru snadno ověříme.

In [79]:
%timeit re.sub("  +", " ", jmeno.strip())

1.47 µs ± 3.38 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [80]:
%timeit re.sub("  +", " ", jmeno).strip()

1.79 µs ± 29.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Rozdíl opravdu existuje, není však příliš velký. První postup je cca 20% rychlejší.

Poslední užitečnou dvojicí jsou funkce, které nahrazují velká písmena (verzálky) za malá (minusky) a vice versa (samozřejmě opět vytvořením nového řetězce).

In [85]:
s = "Minas tirith"

print(s.lower())  # velká na malá (ostatní beze změny)
print(s.upper())  # malá na velká (ostatní beze změny)

print(s.title())  # malá na velká na začátku slov

minas tirith
MINAS TIRITH
Minas Tirith


Tyto funkce se opět hodí při porovnání, V tomto případě tehdy, pokud se nemá brát zřetel na velikost písmen.

In [86]:
s = input("Město: ")
if s.lower() == "ústí nad labem":  # porovnáváme v malých písmenech bez ohledu na vstup
    print("Sídlo UJEP")

Město: ústí Nad labem
Sídlo UJEP
