# Iterace a cykly

Slovo iterace znamená opakování. V kontexu programování tím většinou myslíme jednu ze dvou věcí:

1. iterativní výpočet
2. průchod přes prvky nějaké kolekce (častější)

Iterativním výpočtům se zde věnovat nebudeme, zaměříme se pouze na prochází kolekcí. Ukážeme si různé způsoby - některé budou více v duchu jazyka Python (tomu se na internetu říká pythonic), některé méně. Budeme se snažit používat spíše ty více pythonic varianty.

## Tuple packing and unpacking

Jako tuple packing se nazývá následující chování

In [1]:
t = 1, True

print(t, type(t))

(1, True) <class 'tuple'>


Přiřazením více hodnot do jedné proměnné vzniká proměnná typu `tuple`, která obsahuje všechny honoty. S tím se typicky setkáváme u funkcí, které navrací více hodnot.

In [2]:
def f():
    return 1, 2

t = f()
print(t, type(t))

(1, 2) <class 'tuple'>


Opačný proces, nazývaný tuple unpacking (případně obecněji sequence unpacking), slouží k opačnému účelu - zpřístupnění jednotlivých prvků sekvence v oddělených proměnných.

In [3]:
t = (1, 2)

a, b = t

print(a, b)

1 2


Pokud máme zájem pouze o některou složku, můžeme využít dummy proměnnou, pro kterou se v Pythonu používá podtřžítko.

In [5]:
t = (1, 2)

a, _ = t
print(a)

1


Vtipné je, že pod podtržítkem se ukrývá normální proměnná

In [4]:
t = (1, 2)

a, _ = t
print(_, type(_))

2 <class 'int'>


Můžeme podtržítko opakovat i kombinovat s *

In [6]:
a = tuple(range(10))

x, _, _, y, *_, z = a
print(x, y, z)

0 3 9


## Cykly

Základní cykly v Pythonu vypadají jako v ostatních jazycích

In [None]:
for i in range(5):
    print(i)

`range(start, stop, step)` je příkladem takzvaného generátoru (vysvětlíme později), který generuje postupně hodnoty od `start` po `stop` (bez) s krokem `step`. Příklad výše můžeme přepsat i jako while cyklus, který lze obecně zapsat jako

```python
while condition:
    ...
```
Tedy tělo cyklu se vykonává, dokud je splněna podmínka `condition`.

In [8]:
i = 0
while i<5:
    print(i)
    i += 1

0
1
2
3
4


### Break a continue

K další kontrole nad chodem cyklu můžeme využít klíčová slova `continue` nebo `break`. `continue` přeskočí zbytek těla a přejde k další iteraci, `break` ukončí chod cyklu zcela. Srovnej následující příklady

In [11]:
for i in range(5):
    if i%2 == 0:
        continue
    print(i)

1
3


In [10]:
for i in range(5):
    if i == 3:
        break
    print(i)
        

0
1
2


Python nabízí i celkem neobvyklé rozšíření obou druhů cyklu - blok `else`, který si vykoná, jakmile na konci běhu. Pokud ale cyklus předčasně ukončíme pomocí `break`, blok `else` se nevykoná. Ukažme si to na `while` cyklu.

In [12]:
i = 0
while i<5:
    print(i)
    i+=1
else:
    print("cycle has finished")

0
1
2
3
4
cycle has finished


In [13]:
i = 0
while i<5:
    if i == 3:
        break
    print(i)
    i+=1
else:
    print("cycle has finished")

0
1
2


## Iterace přes kolekce

Procházení přes prvky kolekce lze realizovat i *c-style*, tedy postupným indexováním

In [None]:
colors = ["blue", "red", "green"]

for i in range(len(colors)):
    print(i, colors[i])

Ale obecně se to považuje za nepříliš *pythonic*. V Pythonu lze přes všechny kolekce iterovat *přímo*

In [14]:
colors = ["blue", "red", "green"]

for c in colors:
    print(c)

blue
red
green


Všimněte se, že obyčejný for cyklus s `range` je vlastně úplně to samé - `range` lze v tomto smyslu považovat za kolekci. Pokud bychom v těle cyklu potřebovali aktuální index, používá se wrapper `enumerate`, který při iterací vrací `tuple` složený z indexu a hodnoty. Běžně se využívá v kombinaci s *tuple unpacking*.

In [None]:
# pythonic
colors = ["blue", "red", "green"]

for i, color in enumerate(colors, start=1):
    print(i, color)

Podobně se používá i wrapper `zip`, kterým můžeme procházet více kolekcí najednou bez nutnosti indexovat.

In [None]:
a = [1, 2, 3, 4]
b = ["a", "b", "c"]

for num, letter in zip(a, b):
    print(num, letter)

```{hint}
Není to závazné, ale v Pythonu se budeme snažit v cycklech nezavádět indexy, pokud je nebudeme explicitně potřebovat. A pokud je zavádět budeme, použijeme k tomu konstrukce jako `enumerate`. Je to ustáleným zvykem, tak bychom ho měli respektovat.
```

### Složitější iterace - `itertools` 

`itertools` je jedním z modulů Python Standard Library a umožňuje nám konstruovat složetější druhy iterátorů. Možností je mnoho, ukážu jen pár příkladů.

In [17]:
from itertools import product

a = [1, 2]
b = ["a", "b", "c"]

for num in a:
    for let in b:
        print(num, let)

for num, let in product(a, b):
    print(num, let)

1 a
1 b
1 c
2 a
2 b
2 c
1 a
1 b
1 c
2 a
2 b
2 c


In [None]:
from itertools import permutations

a = [1, 2, 3, 4]

for x in permutations(a):
    print(x)

In [15]:
from itertools import accumulate
a = [1, 2, 3, 4]

suma = 0
for x in a:
    suma += x
    print(suma)


for x in accumulate(a):
    print(x)

1
3
6
10
1
3
6
10


In [4]:
from itertools import groupby

log_entries = [
    {'timestamp': '2023-09-24 12:01', 'message': 'Started application', 'severity': 'INFO'},
    {'timestamp': '2023-09-24 12:02', 'message': 'User login', 'severity': 'INFO'},
    {'timestamp': '2023-09-24 12:03', 'message': 'File not found', 'severity': 'ERROR'},
    {'timestamp': '2023-09-24 12:04', 'message': 'Memory usage high', 'severity': 'WARNING'},
    {'timestamp': '2023-09-24 12:05', 'message': 'User logout', 'severity': 'INFO'},
    {'timestamp': '2023-09-24 12:06', 'message': 'Disk space low', 'severity': 'WARNING'}
]

for severity, group in groupby(log_entries, key=lambda x: x['severity']):
    print(f"Severity: {severity}")
    for entry in group:
        print(f"  {entry['timestamp']} - {entry['message']}")


Severity: ERROR
  2023-09-24 12:03 - File not found
Severity: INFO
  2023-09-24 12:01 - Started application
  2023-09-24 12:02 - User login
  2023-09-24 12:05 - User logout
  2023-09-24 12:04 - Memory usage high
  2023-09-24 12:06 - Disk space low


## List and dict comprehension, generator notation

Jedná se o tzv. *syntactic sugar*, motivovaný matematickou notací zápisu množin, která se nazýva _set comprehension_. Jak víme, v matematice lze množin zadat buď výčtem prvků, nebo charakteristickou vlastností. Např. množinu $A = \{ 1, 2, 3, 4 \}$ můžeme zapsat jako $A = \{ x \in N ; x < 5 \}$, což je právě ta charakteristická vlastnost. Ukažme si to na jednoduchém příkladu v Pythonu.

In [5]:
lst = []
for x in range(5):
    lst.append(2*x)

print(lst)

lst = [2*x for x in range(5)]

print(lst)

[0, 2, 4, 6, 8]
[0, 2, 4, 6, 8]


V list comprehension lze použít i podmínky. Obecně můžeme přepsat bloky následující struktury podle fixního mustru

```python
src = # nejaka kolekce

res = []
for x in src:
    if condition:
        res.append(expression1(x)) # do listu pridame nejaky vyraz s x
    else:
        res.append(expression2(x)) # do listu pridame jiny vyraz s x

# ekvivalentni postup zapsany pomoci list comprehension vypada takto:
res = [expression1(x) if condition else expression2(x) for x in src]
```

Mírně odlišný zápis se používá pro jednodušší podmínky:
```python
res = []
for x in src:
    if condition:
        res.append(expression(x)) # do listu pridame nejaky vyraz s x

# ekvivalentni postup zapsany pomoci list comprehension vypada takto:
res = [expression(x) for x in src if condition]
```

In [None]:
src = [3, -5, 0, -3, 2]
res = []
for x in src:
    if x > 0:
        res.append(x**2)
    else:
        res.append(0)

print(res)

In [None]:
# list comprehension
src = [3, -5, 0, -3, 2]

res = [x**2 if x >= 0 else 0 for x in src]

print(res)

Naprosto analogický zápis funguje pro tvrobu slovníků - takzvaný _dictionary comprehension_. Jediný rozdíl je v tom, že slovník je tvořen dvojicemi `key: value`, které tedy musíme definovat, a používá složené závorky

In [None]:
keys = ["a", "b", "c"]
vals = [1, 2, 3]

d = {}
for k, v in zip(keys, vals):
    d[k] = v
    
print(d)

In [None]:
keys = ["a", "b", "c"]
vals = [1, 2, 3]

d = {k: v for k, v in zip(keys, vals)}

print(d)

In [6]:
opts = {
    "opt_a" : 1,
    "opt_b" : 2,
    "opt_c" : 3
}

opts2 = {key[-1]:val for key, val in opts.items()}
print(opts2)

{'a': 1, 'b': 2, 'c': 3}


### Make it more *pythonic*

Konstrukce list/dict comprehension si obecně považuje za poměrně *pythonic*. V některých případech mohou být rychlejší než použití obyčejných cyklů, ale ten *pythonic* aspect bývá posuzován spíše z hlediska nějaké *coding culture* a čitelnosti.

```{admonition} Osobní názor
:class: important

Pokud rychlost Vašeho programu zásadně ovlivňuje použití list/dict comprehension vs. klasický cyklus, děláte buď něco špatně, nebo je načase sáhnout po jiném jazyku.
```

Ukažme si na jednoduché úloze, jak lze "hloupě" napsaný kód trochu začistit a učinit více *pythonic*. Napišme funkci `count_vowels(text)`, která spočítá, kolik je ve vstupním textu samohlásek, přičemž pro jednoduchost se omezíme na předpoklad, že v textu jsou pouze malá písmena.

První nástřel implementace by mohl vypadat takto:

In [8]:
def count_vowels(text):
    count = 0
    for c in text:
        for v in "aeiyou":
            if c == v:
                count += 1
    return count

count_vowels("hello")

2

Ty vnořené cykly jsou ale trochu ošklivé. Vzpomeneme si na operátor `in`, který nám umí říct, zda se objekt nachází uvnitř kolekce (string je totiž taky kolekce):

In [9]:
def count_vowels(text):
    count = 0
    for c in text:
        if c in "aeiyou":
            count += 1
    return count

count_vowels("hello")

2

```{note}
Ono k tomu cyklu stejně dojde, ale zde je implicitní - Python ho provede za nás.
```

Pomocí list comprehension se nám podaří implementaci ještě trochu zkrátit

In [3]:
def count_vowels(text):
    return len([c for c in text if c in "aeiyou"])

count_vowels("hello")

2

### A není to moc pythonic?

Někteří lidé mají tendenci začít vše zapisovat pomocí list comprehensions. Od určité chvíle to ale začíná působit opačně - kód přestává být čitelný a srozumitelný. Pojďme vzít funkci `is_prime`, která rozpozná, zda je číslo prvočíslem

In [None]:
def is_prime(n):
    if n <= 1:
        return False
    
    for i in range(2, n):
        if (n % i) == 0:
            return False
    return True

a použijme ji ke konstrukci funkce `get_primes(numbers)`, která ze seznamu `numbers` vybere pouze prvočísla. Následují čtyři implementace, které dělají totéž, ale a přistupují k věci různě. Implementace 4 se snaží být *pythonic* za každou cenu, ale už se to nedá číst.

In [None]:

def get_primes_1(numbers): # neco jako: filter(is_prime, numbers)
    primes = []
    for num in numbers:
        if is_prime(num):
            primes.append(num)
    return primes

def get_primes_2(numbers):
    return list(filter(is_prime, numbers)) # very pythonic, funkcionalni pristup (functional programming)

def get_primes_3(numbers):
    return [x for x in numbers if is_prime(x)] # list comprehension, very very pythonic

def get_primes_4(numbers):
    return [x for x in numbers if all([(x%i != 0) for i in range(2, x)]) and x > 1] # this is too pythonic

```{admonition} Osobní názor
Já považuji za nejčitelnější implementace 2 a 3. Sám nejsem velký fanda funkcionálního programování, takže dávám přednost implementace 3, ae ale význam implementace 2 je stále velmi srozumitelný.
```

Nutno přiznat, že čitelnost implementace 4 by byla lepší, kdybychom použili lepší formátování (ale ne o moc).

In [4]:
def get_primes_4(numbers):
    return [
        x for x in numbers
        if all([
            (x%i != 0) for i in range(2, x)
            ]) and x > 1
        ]

## Generátory

O generátorech budeme více mluvt později, ale na tomto místě se je sluší zmínit. Nahradíme-li v zápisu list comprehension hranaté závorky kulatými, nebude výsledkem list, ale takzvaný generátor. Generátory jsou objekty, které umí říct, co je aktuální prvek a jak spočítat následující. To je výhodné v případně, kdy bychom chtěli vytvořit rozsáhlou kolekci. Generátor generuje prvky postupně, zatímco list je musí všechny předpřipravit, což může trvat dlouho a bude to zabírat hodně paměti.

Srovnejte čas, který zabere vykonání následujícího příkladu.

In [11]:
MAX = 100_000_000
gen = (2 * x for x in range(MAX))
print("done")

lst = [2 * x for x in range(MAX)]
print("done")

done
done


Při kompilace této knihy se první `done` objevilo takřka okamžitě, druhé se zpožděním cca 9 vteřin. Vyzkoušejte si na svém stroji.