### Algoritmy

Algoritmus často definujeme jako posloupnost kroků vedoucích k nějakému cíli. V počítačovém světě je to potom sekvence přesně definovaných, často atomických, operací řešících zadanou úlohu, ideálně v konečném čase. Operace, ze kterých se algoritmus sestává, jsou sice v principu nezávislé na použitém jazyku, ale v praxi se snažíme využívat možností jazyka, které nám dává. Např. třídění pole v Pythonu nebudeme zapisovat pomocí smyček, ale zavoláme funkci `sorted`, která implementuje optimální třídící algoritmus a není "interpretována" pomalým Pythonem.

Zápis úlohy v počítačovém kódu může být relativně přímočarý, např. známá metoda pro hledání prvočísel pomocí Eratosthenova síta vlastně sama o sobě popisuje algoritmus (vezmi tabulku čísel a postupně z ní vyškrtávej násobky 2, 3, 5, atd...), který "stačí" přepsat ve zvoleném jazyce. V Pythonu to může vypadat třeba takhle:

In [None]:
import math


def eratosthenes(nmax):
    nmax += 1
    sieve = [True] * nmax

    for i in range(2, nmax):
        if sieve[i]:
            for j in range(i+i, nmax, i):
                sieve[j] = False

    primes = []
    for i in range(2, nmax):
        if sieve[i]:
            primes.append(i)
            
    return primes


print(eratosthenes(100))

Ve zvoleném algoritmu ale můžeme najít možnosti optimalizace...

In [None]:
import math


def eratosthenes(nmax):
    nmax += 1
    sieve = [True] * nmax


    for i in range(2, math.ceil(math.sqrt(nmax))):
        if sieve[i]:
            for j in range(i*i, nmax, i):
                sieve[j] = False
                
    primes = []
    for i in range(2, nmax):
        if sieve[i]:
            primes.append(i)
            
    return primes


print(eratosthenes(100))

Ovšem vlastní implementace může vypadat různě, např. stejná úloha by šla napsat jako generátor.

*Generátory jsou funkce, které nevytvářejí datovou strukturu pole, ale vracejí vždy jeden prvek sekvence. Např. naše stará dobrá známá funkce `range` je generátorem, který čísla v posloupnosti počítá za běhu (naproti tomu funkce `np.arange` vytvoří pole všech hodnot v sekvenci předem). Generátor se vytváří tak, že místo `return` pro úplné ukončení funkce použijeme `yield` pro vrácení jedné hodnoty, ale funkce si zapamatuje svůj stav a v příští iteraci bude pokračovat tam, kde skončila...*

In [None]:
def eratosthenes_gen(nmax):
    nmax += 1
    sieve = [True] * nmax

    for i in range(2, nmax):
        if sieve[i]:
            yield i
            for j in range(i*i, nmax, i):
                sieve[j]= False


for i in eratosthenes_gen(100):
    print(i)

Pokud přepis algoritmu do kódu není na první pohled zřejmý, můžeme si vypomoct třeba použitím grafického znázornění (*flowchart*). Např. algoritmus pro generování aritmetické posloupnosti bychom mohli nakreslit takto.

![flowchart](img/flowchart-range.png)

Při přepisování do kódu bychom si ale měli uvědomit, jaké prostředky nám ten který jazyk dává, abychom zbytečně neprogramovali něco, co už v jazyce existuje. Tedy abychom např. v Pythonu místo:

```python
for i in range(10):
    print(i)
```

nepsali

```python
i = 0
while i < 10:
    print(i)
    i += 1
```

Další pomůckou může být zapsat si algoritmus v nějakém jednoduchém jazyce na cestě mezi normální "lidskou řečí" a počítačovým kódem (*pseudokód*). Například úlohu "spočítej průměr dat, kde nedefinované hodnoty jsou indikované číslem -9999", můžeme zapsat třeba takhle:

```
          ulož 0 do suma
          ulož 0 do pocet
     <sm> vezmi další hodnotu z pole data nebo jdi na <kon>
                přeskoč hodnoty -9999 na <dal>
                přičti hodnota k suma
                přičti 1 k pocet
          <dal> pokračuj ve <sm>
                                                              
    <kon> spočítej suma/pocet    
```

a potom přepíšeme do konkrétního kódu pomocí mapování na idiomy daného jazyka, např. v Pythonu:

```python
def average_masked(data, mask=-9999):
    running_sum = 0
    running_count = 0
    for value in data:
        if value == mask:
            continue

        running_sum += value
        running_count += 1

    return running_sum / running_count
    
```

nebo v C:

```c
float average_masked(int data[], size_t data_length)
{
    int i;
    float running_sum = 0;
    int running_count = 0;

    for(i=0;i<data_length;i++) {
        if(data[i] == -9999)
            continue;

        running_sum += data[i];
        running_count++;
    }

    return running_sum / running_count;
}
```

Pro mnoho úloh může existovat více možných řešení s různou výpočetní náročností v závislosti na objemu zpracovávaných dat. Bavíme se o pojmech jako asymptotická složitost a pod. a označujeme ji většinou pomocí **big O** notace: $O(f(N))$, např. $O(N)$ ukazuje na lineární závislost doby trvání výpočtu na velikost dat, $O(N^2)$ kvadratickou, $O(log N)$ logaritmickou apod. Konstatní náročnost, tedy nezávislá na velikosti dat se značí $O(1)$. 

*Při vyhodnocení složitosti nebereme do úvahy konstanty, takže $O(2N)$ bereme jako $O(N)$.*

U mnoha běžných algoritmů tuto složitost známe, často pro jednu úlohu známe i více algoritmů s různou složitostí. Například pro vyhledání prvků v seznamu můžeme použít lineární prohledávání s lineární složitostí $O(N)$, ale pokud je seznam předem setříděný, můžeme využít efektivnější algoritmus binárního vyhledávání, který má $O(log N)$ složitost.

*Poznámka: vyhledávání je tak častá operace, že u vestavěných typů nebo NumPy polí je už implementovaná. Např. `list` má metodu `index`, NumPy třeba funkci `where`...*

In [None]:
import random

def linear_search(data, item):
    for idx, value in enumerate(data):
        if item == value:
            return idx


data = [random.randint(-10, 10) for i in range(100)]
print(data)
print(linear_search(data, 0), data.index(0))

In [None]:
def binary_search(data, item):
    left = 0
    right = len(data)-1
    while left <= right:
        mid = left + int((right - left) / 2)
        if data[mid] == item:
            return mid

        if item < data[mid]:
            right = mid - 1
        else:
            left = mid + 1


data = [-989, -964, -960, -896, -850, -817, -790, -774, -750, -748, -734, -732, -691, -684, -663, -621, -609, -575, -522, -490, -487, -475, -409, -407, -406, -357, -329, -321, -319, -316, -304, -276, -265, -211, -145, -140, -138, -102, -81, -77, -74, -68, -67, -38, 0, 11, 32, 78, 81, 101, 107, 116, 162, 189, 207, 214, 232, 236, 256, 270, 301, 315, 333, 353, 371, 372, 376, 386, 389, 439, 441, 449, 480, 498, 508, 509, 515, 520, 546, 556, 577, 624, 633, 648, 661, 688, 709, 714, 734, 749, 780, 785, 820, 840, 895, 921, 950, 957, 959, 970]
print(binary_search(data, 0), data.index(0))

*K zamyšlení: co se stane, pokud prvek v poli nenajdeme? Jaké různé způsoby ošetření tohoto výjimečného stavu zvolíte?*

*Námět na cvičení:* přepište funkci `binary_search` na rekurzivní.

Poznámka: v některých případech se může vyplatit převést si data na takovou formu, pro kterou je potom algoritmus zpracování efektivnější. Například pokud máme neměnný soubor dat, ve kterém často vyhledáváme, může se vyplatit si ho jednou setřídit a pro hledání nadále používat "půlící" algoritmus. Za určitých okolností je možné úlohu převést i na problém s konstantní složitostí. U vyhledávání v seznamu různých prvků můžeme s výhodou využít datový typ `dictionary` nebo `set` u kterých má vyhledání prvku průměrnou složitost (*average case time complexity*) $O(1)$. Typ `dictionary` je ekvivalentem tomu, čemu se v jiných jazycích říká např. hash mapa, asociativní pole apod., tedy pole dvojic *klíč: hodnota*, kde klíčem může být řetězec. Vytváří se pomocí složených závorek nebo funkce `dict`.

In [None]:
database = {'T': [3.4, 4.2, 3.9, 3.4, 3.3, 2.0, 0, -1.5, -3, -2.3, -0.8],
            'r': [1.2, 2.3, 1.0, 0.8, 0.2, 0, 0, 0, 0, 0, 0],
            'x': 'y'}

print(database)

Typ `set` (množina) je jednodušší, obsahuje pouze různé hodnoty bez klíče a vytváří se funkcí `set`, přičemž umožňuje provádět množinové operace jako sjednocení, průnik a další pomocí metod (např. `union`, `intersection`, `difference`) nebo operátorů (např. `|`, `&`, `-`).

In [None]:
colors = set(['red', 'green', 'blue', 'yellow', 'black', 'white', 'cyan', 'magenta', 'blue', 'brown', 'red'])
primary_colors = set(['red', 'green', 'blue'])
print(f'{colors=}')
print(f'{primary_colors=}')
print('Intersection: ', colors.intersection(primary_colors))
print('Difference: ', colors - primary_colors)
if primary_colors.issubset(colors):
    print('Primary colors are a subset of colors...')

colors.remove('black')
colors.add('pink')
print(colors)

U obou datových typů můžeme pro test existence prvku použít operátor `in`.

In [None]:
print('T' in database)

if 'red' in colors:
    print('Red is a color...')

Pro vybrání prvku z `dictionary` podle klíče potom používáme opět hranaté závorky jako u `tuple`, `list` nebo NumPy polí. Pokud klíč neexistuje, vyhodí Python chyby `KeyError`...

In [None]:
print(database['T'])
x = database['X']

*K zamyšlení: jak funguje ukládání a výběr měnitelných datových typů jako prvků `dictionary` nebo `set`. Co se stane, pokud "hodnotu" typu `list` z dictionary uložíme do proměnné?*

In [None]:
t_list = database['T']
t = database['T'][3]
t_list[3] = -9999.
t = 0.
print(t)
print(t_list)
print(database)

`Dictionary` je také měnitelný typ, takže můžeme prvky přidávat, mazat a měnit...

In [None]:
database['p'] = None
print(database)

In [None]:
database.pop('p')
# del database['p']
print(database)

In [None]:
import numpy as np

database['p'] = None
print(database)
database['p'] = [np.NaN]*5
print(database)

Oba datové typy, `set` i `dictionary`, se chovají jako sekvence, je tedy možné přes ně iterovat. U `dictionary` si kromě toho můžeme zvolit, jestli chceme iterovat přes klíče, hodnoty nebo celé dvojice...

In [None]:
for c in colors:
    print(c)

Iterace přes `dictionary` je ve výchozím stavu přes klíče:

In [None]:
for k in database:
    print(k, database[k])

To samé dosáhneme pomocí metody `keys`...

In [None]:
for k in database.keys():
    print(k)

Iterace přes hodnoty funguje pomocí metody `values` a celé dvojice dostaneme metodou `items`...

In [None]:
for v in database.values():
    print(v)

In [None]:
for k, v in database.items():
    print(k, v)

Vraťme se ale zpátky k algoritmům pro nalezení prvku v poli. Protože `set` i `dictionary` jsou implementované jako hash mapy a složitost vyhledání prvku je v průměru konstantní, můžeme toho využít a transformovat data třeba na `dictionary` a pak teprve v nich vyhledávat...

In [None]:
data_dict = {value: idx for idx, value in enumerate(data)}
print(data_dict)

print(498 in data_dict, 499 in data_dict)
#print(data_dict[116])