# 05: Radenie

Zoraďovanie prvkov poľa je častou úlohou, ku ktorej riešeniu existuje množstvo možných prístupov. V Pythone nám typicky môže stačiť zavolať metódu `list.sort`:

In [2]:
import random

In [11]:
a = list(range(10))
random.shuffle(a)
print('Original: {}'.format(a))

a.sort()
print('Sorted: {}'.format(a))

Original: [9, 6, 1, 3, 5, 0, 8, 4, 2, 7]
Sorted: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


My si však skúsime naprogramovať zoraďovanie poľa sami, bez využitia zabudovaných zoraďovacích metód.

Najskôr si zadefinujme funkciu, ktorá nám vráti nezoradené pole. To len preto, aby sme mali na čom neskôr naše zoraďovanie skúšať.

In [12]:
def get_unsorted(length=100):
    """
    Unsorted array of integers.
    
    Args:
        length (int): Number of elements in the returned array. *Default: 100.*
    
    Returns:
        list[int]: An array full of random integers ranging from -100 to 100 (100 not included).
    """
    return [random.randrange(-100, 100) for i in range(length)]

## Zoraďovanie polí

- *Poľom* nazveme akúkoľvek reprezentáciu usporiadanej $n$-tice **rovnakého dátového typu**.
    - Zoraďovací predpis, samozrejme, možno definovať i pre $n$-ticu zloženú z rôznych dátových typov. Pre názornosť ale takéto prípady vynecháme. Platia na ne rovnaké algoritmy ako na homogénne $n$-tice, teda polia v našom ponímaní.
    - Pre jednoduchosť budeme pracovať s *reálnymi číslami*
        - Prirodzene definované operátory `<`, `>`, `<=`, `>=`, `==`
    
- Cieľ: Usporiadať hodnoty v poli
    - *Vzostupne*
        - Zostupné usporiadanie je založené na rovnakom princípe, iba zmysel porovnaní bude opačný
   
--------
### Bubble sort

<img src="bubble_sort.gif" width=800 />

- Jeden beh:
    - Okienko o dvoch susedných hodnotách $a$ a $b$
    - Pokiaľ $a > b$, nastane zmena pozícií
    - Posun okienka o jeden prvok vpravo
    
- Pri každom behu sa na správnu pozíciu dostane aspoň jedna hodnota.
    - Pre $n$-prvkové pole teda treba $n - 1$ behov
        - Pri každom z nich $n - 1$ porovnaní

- Asymptotická zložitosť algoritmu $\mathcal{O}(n^2)$
- Schopnosť detekovať, že pole je už zoradené
    - V najlepšom prípade (už zoradené pole) je zložitosť $\mathcal{O}(n)$ (Prebehne iba 1 beh)

In [13]:
a = get_unsorted()
        
def bubble_sort(a):
    n = len(a)
    sorted = False
    
    while not sorted:
        sorted = True # Initialize the sorted flag by True
        for i in range(n - 1):
            if a[i] > a[i + 1]: # If a bad order occurs
                a[i], a[i + 1] = a[i + 1], a[i] # Swap the elements
                sorted = False # Mark the array as not sorted
                
    return a

%time bubble_sort(a)
print(a)

CPU times: user 3.72 ms, sys: 0 ns, total: 3.72 ms
Wall time: 3.73 ms
[-98, -97, -93, -92, -91, -86, -78, -78, -78, -76, -74, -70, -68, -62, -62, -61, -60, -60, -59, -57, -56, -49, -47, -46, -43, -40, -38, -38, -37, -36, -36, -34, -33, -32, -31, -26, -20, -19, -18, -17, -15, -15, -15, -14, -12, -9, -6, -3, -1, -1, 0, 0, 1, 1, 5, 10, 11, 12, 13, 13, 14, 15, 15, 16, 17, 19, 21, 26, 26, 27, 28, 28, 30, 31, 33, 35, 39, 39, 41, 42, 42, 47, 49, 49, 51, 53, 55, 57, 59, 73, 73, 74, 76, 76, 77, 79, 80, 85, 90, 94]


-----------

### Insertion sort

<img src="insertion_sort.gif" width=800 />

- Prvý prvok poľa je sám o sebe zoradeným poľom.
- Zoberieme 2. prvok a zaradíme ho do poľa vľavo
    - Tým získame dvojprvkové zoradené pole na začiatku celého poľa
- Zoberieme 3. prvok a zaradíme ho do dvojprvkového zoradeného poľa
    - Tým získame trojprvkové zoradené pole na začiatku celého poľa
- ...a pokračujeme až po posledný prvok celkového poľa.


- Prechádzame $n-1$ prvkov
    - Pre prvý 1 porovnanie
    - Pre druhý najviac 2 porovnania
    - Pre tretí najviac 3 porovnania atď.
- V najhoršom prípade teda celkovo $\sum_{k=1}^{n-1}k$ porovnaní

In [15]:
from sympy import *

In [16]:
k, n = symbols('k n')
Sum(k, (k, 1, n - 1)).doit()

n**2/2 - n/2

* Asymptotická zložitosť $\mathcal{O}(n^2)$

In [17]:
a = get_unsorted()

def insertion_sort(a):
    n = len(a)
    for i in range(1, n):
        a[:i + 1] = bubble_sort(a[:i] + [a[i]])
        
%time insertion_sort(a)
print(a)

CPU times: user 35 ms, sys: 58 µs, total: 35.1 ms
Wall time: 37.5 ms
[-99, -99, -95, -94, -92, -92, -92, -91, -91, -88, -88, -87, -86, -80, -80, -79, -78, -77, -77, -76, -74, -73, -69, -65, -65, -59, -59, -58, -56, -55, -51, -51, -47, -46, -45, -39, -38, -37, -30, -27, -23, -20, -18, -17, -17, -15, -12, -12, -8, -7, -4, 6, 9, 10, 11, 13, 13, 17, 17, 20, 21, 22, 25, 27, 28, 28, 28, 29, 29, 32, 39, 42, 43, 46, 47, 51, 59, 60, 61, 64, 65, 66, 68, 69, 78, 82, 83, 86, 86, 90, 93, 93, 95, 95, 96, 96, 97, 97, 97, 99]


-----------

### Quicksort

- Patrí do skupiny algoritmov typu *rozdeľ a panuj*.
- Zaraďuje sa do triedy zložitosti $\mathcal{O}(n\log n)$
- Využitie *rekurzie*

> #### Rekurzia
>
> - Pokiaľ nie je splnená ukončovacia podmienka, funkcia **volá samú seba**.

In [19]:
def eat_cake(n_pcs):
    print('{:d} pieces left.'.format(n_pcs))
    if n_pcs > 0:
        eat_cake(n_pcs - 1)
    else:
        print('The cake is already eaten.')
        
eat_cake(7)

7 pieces left.
6 pieces left.
5 pieces left.
4 pieces left.
3 pieces left.
2 pieces left.
1 pieces left.
0 pieces left.
The cake is already eaten.


* Algoritmus quicksort:


> * Vyber **pivot** (napr. prvý prvok poľa)
>
> * Prejdi celé pole a **preusporiadaj** ho tak, aby naľavo od pivota boli iba prvky **menšie než pivot** a napravo od neho iba prvky, ktoré sú **väčšie než pivot**.
>
> * **Zoraď pomocou *quicksort*** pole vľavo od pivota i pole vpravo od pivota.

In [20]:
def quick_sort(a):
    pivot = a[0] # Set the first element as pivot
    smaller = [] # List for elements smaller than pivot
    greater = [] # List for elements greater than pivot
        
    for element in a[1:]: # For all the elements but pivot:
        if element < pivot: # If an element is smaller than pivot...
            smaller.append(element) # ...append it to the 'smaller' list
        else: # If the element is greater instead...
            greater.append(element) # ...append it to the 'greater' list
        
    smaller = quick_sort(smaller) if len(smaller) else smaller # If there is something in the 'smaller' list, call quick_sort on it
    greater = quick_sort(greater) if len(greater) else greater # If there is something in the 'greater' list, call quick_sort on it
    
    return smaller + [pivot] + greater # Build a return value as a linkage of [smaller], [pivot], and [greater]
    
    
a = get_unsorted()

%time a = quick_sort(a)
print(a)

CPU times: user 308 µs, sys: 43 µs, total: 351 µs
Wall time: 363 µs
[-96, -95, -93, -91, -87, -79, -79, -78, -78, -75, -73, -72, -71, -71, -71, -70, -67, -64, -60, -56, -54, -54, -52, -50, -49, -48, -48, -45, -44, -40, -39, -38, -36, -33, -29, -29, -28, -27, -24, -24, -24, -23, -21, -17, -11, -9, -9, -8, -8, -4, -3, -2, 2, 4, 9, 11, 14, 17, 18, 20, 22, 24, 25, 26, 27, 30, 30, 30, 31, 33, 35, 36, 38, 38, 43, 47, 47, 50, 50, 56, 58, 61, 64, 64, 65, 65, 66, 66, 66, 72, 75, 75, 81, 83, 85, 85, 89, 92, 92, 96]


-----------
### Bogosort

In [21]:
def issorted(a):
    return all([a[i] <= a[i + 1] for i in range(len(a) - 1)]) 

def bogo_sort(a):
    while not issorted(a):
        random.shuffle(a)
    return a

a = get_unsorted(5)
%time bogo_sort(a)

print(a)

CPU times: user 105 µs, sys: 15 µs, total: 120 µs
Wall time: 133 µs
[-43, -12, 15, 44, 97]


------------
* Zoraďovacích algoritmov existuje ešte omnoho viac $-$ viď napr. [Wikipedia](https://en.wikipedia.org/wiki/Sorting_algorithm)

### Zabudované zoraďovacie funkcie Pythonu

* `list.sort()` ([Dokumentácia](https://docs.python.org/3/library/stdtypes.html#list.sort))$~\to ~$ Zoradenie zoznamu *na mieste*

    * Parameter `reverse` (bool): `list.sort()` defaultne[<sup>1</sup>](#foot01) zoraďuje zoznam *vzostupne*. Pokiaľ je hodnota argumentu pre parameter `reverse` nastavená na  `True`, zmysel porovnávaní bude zmenený a pole bude zoradené v *zostupnom* zmysle (*default* `False`)
    
    * Parameter `key` (callable): Funkcia, ktorá transformuje hodnoty zoznamu na kľúče, ktoré majú vstúpovať do porovnávaní (*default* `None`)
        * Príklad:

In [23]:
l = [7, 'foo', 'Whale', 'Foo', 'whale', '7', 'seven', [1, 2, 3]]
# l.sort() # Error
l.sort(key=str)
print(l)

l = [7, 'foo', 'Whale', 'Foo', 'whale', '7', 'seven', [1, 2, 3]]
l.sort(key=lambda x: str(x).lower())
print(l)

[7, '7', 'Foo', 'Whale', [1, 2, 3], 'foo', 'seven', 'whale']
[7, '7', [1, 2, 3], 'foo', 'Foo', 'seven', 'Whale', 'whale']


* `sorted()` [Dokumentácia](https://docs.python.org/3/library/functions.html#sorted) $~\to ~$ Vytvorenie zoradeného poľa z iterovateľného objektu, ktorý je jej povinným parametrom
    * Parametre `key` a `reverse` majú rovnaký význam, ako v metóde `list.sort()`

----------
## Všeobecné úlohy

1. Napíšte funkciu `my_find(a, b)`, ktorá v reťazci `a` hľadá reťazec `b` (nepoužívajte zabudovanú funkciu `str.find()`)
    * Pokiaľ je reťazec nájdený, funkcia vráti index jeho prvého výskytu *zľava*.
    * Pokiaľ reťazec nenájde, vráti -1.
    * Efektívna implementácia: [Boyer-Moore-Horspool algoritmus](https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore%E2%80%93Horspool_algorithm).

In [24]:
# The Python find(a, b) function:
a = 'mechanotherapy'
b = 'another'

print(a.find(b))
print(a.find('that'))

4
-1


In [25]:
def my_find(a, b):
    if len(a) > len(b):
        for start in range(len(a) - len(b)):
            if a[start:start + len(b)] in b:
                return start # No need for break keyword
        return -1
    else:
        return -1
    
a = 'mechanotherapy'
b = 'another'

print(my_find(a, b))
print(my_find(a, 'that'))

4
-1


2. Napíšte funkciu `my_replace(a, b, c)`, ktorá v reťazci `a` nahradí všetky výskyty reťazca `b` reťazcom `c`. 

In [26]:
# The Python str.replace(a, b) function:
a = 'mechanotherapy'
b = 'mechano'
c = 'hydro'

print(a.replace(b, c))

hydrotherapy


In [27]:
def my_replace(a, b, c):
    start = 0
    out = a
    while not start == -1:
        start = my_find(out, b)
        if not start == -1:
            out = out[:start] + c + out[start + len(b):]
    
    return out
    
a = 'mechanotherapy mechanotherapy'
b = 'mechano'
c = 'hydro'

print(my_replace(a, b, c))

# a = 'mechanotherapy'
# b = 'physio'
# c = 'hydro'

# print(my_replace(a, b, c))

hydrotherapy hydrotherapy


3. Napíšte program, ktorý načíta štandardný vstup a v načítanom reťazci zamení slovo `Hello` za slovo `Hi`. Pokiaľ sa vo vstupnom reťazci objaví slovo `End`, program skončí.

In [28]:
while True:
    line = input()
        
    end = line.find('End') # Index of 'End'
    
    if end + 1: # Equivalent to (if end == -1). If there is an E
        line = line[:end]  
    
    while line.find('Hello') + 1: # while there is a 'Hello' substring present
        line = line.replace('Hello', 'Hi')
        
    print(line)
    
    if end + 1: # if there is an 'End' substring present
        break

 hello


hello


 Hello


Hi


 a


a


 End



