# Algoritmizace a programování 2

## Cv.3. Vyhledávací algoritmy nad sekvenčními kolekcemi

Fiser
* binary search (bisect)
* heap (array representation by list)

Stag
* Vyhledání prvku
* Vyhledávání extrémů
* Vyhledávání chybějících
* Vyhledávání opakujících se
* Vyhledávání v řetězci

### 3.1 Vyhledání prvku

In [122]:
seznam = [1,4,3,2,9,1,8,7,4,3,5]

#### 3.1.1 Lineární vyhledávání
Algoritmus se složitostí O(n), který pracuje na neseřazeným seznamem. Algoritmus postupně projede všechny prvky lineárně po sobě a vrátí index prvního nálezu hledaného prvku.

In [3]:
def linearni_vyhledavani(seznam, prvek):
    for i in range(len(seznam)):
        if seznam[i] == prvek:
            return i

print(linearni_vyhledavani(seznam, 9))

4


#### 3.1.2 Binární vyhledávání
Algoritmus se složitostí O(log n), který pracuje nad seřazeným seznamem. Algoritmus využívá informace o seřazenosti a pomocí algoritmu půlení intervalu zahazuje subinterval, ve kterým se prvek nebude nacházet. Nalezneme prostředek seznamu, pokud je prvek větší jak prostředek, pak stačí prohledávat od prostředku do konce. Pokud je prvek menší jak prostředek, tak stačí prohledávat od začátku do prostředku v další iteraci. Pokud je prostředek roven hledanému prvku, tak vrátíme.

In [56]:
def binarni_vyhledavani(serazeny_seznam, prvek):
    i = len(serazeny_seznam)//2
    while serazeny_seznam[i] != prvek:
        if prvek > serazeny_seznam[i]:
            serazeny_seznam = serazeny_seznam[i+1:]
        else:
            serazeny_seznam = serazeny_seznam[:i]
        i = len(serazeny_seznam)//2
    return i

print(sorted(seznam))
print(binarni_vyhledavani(sorted(seznam), 9))

[1, 1, 2, 3, 3, 4, 4, 5, 7, 8, 9]
1


#### 3.1.3 Skokové vyhledávání
Algoritmus se složitostí O(sqrt(n)), který pracuje nad seřazeným seznamem.

In [141]:
import math 

def skokove_vyhledavani(seznam, prvek):
    step = int(math.sqrt(len(seznam))) #optimální velikost kroku

    #nalezeni bloku, kde se nachazí hledaný prvek
    k = step
    while k < len(seznam):
        if prvek <= seznam[k]:
            break
        k += step

    #nalezení hledaného prvku lineárním vyhledáváním v bloku
    for i in range(k-step, min(len(seznam),k+1)):
        if seznam[i] == prvek:
            return i
    else:
        return None

print((sorted(seznam)))
print(skokove_vyhledavani(sorted(seznam), 7))

[1, 1, 2, 3, 3, 4, 4, 5, 7, 8, 9]
8


#### 3.1.4 Exponenciální vyhledávání

Algoritmus s asymptotickou složitostí O(log n) pracující nad seřazenou kolekcí. Jedná se o upravenou verzi předchozího kódu, kde krok se exponenciálně navyšuje.

In [53]:
def exponencialni_vyhledavani(seznam, prvek):
    k = 1

    #nalezeni bloku, kde se nachazí hledaný prvek
    while k < len(seznam):
        if prvek <= seznam[k]:
            break
        k *= 2
        
    #nalezení hledaného prvku lineárním vyhledáváním v bloku
    for i in range(k//2, min(k+1, len(seznam))):
        if seznam[i] == prvek:
            return i
    else:
        return None

print((sorted(seznam)))
print(exponencialni_vyhledavani(sorted(seznam), 9))

[1, 1, 2, 3, 3, 4, 4, 5, 7, 8, 9]
10


### 3.2 Vyhledání extrémů

#### 3.2.1 Vyhledání globálního extrému

In [100]:
def globalni_maximum(seznam):
    index_maxima = 0
    maximum = seznam[index_maxima]
    for i in range(1, len(seznam)):
        if seznam[i] > maximum:
            index_maxima = i
            maximum = seznam[index_maxima]
    return index_maxima

seznam = [1,4,3,2,9,1,8,7,4,3,5]
print(globalni_maximum(seznam))

4


#### 3.2.2 Nalezení k-extrémů
Nejjednodušší dvě možnosti pro nalezení k-extrémů je buď seřadit rychlým algoritmem kolekci a pomocí slicingu vybrat prvních k nebo posledních k prvků nebo ukládat nalezené extrémy do dočasného seznamu, který neustále aktualizujeme a nahrazujeme nepotřebný extrém nově nalezeným.

In [117]:
seznam = [1,4,3,2,9,1,8,7,4,3,5]

In [121]:
def najdi_extremy(seznam, k):
    extremy = seznam[:k]
    min_extrem = min(extremy)
    index_min_extrem = extremy.index(min_extrem)
    for i in range(k, len(seznam)):
        if seznam[i] > min_extrem:
            extremy[index_min_extrem] = seznam[i]
            min_extrem = min(extremy)
            index_min_extrem = extremy.index(min_extrem)
    return extremy    

print(najdi_extremy(seznam, k=3))

[9, 7, 8]


In [116]:
k = 3
print(sorted(seznam)[-k:])
print(sorted(seznam)[:k])

[7, 8, 9]
[1, 1, 2]


### 3.3 Vyhledávání chybějících
Mějme seznam celých čísel o velikosti n-1. V seznamu jsou čísla od 1 do n a nenachází se v seznamu duplicity. Jedno z čísel chybí. Napište kód, který číslo nalezne. V realitě se může jednat o nalezení omylem smazaného záznamu podle id.

#### 3.3.1 Sumační formulí

In [61]:
def nalezni_chybejici_sumaci(seznam):
    n = len(seznam)+1
    suma = n*(n+1)/2
    akumulator = 0
    for i in range(n-1):
        akumulator += seznam[i]
    return suma - akumulator

seznam = [1, 3, 5, 2] #chybí 3, n = 4
print(nalezni_chybejici_sumaci(seznam))

4.0


In [62]:
seznam = [1, 3, 5, 2] #chybí 3, n = 4
n = len(seznam) + 1

print(n*(n+1)/2 - sum(seznam))

4.0


#### 3.3.2 Operací XOR
Sumační formule je problematická v tom, že pro velká čísla může dojít paměť. Daleko lepší je řešit to pomocí logické operace XOR (exkluzivní součet). Logická operace XOR má zajímavou vlastnost:
* a(1) ^ a(2) ^ ... ^ a(n) = a
* a(1) ^ a(2) ^ ... ^ a(n-1) = b
* a ^ b = a(n)

In [None]:
print(0 ^ 0) #00 xor 00 = 00 
print(0 ^ 1) #00 xor 01 = 01
print(1 ^ 2) #01 xor 10 = 11
print(1 ^ 3) #01 xor 11 = 10

In [None]:
a = 0 ^ 2 ^ 3       # 00 xor 10 = 10, 10 xor 11 = 01
b = 0 ^ 1 ^ 2 ^ 3   # 00 xor 01 = 01, 01 xor 10 = 11, 11 xor 11 = 00
print(a ^ b)        # 01 xor 00 = 01

In [97]:
def nalezni_chybejici_XOR(seznam):
    a = 0
    b = 0
    n = len(seznam)+1
    for i in range(1,n+1):
        b = b ^ i
    for i in range(len(seznam)):
        a = a ^ seznam[i]
    return a ^ b

seznam = [1, 4, 5, 2] #chybí 3, n = 4
print(nalezni_chybejici_XOR(seznam))

3


### 3.4 Vyhledání opakujících se

Cílem je nalézt takový algoritmus, který nalezne v poli o délce N všechny prvky, které se více jak N/K-krát opakují.

In [158]:
seznam = [1,2,1,3,4,2,1,3,5,6,4,2]
n = len(seznam) #12
k = 6
print(int(n/k))

2


#### 3.4.1 Jednoduchá metoda
Asymptotická složitost je O(n**2). Vezmem každý prvek seznamu a podívame se, kolikrát se v seznamu vyskytuje. Pokud napočítáme více výskytů jak n/k, pak je prvek opakujícím se. Kontroluji n prvků a pro každý z nich kontroluji n prvků.

In [154]:
def opakujici(seznam, nopakovani):
    opakujici_se_prvky = []
    for hledany_prvek in seznam:
        pocet = 0
        if hledany_prvek in opakujici_se_prvky:
            continue
        for prvek in seznam:
            if prvek == hledany_prvek:
                pocet += 1
            if pocet > nopakovani:
                opakujici_se_prvky.append(hledany_prvek)
                break #urychleni algoritmu
    return opakujici_se_prvky

print(opakujici(seznam, int(n/k)))

[1, 2]


#### 3.4.2 S využitím řazení
Asymptotická složitost je O(nlogn). Seznam nejprve seřadim algoritmem s dobrou složitostí jako O(nlogn). Následně lineárně projedu seznam a mám stejné hodnoty u sebe. Mohu tedy napočítat, kolik jsem našel stejných prvků za sebou. Jedná se o lineární průchod n prvků, takže komplexite O(n). Celkem to dá složitost O(nlogn).

In [156]:
def opakujici_razeni(seznam, nopakovani):
    opakujici_se_prvky = []
    serazeny_seznam = sorted(seznam)            #O(nlogn)
    pocet = 1
    fixed = serazeny_seznam[0]
    for i in range(1, len(serazeny_seznam)):    #O(n)
        if fixed == serazeny_seznam[i]:
            pocet += 1
        else:
            if pocet > nopakovani:
                opakujici_se_prvky.append(fixed)
            fixed = serazeny_seznam[i]
            pocet = 1
    return opakujici_se_prvky #O(nlogn) + O(n) = O(nlogn)

print(opakujici_razeni(seznam, int(n/k)))

[1, 2]


#### 3.4.3 S využitím dočasného pole


In [None]:
def opakujici_docasne(seznam, nopakovani):
    opakujici_se_prvky = []
    vyskyty = {}
    for prvek in seznam:
        vyskyty[prvek] = 1 if prvek not in vyskyty else vyskyty[prvek] + 1
    for prvek, pocet_vyskytu in vyskyty.items():
        if pocet_vyskytu > nopakovani:
            opakujici_se_prvky.append(prvek)
    return opakujici_se_prvky

print(opakujici_docasne(seznam, int(len(seznam)/k)))

### 3.5 Vyhledávání v řetězci

#### 3.5.1 Nalezení podřetězce v řetězci

In [167]:
def nalezni_podretezec(retezec, podretezec):
    for i in range(0, len(retezec) - len(podretezec)):
        nalezeno = True
        for j in range(len(podretezec)):
            if retezec[i+j] != podretezec[j]:
                nalezeno = False
                break
        if nalezeno:
            return i

print(nalezni_podretezec("aabcaa", "abc"))

1


#### 3.5.2 Nalezení počtu odlišných znaků

Hammingova vzdálenost je důležitá metrika, kterou se zjišťuje počet znaků, o které se liší dva řetězce. Tato metrika má následné uplatnění v optimalizaci úloh (například moje kurzy Evolučního modelování).

In [172]:
def hamming(retezec_a, retezec_b):
    if len(retezec_a) != len(retezec_b):
        raise ValueError("Retezce nejsou stejne dlouhe!")
    vzdalenost = 0
    for i in range(len(retezec_a)):
        if retezec_a[i] != retezec_b[i]:
            vzdalenost += 1
    return vzdalenost

print(hamming("aaba", "bacb"))

3


In [173]:
def hamming(retezec_a, retezec_b):
    return sum(a != b for a,b in zip(retezec_a, retezec_b))

print(hamming("aaba", "bacb"))

3


### Domácí cvičení

#### DCv.1 - Interpolační vyhledávání
Naprogramujte si vyhledávací algoritmus vylepšující binárního vyhledávání pro kolekce s rovnoměrně rozloženými hodnotami.

Odkaz: [Interpolační prohledávání EN](https://www.geeksforgeeks.org/interpolation-search/)

Odkaz: [Interpolační prohledávání CZ](https://www.algoritmy.net/article/160/Interpolacni-vyhledavani)

#### DCv.2 - Prořezávej a hledej

Naprogramujte si vyhledávací algoritmus se složitostí O(c*n), který pracuje na základě metody rozděl a panuj s názvem Prune search.

Odkaz: [Prořezávej a hledej CZ](https://www.algoritmy.net/article/158/Prorezavej-a-hledej)

#### DCv.3 - Vyhledání opakujících se prvků optimálně

Úpravou algoritmu 3.4.3 jste schopni redukovat asymptotickou složitost na O(k*n). Zkuste si předělat algoritmus podle následujícího postupu (poslední algoritmus na stránce). Aspoň pochopíte smysl koeficientu k:

Odkaz k samostudiu: [Opakující se prvky](https://www.geeksforgeeks.org/given-an-array-of-of-size-n-finds-all-the-elements-that-appear-more-than-nk-times/?ref=leftbar-rightbar)

#### DCv.4 - Levenshteinova vzdálenost

Hammingova vzdálenost v mnoha aplikacích dostačuje. Pro některé aplikace potřebujeme komplexnější metriku. Příkladem takové je Levenshteinova vzdálenosti, která měří vzdálenost mezi dvěma řetězci jako počet nutných editací pro ekvivalenci řetězců. Editacemi se myslí vložení, smazání, substitce písmen. Naprogramujte funkci, která měří vzdálenost řetězcu Levenshteinovou metrikou.

Odkaz k samostudiu: [Levenshtein](https://en.wikipedia.org/wiki/Levenshtein_distance)

#### DCv.5 - Integrace do sekvenčních struktur

Ve cvičení 2 jste se naučili psát vlastní některé abstraktní datové typy, konkrétně sekvenční struktury (zásobník, fronta, setříděný seznam). Proveďte integraci těchto algoritmů do tříd pro tyto struktury ve formě metody. Zda to bude instanční, třídní nebo statická metoda nechám na vašem zamyšlení.