# Algorytmy i programowanie

## lab 05 (algorytmy) - problem wyszukiwania wartości wyróżnionej w zbiorze

Jest to uzupełnienie (zamiennik) wykładu. Omówimy sobie jak znajdywać **wierzchołek** w liście 1D oraz jak się dowiedzieć **czy dany element w liście występuje**. 

> **Uwaga 1** treść z gwiazdką `*` jest ponadpodstawowa

Będzie to w zasadzie pierwsze spotkanie z algorytmmami. Proszę sobie poszukać definicji (Cormen), co to takiego jest algorytm. 

## Wierzchołek listy

Powtarzając za wykładem, wierzchołek niepustej listy L możemy zdefiniować jako **pozycję** (indeks) $k$ w tablicy (liście, krotce - numerowanej strukturze), dla której spełnione mamy nierówności

$$L[k] \ge L[k-1] \;\;\text{oraz}\;\;  L[k] \ge L[k+1]$$

Wierzchołkiem jest pozycja (indeks) a nie wartość. Przykładowo

* w liście `[1, 2, 3, 4, 3, 2, 1]`, wierzchołkiem będzie indeks `k = 3`
* w liście `[40, 30, 20, 10, 0, 10, 20]`, wierzchołki będą dwa: `k = 0` oraz `k = -1`
* w liście `[3, 6, 9, 9, 9]`, wierzchołki będą trzy: `k = 2, 3, 4`

Jak widać, ta definicja gwarantuje, że nie można zbudować listy liczb, która nie będzie miała wierzchołka.

> **Uwaga** Problem znajdowania wierzchołka w takiej nieuporządkowanej liście jest oczywiście szerszy. Nie zawsze będziemy szukali największej wartości, czasami będzie to najmniejsza. W ogólności chodzi o wyszukiwanie wartości wyróżnionej w nieuporządkowanym zbiorze. Wyróżnienie nie musi polegać na wielkości liczb - może być to dowolna cecha, dla której możemy zdefiniować relację pomiędzy elementami zbioru. Proszę sobie przypomnieć jak programowaliśmy funkcje `__ge__` w przypadku klasy `Kwadrat`. Mając listę instancji tej klasy też możemy znaleźć w niej wierzchołek, ponieważ zadziałają nam relacje większości i równości.


Zanim przejdziemy do szukania, należy podkreślić, że celem jest znalezienie *jakiegokolwiek* wierzchołka, nie *wszystkich* wierzchołków. Wystarczy nam jeden, którykolwiek - nie musi być pierwszy.

### Algorytm naiwny wyszykiwania wierzchołka w liście 1D

To do dzieła - pierwszy algorytm wyszukiwania będzie oczywiście siłowy. Załóżmy, że mamy listę `L` liczb

    L = [a, b, c, d, e]

Przecież wystarczy zerknąć w każdy element listy `L` **po kolei** i sprawdzić, czy wartości u sąsiadów są mniejsze lub równe. Jeżeli tak - mamy wierzchołek. 

#### Algorytm

Mamy 4 przypadki:
* dla 1-elementowej listy wierzchołek jest oczywisty
* jeżeli pierwszy element listy `L[0]` (a) jest większy od drugiego elementu `L[1]` (b) to wierzchołkiem jest `k = 0`
* wierzchołek jest gdzieś w środku listy `L` pod jakimś indeksem `k`, tak że dla każdego elementu, oprócz początkowego i końcowego, należy spojrzeć w prawo na element kolejny `L[k+1]` jak i w lewo na element poprzedzający `L[k-1]`, jeżeli jakikolwiek element spełnia nam definicję, to należy zwrócić indeks tego elementu
* jeżeli ostatni element `L[-1]` (e) jest większy od przedostatniego `L[-2]` (d) to wierzchołkiem jest ostatni element listy `k = len(L) - 1`

In [None]:
def peak_1d_naive(L):
    """Naive algorithm for 1D peak detection"""
    assert L, "L has to be a non empty list"
    
    # jednoelementowa lista
    if len(L) == 1:
        return 0
    
    # przypadek gdy wierzcholek jest na pierwszej pozycji listy
    if L[0] >= L[1]:
        return 0
        
    # przypadek gdy wierzcholek jest innej pozycji, gdzies w srodku listy
    for k in range(1, len(L) - 1):
        if L[k - 1] <= L[k] >= L[k + 1]:
            return k
        
    # przypadek gdy wierzcholek jest na ostatniej pozycji listy
    if L[-1] >= L[-2]:
        return len(L) - 1

Oczywiście można napisać tą funkcję nieco lepiej (patrz wykład), ale tutaj widać wszystkie kolejne przypadki wyróżnione w opisie algorytmu. 

In [None]:
# testy
L0 = [1]
L1 = [1, 2, 3, 4, 5]  # 4 lub -1
L2 = [5, 4, 3, 2, 1]  # 0
L3 = [1, 2, 3, 2, 1]  # 2
L4 = [1, 1, 1, 1, 1]  # 0
L5 = [0, 1, 1, 1, 0]  # 1
L6 = [0, 1, 0, 1, 0]  # 1

for L in [L0, L1, L2, L3, L4, L5, L6]:
    print(L, "-->", peak_1d_naive(L))

[1] --> 0
[1, 2, 3, 4, 5] --> 4
[5, 4, 3, 2, 1] --> 0
[1, 2, 3, 2, 1] --> 2
[1, 1, 1, 1, 1] --> 0
[0, 1, 1, 1, 0] --> 1
[0, 1, 0, 1, 0] --> 1


Jaka będzie złożoność obliczeniowa tego algorytmu? 

W pesymistycznym przypadku wierzchołek będzie znajdował się na ostatniej pozycji, to mamy dwa sprawdzenia (dwie instrukcje `if`) o złożoności $\mathcal{O}(1)$ oraz jedną pętlę z $|L| - 2$ wywołaniami o złożoności $\mathcal{O}(|L|)$. Jeżeli oznaczymy długość listy `|L|` jako $n$, to asymptotyczna złożoność obiczeniowa tego algorytmu będzie liniowa $\mathcal{O}(n)$.

Da się lepiej?

Oczywiście, że się da - trzeba rozbić problem na podproblemy, posprawdzać na mniejszych danych... Znają już Państwo tą strategię - Dziel i Zwyciężaj, a problem jest znów binarny...

### Binarny algorytm wyszukiwania wierzchołka w liście 1D

Znów zakładamy, że mamy listę liczb `L` o dlugości `n = len(L)`. 

#### Algorytm

1. Jeżeli lista jest 1 elementowa to sprawa jest oczywista, zwracamy `0`.

2. Wybieramy sobie środek tej listy `k = n // 2` i patrzymy czy jest wierzchołkiem - sprawdzamy definicję wierzchołka, czyli patrzymy czy 
    
        L[k - 1] <= L[k]   oraz   L[k] >= L[k + 1]
    
    Jeżeli tak: koniec szukania, mamy odpowiedź, jeżeli nie, to...

3. ...jeżeli nie to patrzymy, czy większy element jest po lewej (niższy indeks) czy po prawej (wyższy indeks). Jeżeli po lewej to odrzucamy całą prawą stronę listy (indeksy większe niż `n // 2`) i skupiamy się na liście 
   
        L <- L[:n//2] 
        
    jeżeli po prawej, to odrzucamy całą lewą stronę listy (indeksy mniejsze niż `n//2`) i skupiamy się na liście 
    
        L <- L[n//2+1:]
        
    i wracamy do punktu 1
    
> **Uwaga** musimy pamiętać oryginalną długość listy!

In [None]:
def peak_1d_bin(L):
    """Binary version for 1D peak detection"""
    assert L, "L has to be a non empty list"
    _L = L[:]
    n = len(L)
    
    # list with one single element
    if n == 1:
        return 0

    rec = 0
    k = n // 2 - 1
    while len(_L) > 1:
        if _L[k+1] > _L[k]:
            rec += k + 1
            _L = _L[k+1:]
        elif _L[k-1] > _L[k]:
            _L = _L[:k]
        else:
            return rec + k
        k = len(_L) // 2 - 1
    else:
        return rec + k + 1

Funkcja ta ma większy sens rekurencyjnie (patrz wykład), ale i ta zadziała.

In [None]:
#testy
for L in [L0, L1, L2, L3, L4, L5, L6]:
    print(L, "-->", peak_1d_bin(L))

[1] --> 0
[1, 2, 3, 4, 5] --> 4
[5, 4, 3, 2, 1] --> 0
[1, 2, 3, 2, 1] --> 2
[1, 1, 1, 1, 1] --> 1
[0, 1, 1, 1, 0] --> 1
[0, 1, 0, 1, 0] --> 1


Zobaczmy poniżej dla naszych prostych testów, że nie zawsze dostaniemy taką samą odpowiedź jak w przypadku algorytmu naiwnego!

In [None]:
# większe testy obu funkcji
from random import randint

def show_peak(p, L):
    left = right = '...'
    if p == 0:
        return '[' + str(L[p]) + ', ' + str(L[p+1]) + '...'
    elif p == len(L) - 1:
        return '...' + str(L[p-1]) + ', ' + str(L[p]) + ']'
    elif p == 1:
        left = '['
    elif p == len(L) - 2:
        right = ']'
    return left + str(L[p-1]) + ', ' + str(L[p]) + ', ' + str(L[p+1]) + right


for N in [2, 10, 50, 100, 500, 1000]:
    print(f"|L| = {N}")
    for _ in range(5):
        L = [randint(0, 123) for i in range(N)]
        p = peak_1d_naive(L)
        print(f"naive: {p}, {show_peak(p, L)}", end=",\t")
        p = peak_1d_bin(L)
        print(f"bin: {p}, {show_peak(p, L)}")

|L| = 2
naive: 0, [114, 56...,	bin: 0, [114, 56...
naive: 1, ...97, 100],	bin: 1, ...97, 100]
naive: 1, ...37, 43],	bin: 1, ...37, 43]
naive: 0, [67, 21...,	bin: 0, [67, 21...
naive: 0, [87, 71...,	bin: 0, [87, 71...
|L| = 10
naive: 0, [19, 9...,	bin: 5, ...81, 118, 112...
naive: 0, [116, 91...,	bin: 0, [116, 91...
naive: 0, [113, 108...,	bin: 7, ...2, 123, 48...
naive: 0, [108, 42...,	bin: 4, ...32, 39, 17...
naive: 0, [55, 44...,	bin: 0, [55, 44...
|L| = 50
naive: 0, [53, 36...,	bin: 17, ...33, 75, 42...
naive: 3, ...121, 123, 10...,	bin: 30, ...59, 102, 71...
naive: 2, ...40, 97, 50...,	bin: 35, ...78, 101, 78...
naive: 1, [68, 122, 38...,	bin: 36, ...99, 113, 47...
naive: 1, [47, 66, 51...,	bin: 24, ...108, 112, 80...
|L| = 100
naive: 0, [94, 29...,	bin: 49, ...95, 103, 18...
naive: 0, [91, 16...,	bin: 92, ...87, 107, 90...
naive: 1, [43, 67, 36...,	bin: 49, ...80, 112, 45...
naive: 0, [87, 9...,	bin: 74, ...33, 34, 30...
naive: 1, [42, 53, 37...,	bin: 49, ...45, 75, 13...
|L| = 50

Jaka będzie złożoność obliczeniowa algorytmu implementującego podział binarny? Jak to w tego typu przypadkach, za każdym razem dzielimy listę na pół w każdym kroku i pytamy czy w środku nowej, mniejszej o połowę listy zlokalizowany jest wierzchołek. W pesymistycznej wersji dojdziemy do jednowymiarowej listy, której element z definicji będzie wierzchołkiem. Znacznie lepiej widać to w algorytmie napisanym z pomocą rekurencji (naprawdę polecam zerknąć w plik stowarzyszony z wykładem)

Zakładając wciąż, że $n = |L|$, podziały będą następujące

$$n \rightarrow n/2  \rightarrow n/4  \rightarrow n/8 \rightarrow ... \rightarrow 1$$

co możemy zapisać jako

$$n \rightarrow n/2  \rightarrow n/2^2  \rightarrow n/2^3 \rightarrow ... \rightarrow \color{red}n/2^x = 1 $$

Teraz ten $x$ definiuje nam ilość podziałów, znajdziemy go rozwiązując czerwone równanie po prawej

$$x = \log_2(n)$$

Jako, że żadne stałe multiplikatywne nie mają żadnego znaczenia, to nie ma znaczenia jaką podstawę ma logarytm i asymptotyczna złożoność obliczeniowa tego algorytmu będzie logarytmiczna $\mathcal{O}(\log n)$.

## Wyszukiwanie wzorca w jednowymiarowej liście

Nie będziemy się tu rozpisywać na ten temat, jako że był wałkowany na Wprowadzeniu do programowania. Jeżeli chcemy dowiedzieć się, czy jakiś element `s` istnieje w nieuporządkowanej liście `L` o długości `n`, to musimy sprawdzić **każdy** jej element. Nie ma innej możliwości. Koniec. Kropka. Z tego prostego powodu asymptotyczna złożoność obliczeniowa tego algorytmu będzie liniowa $\mathcal{O}(n)$.

#### Algorytm wyszukiwania liniowego (wyczerpujący)
Sprawdź każdy element listy, czy przypadkiem nie jest równy szukanemu.

Mogą to Państwo oprogramować jak tylko chcą, korzystając z pętli `for` albo `while`, lub też wykorzystać jakieś wyższopoziomowe instrukcje wbudowane w jP (czy inny język). Tutaj zakładam, że wystarczy wiedza `True` / `False`. Czasem trzeba będzie znać położenie elementu, ale to inne zagadnienie.

In [None]:
def linear_search_for(s, L):
    "linear search"
    for idx in range(len(L)):
        if L[idx] == s:
            return True
    return False
        
        
def linear_search_while(s, L):
    "another linear search"
    idx = 0
    while idx < len(L):
        if L[idx] == s:
            return True
        idx += 1
    return False
        
        
def linear_search_jP(s, L):
    "aaaand another linear search"
    return s in L

In [None]:
L1 = [1, 2, 3, 4, 5]
L2 = [200, 150, 100, 150, 200]
L3 = [100, 200, 300, 400, 500]
L4 = [randint(80, 120) for i in range(23)]

s = 100
for L in [L1, L2, L3, L4]:
    print(L)
    print('linear for:', linear_search_for(s, L), end='\t')
    print('linear while:', linear_search_while(s, L), end='\t')
    print('linear jP:', linear_search_jP(s, L), end='\n\n')    

[1, 2, 3, 4, 5]
linear for: False	linear while: False	linear jP: False

[200, 150, 100, 150, 200]
linear for: True	linear while: True	linear jP: True

[100, 200, 300, 400, 500]
linear for: True	linear while: True	linear jP: True

[94, 86, 86, 114, 118, 109, 87, 110, 105, 99, 117, 97, 118, 93, 100, 119, 97, 112, 87, 107, 100, 111, 96]
linear for: True	linear while: True	linear jP: True



Znów pojawia się naturalne pytanie: na pewno nie da się lepiej?

Dla list nieuporządkowanych - naprawdę się nie da. Co innego, jeżeli lista będzie uporządkowana, np: ustawimy sobie liczby w kolejności niemalejącej. Wtedy możemy skorzystać z opcji przeszukiwania binarnego. Wtedy koszt wyszukiwania spadnie nam asymptotycznie do zależności logarytmicznej $\mathcal{O}(\log n)$.

#### Algorytm wyszukiwania binarnego
1. Posortuj listę 
2. Użyj metody równego podziału na posortowanej liście - wykład 3, Wstęp do programowania.

Proszę zauważyć, że ten sposób może tylko odpowiedzieć na pytanie, czy dany element występuje w liście, nie na pytanie gdzie jest zlokalizowany, ponieważ operacja sortowania na zawsze niszczy oryginalną strukturę listy. 

In [None]:
def binary_search(item, alist):
    "binary search"
    first = 0
    last = len(alist)-1
    found = False

    while first<=last and not found:
        midpoint = (first + last) // 2
        if alist[midpoint] == item:
            found = True
        else:
            if item < alist[midpoint]:
                last = midpoint-1
            else:
                first = midpoint+1

    return found

In [None]:
s = 100
for L in [L1, L2, L3, L4]:
    L = sorted(L)
    print(L)
    print('binary_search:', binary_search(s, L), end='\n\n')

[1, 2, 3, 4, 5]
binary_search: False

[100, 150, 150, 200, 200]
binary_search: True

[100, 200, 300, 400, 500]
binary_search: True

[84, 85, 88, 88, 88, 93, 94, 95, 97, 99, 100, 100, 102, 105, 108, 109, 109, 112, 114, 116, 117, 118, 119]
binary_search: True



Powyższy program znajdziecie w całkiem niezłym podręczniku [Problem Solving with Algorithms and Data Structures using Python](https://runestone.academy/runestone/books/published/pythonds/SortSearch/TheBinarySearch.html), z dodatkową pełną i bardzo fajnie zrobioną analizą. Zainteresowanych odsyłam do tego źródła.

### Koszt zamortyzowany

To super - mamy metodę szybszą od liniowej. Problem polega jedynie na tym, że musimy wstępnie taką listę posortować, a to kosztuje nas już dużo więcej niż samo wyszukiwanie. Najszybsze algorytmy sortujące (niewspółbieżnie) to złożoność $\mathcal{O}(n\log n)$. Tak więc - mamy szybki algorytm wyszukujący kosztem sortowania. 

To po co nam taki algorytm? 

Jeżeli musimy wyszukiwanie przeprowadzić tylko 1 raz, to oczywiście nie ma sensu programować (a) sortowania oraz (b) wyszukiwania binarnego. Znacznie szybciej i wydajniej będzie po prostu przejrzeć wyczerpująco element po elemencie i dać odpowiedź Tak/Nie. Zrobimy to w $\mathcal{O}(n)$.
A jeżeli musimy przeszukać więcej niż raz? Np: milion razy? Albo w ogólności $m$ razy, a $m$ jest relatywnie duże? Wtedy zdecydowanie lepiej najpierw posortować listę (zbiór) a później korzystać z algorytmu o złożoności logarytmicznej. Zdecydowanie przyspieszy nam to obliczenia.

W przypadku, gdy musimy dany program uruchomić $m$ razy, powinniśmy pokusić się o oszacowanie **kosztu zamortyzowanego**.

> **Koszt zamortyzowany operacji (K)** jest średnim czasem wykonania przypadającym na jedną operację w pesymistycznym ciągu operacji. (za [Wikipedią](https://pl.wikipedia.org/wiki/Koszt_zamortyzowany))

Metod szacowania takiego kosztu jest kilka, ale najprostszy to iloraz asymptotycznej złożoności obliczeniowej i ilości wywołań

$$K = \mathcal{O}(f(n)) / m$$

Oznacza to, że wykonując raz sortowanie o koszcie $\mathcal{O}(n \log n)$ a później $m$ wywołań wyszukiwania, dla każdego binarnego wyszukiwania mamy amortyzację takiego sortwoania do wielkości $\mathcal{O}(n \log n) / m$. Im $m$ większe tym mniejszy koszt tego wstępnego sortowania *na pojedyncze wyszukiwanie*. Oczywiście w przypadku wyszukiwania liniowego nie mamy kosztów związanych z sortowaniem.

Przykłady poniżej: $n$ to długość listy, $m$ ilość wyszukiwań. Obliczymy stosunek kosztów $m-$krotnego wyszukiwania liniowego ($n \cdot m$) i binarnego $n \cdot \log(n) / m + \log(n) \cdot m$. Ta wielkość mówi ilukrotnie gorsze (>1) lub lepsze (<1) jest wyszukiwanie liniowe.

In [None]:
from math import log 

zamortyzowany_koszt_liniowy = lambda n, m: n * m
zamortyzowany_koszt_binarny = lambda n, m: n * log(n) / m + log(n) * m

for n in [10, 100, 1000, 10000, 100000, 1000000]:
    print(f"n = {n}")
    for m in [1, 10, 100, 1000, 1000000]:
        print(f"m = {m} \t lin/bin = {round(zamortyzowany_koszt_liniowy(n, m)/zamortyzowany_koszt_binarny(n, m), 2)}")
    print()

n = 10
m = 1 	 lin/bin = 0.39
m = 10 	 lin/bin = 3.95
m = 100 	 lin/bin = 4.34
m = 1000 	 lin/bin = 4.34
m = 1000000 	 lin/bin = 4.34

n = 100
m = 1 	 lin/bin = 0.21
m = 10 	 lin/bin = 10.86
m = 100 	 lin/bin = 21.5
m = 1000 	 lin/bin = 21.71
m = 1000000 	 lin/bin = 21.71

n = 1000
m = 1 	 lin/bin = 0.14
m = 10 	 lin/bin = 13.16
m = 100 	 lin/bin = 131.6
m = 1000 	 lin/bin = 144.62
m = 1000000 	 lin/bin = 144.76

n = 10000
m = 1 	 lin/bin = 0.11
m = 10 	 lin/bin = 10.75
m = 100 	 lin/bin = 542.87
m = 1000 	 lin/bin = 1074.99
m = 1000000 	 lin/bin = 1085.74

n = 100000
m = 1 	 lin/bin = 0.09
m = 10 	 lin/bin = 8.68
m = 100 	 lin/bin = 789.63
m = 1000 	 lin/bin = 7896.26
m = 1000000 	 lin/bin = 8685.89

n = 1000000
m = 1 	 lin/bin = 0.07
m = 10 	 lin/bin = 7.24
m = 100 	 lin/bin = 716.66
m = 1000 	 lin/bin = 36191.21
m = 1000000 	 lin/bin = 72382.34



To wszystko. Proszę nie zapomnieć zrobić dość sporej pracy domowej związanej z wyszukiwaniem wierzchołka w strukturach dwuwymiarowych.