# Cvičenie 7: Hašovanie a úvod do OOP

Hašovanie je prístup, v ktorom k jednotlivým prvkom nepristupujeme priamo cez indexy, ale najprv sa vypočíta hash hodnota, a práve túto hodnotu použijeme ako kľúč pre prácu s daným prvkom. Takto spracované prvky uložíme do takzvanej hašovacej tabuľky, v ktorej ako kľúče použijeme možné hodnoty hašovacej funkcie, a pod týmito kľúčmi máme uložený zoznam prvkov s danou hash hodnotou. Použitie hašovacej tabuľky nám značne zjednoduší zložitosť základných operácií, ako napríklad vyhľadávanie a zmazanie prvkov.

Na dnešnom cvičení zadefinujeme hašovaciu funkciu, pozrieme sa, ako efektívne vieme pracovať s hašovacou tabuľkou, a následne uvidíme, ako nám objektovo orientované programovanie vie pomôcť pri práci s údajovými štruktúrami. Pred tým, než sa spustíme do implementácie, [stiahnite si kostru riešenia](sources/lab07/lab07.py), alebo tento notebook.

## Krok 1: Hašovacia funkcia

Ako ukážkový príklad dnes implementujeme hašovaciu tabuľku s číselnými hodnotami (čísla môžu byť celé alebo desatinné). Pred tým než začneme pracovať s hašovaním, potrebujeme zadefinovať našu hašovaciu funkciu. Hašovacia funkcia zoberie vstupnú hodnotu, a určí jej hash hodnotu, pričom pri mapovaní buď sa vypočíta hneď hash hodnota, alebo najprv sa vypočíta medzivýsledok, ktorý sa namapuje do množiny hash hodnôt. Hash hodnoty sú (skoro) vždy číselné hodnoty.

**Úloha**: Navrhnite a implementujte hašovaciu funkciu `hash_function`, ktorá má jeden parameter, a to číselnú hodnotu `number`, a vypočíta hash hodnotu tohto čísla. Pri nárvhu nezabudnite na základné vlastnosti hašovacích funkcií:

* vstupom je hodnota určitého typu
* hash hodnota je jednoduchšia ako vstup (mapuje sa do bucketov)
* funkcia je deterministická, t.j. dáva rovnaký výstup pre ten istý vstup
* rovnaký výstup môže byť vygenerovaný pre rôzne vstupy
* obor hodnôt je presne definovaný interval alebo množina
* mapovanie na hash hodnoty by malo byť skoro uniformné.

In [None]:
def hash_function(number):
    # number is an integer or float
    # calculates and returns hash value for number
    pass

## Krok 2: Základné operácie

Základné operácie pre väčšinu údajových štruktúr definujú minimálnu funkcionalitu, ktorú údajová štruktúra podporuje. Sú nimi operácie pridávanie prvku, zistenie príslušnosti prvku, vyhľadávanie prvku a vymazanie prvku. V tomto kroku implementujeme túto funkcionalitu pre našu hašovaciu tabuľku.

### Krok 2.1: Pridávanie prvkov

Ako prvú funkciu implementujeme pridávanie prvkov do hašovacej tabuľky. Pred tým ale potrebujeme zadefinovať spôsob reprezentácie hašovacej tabuľky. Hašovacia tabuľka patrí medzi asociatívne polia, v Pythone intuitívna reprezentácia je pomocou dictionary, ale v závislosti od oboru hodnôt hašovacej funkcie môžete použiť aj inú formu reprezentácie. My ale pre jednoduchosť a všeobecnosť riešenia budeme používať práve reprezentáciu pomocou dictionary.

**Úloha**: Implementujte funkciu `insert`, ktorá pridá prvok do hašovacej tabuľky (dictionary). Funkcia má dva parametre: `table` má byť typu dictionary, a reprezentuje hašovaciu tabuľku, do ktorej chceme pridať prvok; `number` je číslo, ktoré chceme pridať do tabuľky. Funkcia pridá prvok do tabuľky tak, že najprv zistí hash hodnotu (použite funkciu `hash_function`), a následne `number` uloží pod vypočítaným kľúčom.

**Poznámka**: Pri práci s kľúčmi máte dve možnosti. Buď predpokladáte, že pri inicializácii hašovacej tabuľky sa do nej pridá každý možný kľúč s prázdnym zoznamom hodnôt, alebo kľúče pridáte len v prípade potreby.

In [None]:
def insert(table, number):
    # table is a hash table of type dict
    # number is an integer or float
    # adds number into the hash table under its hash value
    pass

### Krok 2.2: Zistenie príslušnosti prvkov

Ďalšou dôležitou funkcionalitou hašovacej tabuľky je zistiť, či sa nejaká hodnota nachádza v hašovacej tabuľke. Oproti nezoradeným zoznamom, kde zistenie príslušnosti prvku má zložitosť *O(n)*, v hašovacej tabuľke táto operácia vyžaduje menej operácií, keďže nemusíme prehľadávať množinu všetkých hodnôt, iba množinu hodnôt s hash hodnotou nášho prvku. K zisteniu príslušnosti potrebujeme preto najprv vypočítať hash hodnotu hľadaného prvku, a následne prehľadávať zoznam prvkov v danom buckete.

**Úloha**: Implementujte funkciu `has`, ktorá zistí, či hašovacia tabuľka obsahuje hľadaný prvok (zatiaľ ho ale nevráti). Funkcia má dva parametre: `table` typu dictionary, teda hašovacia tabuľka, v ktorej hľadáme daný prvok; a `number`, teda číslo, ktoré hľadáme. Funkcia má návratovú hodnotu `True` ak sa číslo nachádza v tabuľke, v opačnom prípade vráti hodnotu `False`.

In [None]:
def has(table, number):
    # table is a hash table of type dict
    # number is an integer or float
    # returns True if number is in hash table, False otherwise
    pass

### Krok 2.3: Vyhľadávanie prvkov

Vyhľadávanie prvkov v hašovacej tabuľke je veľmi podobná funkcia, ako zistenie príslušnosti, avšak výsledkom nie je boolean `True` alebo `False`, ale funkcia vráti samotný prvok. Práve preto pri implementácii sa môžete inšpirovať riešením funkcie `has`.

**Úloha**: Implementujte funkciu `get`, ktorá vráti prvok, ak sa ten nachádza v hašovacej tabuľke. Funkcia má dva parametre: `table` typu dictionary, teda hašovacia tabuľka, v ktorej hľadáme daný prvok; a `number`, teda číslo, ktoré hľadáme. Funkcia má návratovú hodnotu `number` ak sa číslo nachádza v tabuľke, v opačnom prípade vráti hodnotu `None`.

In [None]:
def get(table, number):
    # table is a hash table of type dict
    # number is an integer or float
    # returns number if number is in hash table, None otherwise
    pass

### Krok 2.4: Zmazanie prvkov

Ak do hašovacej tabuľky vieme prvky pridávať, bolo by dobré, keby sme ich vedeli aj vymazať. Samozrejme hodnotu vieme vymazať len v prípade, že sa nachádza v tabuľke. Vymazanie prebieha v dvoch krokoch: najprv sa určí hašovacia hodnota prvku, ktorý chceme vymazať, a následne sa prvok vymaže zo zoznamu daného bucketu.

**Úloha**: Implementujte funkciu `delete`, ktorá vymaže prvok z hašovacej tabuľky. Funkcia má dva parametre: `table` typu dictionary, teda hašovacia tabuľka, v ktorej hľadáme daný prvok; a `number`, teda číslo, ktoré hľadáme. Pre naznačenie efektu funkcie funkcia má návratovú hodnotu `True` ak sa číslo vymazalo z tabuľky, a hodnotu `False` ak číslo v tabuľke nebolo.

In [None]:
def delete(table, number):
    # table is a hash table of type dict
    # number is an integer or float
    # deletes number from table
    # returns True if number was deleted, False if number was not in table
    pass

### Krok 2.5: Testovanie riešenia

Na konci súboru nájdete funkciu `main`, ktorá otestuje vaše riešenia pridávaním prvkov a kontroly návratových hodnôt jednotlivých funkcií. Ak vám prejdú všetky testy, tak vaša implementácia je správna. Otestujte implementáciu, a prípadné chyby opravte.

In [None]:
if __name__ == '__main__':
    hash_table = dict()
    numbers = [3, 4, 7, 2, 9, 1, 2.34, 68.5, 3, 1, 5, 9]
    for number in numbers:
        insert(hash_table, number)
        print(hash_table)

    print(has(hash_table, 7))
    print(delete(hash_table, 7))
    print(hash_table)

    assert has(hash_table, 4) is True
    assert has(hash_table, 68.5) is True
    assert has(hash_table, 19) is False
    assert has(hash_table, 0.38) is False

    assert delete(hash_table, 4) is True
    assert has(hash_table, 4) is False
    assert delete(hash_table, 23) is False

## Krok 3: Krátky úvod do OOP

Síce naše riešenie funguje správne, a dosiahli sme náš cieľ, na `main` funkcii môžete vidieť, že práca s takýmito funkciami je dosť nepriamočiara, a môžeme urobiť veľa chýb, napríklad ak pracujeme s viacerými hašovacími tabuľkami naraz, treba si dávať pozor, aby sme vždy zavolali funkcie so správnymi parametrami, aby sme nepracovali s kópiami hašovacích tabuliek, a tak ďalej.

V podobných prípadoch by bolo jednoduchšie vnímať hašovaciu tabuľku alebo inú údajovú štruktúru ako jeden celok, s ktorým pracujeme cez volania metód, ktoré sú definované priamo pre daný typ (pre danú údajovú štruktúru). Podobným prístupom ste sa už stretli, aj keď ste si to možno ešte neuvedomili. Napríklad, ak pracujeme so zoznamami, nezavoláme funkciu ktorej odovzdáme ako parameter náš zoznam ak doňho chceme pridať prvok, ale zavoláme napríklad metódu `append` priamo nad daným zoznamom.

Tento prístup sa nazýva objektovo orientované programovanie, kde údaje, ktoré patria spolu uložíme pod jedným objektom a následne pracujeme s týmto objektom tak, že zavoláme metódy definované pre daný typ objektu. V tomto kroku sa pozrieme na to, ako vieme hašovaciu tabuľku zadefinovať ako objekt, resp. triedu, ktorá popisuje všeobecnú funkcionalitu objektov rovnakého typu. Ak nerozumiete všetkým implementačným detailom, nevadí, cieľom je, aby ste získali intuitívne pochopenie, prečo by sme používali objektovo orientovaný prístup pri programovaní.

[Stiahnite si kostru riešenia objektovým prístupom.](sources/lab07/lab07_oop.py)

### Krok 3.1: Definícia triedy

V súbore nájdete definíciu triedy pod blokom `class`. Ako môžete vidieť, definujú sa rovnaké metódy so skoro rovnakým rozhraním, ako boli zadefinované funkcie v predošlom kroku. Jediná nová metóda je `__init__`, ktorá je takzvaný konštruktor, a definuje spôsob, ako sa vytvorí nový objekt. V našom prípade konštruktor urobí len jednu operáciu, a to inicializuje prázdny slovník pod názvom `self.table`.

Odkaz `self` sa ďalej použije v každej metóde ako prvý parameter, čo je štandardom v Pythone ak pracujete s triedami. Odkaz `self` je v podstate odkaz na objekt, s ktorým práve pracujete (z Javy a z C# ho môžete poznať ako `this`). `self` ďalej nahradil parameter `table` v každej metóde. Urobíme tak preto, lebo odteraz metódy nebudú očakávať ako parameter hašovaciu tabuľku, môžu sa k nej dopracovať cez odkaz `self` a konkrétne cez členskú premennú `self.table`. Samotná funkcionalita sa ale nemení.

**Úloha**: Implementujte metódy triedy `HashTable` na základe už vypracovaného riešenia. Funkcionalitu pritom nepotrebujete meniť, stačí opraviť iba odkazy na tabuľku.

In [None]:
class HashTable:
    def __init__(self):
        self.table = dict()

    def hash_function(self, number):
        # number is an integer or float
        # calculates and returns hash value for number
        pass

    def insert(self, number):
        # number is an integer or float
        # adds number into the hash table under its hash value
        pass

    def has(self, number):
        # number is an integer or float
        # returns True if number is in hash table, False otherwise
        pass

    def get(self, number):
        # number is an integer or float
        # returns number if number is in hash table, None otherwise
        pass

    def delete(self, number):
        # number is an integer or float
        # deletes number from table
        # returns True if number was deleted, False if number was not in table
        pass

### Krok 3.2: Testovanie riešenia

V súbore ďalej nájdete rovnaké testy ako v predošlom kroku, rozdiel je iba v práci s hašovacou tabuľkou. Kým pred tým sme našu tabuľku odovzdávali jednotlivým funkciám ako prvý parameter (`insert(hash_table, 4)`), teraz zavoláme metódu priamo nad objektom (`hash_table.insert(4)`). Funkcionalita je ale úplne rovnaká. Zmenil sa aj spôsob vytvorenia hašovacej tabuľky. Pred tým sme ju definovali ako prázny slovník, teraz ale inicializujeme objekt cez triedu `HashTable`. Na ďalšej prednáške sa detailnejšie pozrieme, ako presne fungujú triedy a objekty, teraz stačí, aby ste vnímali podobnosť v dvoch prístupoch.

**Úloha**: Otestujte a v prípade potreby opravte vaše riešenie pomocou funkcie `main`.

In [None]:
if __name__ == '__main__':
    hash_table = HashTable()
    numbers = [3, 4, 7, 2, 9, 1, 2.34, 68.5, 3, 1, 5, 9]
    for number in numbers:
        hash_table.insert(number)
        print(hash_table.table)

    print(hash_table.has(7))
    print(hash_table.delete(7))
    print(hash_table.table)

    assert hash_table.has(4) is True
    assert hash_table.has(68.5) is True
    assert hash_table.has(19) is False
    assert hash_table.has(0.38) is False

    assert hash_table.delete(4) is True
    assert hash_table.delete(4) is False
    assert hash_table.delete(23) is False