# Abstraktni podatkovni tipi

Abstraktni podatkovni tip (APT, *abstract data type*) poleg množice možnih vrednosti definira tudi vse operacije, ki so dovoljene na elementih tega podatkovnega tipa, ne definira pa konkretne predstavitve podatkov

Podatkovna struktura (PS, *data structure*) je način organizacije in hrambe podatkov, ki omogoča njihovo učinkovito uporabo, kot so npr. dostop do podatkov, obdelava in spreminjanje.

Abstraktni podatkovni tip torej definira **funkcionalnost**, ne pa konkretne **implementacije** in s tem povezane računske zahtevnosti posameznih operacij. Kot bomo videli že na prvem primeru polja, ločnica ni vedno najbolj jasna, ker se enaka imena lahko uporabljajo v obeh pomenih.

In [1]:
#include <iostream>
#include <vector>
#include <stack>
#include <list>
#include <random>
#include <algorithm>
#include <stdlib.h>
using namespace std;

## Polje (*array*)

Polje lahko interpretiramo na dva načina: kot abstraktni podatkovni tip (APT) ali kot podatkovno strukturo (PS).

Polje (ADT) hrani urejen nabor elementov, do katerih lahko dostopamo s celoštevilskim indeksi. Omogoča naslednjo funkcionalnost:
- `init(c)`: Inicializira polje velikosti `c`.
- `set(i,x)`: Shrani element x na indeks i.
- `get(i)`: Vrni element na indeksu i.

Polje oz. tabela (DS) je hkrati tudi ena najbolj osnovnih podatkovnih struktur, ki hrani podatke enakega tipa/velikosti zaporedno enega za drugim v strnjenem kosu pomnilnika.

Primeri: (Pascal: `array [1..12] of integer`), (C, C++: `int t[12]`), (Java: `int[] t = new int[12]`).

## Sklad (*stack*)

Sklad je abstraktni podatkovni tip, ki hrani elemente organizirane tako, da lahko dodamo nov element, dostopamo pa lahko samo do tistega, ki je bil dodan nazadnje. Obnaša se torej podobno kot kup knjig, na katerega lahko zlagamo nove knjige, s kupa pa lahko vzamemo samo knjigo, ki je trenutno na vrhu. Če želimo kakšno knjigo, ki se nahaja globlje, jih bomo morali z vrha vzeti več. Sklad je poznan tudi kot LIFO (last in, first out) struktura.

- `push(x)`: Dodaj element na vrh sklada.
- `pop()`: Odstrani in vrne element, ki se trenutno nahaja na vrhu sklada.

Pogosto uporabljena operacije je še `top/peek()`, ki vrne vrednost vrhnjega elementa, ne da bi ga odstranila, `size()`, ...

Sklad je precej enostaven za implementacijo, saj lahko uporabimo kar povezan seznam, s katerim dosežemo konstantno časovno zahtevnost operacij. Kljub svoji enostavnosti, nam pogosto pride prav. Vse rekurzivne funkcije (pravzaprav kar vse funkcije) se namreč izvajajo s pomočjo sklada.

Primeri: (C++: `stack`), (Java: `Stack`)

## Seznam (*list*)

Seznam je abstraktni podatkovni tip, ki hrani končno zaporedje elementov. Smiseln nabor operacij, ki jih mora omogočati, je:
- `add(x)`: Dodaj element x v seznam. Kam je dodan, je lahko stvar implementacije, ali pa je definirano že v APT.
- `remove(x)`: Odstrani element x iz seznama.
- `size()`: Število elementov v seznamu.
- `traverse`: Način iteracije čez vse elemente seznama. Lahko v obliki dostopa do prvega elementa in nato vsakega naslednjika.

Lahko bi definirali še marsikatero drugo operacijo: `empty()`, `contains(x)`, `get(i)`, `insert(i,x)`, ...

Primeri: (C++: `list`), (Java: `List`), (Python: `list`).

### Povezani seznam (*linked list*)

Z dinamičnim poljem smo rešili problem dodajanja elementov na konec seznama, dobili pa smo še možnost dostopa do elementov preko indeksov. Težavo pa imamo z vstavljanjem. Vstavljanje elementa na začetek ali nekam na sredino seznama, zahteva zamik vseh sledečih elementov v tabeli, kar je $O(n)$ operacija.

Povezan seznam je podatkovna struktura, ki nam omogoča učinkovito vstavljanje in brisanje (preko reference na element, za katerega vstavljamo oz. ki ga brišemo). Spoznali ste ga že pri Programiranju 2. Vsako vozlišče hrani vrednost elementa in kazalec na naslednje vozlišče. Poleg tega potrebujemo še kazalec na začetek povezanega seznama. Je pa v povezanem seznamu otežen dostop preko indeksa, torej do $i$-tega elementa, in sicer zahteva $O(n)$ korakov, da se prebijemo do njega od začetka seznama.

Primeri: (C++: `list`), (Java: `LinkedList`).

### Dinamično polje (*dynamic/resizeable array*)

Dinamično polje je podatkovna struktura, ki presega omejitve navadnega polja in omogoča dodajanje novih elementov. Kot taka je primerna za implementacijo seznama. 

Implementacije seznama se lahko lotimo s tabelo, kot ste navajeni iz C-ja. Vsakič, ko dodamo nek element, preverimo kapaciteto naše tabele. Če smo jo presegli, alociramo novo, za 1 večjo tabelo, skopiramo vse elemente in dodamo novega na konec. To je zelo prostorsko učinkovito, časovno pa precej potratno, saj potrebujemo za izgradnjo seznama z $n$ elementi kar $O(n^2)$ časa. 

Kadar govorimo o povprečni časovni zahtevnosti v nekem zaporedju operacij, temu rečemo **amortizirana zahtevnost**. V tem primeru je amortizirana časovna zahtevnost $O(n)$, ker za dodajanje $O(n)$ elementov porabimo skupaj $O(n^2)$ časa, kar znese $O(n)$ operacij na posamezen dodan element. Neamortizirana časovna zahtevnost dodajanja posameznega elementa pa je linearna, torej $O(n)$, ker se nam lahko zgodi, da moramo skopirati celoten seznam.

Alternativa je podvojevanje velikosti seznama. Vsakič, ko dosežemo kapaciteto, alociramo novo, dvakrat večjo tabelo. Tako bomo za izgradnjo seznama dolžine $n$, potrebovali $1 + 2 + 4 + 8 + \dots < 4n = O(n)$ operacij (oz. $2n$, če je $n$ ravno potenca števila 2). Prostorsko je nekoliko manj učinkovito, vendar še vedno reda $O(n)$. Enake računske zahtevnosti dosežemo tudi s kakšnim drugim faktorjem, ki ni nujno 2. Moramo pa velikost množiti z nekim faktorjem, ne pa ga prištevati. Spodnja implementacija prikazuje osnovno idejo.

Primeri: (C++: `vector`), (Java: `ArrayList`), (Python: `list`).

In [2]:
class DynamicArray {
private:
    int *t, size, capacity;
public:
    DynamicArray() { t = (int*)malloc(sizeof(int));  size = 0; capacity = 1; }
    ~DynamicArray() { free(t); }
    int operator[](int i) { return t[i]; }
    void add(int x) {
        if (size == capacity) {
            capacity *= 2;
            t = (int*)realloc(t, capacity*sizeof(int));
        }
        t[size++] = x;
    }
};

In [3]:
DynamicArray a;
int n=100000;
for (int i=0;i<n;i++) a.add(i);
cout << a[n/2] << endl;

50000


## Vrsta (*queue*)

Vrsta je abstraktni podatkovni tip, ki hrani elemente organizirane tako, da lahko dodamo nov element na konec vrste, dostopamo pa lahko do tistega, ki se nahaja na začetku vrste oz. je v njej najdlje. Nič drugače, kot vrste sicer, le da tu res ni možnosti vrivanja. V primerjavi s skladom je to FIFO (first in, first out) struktura.

- `push/enqueue(x)`: Doda element na konec vrste.
- `pop/dequeue()`: Odstrani in vrne element z začetka vrste.

Kot pri skladu, sta tudi tu pogosta še `front/peek()` in `size()`. Različica vrste je tudi **dvostrana vrsta** oz. vrsta z dvema koncema (*double-ended queue*), kjer lahko elemente dodajamo in odstranjujemo z obeh strani (začetka in konca).

Vrsto lahko enostavno implementiramo s povezanim seznamom. Poleg kazalca na začetek seznama potrebujemo še kazalec na konec, da lahko učinkovito dodajamo elemente. Tako imajo vse operacijo konstantno časovno zahtevnost, prostorska zahtevnost pa je linearna, kar je tudi najbolje, kar lahko dosežemo.

Primeri: (C++: `queue, deque`), (Java: `Queue, Deque`), (Python: `deque`)

Druga možnost za implementacijo je uporaba dinamičnega polja, ki podvoji svojo kapaciteto, ko je polno. Nove elemente dodajamo na konec tabele. Pri odstranjevanju z začetka pa popravimo indeks, kjer se vsebina vrste začne v tabeli. Težava take rešitve je prostorska zahtevnost, ki ni odvisna od števila elementov v vrsti, ampak od skupnega števila do sedaj dodanih elementov. Rešitev lahko malenkost izboljšamo z uporabo krožnega polja. Sedaj je prostorska zahtevnost odvisna od maksimalne velikosti vrste. Da dosežemo prostorsko zahtevnost, ki je linearno odvisna od velikosti vrste (števila elementov v njej), moramo vključiti še krčenje tabele in sicer, ko velikost pade pod četrtino kapacitete. Razmislite, kaj bi se lahko zgodilo, če bi to naredili pri polovici.

In [4]:
class ArrayQueue {
private:
    vector<int> t;
    int head, tail;
public:
    int size, capacity;
    ArrayQueue() { head=0, tail=0, size=0, capacity=1; t=vector<int>(capacity); }

    int front() { return t[head]; }

    void push(int x) {
        if (size+1==capacity) {  // grow
            vector<int> t2(2*capacity);
            for (int i=head,j=0; i!=tail; i=(i+1)%capacity,j++) t2[j]=t[i];
            t=t2; head=0; tail=size; capacity*=2;
        }
        t[tail] = x;
        tail = (tail+1)%capacity;
        size++;
    }

    int pop() {
        int x = t[head];
        head = (head+1)%capacity;
        size--;
        if (size<=capacity/4) {  // shrink
            vector<int> t2(capacity/2);
            for (int i=head,j=0; i!=tail; i=(i+1)%capacity,j++) t2[j]=t[i];
            t=t2; head=0; tail=size; capacity/=2;
        }
        return x;
    }
};

In [5]:
ArrayQueue q;
for (int i=0;i<100;i++) q.push(i);
for (int i=0;i<80;i++) q.pop();
cout << q.front() << " " << q.size << " " << q.capacity << endl;

80 20 64


Še ena zanimiva možnost je, da si pomagamo z dvema skladoma, s katerima lahko simuliramo vrsto. Elemente dodajamo na prvi sklad, pobiramo pa z drugega sklada. Če je drugi sklad kdaj prazen, preložimo celotno vsebino s prvega sklada na drugega. Pri tem se obrne vrstni red elementov in tisti z dna prvega sklada, ki je bil dodan prvi, se znajde na vrhu drugega sklada. Tudi ta rešitev ima amortizirano časovno zahtevnost vseh operacij zgolj $O(1)$, čeprav ima posamezna operacija odstranjevanja elementa časovno zahtevnost $O(n)$ v nekaterih primerih.

In [6]:
class Queue2Stacks {
private:
    stack<int> in,out;
public:
    void push(int x) { in.push(x); }

    int pop() {
        if (out.empty()) {
            while (!in.empty()) {
                int x=in.top(); in.pop();
                out.push(x);
            }
        }
        int x=out.top(); out.pop();
        return x;
    }
};

In [7]:
Queue2Stacks q2;
q2.push(1); q2.push(2);
cout << q2.pop() << endl;
q2.push(3);
cout << q2.pop() << endl;
cout << q2.pop() << endl;

1
2
3


## Vrsta s prednostjo (*priority queue*)

Vrsta s prednostjo ali prioritetna vrsta je podobna navadni vrsti, vendar ima vsak element prirejeno tudi *prioriteto*. Ko odstranjujemo elemente iz vrste, prejmemo najprej tistega z največjo (ali najmanjšo) prioriteto in ne prvega, ki je bil vstavljen. Enako kot v bolnišnici niso pacienti obravnavani po času prihoda, ampak glede na resnost zdravstvenega stanja.

- `insert/push(x, p)`: Dodaj element `x` s prioriteto `p` v vrsto.
- `pull/pop()`: Odstrani in vrni element z najvišjo prioriteto, ki se nahaja v vrsti.

Tudi tu so pogoste operacije še `front/peek()`, `size()`, ...

Pogosto so prioritete definirane implicitno preko operatorjev za primerjavo in zato nimamo eksplicitno podane prioritete ob vstavljanju elementa. Lahko pa vedno iz prioritet in elementov naredimo pare, ki jih dodajamo v vrsto.

Implementacije se lahko lotimo na zelo enostaven način in elemente hranimo kar v seznamu. Pri iskanju elementa z najvišjo prioriteto preiščemo vse elemente v vrsti oz. seznamu in izberemo primernega. To ima seveda očitno pomanjkljivost, da `pop` ni konstantna operacija, ampak ima linearno časovno zahtevnost. 

Lahko bi elemente v vrsti s prednostjo hranili urejene. Če bi uporabili polje za hrambo urejenega seznama, imamo težavo pri vrivanju novega elementa, ker moramo vse zamakniti. Če bi uporabili povezan seznam, pa imamo težavo pri iskanju mesta za vrivanje, ker ne moremo delati bisekcije po indeksih.

V nadaljevanju si bomo ogledali nekaj načinov, kako smo lahko pri tem bolj učinkoviti.

Primeri: (C++: `priority_queue`), (Java: `PriorityQueue`), (Python: `heapq`)

### Kopica (*heap*)

Najbolj tipična učinkovita implementacija prioritetne vrste je s kopico. Obstaja več vrst kopic, mi pa se bomo omejili na najbolj osnovno **dvojiško kopico**, za katero velja:

- struktura: Dvojiška kopica je poravnano (*complete*) dvojiško drevo.
- vsebina: Vsako vozlišče mora biti večje ali enako od svojih otrok (max-heap), v primeru obratne ureditve (min-heap) pa manjše ali enako. V nadaljevanju se bomo ukvarjali s slednjo.

![Dvojiška kopica (wikipedija)](https://upload.wikimedia.org/wikipedia/commons/6/69/Min-heap.png)

Drevesom se bomo bolj posvetili nekoliko kasneje, vendar si oglejmo par lastnosti dvojiške kopice:
- Najmanjši element se nahaja v korenu drevesu.
- Višina drevesa je logaritemsko odvisna od števila vozlišč, torej $O(\log n)$.

Dvojiško kopico lahko zaradi svoje lepe strukturne lastnosti predstavimo kar s tabelo, v katero po vrsti po nivojih zložimo vse vrednosti. Zgornji primer ustreza tabeli `{1, 2, 3, 17, 19, 36, 7, 25, 100}`. Zaradi prikladnosti bomo indeksiranje v tabeli začeli z 1 in ne 0, kot imamo sicer navado. Hitro se lahko prepričamo, da ima vozlišče na indeksu $i$ svoja otroka na indeksih $2i$ in $2i+1$. In obratno, vozlišče na indeksu $i$ ima svojega starša na indeksu $\lfloor i/2 \rfloor$.

Razmislimo o dodajanju novega elementa. Da ohranimo strukturo, ga bomo vstavili na naslednje prosto mesto oz. ga dodali na konec tabele. S tem smo pokvarili urejenost, ki pa jo lahko popravimo. Nova vrednost je morda tako majhna, da paše nekam višje v drevesu (bližje korenu), zato jo bomo *dvignili*. Če je vozlišče manjše od starša, ga bomo zamenjali s staršem. In to ponavljali, dokler vozlišče ne pristane v korenu ali se ustavi na kakšnem primernem mestu.

Dostop do najmanjšega elementa je trivialen. Brisanje najmanjšega pa malo manj. Zamenjali ga bomo z zadnjim elementom, nato pa popravili urejenost kopice. V tem primeru je nov element v korenu morda prevelik in ga je treba *potopiti* globlje. Zamenjali ga bomo z enim od njegovih otrok, in sicer z manjšim, ter to ponavljali.

Prostorska zahtevnost je linearna, časovna zahtevnost obeh operacij pa sorazmerna z višino kopice, torej $O(\log n)$.

In [8]:
class BinaryHeap {
private:
    vector<int> t={-1};
public:
    void push(int x) {
        t.push_back(x);
        int i=t.size()-1;
        while (i>1 && t[i]<t[i/2]) {  // lift
            swap(t[i],t[i/2]);
            i/=2;
        }
    }

    int pull() {
        int x=t[1], i=1;
        t[1]=t.back(); t.pop_back();
        while (1) {  // sink
            int j=i;
            if (2*i<t.size() && t[2*i]<t[j]) j=2*i;
            if (2*i+1<t.size() && t[2*i+1]<t[j]) j=2*i+1;
            if (i==j) break;
            swap(t[i],t[j]);
            i=j;
        }
        return x;
    }
};

Vrsto s prednostjo lahko uporabimo tudi za urejanje elementov. Če uporabimo kopico, dobimo seveda **urejanje s kopico** (*heapsort*), ki ima časovno zahtevnost $O(n \log n)$.

In [9]:
BinaryHeap h;
int n=100'000;
default_random_engine rnd(123);
for (int i=0;i<n;i++) h.push(rnd()%n);
vector<int> s;
for (int i=0;i<n;i++) s.push_back(h.pull());
cout << is_sorted(s.begin(), s.end()) << endl;

1


### Preskočni seznam (*skip list*)

Zanimiva podatkovna struktura je preskočni seznam, ki se trudi združiti prednosti polja in povezanega seznama. Pravzaprav gre za povezan seznam z dodatnimi (preskočnimi) povezavami, ki predstavljajo bližnjice in omogočajo hitrejše skakanje po seznamu. Običajno se uporablja za hranjenje *urejenega seznama* elementov oz. v našem primeru celih števil, kar izgleda priročno za implementacijo vrste s prednostjo.

![Preskočni seznam (wikipedia)](https://upload.wikimedia.org/wikipedia/commons/8/86/Skip_list.svg)

Zgornja slika prikazuje strukturo preskočnega seznama. Vsako vozlišče ima svojo "višino", ki je izbrana **naključno**. Vsak nov nivo pa je dodan z verjetnostjo $p$, ki je običanjo kar $1/2$. Nivoji so med seboj povezani v več povezanih seznamov. Tako se lahko pri iskanju elementa najprej premikamo po najvišjem nivoju, kjer delamo največje skoke. Nato se spustimo en nivo nižje in najdaljujemo tam, itd.

Verjetnost, da ima element višino $h \geq 1$ je $p^{h-1}$. Na prvem nivoju je vseh $n$ elementov, na drugem jih pričakujemo samo še $n/2$, na tretjem $n/4$ itd. Smiselno je torej imeti $O(\log n)$ nivojev. Pričakovana prostorska zahtevnost je linearna $O(n)$, ker velja $n+n/2+n/4+... < 2n$. Recimo, da imamo naključno zgrajen preskočni seznam z $n$ elementi in želimo vanj vstaviti nov element oz. ga poiskati. Kakšna je pričakovana časovna zahtevnost te operacije? Razmislimo o pričakovanem številu skokov na posameznem nivoju. Če se od elementa premikamo v obratni smeri iskanja, se bomo premaknili nazaj do prvega večjega elementa. Vsak element na tem nivoju je večji z verjetnostjo $p$, pričakovano število korakov, da naletimo na večjega, pa je $1/p$ oz. v našem primeru kar 2. Pričakovana časovna zahtevnost vstavljanja ali iskanja posameznega elementa je torej $O(\log n)$.

In [10]:
class SkipNode {
public:
    int value, height;
    vector<SkipNode*> next;
    SkipNode(int _value, int _height) : value(_value), height(_height) { 
        next.resize(height);
    }
};

In [11]:
class SkipList {
private:
    int max_height;
    SkipNode *head;
    default_random_engine rnd;
public:
    SkipList() : max_height(20) { 
        head = new SkipNode(-1, max_height);
        rnd = default_random_engine(123);
    }
    ~SkipList() {  delete head; }

    bool contains(int x) {
        SkipNode *node = head;
        for (int h=max_height-1;h>=0;h--) {
            while (node->next[h] != NULL && node->next[h]->value < x) node = node->next[h];
        }
        return node->next[0] != NULL && node->next[0]->value == x;
    }

    void insert(int x) {
        int height = 1;
        while (height<max_height && rnd()%2==0) height++;
        SkipNode *new_node = new SkipNode(x, height);
        SkipNode *node = head;
        for (int h=max_height-1;h>=0;h--) {
            while (node->next[h] != NULL && node->next[h]->value < x) node = node->next[h];
            if (h<height) {
                new_node->next[h] = node->next[h];
                node->next[h] = new_node;
            }
        }
    }
};

Testirajmo pravilnost in učinkovitost implementacije na primeru vstavljanja $n$ naključnih celih števil z intervala $[0,n-1]$. Na koncu pa preštejmo, koliko različnih števil imamo v seznamu. Zanimiva vaja iz verjetnosti je izračunati, da je pričakovano število približno 63% oz. natančneje $(1-1/e)$.

In [12]:
SkipList sl;
int n=100'000, st=0;
default_random_engine rnd(123);
for (int i=0;i<n;i++) sl.insert(rnd()%n);
for (int i=0;i<n;i++) st+=sl.contains(i);
cout << "razlicnih: " << st << endl;

razlicnih: 63307


## Množica (*set*)

Množica je abstraktni podatkovni tip, ki kot že ime pove, hrani množico elementov. Bistveno je, da *ne vsebuje ponovitev enakih elementov*. Vsak element je torej prisoten v množici, ali pa ga ni. Ne predpisuje nobenega vrstnega reda elementov.

- `insert/add(x)`: Dodaj element v množico, če v njej še ne obstaja.
- `remove(x)`: Odstrani element iz množice.
- `contains(x)`: Ugotovi, ali je element prisoten v množici, ali ne.

Pogosto omogoča tudi način iteracije čez vse elemente množice in definira funkcije `size()`, `union()`, `intersection()`, ...

Množico lahko implementiramo s seznamom, vendar to ne bo najbolj učinkovito. Na primer, pri dodajanju elementa moramo najprej ugotoviti, ali ta element že obstaja in v ta namen preveriti cel seznam, kar je operacija z linearno časovno zahtevnostjo. Ena možnost je, da uporabimo preskočni seznam, ki hrani elemente urejene in omogoča bolj učinkovito izvedbo omenjenih operacij, ki imajo logaritemsko časovno zahtevnost. Druga možnost je uporaba iskalnih dreves, kar si bomo ogledali kasneje, tretja pa uporaba razpršenih tabel.

Množica je konceptualno sicer drugačna od slovarja, vendar pri implementaciji naletimo na podobne ovire. Zato si bomo v nadaljevanju pri slovarjih ogledali še pristop z uporabo *razpršenih tabel*, ki pride v poštev tudi za implementacijo množic.

Različica množice je **vreča** (*multiset*, *bag*), ki lahko hrani tudi več ponovitev enakih elementov. Cilj te podatkovne strukture pa je še vedno učinkovito preverjanje vsebovanosti elementov v njej ter dodajanje in odstranjevanje.

Primeri: (C++: `set`), (Java: `Set`), (Python: `set`)

## Slovar (*map, dictionary, associative array*)

Slovar je abstraktni podatkovni tip, ki hrani pare (ključ, vrednost) oz. angleško (*key, value*). Pri tem pa se vsak ključ lahko pojavi največ enkrat (tu vidimo podobnost z množico). Vsakemu ključu je torej prirejena neka vrednost. V slovarju bi lahko npr. za vsakega študenta hranili njegove podatke. Ključi bi bile vpisne številke, vrednosti pa ime, priimek in morda še kakšni dodatni podatki. Obratno ne bi šlo, ker ima lahko več študentov enako kombinacijo imena in priimka in ga zato ne moremo uporabiti kot ključ v slovarju.

- `insert(k,v)`: Dodaj par s ključem `k` in vrednostjo `v`, ali ga posodobi, če ključ že obstaja. Rečemo tudi, da pod ključ `k` shranimo vrednost `v`.
- `remove(k)`: Odstrani par s ključem `k`.
- `get/lookup(k)`: Vrni vrednosti, ki je shranjena poleg ključa `k`.

Pogosto omogoča tudi način iteracije čez vse ključe in definira funkcije `size()`, `contains(k)`, ...

Tudi tu bi lahko za implementacijo uporabili kar seznam parov, vendar naletimo na enake težave z učinkovitostjo kot pri množici. Pravzaprav lahko slovar uporabljamo kot množico, če uporabljamo ključe kot elemente množice, vrednosti pa ignoriramo.

Primeri: (C++: `map`), (Java: `Map`), (Python: `dict`)

### Zgoščena/razpršena tabela

Če bi želeli učinkovito implementirati slovar za primer, kjer so ključi 8-mestne vpisne številke študentov, bi si lahko vnaprej pripravili polje velikosti $10^8$ z indeksi od $0$ do $10^8-1$, ki ustrezajo vsem možnim vpisnim številkam. Seveda bo precej polj v taki tabeli praznih. S tem lahko implementiramo vso potrebno funkcionalnost slovarja v $O(1)$.

Predlagana rešitev naleti na dve očitni oviri, če jo želimo uporabiti tudi v kakšnem drugem primeru:
- Kaj če nimamo dovolj prostora za tabelo take velikost?
- Kako naj ta pristop uporabimo v primeru ključev, ki niso cela števila, ampak npr. nizi?

Primeri: (C++: `unordered_map`), (Java: `HashMap`), (Python: `dict`)

Zgoščena (ali razpršena) tabela ponuja rešitev, ki temelji na **zgoščevalni/razpršilni funkciji** (*hash function*). Recimo, da si lahko privoščimo tabelo velikosti $H$. Zgoščevalna funkcija bo preslikala ključ v indeks te tabele. Za cela števila je npr. primerna zgoščevalna funkcija kar $h(x) = x \mod H$. Če imamo opravka z nizi, moramo biti nekoliko bolj kreativni, npr. $h(s) = \sum_i a^i s_i \mod H$ za nek parameter $a$. Zgoščevalna funkcija mora preslikati enake elemente (ključe) v enake vrednosti. Lahko pa se tudi zgodi, da preslika različne elemente v enako vrednost.

Preslikavi različnih elementov v enako vrednost rečemo **trk** (*collision*). Želimo si, da bi zgoščevalna funkcija čim bolj enakomerno porazdelila elemente med zgoščene vrednosti, da ne bi prihajalo do trkov. Beseda "zgoščevalna" izhaja iz tega, da velik nabor vrednosti (npr. imen in priimkov) zgostimo v manjši nabor indeksov. Beseda "razpršilna" pa iz tega, da naj bi funkcija elemente enakomerno razpršila oz. porazdelila po domeni indeksov.

Do trkov bo na žalost prišlo, zato potrebujemo način za njihovo obvladovanje. Najbolj klasičen pristop je, da vrednosti pri vseh ključih, ki se preslikajo v isti indeks, hranimo v seznamu. Običajno kar povezanem seznamu, ki omogoča brisanje in dodajanje v konstantnem času. Temu rečemo **veriženje** (*chaining*) in je prikazano na spodnji sliki. Alternativen pristop, ki mu rečemo odprto naslavljanje (*open addressing*) ali zaprto zgoščevanje (*closed hashing*), uporablja zaporedje zgoščevalnih funkcij. Funkcije preizkuša po vrsti, dokler ne najde take, ki je vrnila zgoščeno vrednost, ki ustreza nekemu prostemu indeksu.

![Zgoščena tabela z veriženjem (wikipedija)](https://upload.wikimedia.org/wikipedia/commons/d/d0/Hash_table_5_0_1_1_1_1_1_LL.svg)

Želimo si čim manj trkov, saj moramo v primeru veriženja preiskati seznam vseh tistih, ki imajo enako zgoščeno vrednost in so shranjeni pod istim indeksom. Verjetnost trkov je odvisna od velikost tabele, števila elementov v njej in kvalitete zgoščevalne funkcije. Običajno merimo zasedenost tabele (*load factor*) kot razmerje med številom vnesenih elementov in kapaciteto tabele, $\alpha = n / H$ . Ko ta faktor preseže 1, bo tudi ob idealni zgoščevalni funkciji, ki vsakemu elementu priredi svoj indeks, prihajalo do trkov. Ko zasedenost tabele doseže neko mejo, lahko izvedemo **ponovno zgoščevanje** (*rehashing*), kjer alociramo npr. dvakrat večjo tabelo, izračunamo nove zgoščene vrednosti vseh elementov in jih razporedimo po novi tabeli v upanju, da smo zmanjšali število trkov.

V najslabšem primeru bomo imeli veliko nesrečo in se bodo vedno vsi ključi preslikali v isti indeks. V tem primeru so časovne zahtevnost vseh operacij $O(n)$, kar ni nič bolje od uporabe navadnega seznama. Bolj zanimiva je pričakovana časovna zahtevnost. Osredotočili se bomo na iskanje elementa, ki je glavna operacija. Predpostavili bomo, da lahko izračunamo zgoščeno vrednost v konstantnem času $O(1)$. Pozor, ta predpostavka ni res že v primeru dolgih nizov. Poleg tega bomo za analizo predpostavili, da zgoščevalna funkcija vrača naključne vrednosti med $1$ in $H$, ki so vse enako verjetne.

- Najprej si oglejmo primer iskanja elementa, ki ne obstaja. V tem primeru so vsi indeksi oz. pripadajoči seznami enako verjetni. Pričakovana časovna zahtevnost je enaka pričakovani dolžini seznama, ki je ob naših predpostavkah enaka $\alpha$. Torej $O(1+\alpha)$ (tudi če je $\alpha=0$, moramo izračunati zgoščeno vrednost, zato +1).
- V primeru iskanja elementa, ki obstaja, niso vsi seznami enako verjetni. Bolj verjetno je, da bomo morali iskati v daljših seznamih, kot v krajših. Tudi v tem primeru se ob zgornjih predpostvkah izkaže, da je pričakovana časovna zahtevnost $O(1+\alpha)$.

Če torej poskrbimo, da bo $\alpha$, ki je delež zasedenosti tabele, neka konstantna vrednost, bodo imele tudi vse operacije pričakovano časovno zahtevnost, ki je konstantna, $O(1)$! Prav to dosežemo s ponovnim zgoščanjem.

Predstavili smo najbolj klasično tehniko zgoščenih tabel. Seveda obstajajo še številne druge tehnike razreševanja trkov in upravljanja z velikostjo tabele, ki si jih lahko ogledate sami.

In [13]:
class HashTable {
public:
    vector<list<pair<int,int>>> t;
    int size, capacity;
    int hash(int x) { return x % capacity; }
    HashTable() { size=0; capacity=1; t.resize(capacity); }

    void rehash() {
        capacity *= 2;
        vector<list<pair<int,int>>> t2(capacity);
        for (int h=0; h<t.size(); h++) {
            for (auto [key, value] : t[h]) {
                int h2 = hash(key);
                t2[h2].push_back({key, value});
            }
        }
        t = t2;
    }

    void insert(int k, int v) {
        if (size == capacity) { rehash(); }
        int h = hash(k);
        for (auto& [key, value] : t[h]) {
            if (key == k) { value = v; return; }
        }
        size++;
        t[h].push_back({k,v});
    }

    int get(int k) {
        int h = hash(k);
        for (auto [key, value] : t[h]) {
            if (key == k) return value;
        }
        return -1;
    }
};

Vstavimo sedaj $n$ naključno izbranih števil v slovar, za vrednost pa bomo vedno uporabili kar 1. Vidimo, da je zopet približno 63% zasedenih vrednosti. Oglejmo si še povprečno in največjo dolžino seznama za veriženje v naši zgoščeni tabeli.

In [14]:
HashTable ht;
int n=100'000, st=0;
default_random_engine rnd(123);
for (int i=0;i<n;i++) ht.insert(rnd()%n, 1);
cout << ht.size << " " << ht.capacity << endl;
int m=0, a=0;
for (int h=0;h<ht.capacity;h++) {
    int len=ht.t[h].size();
    m = max(m, len);
    a += len;
}
cout << (double)a/ht.capacity << " " << m << endl;

63307 65536
0.965988 2
