# Abstraktni podatkovni tipi

Abstraktni podatkovni tip (APT, *abstract data type*) poleg množice možnih vrednosti definira tudi vse operacije, ki so dovoljene na elementih tega podatkovnega tipa, ne definira pa konkretne predstavitve podatkov

Podatkovna struktura (PS, *data structure*) je način organizacije in hrambe podatkov, ki omogoča njihovo učinkovito uporabo, kot so npr. dostop do podatkov, obdelava in spreminjanje.

Abstraktni podatkovni tip torej definira **funkcionalnost**, ne pa konkretne **implementacije** in s tem povezane računske zahtevnosti posameznih operacij. Kot bomo videli že na prvem primeru polja, ločnica ni vedno najbolj jasna, ker se enaka imena lahko uporabljajo v obeh pomenih.

In [1]:
#include <iostream>
#include <vector>
#include <random>
#include <stdlib.h>
using namespace std;

## Polje (*array*)

Polje lahko interpretiramo na dva načina: kot abstraktni podatkovni tip (APT) ali kot podatkovno strukturo (PS).

Polje (ADT) hrani urejen nabor elementov, do katerih lahko dostopamo s celoštevilskim indeksi. Omogoča naslednjo funkcionalnost:
- `set(i,x)`: Shrani element x na indeks i.
- `get(i)`: Vrni element na indeksu i.

Polje oz. tabela (DS) je hkrati tudi ena najbolj osnovnih podatkovnih struktur, ki hrani podatke enakega tipa/velikosti zaporedno enega za drugim v strnjenem kosu pomnilnika.

Primeri: (Pascal: `array [1..12] of integer`), (C, C++: `int t[12]`), (Java: `int[] t = new int[12]`).

## Seznam (*list*)

Seznam je abstraktni podatkovni tip, ki hrani končno zaporedje elementov. Smiseln nabor operacij, ki jih mora omogočati, je:
- `add(x)`: Dodaj element x v seznam. Kam je dodan, je lahko stvar implementacije, ali pa je definirano že v APT.
- `remove(x)`: Odstrani element x iz seznama.
- `size()`: Število elementov v seznamu.
- `traverse`: Način iteracije čez vse elemente seznama. Lahko v obliki dostopa do prvega elementa in nato vsakega naslednjika.

Lahko bi definirali še marsikatero drugo operacijo: `empty()`, `contains(x)`, `get(i)`, `insert(i,x)`, ...

Primeri: (C++: `list`), (Java: `List`), (Python: `list`).

### Dinamično polje (*dynamic/resizeable array*)

Dinamično polje je podatkovna struktura, ki presega omejitve navadnega polja in omogoča dodajanje novih elementov. Kot taka je primerna za implementacijo seznama. 

Implementacije seznama se lahko lotimo s tabelo, kot ste navajeni iz C-ja. Vsakič, ko dodamo nek element, preverimo kapaciteto naše tabele. Če smo jo presegli, alociramo novo, za 1 večjo tabelo, skopiramo vse elemente in dodamo novega na konec. To je zelo prostorsko učinkovito, časovno pa precej potratno, saj potrebujemo za izgradnjo seznama z $n$ elementi kar $O(n^2)$ časa.

Alternativa je podvojevanje velikosti seznama. Vsakič, ko dosežemo kapaciteto, alociramo novo, dvakrat večjo tabelo. Tako bomo za izgradnjo seznama dolžine $n$, potrebovali $1 + 2 + 4 + 8 + \dots < 4n = O(n)$ operacij (oz. $2n$, če je $n$ ravno potenca števila 2). Prostorsko je nekoliko manj učinkovito, vendar še vedno reda $O(n)$. Enake računske zahtevnosti dosežemo tudi s kakšnim drugim faktorjem, ki ni nujno 2. Moramo pa velikost množiti z nekim faktorjem, ne pa ga prištevati. Spodnja implementacija prikazuje osnovno idejo.

Primeri: (C++: `vector`), (Java: `ArrayList`), (Python: `list`).

In [2]:
class DynamicArray {
private:
    int *t, size, capacity;
public:
    DynamicArray() { t = (int*)malloc(sizeof(int));  size = 0; capacity = 1; }
    ~DynamicArray() { free(t); }
    int operator[](int i) { return t[i]; }
    void add(int x) {
        if (size == capacity) {
            capacity *= 2;
            t = (int*)realloc(t, capacity*sizeof(int));
        }
        t[size++] = x;
    }
};

In [3]:
DynamicArray a;
int n=100000;
for (int i=0;i<n;i++) a.add(i);
cout << a[n/2] << endl;

50000


### Povezani seznam (*linked list*)

Z dinamičnim poljem smo rešili problem dodajanja elementov na konec seznama, dobili pa smo še možnost dostopa do elementov preko indeksov. Težavo pa imamo z vstavljanjem. Vstavljanje elementa na začetek ali nekam na sredino seznama, zahteva zamik vseh sledečih elementov v tabeli, kar je $O(n)$ operacija.

Povezan seznam je podatkovna struktura, ki nam omogoča učinkovito vstavljanje in brisanje (preko reference na element, za katerega vstavljamo oz. ki ga brišemo). Spoznali ste ga že pri Programiranju 2. Vsako vozlišče hrani vrednost elementa in kazalec na naslednje vozlišče. Poleg tega potrebujemo še kazalec na začetek povezanega seznama. Je pa v povezanem seznamu otežen dostop preko indeksa, torej do $i$-tega elementa, in sicer zahteva $O(n)$ korakov, da se prebijemo do njega od začetka seznama.

Primeri: (C++: `list`), (Java: `LinkedList`).

### Preskočni seznam (*skip list*)

Zanimiva podatkovna struktura je preskočni seznam, ki se trudi združiti prednosti polja in povezanega seznama. Pravzaprav gre za povezan seznam z dodatnimi (preskočnimi) povezavami, ki predstavljajo bližnjice in omogočajo hitrejše skakanje po seznamu.

Običajno se uporablja za hranjenje *urejenega seznama* elementov oz. v našem primeru celih števil. Če bi uporabili polje za hrambo urejenega seznama, imamo težavo pri vrivanju novega števila, ker moramo vse zamakniti. Če bi uporabili povezan seznam, pa imamo težavo pri iskanju mesta za vrivanje, ker ne moremo delati bisekcije po indeksih. Preskočni seznam združuje prednosti obeh alternativ za majhno ceno.

![Preskočni seznam (wikipedia)](https://upload.wikimedia.org/wikipedia/commons/8/86/Skip_list.svg)

Zgornja slika prikazuje strukturo preskočnega seznama. Vsako vozlišče ima svojo "višino", ki je izbrana **naključno**. Vsak nov nivo pa je dodan z verjetnostjo $p$, ki je običanjo kar $1/2$. Nivoji so med seboj povezani v več povezanih seznamov. Tako se lahko pri iskanju elementa najprej premikamo po najvišjem nivoju, kjer delamo največje skoke. Nato se spustimo en nivo nižje in najdaljujemo tam, itd.

Verjetnost, da ima element višino $h \geq 1$ je $p^{h-1}$. Na prvem nivoju je vseh $n$ elementov, na drugem jih pričakujemo samo še $n/2$, na tretjem $n/4$ itd. Smiselno je torej imeti $O(\log n)$ nivojev. Pričakovana prostorska zahtevnost je linearna $O(n)$, ker velja $n+n/2+n/4+... < 2n$. Recimo, da imamo naključno zgrajen preskočni seznam z $n$ elementi in želimo vanj vstaviti nov element oz. ga poiskati. Kakšna je pričakovana časovna zahtevnost te operacije? Razmislimo o pričakovanem številu skokov na posameznem nivoju. Če se od elementa premikamo v obratni smeri iskanja, se bomo premaknili nazaj do prvega večjega elementa. Vsak element na tem nivoju je večji z verjetnostjo $p$, pričakovano število korakov, da naletimo na večjega, pa je $1/p$ oz. v našem primeru kar 2. Pričakovana časovna zahtevnost vstavljanja ali iskanja posameznega elementa je torej $O(\log n)$.

In [4]:
class SkipNode {
public:
    int value, height;
    vector<SkipNode*> next;
    SkipNode(int _value, int _height) : value(_value), height(_height) { 
        next.resize(height);
    }
};

In [5]:
class SkipList {
private:
    int max_height;
    SkipNode *head;
    default_random_engine rnd;
public:
    SkipList() : max_height(20) { 
        head = new SkipNode(-1, max_height);
        rnd = default_random_engine(123);
    }
    ~SkipList() {  delete head; }

    bool contains(int x) {
        SkipNode *node = head;
        for (int h=max_height-1;h>=0;h--) {
            while (node->next[h] != NULL && node->next[h]->value < x) node = node->next[h];
        }
        return node->next[0] != NULL && node->next[0]->value == x;
    }

    void insert(int x) {
        int height = 1;
        while (height<max_height && rnd()%2==0) height++;
        SkipNode *new_node = new SkipNode(x, height);
        SkipNode *node = head;
        for (int h=max_height-1;h>=0;h--) {
            while (node->next[h] != NULL && node->next[h]->value < x) node = node->next[h];
            if (h<height) {
                new_node->next[h] = node->next[h];
                node->next[h] = new_node;
            }
        }
    }
};

Testirajmo pravilnost in učinkovitost implementacije na primeru vstavljanja $n$ naključnih celih števil z intervala $[0,n-1]$. Na koncu pa preštejmo, koliko različnih števil imamo v seznamu. Zanimiva vaja iz verjetnosti je izračunati, da je pričakovano število približno 63% oz. natančneje $(1-1/e)$.

In [6]:
SkipList sl;
int n=100'000, st=0;
default_random_engine rnd(123);
for (int i=0;i<n;i++) sl.insert(rnd()%n);
for (int i=0;i<n;i++) st+=sl.contains(i);
cout << "razlicnih: " << st << endl;

razlicnih: 63307


## Sklad (*stack*)

TODO

## Vrsta (*queue*)

TODO

S krožno tabelo

S skladom

### Dvostrana vrsta (*deque*)

TODO

## Vrsta s prednostjo (*priority queue*)

TODO prioritetna vrsta

### Kopica

Dvojiška kopica

## Množica

TODO

S seznamom

### Razpršena tabela

Razpršena/zgoščena tabela

## Slovar

TODO