# Drevesa

Drevo je abstraktni podatkovni tip, ki hrani hierarhijo podatkov v svojih vozliščih. Uporabljamo jih lahko za predstavitev hierarhije, datotečne strukture, opis strukture aritmetičnih izrazov ali gramatike, opis poteka postopka, učinkovito organizacijo podatkov, ... V računalništvu rastejo drevesa od zgoraj navzdol. Zaradi raznolikosti različnih dreves ne bomo naštevali posameznih operacij na tem mestu, temveč se bomo z njimi ukvarjali na konkretnih primer drevesnih podatkovnih struktur.

![Drevo - wikipedija](https://upload.wikimedia.org/wikipedia/commons/5/5f/Tree_%28computer_science%29.svg)

### Terminologija

Da se bomo lahko pogovarjali o drevesih, si oglejmo nekaj običajne terminologije v zvezi z njimi.

- **Vozlišče** (*node/vertex*) je osnovni gradnih drevesa, ki lahko hrani nek podatek in **povezave** (*edge/link*) do drugih vozlišč. Vrhnje vozlišče v drevesu, ki predstavlja začetek drevesa, se imenuje **koren** (*root*). Struktura drevesa je rekurzivna, saj vozlišča hranijo povezave do korenov **poddreves** (*subtree*), ki imajo enako strukturo. Vozliščem, ki nimajo nadaljnjih povezav, rečemo **listi** (*leaves*) ali **zunanja** (*external*) vozlišča, ostalim pa **notranja** (*internal*).

- Povezave v drevesu povezujejo **starša** (*parent*) z **otrokom** (*child*). Starš in otroci vozlišča so njegovi **sosedi** (*neighbours*). Koren nima starša, vsa ostala vozlišča v drevesu pa imajo natanko enega. Vsa vozlišča razen listov imajo svoje otroke. Otrokom istega vozlišča rečemo **sorojenci** (*siblings*). Vsa vozlišča v poddrevesih otrok se imenujejo **potomci** (*descendants*). Do njih pridemo po poti od  vozlišča proti listom. Vzdolž poti od vozlišča proti korenu pa se nahajajo **predniki** (*ancestors*).

- Številu otrok rečemo tudi **stopnja** (*degree*) vozlišča, skupnemu številu vozlišč v drevesu pa **velikost** (*size*) drevesa. **Globina** (*depth*) vozlišča je število povezav na poti od korena do tega vozlišča. Globina korena je tako običajno 0, včasih pa se uporablja tudi 1. **Višina** (*height*) drevesa je največja globina vozlišča v njem, torej dolžina najdaljše poti do nekega lista.

- Običajno si predstavljamo, da so drevesa "košata" in ne prav globoka. Takim "lepim" drevesom z nizko višino rečemo **uravnotežena** (*balanced*) drevesa. Če temu ni tako, rečemo, da je drevo **izrojeno** (*degenerate*), npr. povezan seznam je ekstremen primer izrojenega drevesa. Ločnica med uravnoteženimi in izrojenimi primeri je odvisna od primera uporabe. Načeloma pa bomo rekli, da imajo uravnotežena drevesa višino, ki je logaritemsko odvisna od števila vozlišč v njem, torej $h = O(\log n)$, izrojena pa so vsa ostala.

Pomembna lastnost dreves je, da med vsakim parom vozlišč obstaja enolično določena pot. Drevesa so poseben primer grafov, kjer to v splošnem ne velja in predstavlja glaven vir komplikacij. Poleg tega se bomo ukvarjali z drevesi s korenom oz. ukoreninjenimi drevesi (*rooted tree*). V teoriji grafov namreč obstaja koncept drevesa, ki pomeni, da graf ne vsebuje ciklov in ima zato enolično določene poti med pari vozlišč, vendar nima posebej določenega korenskega vozlišča. Več o grafih pa kasneje.

### Obhodi dreves

Obhod drevesa je sistematičen postopek, ki obišče vsa vozlišča drevesa v nekem vrstnem redu. Poznamo štiri pogoste vrste obhodov:
- **Premi** (*pre-order*) obhod obišče vozlišče, nato pa rekurzivno po vrsti vsa poddrevesa.
- **Vmesni** (*in-order*) obhod obišče najprej levo poddrevo, nato vozlišče in nato še desno poddrevo (v primeru dvojiškega drevesa). Če gre za iskalno drevo, nam vmesni obhod vrne urejeno zaporedje.
- **Obratni** (*post-order*) obhod obišče rekurzivon vsa poddrevesa in šele nato vozlišče.
- **Nivojski** (*level-order*) obhod obišče vozlišča po nivojih, najprej koren, nato njegove otroke, nato otroke teh otrok, itd.

### Vrste dreves

V splošnem ni nobene potrebe po tem, da morajo biti podatkih v drevesu na kakšen poseben način, v praksi pa se izkažejo kot uporabna prav zaradi tega. Oglejmo si torej nekaj primerov posebnih drevesnih struktur in urejenost podatkov v njih.

- Najbolj pogosta so **dvojiška** (*binary*) drevesa, kjer ima vsako vozlišče dva otroka. Bolj splošen koncept je **k-tiško** (*k-ary*) drevo, v katerem ima vsako vozliščo največ k otrok.
- **Polno** (*full*) drevo ima v vsakem vozlišču maksimalno število otrok ali nobenega, torej v polnem dvojiškem drevesu ni vozlišč s samo enim otrokom. **Poravnano/celovito** (*complete*) drevo smo že spoznali na primeru kopice. **Popolna** (*prefect*) drevesa so polna in imajo vse liste na enaki globini oz. vsebujejo maksimalno število vozlišč glede na višino drevesa.
- Glede na to, ali obstaja urejenost med otroci poznamo **urejena** in **neurejena** (*ordered/unordered*) drevesa. V slednjih je vrstni red otrok nepomemben.
- Pomembna so tudi **iskalna** (*search*) drevesa, ki so urejena drevesa, v katerih velja, da vsebuje prvi otrok v svojem poddrevesu najmanjše vrednosti, drugi malo večje itd. Vrednost ali vrednosti, ki predstavljajo ločnice med njimi, pa so shranjene v vozlišču.
- Omenimo še **črkovna/znakovna** drevesa (*trie*). Ta so namenjena hrambi zaporedij, ki so sestavljena iz znakov majhn oz. omejene abecede. V njih posamezno vozlišče hrani povezavo do otroka za vsak možen znak abecede.

### Predstavitev dreves

Glede na funkcionalnost, ki jo želimo od drevesa, ga lahko predstavimo na različne načine. Najbolj običajna predstavitev je s *seznamom otrok*, kjer v vsakem vozlišču poleg podatka hranimo še povezave do otrok. Če gre za dvojiško drevo, sta to dve povezavi, sicer pa je lahko seznam povezav. Če se bomo v drevesu premikali samo po poteh proti korenu, je dovolj tudi, da za vsako vozlišče hranimo *povezavo do starša*. Morda pa se sploh ne bomo premikali med vozlišči in bo dovolj kar *seznam povezav* v drevesu.

Povezave do otrok in do starša običajno hranimo kot kazalce ali reference do njih. V primeru posebej urejene strukture drevesa, pa lahko uporabljamo tudi *implicitno predstavitev* s tabelo, kjer lahko na podlagi indeksov določamo starše in otroke, kot smo to videli že pri kopici. 

In [1]:
#include <iostream>
#include <vector>
#include <random>
#include <algorithm>
using namespace std;

Oglejmo si primer implementacije dvojiškega iskalnega drevesa. Podprli bomo samo **vstavljanje** novih vrednosti in vmesni obhod. Zaradi rekurzivne strukture drevesa je običajno dovolj, da predstavimo drevo kar s korenskim vozliščem in tudi funkcionalnost implementiramo na posameznih vozliščih.

In [2]:
class BSTree {
public:
    int value;
    BSTree *left, *right;
    BSTree(int v, BSTree *l=NULL, BSTree *r=NULL) : value(v), left(l), right(r) {}

    void insert(int x) {
        if (x<=value) {
            if (!left) left = new BSTree(x);
            else left->insert(x);
        } else {
            if (!right) right = new BSTree(x);
            else right->insert(x);
        }
    }

    void inorder(vector<int> &seq) {
        if (left) left->inorder(seq);
        seq.push_back(value);
        if (right) right->inorder(seq);
    }
};

V drevo bomo vstavili večje število naključnih vrednosti. Zaradi naključnosti pričakujemo, da se drevo ne bo izrodilo in bo postopek dovolj učinkovit. Če izpišemo začetek vmesnega obhoda, vidimo, da so vrednosti urejene.

In [3]:
int n=100'000;
default_random_engine rnd(123);
BSTree bst(rnd()%n);
for (int i=0;i<n-1;i++) bst.insert(rnd()%n);
vector<int> s;
bst.inorder(s);
for (int i=0;i<10;i++) cout << s[i] << " ";
cout << endl;

0 0 1 3 3 3 6 6 8 9 


Kako pa **izbrišemo** vrednost iz dvojiškega iskalnega drevesa? Če vozlišče nima otrok, ga preprosto odstranimo. Če ima samo enega otroka, ga lahko zamenjamo z njim. Težava nastane, če ima vozlišče oba otroka. V tem primeru ga zamenjamo z naslednjim večjim vozliščem. To je vozlišče, ki je najmanjše oz. najbolj levo vozlišče v desnem poddrevesu. To vozlišče zagotovo nima levega otroka, zato ga lahko enostavno odstranimo. V praksi lahko malo pogoljufamo, če je to sprejemljivo, in namesto brisanja samo označimo neko vozlišče kot izbrisano, namesto da bi ga prav odstranili.

Koncept organizacije podatkov v drevesno strukturo v večini primerov predstavlja samo izhodišče in v neprilagojeni obliki ne bo neposredno uporabno za učinkovito reševanje problema. Lahko pa podatkovno strukturo **razširimo** z dodatnimi podatki, ki bi nam prišli prav. V vsakem vozlišču bi lahko npr. hranili tudi velikost poddrevesa. To bi nam npr. omogočilo učinkovito štetje elementov v drevesu, ki so manjši od izbrane vrednosti.

## Poizvedbe na območjih

Namen dreves na področju algoritmov in podatkovnih struktur je učinkovita organizacija podatkov. Prav nam bodo prišla *statična drevesa*, ki ne omogočajo vstavljanj in brisanj elementov, ki bi spreminjala strukturo drevesa, ampak samo spremebo shranjenih vrednosti.

Razvili bomo rešitve za nekaj vedno kompleksnejših problemov o poizvedbah na območjih tabele. Opravka bomo imeli s tabelo $A$, ki vsebuje $n$ celih števil, $A = [a_0, a_1, \dots, a_{n-1}]$. Poizvedbe pa se bodo nanašale na neko območje $[l,r)$. Rezultat poizvedbe $q(l,r)$ je torej vrednost, če upoštevamo samo elemente $a_l, a_{l+1}, \dots, a_{r-1}$. 

Podatke v tabeli bomo najprej obdelali in organizirali, da bomo lahko nato učinkovito odgovarjali na poizvedbe. Ločeno bomo torej obravnavali časovno in prostorsko zahtevnost predobdelave (*preprocessing*) in poizvedb (*query*).

### Vsota

Najprej si oglejmo poizvedbo o vsoti (*range sum query*): $q(l,r) = \sum_{i=l}^{r-1} a_i$. Tu ni potrebe po prevelikem kompliciranju. Ker ima seštevanje inverzno operacijo odštevanja, si lahko pripravimo tabelo kumulativnih vsot od začetka tabele $c_r = \sum_{i=0}^{r-1} a_i$. Če odštejemo dve kumulativni vsoti, nam ostane vsota elementov med obema mejama: $q(l,r) = c_r - c_l$.

predobdelava (čas, prostor): $O(n)$, $O(n)$
poizvedba (čas, prostor): $O(1)$, $O(1)$

### Minimum

Bistveno težja je poizvedba o najmanjši vrednosti oz. minimumu (*range minimum query*): $q(l,r) = \min_{i=l..r-1} a_i$.

#### Naivna rešitev

Najbolj očitna rešitev je, da pri vsaki poizvedbi preverimo vse elemente na relevantnem območju in med njimi poiščemo najmanjšega.

predobdelava (čas, prostor): $O(1)$, $O(1)$  
poizvedba (čas, prostor): $O(n)$, $O(1)$

#### Bloki

Prejšnjo rešitev lahko poskusimo izboljšati s tem, da bi v procesu predobdelave že naredili nekaj izračunov, kar bi nam prihranilo kasnejše delo ob poizvedbah. Tabelo bomo razdelili na strnjene bloke (skupine, vedra, koše) velikosti $B$ in zanje vnaprej izračunali najmanjše vrednosti. Število blokov bo torej $\lceil n/B \rceil$. Ne glede na $B$ bomo potrebovali kvečjemu dvakrat toliko prostora. Za odgovor na posamezno poizvedbo lahko uporabimo že izračunane rezultate blokov, ki so v celoti znotraj intervala. Teh bo $O(n/B)$. Na levem in desnem robu pa obdelamo še preostale elemente, ki jih je $O(B)$.

Oglejmo si primer s tabelo velikosti $n=11$ in velikostjo bloka $B=3$. Zgornja vrsta predstavlja vrednosti blokov, spodnja osnovno tabelo, pod njima pa so prikazani še indeksi. Za poizvedbo $[1, 10)$ bi uporabili označene vrednosti.

<table>
<tr>
    <td colspan="3" style="text-align: center; border: 1px solid">4</td>
    <td colspan="3" style="text-align: center; border: 1px solid; background-color: coral">2</td>
    <td colspan="3" style="text-align: center; border: 1px solid; background-color: coral">1</td>
    <td colspan="2" style="text-align: center; border: 1px solid">2</td>
</tr>
<tr>
    <td style="border: 1px solid">6</td>
    <td style="border: 1px solid; background-color: coral">8</td>
    <td style="border: 1px solid; background-color: coral">4</td>
    <td style="border: 1px solid">5</td>
    <td style="border: 1px solid">2</td>
    <td style="border: 1px solid">6</td>
    <td style="border: 1px solid">3</td>
    <td style="border: 1px solid">7</td>
    <td style="border: 1px solid">1</td>
    <td style="border: 1px solid; background-color: coral">2</td>
    <td style="border: 1px solid">9</td>
</tr>
<tr>
    <td>0</td><td>1</td><td>2</td><td>3</td><td>4</td><td>5</td><td>6</td><td>7</td><td>8</td><td>9</td><td>10</td>
</tr>
</table>

predobdelava (čas, prostor): $O(n)$, $O(n)$  
poizvedba (čas, prostor): $O(n/B + B)$, $O(1)$

Kakšen $B$ naj izberemo, da bodo poizvedbe čim hitrejše? Če so bloki majhne, moramo upoštevati veliko blokov. Če so bloki veliki, pa imamo veliko opravka z elementi na robu območja, ki niso del blokov v celoti vsebovanih v območju. Dober kompromis je izbira $B = \sqrt{n}$, saj je $O(n/\sqrt{n} + \sqrt{n}) = O(\sqrt{n})$.

predobdelava (čas, prostor): $O(n)$, $O(n)$  
poizvedba (čas, prostor): $O(\sqrt{n})$, $O(1)$

#### Statično drevo

Zakaj bi se ustavili samo pri enem nivoju skupin, če pa lahko naredimo še skupine skupin in nad njimi še en nivo itd. To pa je že drevesna struktura. Nad tabelo lahko sestavimo statično dvojiško drevo, ki bo v listih hranilo vrednosti iz tabele, v notranjih vozliščih pa najmanjšo vrednost na pripadajočem območju.

Brez škode za računsko zahtevnost lahko podaljšamo tabelo do potence števila 2 in shranimo drevo kar implicitno v novi tabeli, ki predstavlja popolno dvojiško drevo (koren ima indeks 1). Število notranjih vozlišč ne presega števila listov oz. osnovne velikosti tabele, torej je prostorska zahtevnots $O(n)$.

<table>
<tr>
    <td colspan="16" style="text-align: center; border: 1px solid">1</td>
</tr>
<tr>
    <td colspan="8" style="text-align: center; border: 1px solid">2</td>
    <td colspan="8" style="text-align: center; border: 1px solid">1</td>
</tr>
<tr>
    <td colspan="4" style="text-align: center; border: 1px solid">4</td>
    <td colspan="4" style="text-align: center; border: 1px solid; background-color: coral">2</td>
    <td colspan="4" style="text-align: center; border: 1px solid; background-color: coral">1</td>
    <td colspan="4" style="text-align: center; border: 1px solid">2</td>
</tr>
<tr>
    <td colspan="2" style="text-align: center; border: 1px solid">6</td>
    <td colspan="2" style="text-align: center; border: 1px solid; background-color: coral">4</td>
    <td colspan="2" style="text-align: center; border: 1px solid">2</td>
    <td colspan="2" style="text-align: center; border: 1px solid">3</td>
    <td colspan="2" style="text-align: center; border: 1px solid">1</td>
    <td colspan="2" style="text-align: center; border: 1px solid">2</td>
    <td colspan="2" style="text-align: center; border: 1px solid">7</td>
    <td colspan="2" style="text-align: center; border: 1px solid">2</td>
</tr>
<tr>
    <td style="border: 1px solid">6</td>
    <td style="border: 1px solid; background-color: coral">8</td>
    <td style="border: 1px solid;">4</td>
    <td style="border: 1px solid">5</td>
    <td style="border: 1px solid">2</td>
    <td style="border: 1px solid">6</td>
    <td style="border: 1px solid">3</td>
    <td style="border: 1px solid">7</td>
    <td style="border: 1px solid">1</td>
    <td style="border: 1px solid">2</td>
    <td style="border: 1px solid">9</td>
    <td style="border: 1px solid">2</td>
    <td style="border: 1px solid; background-color: coral">7</td>
    <td style="border: 1px solid">8</td>
    <td style="border: 1px solid">4</td>
    <td style="border: 1px solid">2</td>
</tr>
<tr>
    <td>0</td><td>1</td><td>2</td><td>3</td><td>4</td><td>5</td><td>6</td><td>7</td><td>8</td><td>9</td><td>10</td><td>11</td><td>12</td><td>13</td><td>14</td><td>15</td>
</tr>
</table>

Za poizvedbo $[1, 13)$ bi uporabili označena vozlišča. Za odgovor na poizvedbo bomo na vsakem nivoju potrebovali kvečjemu dve vozlišč (eno na levi eno na desni strani), zato jih bo vse skupaj $O(\log n)$. Poiščemo jih lahko rekurzivno s premikanjem od korena proti listom, pri čemer se ustavimo, ko je vozlišče v celoti znotraj ali pa v celoti izven območja poizvedbe.

predobdelava (čas, prostor): $O(n)$, $O(n)$  
poizvedba (čas, prostor): $O(\log{n})$, $O(\log{n})$

In [4]:
class RMQ {
private:
    int n;
    vector<int> array;
    struct Node { int min, begin, end; };
    vector<Node> tree;
    int INF=1e9;
public:
    RMQ(vector<int> &a) {
        n = pow(2, ceil(log2((double)a.size())));  // potenca 2
        array = a;
        array.resize(n, INF);
        tree.resize(2*n);
        build();
    }

    void build(int id=1) {
        if (id>=n) { tree[id] = {array[id-n], id-n, id-n+1}; return; }  // list
        int left=2*id, right=2*id+1;
        build(left); build(right);
        tree[id] = {min(tree[left].min, tree[right].min), tree[left].begin, tree[right].end};
    }

    int query(int l, int r, int id=1) {
        if (l<=tree[id].begin && tree[id].end<=r) return tree[id].min;  // znotraj
        if (r<=tree[id].begin || tree[id].end<=l) return INF;           // zunaj
        return min(query(l,r,2*id), query(l,r,2*id+1));
    }
};

Preverimo še pravilnost naše rešitve s primerjavo z naivnim pristopom iskanja najmanjšega elementa.

In [5]:
int n=100'000;
default_random_engine rnd(123);
vector<int> v;
for (int i=0;i<n;i++) v.push_back(rnd()%1'000'000'000);
RMQ rmq(v);
for (int it=0;it<100;it++) {
    int l=rnd()%n, r=rnd()%(n+1);
    if (l>=r) continue;
    if (rmq.query(l, r) != *min_element(v.begin()+l, v.begin()+r)) cout << "ups" << endl;
}
cout << "done" << endl;

done


## Uravnotežena drevesa

Navadna drevesa brez tehnike uravnoteževanja imajo težavo, da se lahko ob neugodnem vstavljanju elementov njihova struktura izrodi in lahko imajo višino, ki je linearno odvisna od števila elementov v drevesu. To je pravzaprav enako dobro oz. slabo kot navaden povezan seznam. V prejšnjem primeru smo se temu izognili z uporabo statičnega drevesa, ki ima fiksno strukturo, spreminja se zgolj vsebina vozlišč.

Uravnoteženost pa lahko dosežemo tudi v nestatičnih drevesih, ki rastejo ali se manjšajo s število vsebovanih elementov. Taka drevesa ohranjajo višino, ki je logaritemsko odvisna od števila elementov. Vse operacije dodajanja, odstranjevanja in iskanja elementov se izvedejo v $O(\log n)$ časa. Tako dobimo strukturo, v katero lahko učinkovito vstavljamo, brišemo in v njej iščemo elemente, kar je pravzaprav podobno dvojiškemu iskanju. Struktura pa je povsem deterministična, torej ni odvisna od naključnosti kot npr. preskočni seznam. Tako jih lahko uporabimo za implementacijo slovarja ali množice.

### AVL drevo

AVL drevo (avtorja Adelson-Velsky in Landis) je najbolj klasičen primer uravnoteženega drevesa. Gre za dvojiško iskalno drevo, kjer je uravnoteženost definirana s tem, da se v *vsakem vozlišču višini levega in desnega poddrevesa razlikujeta kvečjemu za 1*. Ta lastnost zagotavlja, da je višina drevesa $O(\log n)$.

Zakaj? Najmanj koliko vozlišč potrebujemo za AVL drevo višine $h$, recimo temu $f(h)$? Poddrevesi se lahko po višini razlikujeta za največ 1, zato bomo kot levo poddrevo uporabili AVL drevo višine $h-1$ s čim manj vozlišči, kot desno pa drevo višine $h-2$, ki potrebuje manj vozlišč. Potrebno število vozlišč je torej $f(h) = 1+f(h-1)+f(h-2)$. To zaporedje vrednosti se zgolj za 1 razlikuje od Fibonaccijevega zaporedja, za katerega vemo, da raste eksponentno.



Začnimo z enostavnim iskalnim drevesom brez uravnoteževanja, ki ga bomo nato dopolnili. Metoda za vstavljanje bo sprejela kazalec na vozlišče, v katerega poddrevo vstavljamo nov element. Vračala pa bo kazalec na koren drevesa z vstavljenim vozliščem. Strukturo dopolnimo še s podatkom o višini poddreves, ki nam bo prišel prav kasneje. Izračunajmo tudi faktorj uravnoteženosti v vsakem vozlišču (*balance*), ki je razlika med višino desnega in levega poddrevesa. Negativna vrednost torej predstavlja višje levo poddrevo, pozitivna pa višje desno.

In [6]:
class AVLNode {
public:
	int value;
	AVLNode *left, *right;
	int height;
	AVLNode(int v) : value(v), left(NULL), right(NULL), height(1) { }
};

class AVLTree {
public:
	AVLNode *root = NULL;

	int height() { return height(root); }
	int height(AVLNode* node) { return (node!=NULL)?node->height:0; }
	int balance(AVLNode* node) { return height(node->right) - height(node->left); }
	void update(AVLNode* node) { node->height = 1 + max(height(node->left), height(node->right)); }

    // implementirano kasneje
    AVLNode* rotateLeft(AVLNode* node);
    AVLNode* rotateRight(AVLNode* node);

	bool contains(int x) { return contains(x, root); }
	bool contains(int x, AVLNode* node) {
		if (node==NULL) return false;
		else if (node->value==x) return true;
		else if (x < node->value) return contains(x, node->left);
		else return contains(x, node->right);
	}

    // dopolnjeno kasneje z uravnotezevanjem
	void insert(int x) { root = insert(x, root); }
	AVLNode* insert(int x, AVLNode* node) {
		if (node==NULL) { return new AVLNode(x); }
		if (x <= node->value) node->left = insert(x, node->left);
		else node->right = insert(x, node->right);
        update(node);
		return node;
	}
};

Če v tako drevo vstavljamo naraščajoče vrednosti, bomo dobili izrojeno drevo. Če preverjamo še vsebovanost elementov, dobimo kvadratno število operacij.

In [7]:
default_random_engine rnd(123);
AVLTree avl;
int n=1000;
for (int i=0;i<n;i++) {
    avl.insert(i);
    assert(avl.contains(i) && !avl.contains(i+1));
}
cout << avl.height() << endl;

1000


Osnovna operacija, s katero bomo popravljali strukturo drevesa, je rotacija. Poznamo levo in desno rotacijo. Če naredimo levo rotacijo na drevesu s korenom A, ga zamenjamo z njegovim desnim otrokom B in primerno prevežemo njuna poddrevesa X (levi otrok A-ja), Y (levi otrok B-ja) in Z (desni otrok B-ja). Pri tem vozlišči A in B zamenjata svoj nivo. Poddrevo X se spusti za en nivo, nivo Y-a se ne spremeni, nivo Z-ja pa dvigne za en nivo. Po prevezavah moramo posodobiti višine dreves s koreni A in B, višine ostalih pa se ne spremenijo.

<img alt="rotacija - University of Wisconsin-Madison" src="https://pages.cs.wisc.edu/~ealexand/cs367/NOTES/AVL-Trees/avl4.png" width="350px"/>

In [8]:
AVLNode* AVLTree::rotateLeft(AVLNode* node) {
    AVLNode *R=node->right;
    node->right=R->left; R->left=node;
    update(node); update(R);
    return R;
}

In [9]:
AVLNode* AVLTree::rotateRight(AVLNode* node) {
    AVLNode *L=node->left;
    node->left=L->right; L->right=node;
    update(node); update(L);
    return L;
}

Sedaj moramo vstavljanju dodati še logiko uravnoteževanja, ki bo poskrbela, da bodo tudi po vstavljanju novega vozlišča ostala vsa vozlišča uravnotežena (torej velikosti njihovih poddreves). Novo vozlišče bomo vstavili kot običajno, nato pa bomo ob vračanju proti korenu po potrebi popravljali strukturo z rotacijami. Pri tem lahko naletimo na več situacij, ki jih bomo obravnavali v nadaljevanju.

Naj bo X najgloblje vozlišče, ki ima zaradi novo vstavljenega vozlišča (minimalno) neprimeren faktor uravnoteženosti, ki je lahko -2 ali 2 (primera sta simetrična). Omejimo se na faktor 2, kjer je desno poddrevo vozlišča X previsoko glede na levo poddrevo. To se je zgodilo, ker smo novo vozlišče vstavili na desno stran v poddrevo s korenom Z, ali pa ker smo popravljali enega od njegovih poddreves. Poddrevo Z ne vsebuje samo enega vozlišča, sicer ne bi moglo priti do take neuravnoteženosti. Poleg tega vemo, da je vozlišče Z že uravnoteženo.

Najprej obravnavajmo primer (ilustriran levo), ko ima vozlišče Z faktor 1 ali 0. Izvedemo enojno levo rotacijo na vozlišču X, s čimer poskrbimo za uravnoteženost v vozliščih X in Z. Višina drevesa je ostala enaka, ali pa se je znižala za 1.

V drugem primeru (ilustriran desno) ima vozlišče Z faktor -1. Njegov levi otrok Y je torej višji od desnega. Izvedemo dvojno rotacijo, ki bo spravila Y v koren. Najprej naredimo desno rotacijo na vozlišču Z, nato sledi še leva rotacijo na vozlišču X. Tudi v tem primeru so vozlišča X, Y in Z uravnotežena, višina drevesa pa se zniža za 1.

V obeh primerih smo razrešili neuravnoteženost, vendar se je pri tem višina drevesa lahko znižala za 1, kar lahko povzroči novo neuravnoteženost, ki pa je bližje korenu in jo razrešimo kasneje.

<table>
<tr>
    <td><img alt="enojna rotacija - Wikipedija" src="https://upload.wikimedia.org/wikipedia/commons/thumb/7/76/AVL-simple-left_K.svg/292px-AVL-simple-left_K.svg.png" width="200px"></td>
    <td width="200px"></td>
    <td><img alt="dvojna rotacija - Wikipedija" src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f9/AVL-double-rl_K.svg/302px-AVL-double-rl_K.svg.png" width=250px"></td>
</tr>   
</table>

In [2]:
class AVLNode {
public:
	int value;
	AVLNode *left, *right;
	int height;
	AVLNode(int v) : value(v), left(NULL), right(NULL), height(1) { }
};

class AVLTree {
public:
	AVLNode *root = NULL;

	int height() { return height(root); }
	int height(AVLNode* node) { return (node!=NULL)?node->height:0; }
	int balance(AVLNode* node) { return height(node->right) - height(node->left); }
	void update(AVLNode* node) { node->height = 1 + max(height(node->left), height(node->right)); }

	AVLNode* rotateLeft(AVLNode* node) {
		AVLNode *R=node->right;
		node->right=R->left; R->left=node;
		update(node); update(R);
		return R;
	}

	AVLNode* rotateRight(AVLNode* node) {
		AVLNode *L=node->left;
		node->left=L->right; L->right=node;
		update(node); update(L);
		return L;
	}

	bool contains(int x) { return contains(x, root); }
	bool contains(int x, AVLNode* node) {
		if (node==NULL) return false;
		else if (node->value==x) return true;
		else if (x < node->value) return contains(x, node->left);
		else return contains(x, node->right);
	}

	void insert(int x) { root = insert(x, root); }
	AVLNode* insert(int x, AVLNode* node) {
		// navadno vstavljanje
		if (node==NULL) { return new AVLNode(x); }
		if (x <= node->value) node->left = insert(x, node->left);
		else node->right = insert(x, node->right);
		update(node);
		// uravnotezi po potrebi
		int b=balance(node);
		if (b==2) {  // prevelik desni
			int bR=balance(node->right);
			if (bR==1 || bR==0) return rotateLeft(node);
			else { node->right=rotateRight(node->right); return rotateLeft(node); }
		} else if (b==-2) {  // prevelik levi
			int bL=balance(node->left);
			if (bL==-1 || bL==0) return rotateRight(node);
			else { node->left=rotateLeft(node->left); return rotateRight(node); }
		}
		return node;
	}

    // pomozna funkcija za preverjanje pravilnosti
    bool check(AVLNode *node) {
		if (node==NULL) return true;
        int b=balance(node);
        if (b<-1 || 1<b) return false;
        return check(node->left) && check(node->right);
	}
};

Preverimo, da pri vstavljanju sedaj res nastane nizko uravnoteženo drevo.

In [3]:
default_random_engine rnd(123);
AVLTree avl;
int n=100'000;
for (int i=0;i<n;i++) {
    avl.insert(i);
    assert(avl.contains(i) && !avl.contains(i+1));
}
cout << avl.height() << endl;
if (avl.check(avl.root)) cout << "balanced" << endl;

17
balanced


### Druga uravnotežena drevesa

Obstajajo še številna druga uravnotežena drevesa, ki dosegajo uravnoteženost na različne načine in ponujajo logaritemsko časovno zahtevnost operacij. Najbolj znana med njimi so:

- **Rdeče-črno drevo** (*red-black tree*) uporablja barvanje vozlišč z rdečo in črno barvo v kombinaciji s pravili o barvah, ki zagotavljajo uravnoteženost drevesa: prazna vozlišča so črna, rdeče vozlišče nima rdečega otroka, poti od vsakega vozlišča do praznih potomcev vključujejo enako število črnih vozlišč. Spremembe drevesa, ki imajo za posledico tudi spremembe barv, se lahko izvede v logaritemskem času. Novo vstavljeno vozlišče je najprej rdeče (da se ohranja lastnost z enaki številom črnih vozlišč na vseh poteh), čemur lahko sledi več popravkov v obliki rotacij in menjav barv.

<img alt="Rdeče-črno drevo - Wikipedija" src="https://upload.wikimedia.org/wikipedia/commons/4/41/Red-black_tree_example_with_NIL.svg" width="400px"/>
<br/>

- **2-3 drevo** (*2-3 tree*) uporablja različno velikost vozlišč za doseganje uravnoteženosti. Vsako vozlišče ima namreč dva ali tri otroke (in en ali dva ključa). Poleg tega se vsi listi nahajajo na enaki globini. Obstaja povezava med 2-3 drevesi in rdeče-črnimi drevesi.

<img alt="2-3 drevo - Wikipedija" src="https://upload.wikimedia.org/wikipedia/commons/4/44/2-3_insertion.svg" width="600px"/>
<br/>

- **B-drevo** (*B-tree*) je posplošitev 2-3 drevesa. V B-drevesu reda $m$ imajo vozlišča največ $m$ otrok, notranja vozlišča pa vsaj $m/2$. Vsi listi se nahajajo na enaki globini. Vozlišče z $o$ otroci torej hrani $o-1$ urejenih ključev, ki predstavljajo meje. Če je teh ključev znotraj vozlišča veliko, lahko po njih učinkovito iščemo z bisekcijo. Uporablja se v podatkovnih bazah, saj dostopa do večjih blokov podatkov hkrati in ne dela povsem naključnih dostopov v pomnilnik, ki niso tako učinkoviti (še posebej na diskih).

<img alt="B-drevo reda 5 - Wikipedija" src="https://upload.wikimedia.org/wikipedia/commons/6/65/B-tree.svg" width="300px"/>
<br/>

- **Lomljeno drevo** (*splay tree*) zagotavlja zgolj amortizirano logaritemsko časovno zahtevnost. Dostopane elemente namreč premika h korenu s pametno uporabo dvojnih rotacij in s tem tudi popravlja strukturo drevesa. Enojne rotacije s staršem namreč niso dovolj. Če smo potrebovali veliko časa za dostop do nekega vozlišča, se to v zaporedju operacij ne bo zgodilo večkrat, ker ga bomo po prvem dostopu premaknili bližje in pri tem malo uravnotežili drevo.

<img alt="Lomljeno drevo - Loyola Marymount University" src="https://cs.lmu.edu/~ray/images/splay.png" width="400px"/>
<br/>

- **Naključno uravnoteženo drevo** (*treap*) uporablja naključne prioritete vozlišč in vzdržuje iskalno drevo, ki je hkrati urejeno v kopico glede na prioriteto elementov. Vozlišče z največjo prioriteto torej postane koren drevesa. Vozlišča pa so po vrednostih še vedno urejena kot v iskalnem drevesu.  Zaradi naključnosti ponuja pričakovano logaritemsko časovno zahtevnost.

<img alt="Naključno uravnoteženo drevo - Wikipedija" src="https://upload.wikimedia.org/wikipedia/commons/4/4b/TreapAlphaKey.svg" width="150px"/>