# Clase 41

Para una mejor visualización entrar al siguiente [link](https://nbviewer.jupyter.org/github/racsosabe/Miscelanea/blob/master/UPC/Clase%2041%20-%20Estructuras%20de%20Datos%20VI.ipynb)

**Nota:** La clase 39 fue desarrollo de Segment Tree persistente y Realistic Implementation Contest I, mientras que la clase 40 fue de relajación (upsolving de problemas diversos).

# Requisitos Previos

* Matemática Discreta
* Binary Search Trees
* Segment Tree

# Treap

## Randomized Binary Search Tree

Es de conocimiento común que un árbol binario de búsqueda (*Binary Search Tree* o BST) tiene una altura $O(n)$, la cual se da cuando el árbol es un camino. Ya que esta estructura de datos es bastante flexible, es necesario obtener una altura suficientemente pequeña para que podamos usarla sin problemas.

El mejor de los casos se da cuando $h = O(\log_{2}{n})$, justamente cuando es un árbol binario completo o algo bastante cercano a ello. Típicamente, en los análisis de complejidades, solamente importa el peor de los casos, pero podemos intentar analizar la complejidad esperada para ver si *aleatorizar* la estructura es conveniente o no.

Para un análisis más simple, consideraremos tener $n$ datos $a_{1}, a_{2}, \ldots, a_{n}$ que desearemos insertar en nuestro árbol y aplicamos sobre esta secuencia una permutación aleatoria (todas las permutaciones son equiprobables). La pregunta es ¿Cuál es, aproximadamente, la altura que obtendremos?

**Teorema:** En un árbol binario aleatoriamente creado, la altura esperada al buscar algún elemento es $O(\log{n})$.

**Prueba:**

Consideraremos 2 posibles casos al buscar un elemento $x$:

1. $x$ está entre los valores almacenados del árbol.

2. $x$ no está entre los valores almacenados del árbol.

Analizaremos el primer caso:

Dado que la altura es igual a la máxima profundidad de alguno de los nodos del árbol, deberemos hallar alguna cota para la longitud de un camino cualquiera para buscar un valor $x$.

**Observación 1:** La longitud de un camino desde la raíz hasta un nodo está acotado por la cantidad de nodos en el mismo ($len = nodes - 1 < nodes$).

Gracias a la Observación 1, podemos definir $I_{i}$ como:

$$ I_{i} = \left\{ \begin{array}{cc} 1 &\text{Si el nodo }i\text{ esta en el camino al buscar }x \\ 0 &\text{En caso contrario}\end{array} \right. $$

Y como conclusión tendremos que:

$$ \mathbb{E}(len) = \sum\limits_{i = 1, a_{i} \not = x}^{n}\mathbb{E}(I_{i}) = \sum\limits_{i = 1, a_{i} \not = x}^{n}\mathbb{P}(i \text{ esta en el camino desde la raiz a }x) $$

Notemos que para los $a_{i} < x$, se da que $i$ estará presente en el camino si y solo si su posición en la permutación de elementos es anterior a todas las de los $j$ tales que $a_{i} < a_{j} \leq x $. Esto es sencillo de probar por contradicción, pues si alguno de esos nodos estuviera antes en la permutación, entonces el camino para ir desde la raíz $r$ hasta $i$ tendría al nodo $j$ como intermedio; sin embargo, cuando se llega al nodo $j$, el nodo $i$ estará en el subárbol del hijo izquierdo, mientras que $x$ estará en el hijo derecho.

De manera análoga, para los $a_{i} > x$, $i$ estará presente en el camino si y solo si su posición en la permutación es anterior a todas las de los $j$ tales que $ x  \leq a_{j} < a_{i}$.

Si $ord(a_{i})$ es la cantidad de elementos en el árbol que son menores o iguales a $a_{i}$, entonces tendremos la siguiente relación:

$$ \mathbb{P}(i \text{ esta en el camino desde la raiz a }x) = \left\{ \begin{array}{cc} \frac{1}{ord(x) - ord(a_{i})} &a_{i} \leq x \\ \frac{1}{ord(a_{i}) - ord(x)} &a_{i} > x \\ \end{array} \right. $$

Entonces, podemos considerar la permutación $p$ tal que:

$$ a_{p_{i}} < a_{p_{i + 1}}, \forall i = 1, \ldots, n - 1 $$

De esta manera, la longitud de camino esperada es:

$$ \mathbb{E}(len) = \sum\limits_{i = 1}^{n}\mathbb{P}(p_{i} \text{ esta en el camino desde la raiz a }x) $$

Considerando que los primeros $ord(x)$ índices de $p$ cumplen con la misma expresión de probabilidad, mientras que el resto cumple con la otra, agruparemos dichas posiciones:

$$ \mathbb{E}(len) = \sum\limits_{i = 1}^{ord(x)}\mathbb{P}(p_{i} \text{ esta en el camino desde la raiz a }x) + \sum\limits_{i = ord(x) + 1}^{n}\mathbb{P}(p_{i} \text{ esta en el camino desde la raiz a }x) $$

Si denotamos la suma armónica hasta el $n$-ésimo termino como:

$$ H_{0} = 0 $$

$$ H_{n} = \sum\limits_{i = 1}^{n}\frac{1}{i} $$

Podemos reemplazar

$$ \mathbb{E}(len) = \sum\limits_{i = 1}^{ord(x) - 1}\frac{1}{ord(x) - ord(a_{p_{i}})} + \sum\limits_{i = ord(x) + 1}^{n}\frac{1}{ord(a_{p_{i}}) - ord(x)} = H_{ord(x) - 1} + H_{n - ord(x)} \leq 2H_{n} \leq 2\log{n} $$

Por lo tanto, la altura esperada será:

$$ \mathbb{E}(len) = O(\log{n}) $$

##  Asignando prioridades aleatorias

Si bien es cierto que si consideramos el orden de inserción de los elementos de manera *online* (a medida que se procesa la información) podemos obtener un árbol binario de búsqueda con altura $O(n)$, debemos notar que si asignamos aleatoriamente una prioridad **diferente** a cada elemento en el momento de su inserción, podremos plantear una nueva forma de construcción del árbol:

- Los nodos del árbol deben mantener una propiedad de Max Heap respecto a las prioridades.

- Los nodos del árbol deben mantener una propiedad de BST respecto a los valores.

**Observación 1:** Con las dos condiciones anteriores se define una forma única de construir el árbol.

**Observación 2:** Se puede considerar a las prioridades como un nuevo orden de inserción de los elementos, de manera que el árbol resultante siempre será el mismo que construir el árbol insertando los elementos en orden de prioridad descendente.

Gracias a las observaciones anteriores, si las prioridades son diferentes y aleatoriamente uniformes, obtendremos un árbol con altura esperada de $O(\log{n})$.

Lo anterior quiere decir que si podemos encontrar funciones que sean $O(h)$, entonces todas ellas tendrán una complejidad esperada de $O(\log{n})$. A continuación analizaremos dos funciones que nos permiten particionar un árbol y unir dos árboles en $O(h)$.

## Split y Merge

La función *split* recibe un valor $x$ y separa el árbol actual en dos árboles $l$ y $r$ tales que el árbol con raíz $l$ contiene a los nodos $u$ con $u.valor \leq x$ y el árbol con raíz $r$ contiene a los nodos $u$ tales que $u.valor > x$.

Por otra parte, la función *merge* recibe dos árboles con raices $l$ y $r$ bajo la premisa de que los valores del árbol de $l$ son menores que todos los de $r$, respectivamente, y las une en un nuevo árbol con raíz $t$, que contendrá los elementos de $l$ y $r$ con las condiciones que se deben mantener.

**¿Por qué nos bastan estas dos funciones sin considerar las de inserción y eliminación?**

La respuesta es bastante simple, si queremos eliminar un nodo con un valor $x$ del árbol con raíz $t$, nos basta con realizar dos splits y 1 merge:

1. Ejecutamos $split(x, t)$ y obtenemos las raices L y R.
2. Ejecutamos $split(x - 1, L)$ y obtenemos las raices $L_{1}$, $L_{2}$.
3. Ejecutamos $merge(L_{1}, R)$ y asignamos dicha raíz a $t$.

Para realizar una inserción, nos basta hacer un split y 2 merge:

1. Ejecutamos $split(x, t)$ y obtenemos las raices L y R.
2. Creamos un nuevo árbol que contenga solo el nodo con valor $x$ y una nueva prioridad aleatoriamente generada, sea su raíz $r$.
3. Ejecutamos $merge(L, r)$ y asignamos dicha raíz a $t$.
4. Ejecutamos $merge(t, R)$ y asignamos dicha raíz a $t$.

### Split

Por el momento, solo consideraremos una notación que ignore por completo la implementación. Vamos a plantear la función de manera recursiva y esta devolverá un par de nodos. Sea $t$ la raíz del árbol que vamos a particionar y $x$ el valor de corte (para la separación según los valores), entonces tenemos algunas posibilidades:

1. Si $t.valor \leq x$, entonces los elementos del subárbol del hijo izquierdo de $t$ tienen valor menor o igual a $x$, así que nuestro $l$ debe estar inicializado como $t$ sin su hijo derecho. Luego de esto, debemos realizar la partición del subárbol del hijo derecho, sea el resultado el par $(L, R)$, entonces todos los valores del árbol con raíz $L$ son mayores que los del árbol $t$, pero son menores o iguales que $x$, así que $L$ se volverá el nuevo hijo derecho de $t$, de manera que devolvemos el par $(t, R)$.

2. En caso contrario, realizamos lo análogo pero para el hijo derecho, de forma que el par que devolveremos será $(L, t)$ y $R$ será el hijo izquierdo de $t$.

La correctitud de colocar a los nodos como planteamos se debe a que la relación de prioridades de los nuevos árboles estarán derivados de su orden en el original, así que mantiene las propiedades.

![Imagen del Split](https://hsto.org/storage/habraeffect/35/27/35277f3277ac1bf837b7735f18066f58.png)

```Python
split(t, x):
    if t == NULL:
        return (NULL, NULL)
    if t.valor <= x:
        l = t
        (L, r) = split(t.right, x)
        l.right = L
        return (l, r)
    else:
        r = t
        (l, R) = split(t.left, x)
        r.left = R
        return (l, r)
```

### Merge

La función *merge* también la plantearemos de manera recursiva bajo la condición inicial de que todos los nodos del árbol de $l$ tienen un valor menor que los del árbol de $r$.

Es importante notar que iremos construyendo el nuevo árbol en base a la comparación de las raíces, decidiendo la nueva raíz según las prioridades de los mismos.

1. Si $l.prioridad > r.prioridad$, entonces la raíz del nuevo árbol $t$ debe ser el nodo $l$, pero esto nos deja dos árboles con nodos cuyo valor es mayor que $l.valor$, los cuales son $l.right$ y $r$, así que ambos van a tener que distribuirse adecuadamente en el hijo derecho de $t$, pero esto se logra ejecutando la función $merge(l.right, r)$, notemos que el orden es importante por la condición de los valores de $l$ y $r$.

2. En caso contrario, se da lo análogo pero considerando que la raíz del nuevo árbol $t$ debe ser el nodo $r$ y su hijo izquierdo será el resultado de $merge(l, r.left)$.

![Imagen del Merge](https://hsto.org/storage/habraeffect/a9/8f/a98f52fd388745ea9be4b4681f780880.png)

```Python
merge(l, r):
    if l == NULL:
        return r
    if r == NULL:
        return l
    if l.prioridad > r.prioridad:
        t = l
        t.right = merge(l.right, r)
        return t
    else:
        t = r
        t.left = merge(l, r.left)
        return t
```

## Implementación

Para asociar más fácilmente la implementación con los pseudocódigos anteriores, usaremos punteros para los nodos, siendo la estructura más básica:

```C++
struct node{
	int value;
	int priority;
	node* left;
	node* right;
	node(int value) : value(value){
		priority = random(0, 1000000000);
		left = right = nullptr;
	}
};
```

### Función split

Esta función deberá devolver las raices de los dos árboles que resultan luego de realizar la partición, así que devolveremos un par de punteros a dichos nodos en la forma $(L, R)$:

```C++
pair<node*, node*> split(int x, node* t){
	if(t == nullptr){
		return {nullptr, nullptr};
	}
	if(t -> value <= x){
		pair<node*, node*> p = split(x, t -> right);
		t -> right = p.first;
		update(t);
		return {t, p.second};
	}
	else{
		pair<node*, node*> p = split(x, t -> left);
		t -> left = p.second;
		update(t);
		return {p.first, t};
	}
}
```

### Función merge

Esta función deberá devolver la raíz del árbol resultante de unir los dos treaps que toma como argumento, así que devolverá un puntero a dicho nodo:

```C++
node* merge(node* l, node* r){
	if(l == nullptr) return r;
	if(r == nullptr) return l;
	if(l -> priority > r -> priority){
		l -> right = merge(l -> right, r);
		update(l);
		return l;
	}
	else{
		r -> left = merge(l, r -> left);
		update(r);
		return r;
	}
}
```

#### Material para leer

- [Fast Set Operations Using Treaps](https://www.cs.cmu.edu/~scandal/papers/treaps-spaa98.pdf)
- [Cartesian tree](http://wcipeg.com/wiki/Cartesian_tree)

### Problemas para implementar

- [Order statistic set](https://www.spoj.com/problems/ORDERSET/)
- [Database Query Engine](https://codeforces.com/gym/100861)
- [Ghost Town](https://www.spoj.com/problems/COUNT1IT/)
- [Battle with You-Know-Who](https://acm.timus.ru/problem.aspx?space=1&num=1439)