# Clase 29

Para una mejor visualización entrar al siguiente [link](https://nbviewer.jupyter.org/github/racsosabe/Miscelanea/blob/master/UPC/Clase%2029%20-%20Estructuras%20de%20Datos%20IV.ipynb)

**Nota:** La clase 28 fue un repaso de problemas diversos y un contest de práctica.

# Requisitos Previos

* Matemática Básica
* Matemática Discreta

# Min/Max Stack

Consideremos una pila en la que podamos insertar elementos y quitarlos en $O(1)$ como una pila común, pero además de ello tengamos la posibilidad de obtener el mínimo elemento en $O(1)$ (y no en el $O(n)$ que costaría hacerlo en una pila común).

La respuesta para esto es bastante simple, podemos extender nuestra pila para que lleve una pareja de elementos en cada nodo, de forma que en el elemento $top$ se almacene la pareja $(elemento, minimo\_total)$.

De esta manera podemos obtener el mínimo de toda la pila en $O(1)$ (sería el segundo elemento del $top$) y realizar las operaciones usuales de pila en $O(1)$. Se agrega la función `getMin()` que devuelve $\infty$ si la pila está vacía o el segundo valor de la pareja $top$; además se modifica la función `push` para que también obtenga el mínimo total.

Un ejemplo de implementación de la estructura sería el siguiente:

```C++
const int inf = 2e9;

struct MinStack{
	stack< pair<int, int> > S;

	MinStack(){};

	bool empty(){
		return S.empty();
	}

	void push(int x){
		int new_min = S.empty()? x : min(x, S.top().second);
		S.emplace(make_pair(x, new_min));
	}

	int top(){
		return S.empty()? inf : S.top().first;
	}

	int getMin(){
		return S.empty()? inf : S.top().second;
	}

	void pop(){
		if(!S.empty()) S.pop();
	}
};

```

## Problemas para resolver en clase

- [Smallest on the Stack](https://www.spoj.com/problems/MINSTACK/)

# Min/Max Queue

Consideremos el problema anterior pero modelado para una cola, en la cual debemos obtener el mínimo valor de todos los elementos insertados en $O(1)$. ¿Cómo lograr esta complejidad?

La verdad es que la respuesta es **no** (de manera sencilla), pero podemos lograr una complejidad de $O(1)$ *amortizada*, lo que significa que no todas las veces que se tendrá una complejidad de $O(1)$, pero procesar un total de $n$ elementos nos dará una complejidad de $O(n)$, por lo que se puede aproximar que cada elemento dio un trabajo $O(1)$.

Analizando el método usando con pilas no es fácil extenderlo para una cola, ya que hay dos lugares por donde se modifican los elementos (a diferencia de la pila que todo se hace por una sola entrada). Sin embargo, el mismo hecho de que hayan dos lugares nos da una pista de que podríamos usar la implementación de cola usando 2 pilas, de manera que podemos llamar a una de las pilas como *pila de entrada* y la otra como *pila de salida*.

Podemos verlo de manera gráfica:

![Cola con dos pilas](https://i.stack.imgur.com/9f03R.png)

Si insertamos los elementos con índices $1$, $2$, $3$ en la primera pila, los tendremos almacenados con orden invertido, de manera que, al pasarlos de la primera pila a la segunda, restauraremos su orden para cuando debamos eliminar el elemento al frente de la cola (el elemento de índice 1).

Hay una pequeña sutileza que considerar al momento de analizar la implementación con las dos pilas, la cual es **en la segunda pila el orden actual es fijo**, lo que significa que, una vez que hemos agregado elementos a la segunda pila, no podemos agregar más elementos hasta que la hayamos vaciado por completo.

Debido a lo anterior, cuando la segunda pila esté vacía y hagamos una consulta de eliminación, primero pasaremos **todos los elementos actuales de la pila 1** a la pila 2 e intentaremos resolver la consulta.

Hasta acá no hemos progresado nada respecto a mantener el mínimo o máximo de los elementos, pero si las pilas que manejamos las volvemos `MinStack`, entonces podemos obtener el mínimo consultando el mínimo en ambas pilas y devolviendo el mínimo entre ambas.

Notemos que si realizamos $n$ inserciones y $n$ eliminaciones de elementos en la cola, cada elemento habrá pasado 1 vez por la pila 1, 1 vez por la pila 2 y habrá sido removido 1 vez, lo que significa que en total el tiempo fue $O(n)$.

```C++
struct MinQueue{
	MinStack entrada, salida;

	MinQueue(){};

	void push(int x){
		entrada.push(x);
	}

	void pop(){
		if(salida.empty()){
			while(!entrada.empty()){
				salida.push(entrada.top());
				entrada.pop();
			}
		}
		if(!salida.empty()){
			salida.pop();
		}
	}

	int front(){
		if(salida.empty()){
			while(!entrada.empty()){
				salida.push(entrada.top());
				entrada.pop();
			}
		}
		return salida.top();
	}

	int getMin(){
		return min(entrada.getMin(), salida.getMin());
	}
};
```

Es importante notar que se puede plantear la implementación de estas estructuras para que puedan resolver cualquier tipo de consulta de una **función asociativa** (sobre todos los elementos de la cola) en $O(operacion)$, donde $operacion$ es el tiempo que se demora en evaluar la función con dos elementos.

## Problemas para resolver en clase

- [Sliding Minimum Elements](http://judge.u-aizu.ac.jp/onlinejudge/description.jsp?id=DSL_3_D)
- [Queries with Fixed Length](https://www.hackerrank.com/challenges/queries-with-fixed-length/problem)
- [Map - Este lo hicimos con Sparse Table pero se puede optimizar con Min Queue](https://codeforces.com/problemset/problem/15/D)

# SQRT Decomposition

Consideremos el simple problema de tener $n$ elementos de una secuencia $a$ y desear consultar la suma de los elementos en un rango $[l, r]$, así como dar la posibilidad de modificar un elemento $a_{pos} = x$, con un total de $q$ consultas.

## Partición en bloques

Supongamos que deseamos partir la secuencia de tamaño $n$ en $\left\lceil \frac{n}{b} \right\rceil$ bloques de tamaño $b$ (posiblemente con el último bloque de menor tamaño), en tal caso tenemos los siguientes resultados:

1. Obtener la suma de un rango tomará (en el peor de los casos) sumar todos los bloques y parcialmente uno o dos de ellos, esto es $O\left(\frac{n}{b} + b\right)$.

2. Modificar un solo elemento solo cambia un elemento del bloque, así que esto es $O(1)$.

En total, esto nos daría una complejidad de $O\left(q\left(\frac{n}{b} + b\right)\right)$ para $q$ consultas de ambos tipos.

Ya que nuestro $b$ lo podemos elegir a conveniencia, podemos elegir $b = \sqrt{n}$, de manera que la complejidad total será:

$$ O\left(q\left(\frac{n}{\sqrt{n}} + \sqrt{n}\right)\right) = O(q\sqrt{n}) $$

De esta forma tenemos una complejidad relativamente buena.

Si mantenemos una variable global `bsize` que represente el tamaño de los bloques, podemos usar las siguientes funciones para manipular la estructura para el problema dado.

```C++
void build(){
    for(int i = 0; i * bsize < n; i++){
        int l = i * bsize;
        int r = min(l + bsize, n) - 1;
        for(int j = l; j <= r; j++) sum[i] += a[j];
    }
}

void update(int pos, int x){
    sum[pos / bsize] += x - a[pos];
    a[pos] = x;
}

long long query(int l, int r){
    long long res = 0LL;
    while(l % bsize and l < r){
        res += a[l];
        l += 1;
    }
    while(l + bsize - 1 <= r){
        res += sum[l / bsize];
        l += bsize;
    }
    while(l <= r){
        res += a[l];
        l += 1;
    }
    return res;
}
```

### Problemas para implementar

- [Beautiful Queries](https://vjudge.net/problem/Gym-270304I)
- [Race Against Time](https://www.spoj.com/problems/RACETIME/)

## Reconstrucción

### Reconstrucción de bloque

A veces tendremos problemas en los que ejecutar las modificaciones afectarán a todo el bloque, pero reconstruir todo el contenido del bloque toma un tiempo prudente, así que lo más conveniente es reconstruirlo **cuando sea necesario**.

Para lograr lo anterior, deberemos agregar un flag booleano a cada uno de los bloques (de ser necesario, las modificaciones pendientes también), el cual será verdadero cuando el bloque esté pendiente de reconstruir y falso cuando no, de manera que cuando tengamos que responder a una consulta que contenga a dicho bloque lo reconstruiremos antes de obtener su aporte. La complejidad de esta variación se mantiene, ya que toma igual o menor tiempo que ejecutar la reconstrucción cada vez que se actualiza, pero esta pequeña optimización ahorra muchísimo tiempo cuando se ejecutan múltiples actualizaciones sobre un mismo bloque, de manera que reducimos todas esas actualizaciones a una sola.

Podemos tomar como ejemplo el problema Holes de Codeforces, en el cual cada vez que modificamos un valor $a_{i}$ este afectará a todo su bloque, por lo que deberemos reconstruirlo. Por fortuna, la reconstrucción toma $O(bsize)$, donde $bsize$ es el tamaño máximo de cada bloque, así que aplicando la optimización anterior mantendremos una complejidad de $O(q\sqrt{n + q})$ si usamos $bsize = \sqrt{n + q}$ (notemos que si usamos $bsize = \sqrt{n}$ probablemente obtengamos `TLE`).

Notemos que deberemos apoyarnos de un pequeño DP para reconstruir los bloques en $O(bsize)$:

Construimos todos los bloques en un tiempo total de $O(n)$:

```C++
void build(){
	for(int i = 0; i * bsize < n; i++){
		int l = i * bsize;
		int r = min(l + bsize, n) - 1;
		for(int j = r; j >= l; j--){
			if(j + a[j] > r){
				last[j] = j;
				steps[j] = 1;
			}
			else{
				last[j] = last[j + a[j]];
				steps[j] = 1 + steps[j + a[j]];
			}
		}
	}
}
```

Ahora, al momento de plantear una actualización, solo asignamos el nuevo valor y marcamos el bloque como pendiente de ser reconstruido, para usar la función de reconstrucción cuando sea necesario:

```C++
void modify(int pos, int x){
	a[pos] = x;
	rebuild[pos / bsize] = true;
}
 
void update(int idx){
	int l = idx * bsize;
	int r = min(l + bsize, n) - 1;
	for(int j = r; j >= l; j--){
		if(j + a[j] > r){
			last[j] = j;
			steps[j] = 1;
		}
		else{
			last[j] = last[j + a[j]];
			steps[j] = 1 + steps[j + a[j]];
		}
	}
	rebuild[idx] = false;
}
```

Finalmente, la consulta reconstruirá (de estar pendiente) cada bloque por el que pase, además imprimimos la respuesta obtenida en la misma función.

```C++
void solve(int pos){
	int ans = 0;
	int res = pos;
	while(pos < n){
		if(rebuild[pos / bsize]) update(pos / bsize);
		ans += steps[pos];
		res = last[pos];
		pos = res + a[res];
	}
	printf("%d %d\n", res + 1, ans);
}
```

Esto tiene una complejidad total de $O(q\sqrt{n + q})$.

### Reconstrucción de estructura

Por otro lado, tendremos problemas en los que ejecutar las modificaciones puede ser bastante pesado, pero reconstruir la estructura completa no lo es. Como una condición extra, necesitamos que las modificaciones puedan ser manifestadas en la respuesta de forma rápida. 

Una forma de plantear una solución para este tipo de problemas es **reconstruir la estructura cada $O(\sqrt{n})$ modificaciones puntuales**, de esa manera tendremos $O(build\sqrt{q} + q\cdot query + q\sqrt{q}update)$ de complejidad, donde $query$ es lo que le toma a nuestra estructura responder una consulta, $build$ es lo que nos toma reconstruir la estructura y $update$ es lo que toma manifestar una modificación puntual en la respuesta.

Como ejemplo podemos tomar el primer problema que consideramos pero en vez de asignación, esta vez vamos a sumar $x$ a la posición $pos$. La estructura que usaremos será la de prefix sums, así que podemos responder a una consulta en $O(max\_pending)$, donde $max\_pending$ es la máxima cantidad de modificaciones puntuales que se pueden acumular antes de tener que reconstruir la estructura por completo.

Notemos que una modificación puntual en una tabla de prefix sums toma $O(n)$ en manifestarse (ya que deberemos sumar el valor $x$ a todos los $i \geq pos$), pero al momento de responder una consulta en el rango $[l, r]$ nos basta obtener el resultado de la tabla y luego agregarle las modificaciones puntuales que hayan sido efectuadas sobre algún punto dentro del rango consultado.

Entonces, si elegimos $max\_pending = \sqrt{q}$, reconstruiremos la estructura cada $O(\sqrt{q})$ modificaciones puntuales, permitiéndonos tener una complejidad de $O((n + q)\sqrt{q})$.

Si usamos un vector de pares $changes$ para mantener los cambios puntuales, la implementación de las consultas y la reconstrucción de la tabla de prefix sums sería así:

```C++
long long query(int l, int r){
        long long res = prefix[r] - prefix[l - 1];
        for(auto x : changes){
                if(l <= x.first and x.first <= r){
                        res += x.second;
                }
        }
        return res;
}

void rebuild(){
        for(auto x : changes){
                a[x.first] += x.second;
        }
        for(int i = 1; i <= n; i++) prefix[i] = prefix[i - 1] + a[i];
        changes.clear();
}
```

Y habría una condición luego de cada consulta que verifique:

```C++
if(changes.size() == bsize){
    rebuild();
}
```

Donde el $bsize$ lo usaríamos cercano a $\sqrt{q}$ para obtener la complejidad señalada anteriormente.


### Problemas para implementar

- [Beautiful Queries - Usar reconstruccion](https://vjudge.net/problem/Gym-270304I)
- [Holes - No siempre es sqrt(n)](https://codeforces.com/problemset/problem/13/E)
- [Horrible Queries](https://www.spoj.com/problems/HORRIBLE/)

## Partición alternativa

Algo importante de SQRT Decomposition es que es más un paradigma que una estructura de datos. Hemos particionado los elementos, las consultas, los intervalos de tiempo para reconstruir, así que técnicamente podemos hacer esto con cualquier cosa que nos sirva para mejorar la complejidad.

Analicemos el problema Remainder Problem para ver una partición poco usual:

Si realizamos una partición sobre los valores de $X$, dividiéndolos en los que son menores o iguales que $\sqrt{n}$ y los que son mayores que $\sqrt{n}$ tendremos algunas consideraciones que hacer:

1) Si $X \leq \sqrt{n}$, entonces $a \mod X$ tiene $O(\sqrt{n})$ valores diferentes (esto puede preprocesarse y responderse en $O(1)$, además la actualización puntual tomaría $O(\sqrt{n})$ también, ya que hay $O(\sqrt{n})$ de $X$ diferentes que cumplen con esta propiedad)

2) Si $X > \sqrt{n}$, entonces la cantidad de índices que aportarán a la respuesta estará acotada por $\frac{n}{X} < \sqrt{n}$, así que responder este tipo de valores con fuerza bruta tiene una complejidad de $O(\sqrt{n})$.

Finalmente, hemos balanceado adecuadamente las consultas y modificaciones, así que tendremos una complejidad total de $O(q\sqrt{n})$.

### Problemas para implementar

- [Remainder Problem](https://codeforces.com/contest/1207/problem/F)

## Ordenamiento de Mo

El ordenamiento de Mo es una forma de responder consultas en rangos de una secuencia de elementos usando SQRT Decomposition para plantear un ordenamiento de las mismas de manera que se logre una complejidad buena.

Consideremos que tenemos $q$ pares $(l_{i}, r_{i})$ que representan consultas sobre rangos de una secuencia de $n$ elementos. Además asumiremos que **podemos agregar y eliminar elementos del conjunto de la respuesta de forma eficiente** (este punto es crucial para poder aplicar el método).

Si ejecutáramos las $q$ consultas en el orden original, necesitaríamos la siguiente cantidad de operaciones si es que partimos de una respuesta que ya contiene el rango $[l_{1}, r_{1}]$:

$$ Operaciones = \sum\limits_{1}^{q - 1}(|l_{i + 1} - l_{i}| + |r_{i + 1} - r_{i}|)(Insercion + Eliminacion) $$

Nuestra meta es plantear un ordenamiento adecuado para minimizar la expresión anterior. Lo que nos dice el ordenamiento de Mo es que una forma de ordenar las consultas es la siguiente:

1) Definir una constante $bsize$ que determine el tamaño de los bloques.

2) Al comparar las consultas $(l_{i}, r_{i})$ y $(l_{j}, r_{j})$, la consulta $i$ va antes que la $j$ si:

$$ \left\lfloor\frac{l_{i}}{bsize} \right\rfloor < \left\lfloor\frac{l_{j}}{bsize} \right\rfloor \vee \left(\left\lfloor\frac{l_{i}}{bsize} \right\rfloor = \left\lfloor\frac{l_{j}}{bsize} \right\rfloor \wedge r_{i} < r_{j} \right) $$

En términos más sencillos, planteamos una partición sobre los $n$ elementos y asociamos los $l_{i}$ a cada bloque. Cada bloque será resuelto por índice ascendente e internamente sus consultas estarán ordenadas por $r_{i}$ ascendente.

**Teorema:** El ordenamiento de Mo nos permite responder todas las consultas en $O(n\cdot\frac{n}{bsize} + q\cdot bsize)$.

**Prueba:**

Consideraremos dos variables $l$ y $r$ que serán los límites inferior y superior de los rangos que responderemos según el orden propuesto.

Probaremos que la variable $r$ varía una cantidad de veces $O(n\cdot\frac{n}{bsize})$ y que la variable $l$ varía una cantidad de veces $O(q\cdot bsize + n)$.

Para $r$:

Consideremos que vamos a resolver las consultas del bloque $i$, denotemos a este conjunto $Q_{i}$. Entonces, se cumple que los $r_{k}$ que pertenecen a las consultas del bloque están ordenados de manera ascendente, así que:

$$ r_{0} \leq r_{1} \leq r_{2} \leq \cdots \leq r_{|Q_{i}|} $$

Esto significa que la variable $r$ solamente crecerá, lo que implica que variará una cantidad de veces $O(n)$ (considerando lo máximo que puede crecer y lo que deberá disminuir para pasar al siguiente bloque). Ya que hay $O(\frac{n}{bsize})$ bloques diferentes, la variable varía $O(n\cdot\frac{n}{bsize})$.

Para $l$:

Consideremos que $l$ variará $O(n)$ en total para cambiar de bloque en bloque (Ir desde el bloque $0$ hasta el bloque $\frac{n}{bsize}$), así que solo nos falta considerar la variación dentro de un mismo bloque. Ya que las consultas que están en un mismo bloque $i$ deben cumplir con que $i\cdot bsize \leq l_{k} < (i + 1)\cdot bsize$, tendremos que para todo par de consultas en un bloque $i$ la diferencia de sus $|l_{k} - l_{k + 1}| < bsize$, así que en la variación entre consultas consecutivas de un mismo bloque está acotada por $O(bsize)$.

Ya que hay $q$ consultas en total, la variación total de $l$ será $O(q\cdot bsize + n)$.

Si sumamos ambas variaciones, tendremos una complejidad total de $O(n\cdot\frac{n}{bsize} + q\cdot bsize)$.

### Elección de $bsize$

Si consideramos la versión usual de SQRT Decomposition, usaríamos $bsize = O(\sqrt{n})$, lo que nos daría una complejidad total de:

$$ O\left(n\cdot\frac{n}{\sqrt{n}} + q\cdot \sqrt{n}\right) = O(n\sqrt{n} + q\sqrt{n}) = O((n + q)\sqrt{n}) $$

Por otro lado, podemos plantear el usar $bsize = \frac{n}{\sqrt{q}}$, de manera que la complejidad se volvería:

$$ O\left(n\cdot\frac{n}{\frac{n}{\sqrt{q}}} + q\cdot \frac{n}{\sqrt{q}}\right) = O(n\sqrt{q} + \sqrt{q}\cdot n) = O(n\sqrt{q}) $$

Ahora, si realizamos una comparación de las expresiones notaremos que:

$$ n^{2} + nq + q^{2} > 0 $$

Esto se cumple para todo $n, q > 0$, así que:

$$ n^{2} + 2nq + q^{2} > nq > 0 $$

$$ (n + q)^{2} > nq > 0 $$

Si multiplicamos por $n$ a ambos lados, la desigualdad se mantiene:

$$ n(n + q)^{2} > n^{2}q > 0 $$

Ya que ambos valores son positivos, al sacar raiz cuadrada la desigualdad también se mantiene:

$$ \sqrt{n}(n + q) > n\sqrt{q} $$

Lo que significa que $n\sqrt{q} < (n + q)\sqrt{n}$, por lo que el uso del segundo $bsize$ tendría un mejor rendimiento que el primero si es que ambas complejidades tienen constantes muy cercanas entre sí.

**Nota:** Se puede relacionar la minimización de las operaciones con el problema de TSP con distancia de Manhattan, para lo cual hay algunas heurísticas que ayudan, siendo una de las más recomendadas la de la Curva de Hilbert, esto lo pueden leer en el siguiente [Codeforces blog](https://codeforces.com/blog/entry/61203)

### Problemas para practicar en clase

- [Original Problem](https://vjudge.net/problem/Gym-270304J)
- [Little Elephant and Array](https://codeforces.com/contest/220/problem/B)
- [Powerful array](https://codeforces.com/problemset/problem/86/D)