# Clase 44

Para una mejor visualización entrar al siguiente [link](https://nbviewer.jupyter.org/github/racsosabe/Miscelanea/blob/master/UPC/Clase%2044%20-%20Estructuras%20de%20Datos%20IX.ipynb)

# Requisitos Previos

* Matemática Discreta
* Grafos

# Descomposiciones en arboles - II

## Centroid Decomposition

**Definción (Centroide):** Dado un arbol $T = (V, E)$, un nodo $u$ es un *centroide* de $G$ si todas las componentes conexas de $T \backslash \{u\}$ tienen tamaño menor o igual a $\frac{|V|}{2}$.

**Teorema:** En todo arbol $T$ existe al menos 1 centroide.

**Prueba:**

Considerando que la cantidad de nodos del árbol $T$ es finita (denotada por $n$), entonces si tomamos un nodo $u$ cualquiera, se debe cumplir una de las dos siguientes situaciones:

1) Las componentes conexas de $T \backslash \{u\}$ tienen tamaño menor o igual a $\frac{n}{2}$.

2) Existe una **única** componente conexa de $T \backslash \{u\}$ que tiene tamaño mayor a $\frac{n}{2}$.

Es evidente que si se da el primer caso, entonces $u$ es un centroide y ahi terminaría nuestro análisis; mientras que en el segundo caso, podemos considerar la arista $(u, v)$, donde $v$ es parte de la componente conexa de $T \backslash \{u\}$ que tiene tamaño mayor a $\frac{n}{2}$.

Si consideramos a $v$ como el nodo a ser borrado, entonces estaríamos formando una componente conexa que contenga a $u$ junto con las demás componentes de $T \backslash \{u\}$ que no contengan a $v$; sin embargo, la suma de sus tamaños $S$ cumple con que:

$$ size(v) + 1 + S = n $$

$$ S +  1 = n - size(v) $$

Pero como $size(v) > \frac{n}{2} \rightarrow n - size(v) < \frac{n}{2}$, entonces la componente conexa de $u$ en $T \backslash \{v\}$ tendría tamaño $S + 1 < \frac{n}{2}$, así que al pasar de $u$ a $v$, estamos reduciendo la cantidad de nodos en las demás componentes en 1 pero asegurándonos de que la nueva componente de $u$ no se exceda de la mitad de nodos.

Ya que no se puede realizar este procedimiento más de $n$ veces, eventualmente llegaremos a un nodo que sea un centroide, y de hecho esta idea nos da también un algoritmo para obtener alguno de ellos en tiempo lineal.

### Centroid Tree

Consideremos la secuencia $c = c_{1}, c_{2}, \ldots, c_{n}$ como una permutación de los nodos de $V$ de manera que el $i$-ésimo nodo es el centroide de una componente conexa luego de eliminar los primeros $i - 1$ nodos de $c$ del árbol original.

De esta manera, podemos definir como **Árbol de centroides (Centroid Tree)** $T_{C}$ al árbol formado por las siguientes aristas:

$$ E_{C} = \{(c_{g(i)}, c_{i}) : \forall i = 2, \ldots, n\} $$

Donde $g(i)$ se define como:

$$ g(i) = argmax_{1 \leq k < i}\{(c_{k}, c_{i}) \in E\} $$

En otras palabras, cuando eliminamos un centroide $c_{i}$, agregamos a $T_{C}$ las aristas de $c_{i}$ a los vecinos que aún no hayan sido eliminados.

![Centroid Tree](https://miro.medium.com/max/1031/1*CdE4qih-s5TysoSiHZoREA.png)

### ¿Cómo encontrar los centroides?

Para encontrar los centroides, tendremos una función que calcule el tamaño de la componente conexa en la que está un nodo $u$ (solo considerando los nodos que aún no hayan sido eliminados) y luego una función que aplique el argumento mostrado en el teorema de la existencia del centroide.

```C++
void DFS(int u, int p = -1){
    subtree[u] = 1;
    for(int v : G[u]){
        if(removed[v] or v == p) continue;
        DFS(v, u);
        subtree[u] += subtree[v];
    }
}
```

Luego de procesar el `DFS(u)`, podemos aplicar el algoritmo del centroide, pero debemos llevar el nodo raiz para saber el tamaño total de la componente en cada recursión:

```C++
int findCentroid(int u, int p, int root){
    for(int v : G[u]){
        if(removed[v] or v == p) continue;
        if(2 * subtree[v] > subtree[root]){
            return findCentroid(v, u, root);
        }
    }
    return u; // Ninguno de los vecinos tiene componente con tamaño mayor a la mitad, u es un centroide
}
```

Es evidente que ambos algoritmos toman $O(n)$, pues el primero es un DFS y el segundo tiene también la forma de un DFS.

### Propiedades

1) Es importante notar que cada vez que eliminamos un centroide, los nuevos árboles tendrán un tamaño reducido a al menos la mitad del original; por lo tanto, la altura del árbol de centroides es $O(\log{n})$.

2) Si tomamos dos nodos $a$ y $b$ cualesquiera y consideramos la secuencia de eliminación $c$, entonces existe un nodo $c_{k}$ tal que, luego de eliminar $c_{k}$, $a$ y $b$ son separados, es decir, que ya no se encuentran en la misma componente. Este nodo es el LCA de $a$ y $b$ en el árbol de centroides.

3) Ya que podemos obtener el centroide de un árbol en $O(n)$ con un DFS, podemos obtener la secuencia $c$ en $O(n\log{n})$, pues cada nodo es visitado una vez por cada nivel de centroides que le precede, lo cual es $O(\log{n})$ veces, dándonos la complejidad mencionada.

### Divide and Conquer on Trees

Podemos aprovechar la naturaleza de los centroides para procesar información de todos los caminos del árbol, de manera que podemos obtener información cruzada de todas las componentes conexas luego de eliminar un centroide $c_{i}$ antes de quitarlo.

Esto se puede por la propiedad 2, así que si tenemos un trabajo a aplicar sobre cada nodo, entonces la complejidad total será de $O(n\log{n} \cdot trabajo\_individual)$.

Entonces, podemos definir una 3era función que nos ayude a obtener la secuencia $c$ y dentro de ella podemos agregar una función que nos ayude a obtener la información que deseamos:

```C++
void decompose(int root, int p = -1){
    DFS(root, p);
    int centroide = findCentroid(root, p, root);
    getInformation(centroide);
    removed[centroide] = true;
    for(int v : G[centroide]){
        if(removed[v]) continue;
        decompose(v, centroide);
    }
}
```

Acá la función `getInformation` es la que nos ayudará a resolver el problema de conteo sobre todos los posibles caminos entre las componentes conexas que se forman al quitar el nodo $centroide$.

**Nota:** Para formar el Centroid Tree basta colocar dentro del `for` una función que agregue la arista entre $centroide$ y $v$ si $v$ no está eliminado aún.

#### Problemas para implementar

- [Distance in Tree](https://codeforces.com/contest/161/problem/D)

- [Path Inversions](https://csacademy.com/contest/archive/task/path-inversions/statement/)

- [Digit Tree](https://codeforces.com/contest/716/problem/E)

- [Mahmoud and a xor trip](https://codeforces.com/contest/766/problem/E)

### Propagando y consultando información

Gracias a la propiedad de que el LCA de dos nodos en el Centroid Tree forma parte del camino entre ellos, podemos definir $O(\log{n})$ conjuntos dado un nodo $a$:

$$ S(a, v) = \{b \in V : LCA(a, b) = v\} $$

Y ya que $a$ tiene $O(\log{n})$ ancestros en el Centroid Tree, la cantidad de conjuntos diferentes es $O(\log{n})$.

Esto quiere decir que podemos propagar información del subcamino $a \leadsto v$ para cada $v$ posible y así reflejar modificaciones sobre todos los caminos entre $a$ y algún nodo $b$.

Así que podemos definir el siguiente algoritmo:

```C++
void propagate(int u, int val){
    for(int v = u; v != -1; v = par[v]){
        update(v, u, val);
    }
}
```

Esto representará una modificación a todos los posibles caminos, y de manera análoga podemos recuperar dicha información:

```C++
int query(int u){
    int res = -1;
    for(int v = u; v != -1; v = par[v]){
        res = getInfo(res, v, u);
    }
    return res;
}
```

#### Ejemplo : El nodo negro más cercano

Consideremos el siguiente problema: Se nos da un árbol $T$ con todos sus nodos inicialmente coloreados de color blanco. Además, se nos dice que habrán $q$ operaciones de alguno de los siguientes tipos:

1) Colorear el nodo $u$ de negro (si ya está de negro, no hacer nada)

2) Consultar el nodo de color negro más cercano al nodo $u$.

Podemos notar que para aplicar Centroid Decomposition requeriremos el poder consultar distancias entre nodos de manera rápida, así que una primera idea sería obtener el Sparse Table para hallar el LCA de dos nodos (en el árbol original, no en el Centroid Tree) en tiempo prudente.

Esto nos dejaría con un preprocesamiento $O(n\log{n})$ **solamente** para asegurar el cálculo de distancias, lo cual volvería nuestro código muy largo.

Algo importante que debemos recordar es que las distancias son solo de un nodo a uno de sus ancestros en el Centroid Tree, lo que significa que cada nodo $u$ solamente necesitará $O(\log{n})$ distancias. Si decidimos el almacenar dichas distancias, requeriríamos de $O(n\log{n})$ de memoria extra y un preprocesamiento de $O(n\log^{2}{n})$ con el Sparse Table. 

**Observación:** El Sparse Table no es necesario, podemos calcular las distancias a cada ancestro en el Centroid Tree a medida que lo vamos construyendo (como la versión Divide and Conquer). De esta manera le damos menos trabajo a las modificaciones y consultas.

```C++

void add(int u, int h, int p = -1){
	dist[u].emplace_back(h);
	for(int v : G[u]){
		if(v == p or removed[v]) continue;
		add(v, h + 1, u);
	}
}

void addDistances(int centroide, int p = -1){
	removed[centroide] = true;
	for(int v : G[centroide]){
		if(v == p or removed[v]) continue;
		add(v, 1);
	}
}

void decompose(int root, int p = -1){
	DFS(root);
	int centroide = findCentroid(root, root, root);
	par[centroide] = p;
	addDistances(centroide);
	for(int v : G[centroide]){
		if(removed[v]) continue;
		decompose(v, centroide);
	}
}
```

Una "desventaja" es que el vector $dist[u]$ contendrá las distancias a los ancestros pero en orden de altura creciente; sin embargo, esto se resuelve usando la función `std::reverse` sobre cada uno luego de ejecutar la función decompose.

Con esta construcción, podemos aplicar los algoritmos anteriores para modificación y consulta:

```C++
void update(int u){
	int pos = 0;
	for(int v = u; v != -1; v = par[v]){
		ans[v] = min(ans[v], dist[u][pos++]);
	}
}

int query(int u){
	int pos = 0;
	int res = inf;
	for(int v = u; v != -1; v = par[v]){
		res = min(res, ans[v] + dist[u][pos++]);
	}
	return res;
}
```

Una pregunta que muchos se harán es ¿Por qué simplemente actualizo y consulto el mínimo de todos los caminos, si puede ser que el camino más corto desde alguno de los ancestros justamente esté en el camino entre $u$ y $v$ (sea dicho camino $v \leadsto w$)? La respuesta a ello es simple: Ese camino nunca será una respuesta óptima, pues $u \leadsto w$ tiene una distancia más corta y también es un camino válido.

#### Problemas para implementar en clase

- [Xenia and Tree](https://codeforces.com/problemset/problem/342/E)

- [Query on a tree V](https://www.spoj.com/problems/QTREE5/)