# Clase 11

Para una mejor visualización entrar al siguiente [link](https://nbviewer.jupyter.org/github/racsosabe/Miscelanea/blob/master/UPC/Clase%2011%20-%20Grafos%20II.ipynb)

# Requisitos Previos

* Matemática Básica
* Matemática Discreta

# DFS (Depth-First Search)

A diferencia del *BFS*, el *DFS* o **Búsqueda en profundidad** por su significado en inglés, intenta "profundizar" en el grafo, tomando el último vértice descubierto y analizando alguno de sus vecinos que no haya sido finalizado (color negro).

Diferencias principales respecto al BFS:

1) El color gris ahora significa: **Está siendo procesado**

2) El BFS genera un árbol de padres de los caminos más cortos desde el nodo de origen $s$. Dado que el DFS analiza todos los nodos una vez, genera un bosque de padres.

3) El DFS genera una característica más por nodo: Tiempo de descubrimiento y Tiempo de finalización, que se refieren al tiempo en que se descubre el nodo y tiempo en que la recursión que empezó en dicho nodo ha finalizado por completo.

4) El DFS se compone de 2 funciones: DFS() y DFS-Visit(u). El DFS-Visit(u) es lo que se suele entender como el algoritmo en sí.

```Python
DFS():
    for u in V:
        color[u] = blanco
        padre[u] = -1
    tiempo = 0
    for u in V:
        if color[u] == blanco:
            DFS-Visit(u)
            
DFS-Visit(u):
    tiempo = tiempo + 1
    descubre[u] = tiempo
    color[u] = gris
    for v in G[u]:
        if color[v] == blanco:
            padre[v] = u
            DFS-Visit(v)
    color[u] = negro
    tiempo = tiempo + 1
    termina[u] = tiempo
```

Dado que cada vértice es visitado una vez solamente (deja de ser blanco en el momento en el que es visitado) y cada lista de adyacencia es recorrida por completo, si usamos el almacenamiento con lista de adyacencia, obtendremos una complejidad de $O(|V|+|E|)$.

Es fundamental notar que si $u$ es un nodo blanco desde el cual llamamos a $DFS-Visit(u)$ en el algoritmo $DFS()$, entonces $DFS-Visit(u)$ pintará de negro a todos los nodos que son alcanzables por $u$.

Al árbol generado por la relación de padre generado por el DFS se le llama **DFS Tree**.

Por último, es intuitivamente evidente, pero vale recordar que:

$$ descubre[u] < termina[u], \forall u \in V $$

## Propiedades del DFS

### Estructura de paréntesis

Una propiedad importante del DFS es que los tiempos de descubrimiento y de finalización cumplen con *estructura de paréntesis*, lo que significa que si tenemos una cadena de tamaño $2|V|$ y en cada tiempo de descubrimiento de un nodo $u$ colocamos un paréntesis abierto y en cada tiempo de finalización colocamos un paréntesis cerrado, la cadena final será una estructura de paréntesis balanceada.

**Prueba (por inducción):**

1) Si el grafo consta de un solo nodo, la cadena será $()$, ya que los tiempos de descubrimiento y finalización  del único nodo serán $1$ y $2$ respectivamente.

2) Asumamos que todos los grafos con $k$ nodos cumplen con la estructura de paréntesis.

3) Consideremos un grafo de $(k+1)$ nodos, entonces habrán varios casos que se pueden encapsular en 2 tipos:

   a. Hay al menos 2 árboles en el bosque generado por el DFS, esto implica que todas las componentes tienen tamaño menor o igual a $k$. Si consideramos las cadenas de las componentes en orden como $s_{1}, s_{2},\ldots,s_{m}$ entonces $s_{i}$ es balanceada (por la hipótesis inductiva), entonces la concatenación de $s_{1} + s_{2} + \cdots + s_{m}$ también es balanceada y se cumple la estructura.
    
   b. Hay solo un árbol en el bosque generado por el DFS, así que solo existe una componente de tamaño $(k+1)$. Consideremos el primer vértice $u$ visitado por el DFS: Al momento de ser descubierto coloca un $($ en la posición $1$ y luego se llama de forma recursiva a sus vecinos. Por la naturaleza del DFS, $u$ no vuelve a ser visitado porque luego de $tiempo = 1$ es gris, así que el resto de los nodos deberán ser visitado antes de que termine (si no fuera así, sería una contradicción y habría más de una componente). Consideremos las cadenas de las componentes generadas por los vecinos de $u$ como $s_{1}, s_{2}, \ldots, s_{m}$, entonces la cantidad de nodos total entre todas esas componentes es $k$, por lo que cada cadena $s_{i}$ cumple con la estructura. La cadena final será $(s_{1}s_{2}\ldots s_{m})$, la cual es balanceada y, por ende, se cumple la estructura para este caso también.

### Teorema de paréntesis

En cualquier DFS aplicado a algún grafo $G$ (dirigido o no dirigido), para dos vértices $u, v \in V$ cualesquiera, se cumple exactamente una de las siguientes propiedades:

1) Los intervalos $[descubre[u],termina[u]]$ y $[descubre[v],termina[v]]$ son completamente disjuntos y ni $u$ es descendiente de $v$ ni $v$ es descendiente de $u$ en el bosque generado por el DFS.

2) El intervalo $[descubre[u],termina[u]]$ está completamente dentro del intervalo $[descubre[v],termina[v]]$ y $u$ es descendiente de $v$ en el bosque generado por el DFS.

3) El intervalo $[descubre[v],termina[v]]$ está completamente dentro del intervalo $[descubre[u],termina[u]]$ y $v$ es descendiente de $u$ en el bosque generado por el DFS.

**Prueba:**

Consideremos que $descubre[u] < descubre[v]$, analizaremos dos posibles casos:

1) $descubre[v] < termina[u]$, entonces $v$ fue descubierto cuando $u$ era gris, lo que implica que $v$ es descendiente de $u$. Además, dado que $v$ ha sido descubierto cuando $u$ era gris, quiere decir que deberemos "agotar" todas las aristas de $v$, pintar $v$ de negro, y luego regresar en la recursión hasta llegar a $u$, por lo que $termina[v] < termina[u]$ y $[descubre[v],termina[v]]$ está completamente incluido en el intervalo $[descubre[u],termina[u]]$.

2) $termina[u] < descubre[v]$, entonces $descubre[u] < termina[u] < descubre[v] < termina[v]$, por lo que los intervalos $[descubre[u],termina[u]]$ y $[descubre[v],termina[v]]$ son completamente disjuntos. Debido a que son disjuntos, el nodo $v$ no fue descubierto cuando $u$ era gris, sino cuando era negro, así que no es descendiente de $u$.

Para el caso $2$ debemos considerar los mismos argumentos pero con los roles invertidos.

### Teorema del camino blanco

En un bosque generado por un DFS aplicado a un grafo $G$ (dirigido o no dirigido), el nodo $v$ es descendiente del nodo $u$ si y solo si en el momento en el que $u$ es descubierto existe un camino de $u$ a $v$ que consiste solo de nodos blancos.

**Prueba:**

**Ida:**

Si $v = u$, entonces el único nodo en el camino sería el mismo nodo $u$, en cuyo caso sigue siendo blanco al momento en que asignamos $descubre[u]$. 

Ahora supongamos que $v$ es un descendiente de $u$ y $v \not = u$ (descendiente propio), entonces por el teorema del paréntesis tenemos que $descubre[u] < descubre[v]$, por lo que el nodo $v$ es blanco en el momento que asignamos $descubre[u]$. Dado que $v$ puede ser cualquier descendiente propio, entonces todos los descendientes en el camino de $u$ a $v$ son blancos en ese momento.

**Vuelta:**

Supongamos que existe un camino de nodos blancos de $u$ a $v$ en el momento $descubre[u]$; sin pérdida de generalidad, asumamos que $v$ es el nodo de dicho camino más cercano a $u$ que no se vuelve descendiente de $u$. Sea $w$ el predecesor de $v$ en el camino (esto implica que $w$ si se vuelve descendiente de $u$), entonces se deben dar dos situaciones al mismo tiempo:

$$ descubre[u] < descubre[v] $$

$$ termina[v] < termina[w] $$

Pero dado que $w$ es descendiente de $u$, se da que $termina[w] < termina[u]$. Uniendo las ecuaciones:

$$ descubre[u] < descubre[v] < termina[v] < termina[w] < termina[u] $$

Por lo que $v$, después de todo, sí se vuelve descendiente de $u$.

## Clasificación de aristas

Una propiedad interesante del DFS es que permite clasificar las arista del grafo sobre el cual es aplicado. Se definen los siguientes tipos de arista:

* *Tree Edges*: Son las aristas que forman parte del bosque generado por el DFS. La arista $(u,v)$ es una *tree edge* si el nodo $v$ fue descubierto por primera vez explorándola.

* *Back Edges*: Son las aristas $(u,v)$ que conectan a un vértice $u$ a un ancestro $v$ en el DFS Tree.

* *Forward Edges*: Son las aristas que no son *tree edges* pero conectan a un nodo $u$ con uno de sus descendientes $v$ en el DFS Tree.

* *Cross Edges*: Son las aristas que no entran en ninguna de las categorias anteriores. 

Para la arista $(u,v)$ existen las siguientes posibilidades al momento de ejecutar el DFS:

1) `color[v] == blanco`, entonces es tree edge.

2) `color[v] == gris`, entonces es back edge.

3) `color[v] == negro`, entonces es forward edge si $descubre[u] < descubre[v]$ y es cross edge si $decubre[u] > descubre[v]$.

Ejercicio: Probar que un grafo es acíclico si y solo si no tiene ninguna *back edge*.

## Aplicaciones Básicas del DFS

- [Simple Traversal](https://codeforces.com/contest/29/problem/D)
- [Simple Traversal](https://www.spoj.com/problems/ABCPATH/)
- [Simple Traversal](https://codeforces.com/problemset/problem/29/C)
- [Simple Traversal](https://codeforces.com/problemset/problem/116/C)
- [Condiciones sobre aristas](https://codeforces.com/problemset/problem/60/C)
- [Cantidad de Componentes en el Grafo Complementario](https://codeforces.com/problemset/problem/653/E)
- [DFS como modelo para DP](https://codeforces.com/problemset/problem/802/K)