# Clase 10

Para una mejor visualización entrar al siguiente [link](https://nbviewer.jupyter.org/github/racsosabe/Miscelanea/blob/master/UPC/Clase%2010%20-%20Grafos%20I.ipynb)

# Requisitos Previos

* Matemática Básica
* Matemática Discreta

# Grafos

**Definición:** Un grafo es un par ordenado de conjunto $G = (V, E)$, tal que $E$ es un subconjunto del producto cartesiano $V \times V = \{(x,y) : x, y \in V\}$.

Se define el **conjunto de vértices** de $G$ al conjunto $V$, así como al **conjunto de aristas** de $G$ al conjunto $E$.

Se dice que los vértices $u$ y $v$ son **adyacentes** o **vecinos** si la arista $(u,v) \in E$.

Hay 2 tipos de grafos respecto a las características del conjunto $E$:

1) Grafo dirigido: La arista $(u,v) \in E$ no implica que $(v,u) \in E$ necesariamente.

2) Grafo no dirigido: La arista $(u,v) \in E$ implica que $(v,u) \in E$ obligatoriamente.

La representación gráfica de un grafo depende de la naturaleza del mismo. En el caso de un grafo dirigido se dibujan los vértices en el plano y se unen mediante flechas que representan las aristas dirigidas.

Grafo dirigido:

![Grafo dirigido](https://upload.wikimedia.org/wikipedia/commons/thumb/5/51/Directed_graph.svg/1280px-Directed_graph.svg.png)

Grafo no dirigido:

![Grafo no dirigido](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3d/Undirected_graph.svg/1280px-Undirected_graph.svg.png)

La cantidad de aristas que entran a un nodo se definen como el **grado de entrada** (denotado por $in_{u}$) del nodo, mientras que la cantidad de aristas que salen se definen como el **grado de salida**(denotado por $out_{u}$) del nodo.

**Observación:** Por la naturaleza de las aristas, $in_{u} = out_{u}$ si el grafo es no dirigido.


# Almacenamiento de Grafos

Se pueden almacenar los grafos de diversas maneras, cada una útil para un determinado objetivo:

## Matriz de adyacencia

Dado que las aristas de un grafo se pueden representar como pares ordenados del producto cartesiano $V \times V$, podemos mantener una matriz $M$ de tamaño $|V| \times |V|$ de forma que:

$$ M_{ij} = \left\{ \begin{array}{cc} 1 &\text{Si }(u,v)\in E \\ 0 &\text{Si }(u,v)\notin E \end{array}\right. $$

Para los ejemplos de grafo que mostramos anteriormente, tenemos que:

$$ M_{G_{1}} = \begin{pmatrix} 0 &1 &1 &0 \\ 0 &0 &0 &0 \\ 0 &1 &0 &1 \\ 0 &0 &1 &0   \end{pmatrix} $$

$$ M_{G_{2}} = \begin{pmatrix} 0 &1 &1 &0 \\ 1 &0 &1 &0 \\ 1 &1 &0 &1 \\ 0 &0 &1 &0   \end{pmatrix} $$

Nótese que $M_{G_{2}}$ es simétrica por la naturaleza de un grafo no dirigido.

Evidentemente, la cantidad de memoria utilizada será $O(|V|^{2})$.

## Lista de adyacencia

Otra forma de almacenar el grafo es usando una lista por cada nodo, en la lista $G_{u}$ irán todos los vecinos $v$ tales que:

$$ G_{u} = \{v : (u,v) \in E\} $$

Para los ejemplos de grafo que mostramos anteriormente, tenemos que:

Grafo 1:

$$ G_{1} = \{2,3\} $$
$$ G_{2} = \{\} $$
$$ G_{3} = \{2,4\} $$
$$ G_{4} = \{3\} $$

Grafo 2:

$$ G_{1} = \{2,3\} $$
$$ G_{2} = \{1,3\} $$
$$ G_{3} = \{1,2,4\} $$
$$ G_{4} = \{3\} $$

Este método de almacenamiento usa $out_{u}$ elementos en la lista $G_{u}$, por lo que usará $out_{u} + 1$ de memoria (1 extra por la declaración de la lista), siendo el total:

$$ \text{Memoria} = \sum\limits_{i=1}^{|V|}out_{u} + 1 = \sum\limits_{i=1}^{|V|}out_{u} + |V| $$

Notemos que toda arista $(u,v)$ sale del nodo $u$ y llega al nodo $v$, esto implica que cada arista en $E$ tiene un nodo al cual se le puede asociar mediante una biyección. Por lo anterior, deducimos que:

$$ \text{Memoria} = \sum\limits_{i=1}^{|V|}out_{u} + 1 = O(|E|) + |V| = O(|E| + |V|) $$

Lo cual es mucho mejor que $O(|V|^{2})$ si el grafo no es denso (no tiene muchas aristas).

## Matriz de incidencia

Este método almacena la información sobre el grafo en una matriz de $V \times E$, y está definida **para grafos dirigidos** como:

$$ I_{ij} = \left\{ \begin{array}{cc} 1 &\text{La arista }j\text{ entra al nodo }i \\ -1 &\text{La arista }j\text{ sale del nodo }i \\ 0 &\text{En caso contrario}  \end{array}\right. $$

Mientras que **para grafos no dirigidos**:

$$ I_{ij} = \left\{ \begin{array}{cc} 1 &\text{La arista }j\text{ tiene como alguno de sus extremos al nodo }i \\ 0 &\text{En caso contrario}  \end{array}\right. $$

Para los ejemplos de grafo que mostramos anteriormente, tenemos que:

$$ I_{G_{1}} = \begin{pmatrix} -1 &-1 &0 &0 &0 \\ 1 &0 &1 &0 &0 \\ 0 &1 &-1 &-1 &1 \\ 0 &0 &0 &1 &-1  \end{pmatrix} $$

$$ I_{G_{1}} = \begin{pmatrix} 1 &1 &0 &0 \\ 1 &0 &1 &0 \\ 0 &1 &1 &1 \\ 0 &0 &0 &1 \end{pmatrix} $$

Evidentemente, la cantidad de memoria usada es $O(|V|\cdot |E|)$.

## Ejercicios

* ¿Qué representa el valor $M^{k}_{ij}$?

* Un **sumidero universal** se define como un nodo $u$ con $in_{u} = |V| - 1$ y $out_{u} = 0$. Dada la matriz de adyacencia de un grafo $G$, diseñe un algoritmo en $O(|V|)$ para determinar si existe un sumidero universal en el grafo y, si existe, devolverlo.

# BFS (Breadth-First Search)

El algoritmo de **Búsqueda por anchura (en inglés, Breadth-First Search, abreviado a BFS)** se describe de la siguiente forma:

Consideramos un nodo $s$ como el nodo de origen y luego revisamos todos los vecinos de dicho nodo que no hayan sido revisados aún, para luego aplicar el mismo método sobre los vecinos que acaban de ser revisados. Este procedimiento se realiza hasta que ya no hayan nodos que revisar.

Se puede realizar una analogia con una propagación de un incendio o de una bacteria. Su principal función es hallar la distancia más corta desde el nodo $s$ a cualquier otro nodo alcanzable (existe algún camino de aristas consecutivas que nos pueden llevar de $s$ al nodo en cuestión).

Una forma de identificar los nodos que ya han sido visitados, aquellos que están pendientes por visitar pero ya están en la *lista de espera* y aquellos que todavía no están en la lista de espera es asignándoles colores en base a su estado: Los ya visitados serán de color negro, los de la lista de espera serán grises y los que aun no están en la lista de espera serán blancos.

Podemos usar una cola para simular la lista de espera, debido a que necesitamos que el orden de los nodos de cada nivel se respete (la idea del algoritmo es procesar todos los nodos a una distancia $k$ antes que los que están a una distancia $(k+1)$).

El pseudocódigo del algoritmo se puede resumir a:

```Python
BFS(s):
    for u in V:
        dist[u] = inf
        color[u] = blanco
        padre[u] = -1
    Q = {s}
    dist[s] = 0
    color[s] = gris
    while not Q.empty:
        u = Q.front
        Q.pop
        for v in G[u]:
            if color[v] == blanco:
                color[v] = gris
                padre[v] = u
                dist[v] = dist[u] + 1
                Q.push(v)
        color[u] = negro
```

Notemos que podemos mantener más información sobre los nodos respecto al nodo $s$:

- `dist[u]` almacena la distancia más corta (hasta el momento) desde el nodo $s$ al nodo $u$ si es alcanzable, si no lo es mantiene $\infty$.

- `padre[u]` almacena el nodo $v$ que precede al nodo $u$ en el camino más corto desde el nodo $s$ al nodo $u$. 

- `color[u]` almacena el color del nodo $u$ en función a su estado actual.

Definimos a la función $\delta(s,u)$ como la distancia más corta desde el nodo $s$ al nodo $u$.

**Lema 1:** Sean un grafo $G = (V,E)$ y $s$ un nodo arbitrario de $V$; entonces, para toda arista $(u,v)\in E$ se cumple que:

$$ \delta(s,v) \leq \delta(s,u) + 1 $$

**Prueba:**

Si $u$ es alcanzable por $s$, entonces $v$ también lo es, en dicho caso el camino más corto de $s$ a $v$ debe ser menor o igual a cualquier camino de $s$ a $v$. Dado que $s \rightarrow u$ + $(u,v)$ es un camino válido, esto quiere decir que:

$$ \delta(s,v) \leq \delta(s,u) + 1 $$

En el caso que $u$ no sea alcanzable por $s$, la desigualdad se cumple trivialmente.

**Lema 2:** Sean un grafo $G = (V,E)$ y $s$ un nodo arbitrario de $V$. Supongamos que se ejecuta la función `BFS(s)`; entonces, luego de finalizar la ejecución, se cumple que $dist[u] \geq \delta(s,v)$.

**Prueba (por inducción):**

1) Notemos que al inicio del proceso tenemos que $dist[s] = 0 \geq \delta(s,s)$ y que además, para todo $v\in V \backslash \{s\}$, $dist[v] = \infty \geq \delta(s,v) $.

2) Asumamos que la propiedad se cumple para todos los nodos antes de que se revise el nodo $v$. (Hipótesis inductiva)

3) Supongamos que el nodo mediante el cual se descubrió el nodo $v$ es $u$, entonces por la Hipótesis inductiva tenemos que:

$$ dist[u] \geq \delta(s,u) $$

Pero al momento de descubrir $v$ realizamos la asignación $dist[v] = dist[u] + 1$, por lo tanto:

$$ dist[v] = dist[u] + 1 \geq \delta(s,u) + 1 \geq \delta(s,v) $$

Además, una vez actualizado el nodo $v$, nunca más se modificará su valor $dist[v]$ debido a que su color deja de ser blanco.

Por lo que la propiedad se cumple en cada iteración de la función `BFS(s)`.

**Ejercicio:** Pruebe que se cumple también se da que $dist[u] \leq \delta(s,u)$ y con ello que el algoritmo BFS cumple con hallar la distancia más corta desde $s$ a cada uno de los nodos.

## Aplicaciones del BFS

- [Hallar la distancia más corta desde un nodo en un grafo](https://www.spoj.com/problems/NAKANJ/)
- [Hallar el ciclo más corto o determinar si existe un ciclo que pase por un nodo](https://www.spoj.com/problems/ADACYCLE/)
- [Hallar el camino más corto con condiciones I](https://www.spoj.com/problems/DIGOKEYS/en/)
- [Hallar el camino más corto con condiciones II](https://codeforces.com/problemset/problem/59/E)
- [Hallar el camino más corto en un grafo implícito I](https://codeforces.com/problemset/problem/727/A)
- [Hallar el camino más corto en un grafo implícito II](https://codeforces.com/problemset/problem/877/D)
- [Hallar el camino más corto en un grafo implícito III](https://www.spoj.com/problems/ADV04F1/en/)
- [Hallar el camino más corto en un grafo implícito IV](https://www.spoj.com/problems/MULTII/en/)
- [No siempre se deben resolver las queries una por una](https://www.spoj.com/problems/INVESORT/en/)
- [BFS Multisource](https://codeforces.com/contest/796/problem/D)