In [2]:
import numpy as np
from typing import Dict

<div class="alert-warning">
    
**NOTA** 
* Para facilitar la lectura del documento las cuestiones se han resaltado en fondo amarillo. Para la mayoría de las cuestiones se adjunta su respuesta. Sin embargo, es muy importante que trates de responderlas **sin** consultar la respuesta.

* Las cuestiones se clasifican como F (Fácil), PD (Poco Difícil), AD (Algo Difícil), D (Difícil), ED (Extremadamente Difícil).

</div>

# Conceptos básicos en grafos 

* Una estructura de datos posible para almacenar las aristas de un grafo es la **matriz de adyacencia** de dimensión $|V| \times |V|$. Para crear la matriz de adyacencia, a cada vértice del grafo se le asigna un índice $i$ en el rango $1 \ldots |V|$. La arista $(i, j)\in E$ que conecta el nodo $i$ con el nodo $j$ del grafo se representa asignándole un uno al elemento $(i, j)$ de la matriz de adyacencia. Un cero denota la ausencia de dicha arista en el grafo. El coste en memoria de esta estructura de datos seá, por tanto, $\Theta(V^2)$ independientemente de las aristas presentes en el grafo. 

 Notad que esta estrategia es intuitivamente ineficiente: *queremos que las estructuras de datos almacenen los datos que realmente están allí, no los datos que no están presentes*.

* Si el gráfico no es denso, o en otras palabras, si el grafo es disperso, una mejor solución es almacenar las aristas en **listas de adyacencia**. En las listas de ayacencia,  para cada vértice $v$ del grafo, se crea una lista con sus vértices adyacentes. Por tanto, el requisito de espacio es  $O(E + V)$, lineal en el tamaño del grafo.

* Un requisito muy común en los algoritmos de grafos es encontrar todos los vértices adyacentes a un vértice dado $v \in V$. Encontrar los vértices adyacentes a todos los nodos de $G$ se puede hacer en un tiempo proporcional al tamaño de $G$,  $\Theta(E+V)$: *escaneando* las lista de adyacencia de los nodos. Sin embargo, si se utilizase como EdD una matriz de adyacencia el costo de dicha operación sería  $\Theta(V^2)$, ya que hay que _escanear- toda la matriz para encontrar todas las aristas.


<p> En la figura siguiente se se utiliza una lista de adyacencia y una matriz de adyacencia como EdD para almacenar  un grafo no dirigido. Notad como la matriz de adyacencia es simétrica</p> 
<img src="graph_Fig-22-1-representations-undirected.jpg">

<p> Lista de adyacencia y matriz de adyacencia de un grafo dirigido:</p> 

<img src="graph_Fig-22-2-representations-directed.jpg">

<div class="alert-warning">

**_Cuestiones_**

* **(F)** Hemos visto que cuando se utiliza una matriz de adyacencia $A$ como EdD para almacenar un grafo $G$, las aristas que parten del i-ésimo nodo se representan por la i-ésima **fila** de la matriz. Conocida la matriz $A$ de un grafo ¿Cómo se pueden obtener las aristas que *inciden* en el i-ésimo nodo del grafo? ¿Cómo podríamos obtener una nueva matriz $M$ tal que su elemento $(i,j)$ nos informase si una arista proveniente del nodo $j$  *incide* sobre el nodo $i$?. ¿Que relación tiene $M$ con el grafo traspuesto de $G$ (el grafo transpuesto de $G$ que denominaremos $G^T$ es aquel que se obtiene  invirtiendo el sentido de todas las aristas de $G$).     
> * Notad que la í-ésima **columna** de la matriz de adyacencia $A$ representa las aristas que inciden en el nodo $i$. Por tanto, si se desease tener una matriz $M$ en las que sus filas representasen las aristas que inciden en los nodos, esta se podría obtener hallando la traspuesta de la matriz de adyacencia $M = A^T$.    
>
> * $M$ es la matriz de adyacencia del grafo transpuesto $G^T$.


* **(F)** Suponga que $A$ es la matriz de adyacencia de un grafo $G$. ¿Qué significado tienen las celdas de la matriz $A^2$? Verifique su significado con la matriz de adyacencia  
$ A = 
\begin{pmatrix}
0 & 1 & 1\\
0 & 0 & 1 \\
1 & 0 & 0 
\end{pmatrix}$

```python

```
> El elemento $(i,j)$ de la matriz $A^2$, indica cuantos caminos de longitud 2 existen entre los vértices $i$ y $j$ del grafo.
>
> Por tanto, si queremos calcular el número de caminos de longitud $l$ que hay entre dos vértices
$v_i$ y $v_j$, basta con calcular la potencia correspondiente $M=A^l$ de la matriz de adyacencia y consultar el elemento de la matriz $m^l(i,j)$ correspondiente.

In [10]:
A = np.array( [[0,1,1], [0,0,1],[1,0,0] ])
A2 = np.matmul(A, A)
A2


array([[1, 0, 1],
       [1, 0, 0],
       [0, 1, 1]])

* **(F, Python)** Proporcione una estructura de datos *adecuada* en Python para representar la lista de adyacencia del grafo dirigido de la figura anterior. Justifique la elección de la EdD.  
> Un diccionario es una EdD adecuada para almacenar la lsta de adyacencia de un grafo. Las llaves del diccionario son los nodos y sus valores una lista (mejor un conjunto si no es multigrafo) con los nodos adyacentes. Es apropiada porqué en un diccionario el acceso a las llaves tiene coste $\Theta(1)$. Explorar la lista de adyacencia de un nodo dado tendrá un coste proporcional al tamaño de su lista de adyacencia $\Theta(|\text{Adj}(u)|)$
>
>En el siguiente ejemplo el diccionario E implementa las listas de adyacencia de la figura anterior.

```python
# diccionario de listas
E = { 1:[2, 4], 2:[5], 3:[6,5], 4:[2], 5:[4], 6:[6] }  

#diccionario de conjuntos para grafos que NO sean multigrafos
E = { 1:{2, 4}, 2:{5}, 3:{6,5}, 4:{2}, 5:{4}, 6:{6} }  

```

* **(F, Python)** Dado un grafo dirigido $G$ implementado con lista de adyacencia proporcione un procedimiento Python que calcule el grafo transpuesto de G (el que se obtiene invirtiendo el sentido de todas las aristas de G). Suponed que el grafo se implementa con un diccionario cuyos valores son las listas de adyacencia (tal y como se hizo en la cuestión anterior). ¿Cuál sería el coste del procedimiento?

</div>

In [22]:
def  graph_transpose_list (G):
    '''...'''
    # init the transpose graph
    T = { key : []  for key in G.keys() }

    for key, adj in G.items():
        for x in adj:
            T[x].append(key)
    
    return T

def  graph_transpose_set (G):
    '''keyValues as set'''
    # create the transpose graph
    T = { key : set()  for key in G.keys() }

    for key, adj in G.items():
        for x in adj:
            T[x].add(key)
    
    return T



# --- Driver program

G = { 0:[1, 2],
     1:[3], 
     2:[3,4], 
     3:[5,6],
     4:[6],
     5:[7],
     6:[7],
     7:[]}  

print(graph_transpose_list (G))
print( graph_transpose_set(G))

{0: [], 1: [0], 2: [0], 3: [1, 2], 4: [2], 5: [3], 6: [3, 4], 7: [5, 6]}
{0: set(), 1: {0}, 2: {0}, 3: {1, 2}, 4: {2}, 5: {3}, 6: {3, 4}, 7: {5, 6}}


<div class="alert-warning">

* **(F, Python)** Escribir un código Python que reciba la matriz de adyacencia de un grafo y devuelva su matriz de incidencia (o lo que es lo mismo la matriz de adyacencia del grafo traspuesto)

<div>

In [8]:
A = np.array( [[0,1,1], [0,0,1],[0,0,0] ])
A.T


array([[0, 0, 0],
       [1, 0, 0],
       [1, 1, 0]])

<div class="alert-warning">

* **(F)** El grado de un vértice se define como el número de ramas que parten él. Escribir el código Python de una función que calcule la tabla $\text{grade}[\cdot]$ de grados en los vértices de un grafo a partir de la representación de un grafo de su lista de adyacencia.

</div>

In [30]:
vertex_grade = lambda G: [len(values) for key, values in G.items() ]

##### Driver
G = { 0:[1, 2],
     1:[3], 
     2:[3,4], 
     3:[5,6],
     4:[6],
     5:[7],
     6:[7],
     7:[]}  

vertex_grade (G)

[2, 1, 2, 2, 1, 1, 1, 0]

<div class="alert-warning">

* **(F, Python)** El *grado de incidencia* de un vértice se define como el número de ramas que llegan a él. Escribir el código Python de una función que calcule la tabla $\text{inc}[\cdot]$ de grados de incidencia en los vértices de un grafo a partir de la representación de un grafo de su lista de adyacencia.

</div>

In [28]:
def vertex_inc_grade (G):
    ''' Los vertices deben estar numerados 0...(n-1)'''
    inc = len(G) * [0]
    for adj in G.values()  :
        for x in adj:
            inc[x] += 1
    return inc

### Driver
G = { 0:[1, 2],
     1:[3], 
     2:[3,4], 
     3:[5,6],
     4:[6],
     5:[7],
     6:[7],
     7:[]}  

vertex_inc_grade (G)

[0, 1, 1, 2, 1, 1, 2, 2]

<div class="alert-warning>


* **(F)** Crear una función Python que reciba un la lista de adyacencia de un grafo y devuelva su grafo complementario. ¿Y si en vez de recibir la lista de adyacencia recibiese una matriz de adyacencia?

</div>

In [26]:
def  graph_complement (G):
    '''...'''
    all_keys = set(G.keys())
    
    return {key:  all_keys - set(adj)  for key, adj in G.items() } 

matrix_complement = lambda A: np.ones(A.shape) - A

#### Driver
print(matrix_complement(A))
graph_complement(G)

[[1. 0. 0.]
 [1. 1. 0.]
 [1. 1. 1.]]


{0: {0, 3, 4, 5, 6, 7},
 1: {0, 1, 2, 4, 5, 6, 7},
 2: {0, 1, 2, 5, 6, 7},
 3: {0, 1, 2, 3, 4, 7},
 4: {0, 1, 2, 3, 4, 5, 7},
 5: {0, 1, 2, 3, 4, 5, 6},
 6: {0, 1, 2, 3, 4, 5, 6},
 7: {0, 1, 2, 3, 4, 5, 6, 7}}

* (**PD**) Suponga un grafo dirigido, si se denomina $\text{grado}_{\text{out}} (v)$ y  $\text{grado}_{\text{in}} (v)$   al grado de un vértice $v$ y el grado de incidencia del vértice $v$ respectivamente, demostrar que,
$$
2|E| = \sum_{v \in G} \text{grado}_{\text{out}} (v) + \sum_{v \in G}  \text{grado}_{\text{in}} (v)
$$
donde $|E|$ es el número de aristas de $G$.

# Búsqueda en Profundidad (Deep Find Search)

* A continuación se proporciona el pseudocódigo del algoritmo de búsqueda en profundidad. Este consta de dos procedimientos. El procedimiento `dfs_visit(u, G)`que realiza propiamente la búsqueda en profundidad partiendo del nodo $u$ y el *driver* `dfs(G)` que inicializa los atributos de los nodos del grafo, las variables globales y *lanza* a través de un bucle principal el procedimiento `dfs_viisit()`sobre aquellos nodos que aun permanezcan con color WHITE.  

```python
def dfs (G):
    ''' Drvier for DFS algorithm (pseudocode)'''
    
    time = 0   # Global variable
    
    # All nodes attributes must be initiated before the main loop 
    for all v in G[V]:
        v.color = 'WHITE'
        u.d = None
        u.f = None
        u.parent = None
    
    # Main loop. 
    for all u in G[V]:
        if u.color == 'WHITTE'
        # Each iteration over a WHITE node does one DFS-tree 
        dfs_visit (u, G)
        
def dfs_visit (u, G):
    ''' DFS Algorithm'''
    global time
    time = time + 1          # Advance time
    
    # u has just been discovered: record time
    u.d = time
    # u is now active 
    u.color = 'GRAY'              
    
    for all v in adjacent[u]:  
        # explore edge (u,v) 
        if v.color == 'WHITE' :
            # set the parent of v
            p[v] = u            # También se puede representar el padre de v mediante un atributo v.parent = u 
            # execute recursively dfs_visit on node v
            dfs_visit (G, v)
            
    # u finished: blacken and record finish time
    u.color = 'BLACK'             
    time = time + 1
    u.f = time                              

```


## Atributos de los nodos

**Color de los nodos**
* Los nodos se inicializan en el procedimiento driver a `WHITE`. 
* Cuando se descubre un nodo $u$, esto es, cuando se ejecuta el procedimiento `DFS_VISIT(u, G)`, el nodo se colorea a `GRAY`. 
* Cuando finaliza el procesamiento del nodo $u$, esto es, cuando ya se han explorado todos los nodos de su lista de adyacencia, el nodo se etiqueta como `BLACK`.

**Tiempos de descubrimiento y finalización**
* El algoritmo incluye un contador, en el psudocodigo se representa con la variable global `time`, y dos marcas de tiempo para cada nodo (*timestamps*)
 * El tiempo en que se *descubre* el nodo, cuando cambiamos su color a GREY, se etiqueta con la marca $d_u$; Notad. que el contador se actualiza, $\text{time} \mathrel{+{=}}1$, cada vez que se inicia el procesamiento de un nodo. 
 * El tiempo en que *finaliza* el procesamiento del nodo se etiqueta con $f_u $; el valor del contador también se actualiza,  $\text{time} \mathrel{+{=}}1$, cada vez que `DFS_visit(u,g)` finaliza el procesamiento de un nodo (i.e., $u$ se colorea como negro)
 
 * Obviamente para todo nodo $u \in V$ , $f_u > d_u$ (i.e., el tiempo de finalización del procesamiento de un nodo tiene que ser posterior a  su descubrimiento). Además los tiempos $d_u$ y $f_u$ para todo nodo $u$ **necesariamente** son valores enteros comprendidos en el intervalo $\big[ 1, 2|V| \big]$. La variable time se actualiza **dos veces** por cada nodo: cuando el nodo se descubre y cuando finaliza su procesamiento. Por tanto, a la variable global $\text {time}$ se le asigna 1 cuando se descubre el primer nodo y $2\cdot|V|$ cuando *finaliza* el procesamiento del último nodo del grafo.
 
 * Como veremos mas adelante, los *timestamps* $d_u$ y $f_u$ van a proporcionarnos información muy valiosa sobre la estructura del grafo.
 
**Antecesores**
* Cuando se procesa un nodo se le asigna un padre $p[v]= u$. 
* Cada vez que el **bucle principal** del *driver* `dfs()` lance el procedimiento `dfs_visit()` sobre un nodo $u$ se generará un **árbol DFS** cuya raíz será precisamente el nodo $u$. Se generarán tantos arboles como veces se lance el procedimiento  `dfs_visit()` **desde el bucle principal** del driver. En el ejemplo 1 que se muestra a continuación, el  procedimiento  `dfs_visit()`se lanza dos veces desde el driver: la primera vez sobre el nodo $u$ y la segunda sobre el nodo $w$. Por tanto, se generarán dos árboles. El primero con raíz $u$ y el segundo con raíz $w$.
* Cuando finalice la ejecución del *driver* `dfs()`se habrá generado un conjunto de árboles DFS. Este conjunto de árboles constituye un bosque.  
 
**Nota:** 
 * Siguiendo el pseudocódigo del Cormen et al. 4 Edition. en el pseudocódigo de DFS las marcas de tiempo de descubrimiento y finalización se han considerados atributos del nodo (e.g., `u.d = time`) mientras que en las transparencias (y en el Cormen et al., 3 Edition) se guardan en sendas tablas $d[\cdot]$ y $f[\cdot]$ (ver ejemplo a continuación)  


>**Ejemplo 1:**
>
>*Reference: Cormen et al. Chapter 20 (4 Edition)*
>
>* En el siguiente ejemplo se procesa un grafo comenzando en el nodo $u$. Una vez cread el árbol DFS cuya raíz es $u$ mediante llamadas recursivas al procedimiento `dfs_visit()`, el siguiente nodo que se itera en el bucle  principal del procedimiento DFS, es el nodo $w$ tal y como se muestra en la sub-figura $(k)$.
>
> * En la siguiente sección se explica la clasificación de las aristas
> 
>  Puedes encontrar una descripción detallada de la evolución paso a paso del algoritmo del ejemplo 1 en el Cormen et al, Chapter 20 en la 4 Edition o Chapter 22 en la 3 Edition  
>
> <img src="graph_dfs_cormen4.jpg">

## Coste de DFS:


* `dfs()` itera bucles de tamaño $|V|$. El coste de cada bucle es  $\Theta(V)$. 
* El procedimiento `dfs_visit()` se llama exactamente una vez para cada vértice $u \in V$, ya que `dfs_visit()` se ejecuta solamente sobre vértices que sean blancos. Lo primero que hace `dfs_visit()` cuando visita un vértice $u$ es marcarlo como visitado, i.e., colorearlo a gris.
Al principio todos los vértices son blancos; El driver `dfs()` inicializa los atributos de todas los vértices.  
* Durante una ejecución de `dfs_visit()`, el bucle `for` se itera sobre la lista de adyacencia de $u$, por  tanto, se itera $|\text{Adj}(u)|$ veces. Dado que $\sum_{v \in V} |\text {Adj}|(v)| = \Theta(E) $ y  `dfs_visit()` se llama una única vez por vértice, el coste total de 
`dfs_visit()` es  $\Theta(V + E)$. 
* Por tanto, el coste total de `dfs()` será  $\Theta(V + E)$.


## Propiedades de DFS

A medida que DFS explora los nodos de un Grafo, también clasifica las aristas del grafo. Tras la finalización del algoritmo se habrá creado un *bosque de árboles DFS* que nos permitirá extraer información acerca de la estructura del grafo.

Cada iteración del bucle principal del driver `dfs()` sobre un nodo de color blanco (ver pseudocódigo) crea un árbol DFS cuya raíz es $u$.  

### Clasificación de aristas:

Tendremos diferentes tipos de aristas, dependiendo si el Grafo es dirigido o no dirigido. 

*Grafos dirigidos:*

Las aristas que podemos encontrar en un **grafo dirigido** $G$ son de los siguientes tipos:

 * Aristas del árbol (T): Son las arista $(u, v)$  para las cuales el nodo $u$ es padre de $v$ ($p[v] = u $). Es decir, el nodo $v$ se descubre *viniendo del nodo u*. 
 * Aristas hacia atrás, también llamadas ascendente (B):  Son las aristas $(u, v)$ para las cuales el nodo $v$ es un nodo antecedente de $u$ en un árbol DFS,  $v = p[ \ldots p[u] \ldots ]$ (con uno o más $p$). Por tanto, son aristas que *cierran un ciclo* en el Grafo.
 * Aristas hacia adelante(F, *forward* o descendentes): Son aristas $(u, v)$ en las que el nodo $u$ es un antecedente de $v$. Por tanto,  $u = p[\ldots p[v] \ldots]$, con al menos dos pasos $p[\cdot ]$. Conectan a un nodo $u$ con un descendiente suyo $v$ en un árbol DFS.
 * Aristas transversales o también llamadas de cruce (C): cualquier otra arista $(u, v) \in E$. Las aristas de cruce unen ramas de un árbol de DFS o diferentes árboles de un bosque DFS 

**Importante** Las aristas $(u,v)$ se clasifican a medida que progresa el procedimiento `dfs_visit()` en función del color en que se encuentra $v$ cuando se explora la lista de adyacencia de $u$, $v \in \text{Ady}(u)$. Si el color de $v$ es:
 
 * WHITE, la arista $(u,v)$ será una arista del árbol (T)
 
 * GRAY, la arista $(u,v)$ es una arista *hacia atrás* (B)
 
 * BLACK, $(u,v)$, la arista $(u,v)$ es o bien un arista hacia adelante (F) o bien una arista de cruce (C). La arista $(u,v)$ será *hacia adelante* cuando además $d_u < d_v$ y de cruce si $d_u > d_v$. 

>* **Ejemplo 2**
>
>En la siguiente figura se representan los diferentes tipos aristas de un Grafo que se ha procesado con el algoritmo DFS. Debes ser capaz de *entender y reproducir* los resultados. Las aristas del árbol (T) se muestran *sobrepintadas* en gris y el resto se identifican con la abreviatura correspondiente $B$, $F$ o $C$.
>
> <img src="graph_Fig-22-5-DFS-properties-a.jpg">
>
> En la siguiente figura se muestran los mismos resultados que en la figura anterior, resaltando, ahora, los dos árboles del bosque DFS: uno cuya raíz es $s$ y el otro con raíz $t$
>
><img src="graph_Fig-22-5-DFS-properties-c.jpg">

*Grafos no dirigidos*

Cuando $G$ es un grafo **no** dirigido:
* **No** tiene sentido distinguir entre aristas descendentes (F) y ascendentes (B).
Si, por ejemplo, $(u, v)$ la etiquetase como una  arista hacia adelante (F), entonces, cundo explorase la lista de adyacencia de $v$, la misma arista $(v, u)$, el grafo es no dirigido,  debería etiquetarla como una arista hacia atrás (B). Por tanto, no tiene sentido diferenciar entre aristas hacia adelante (F) o hacia atrás (B). Notad que requerimos al menos dos pasos $p[ \cdot]$ para que una arista pueda ser considerada hacia  atrás en un grafo no-dirigido
* Tal y como demostraremos, mas adelante, en un grafo **no dirigido**,  **no puede haber**  enlaces transversales (C)

<div class="alert-warning">

**_Cuestiones_**

* **(F)** Proporciona un algoritmo para detectar la presencia de un ciclo en un grafo dirigido. ¿Cúal es su coste?¿Y si el grafo es no dirigido?
(P-14, 15 y 16 de la hoja de problemas).
> Habrá un ciclo en un grafo $G$, independientemente de que el grafo sea dirigido o no-dirigido, cuando en el transcurso de la aplicación de dfs_visit() se alcance un nodo en estado GRAY. En el cuerpo del bucle `for` del procedimiento `dfs_visit()` considerar esa posibilidad incluyendo la sentencia else if  (elif) apropiada.

</div>

### Teorema del paréntesis


Para un grafo $G$ y dos nodos cualesquiera del grafo $u,v \in V$, considerar los intervalos de tiempo $I_u = [d_u, f_u]$ y  $I_v = [d_v, f_v]$. Suponiendo  que $d_u < d_v$, i.e., el nodo $u$ se descubre antes que $v$, se pueden tener **solo** dos posibilidades:

1. $I_v \cap I_u = \emptyset $, i.e, ambos intervalos son disjuntos:  $d_u < f_u < d_v < f_v$
1. $I_v \subset I_u$, i.e. el intervalo $I_v$ está contenido en el intervalo $I_u$: $d_u < d_v < f_v < f_u$


*Esquema de demostración:*

* Si $f_u < d_v$ obviamente ambos intervalos son disjuntos, i.e., el procesamiento del nodo $u$ finalizó antes de descubrirse $v$ (o equivalentemente $u$ estaba en estado BLACK cuando se empezó a procesar $v$).
* Si $d_v < f_u$ implica que $d_v$ se comenzó a procesar (asignándole color GRAY) antes de acabar de procesar $u$, i.e., *mientras* $u$ continuaba en color GRAY. Pero recuerda que DFS es un procedimiento recursivo y **necesariamente** ha de salir antes de la recursión de $v$ que de la recursión de $u$ (como $d_u < d_v$, `dfs_visit (u)` se llamó antes que `dfs_visit(v)`) y, por tanto, se ha de acabar de procesar antes $v$ que $u$, es decir, $f_v  < f_u$. 

>**Ejemplo 3**
>
>En la primera figura se representa la clasificación de las aristas resultante de la aplicación del algoritmo DFS sobre un grafo. En la siguiente figura se muestra el bosque DFS y la ordenación en el eje $x$ de los intervalos de tiempo descubrimiento/finalización de sus nodos. El intervalo de tiempos de cada nodo se representa por una caja cuyo lado izquierdo indica el tiempo de descubrimiento y cuyo borde derecho el de finalización. 
>
><img src="graph_Fig-22-5-DFS-properties-a.jpg">
><img src="graph_Fig-22-5-DFS-properties-b.jpg">

>
>En la figura anterior:
>* Los nodos $z, y, w, x$ son descendientes del nodo $s$. Por tanto, todos los intervalos  $I_z, I_y, I_w, I_x$ están contenidos en $I_s$.
>* Los nodos $y,w$ pertenecen a un sub-árbol cuya raíz es $z$. Sus intervalos  $I_y,I_w$ deben estar contenidos en $I_z$. Es decir, $I_y,I_w \subset I_z$
>* Los nodos $w$ e $y$ pertenecen a distintas ramas de un mismo árbol. Por tanto ninguno es ascendente o descendente del otro. Sus intervalos **necesariamente** han de ser disjuntos $I_w \cap I_y = \emptyset$
>* Los nodos $s$ y $t$ son raíces de sendos árboles DFS. Sus intervalos $I_s$ e $I_t$ **necesariamente** son disjuntos   $I_s \cap I_t = \emptyset$ 
>* Cualquier arista que una pares de nodos cuyos intervalos sean disjuntos **necesariamente** han de ser aristas de cruce, o bien son aristas entre ramas de un mismo árbol o bien aristas entre árboles. Por ejemplo  $I_w \cap I_x = \emptyset$, por tanto $w \to x$ es una arista de cruce. Igualmente $v \to s$ es una arista de cruce, por tanto, $I_v \cap I_s = \emptyset$,
> * ¿Por qué se llama *Teorema del Paréntesis*?. Fíjate en la última figura. Si cada vez que un nodo $u$ se empezase a procesar, es decir, se colorease de WHITE a GRAY abriésemos un paréntesis $'(u'$  y cada vez que finalizase su proceso, i.e., se colorease de GRAY a BLACK, cerrásemos su paréntesis $'u)'$, obtendríamos una expresión bien formada.

<div class="alert-danger">

* **Atención IMPORTANTE**: *Notación de las transparencias* 

> En las transparencias, los tiempos de descubrimiento y finalización de los nodos y el padre de los nodos no se guardan como atributos de los nodos, sino en tablas. Para ello a cada nodo se le asigna un índice de una tabla.
>
> Suponiendo que los nodos del Ejemplo 3 se _etiquetan_ con los índices 
> 
|Nombre del nodo |Índice en la tablas|
|:---|:---|
|s|0|
|z|1|
|y|2|
|x|3|
|w|4|
|t|5|
|v|6|
|u|7|
>
>
>  la ejecución de `dfs(G)`,  produciría las siguientes tablas:     
>
> * Tabla con los tiempos de descubrimiento de los nodos: $d[\cdot] = [1, 2, 3, 4, 7, 11, 12, 14]$
> * Tabla con los tiempos de finalización de los nodos: $f[\cdot] = [10, 9, 6, 5, 8, 16, 13, 15]$
> * Tabla con los padres de los nodos: $p[\cdot] = [\text{None},0, 1, 2, 1, \text{None}, 5, 5]$   
 
>  *Técnicamente* el grafo  G=(V, E) de nodos $V = \{ s, z, y, x, w, t, v, u \}$ y el grafo $G'=(V', E')$ cuyos nodos son los índices $V'= \{0, 1, 2, 3, 4,5,6,7 \}$ son **_isomorfos_**. Dos grafos $G$ y $G'$ son isomorfos si existe una transformación biyectiva entre los nodos de ambos grafos  $\phi: \; V \to V' $ de manera que para toda arista de $G$, $(u,v) \in E$, entonces $ (\phi(u), \phi(v)) \in E'$

 
 </div>

<div class="alert-warning">

**Cuestiones**

* **(F)** Suponga que un grafo G de nodos $V=(0, 1, 2, 3, 4, 5, 6, 7)$ se proporcionan las tablas con los tiempos de descubrimiento y finalización  $d[\cdot] = [2, 1, 3, 4, 7, 11, 12, 14]$ y  $f[\cdot] = [9, 10, 6, 5, 8, 16, 13, 15]$ respectivamente, proporcione el bosque DFS
<pre>

     (1/10)  1                   5 (11/16)
            /                   / \
     (2/9) 0           (12/13) 6   7 (14/15)
          / \    
  (3/6)  2   4 (7/8) 
        / 
(4/5) 3  
</pre>
> Entre paréntesis se muestran los tiempos de descubrimiento/finalización de los nodos.

* **(F)** Suponga que se ha obtenido el bosque DFS de un grafo $G$ de la cuestión anterior. Mostrar de que tipo serían las arista (2,4), (1,4) y (4,1) en el grafo $G$. 
>Los intervalos de tiempo descubrimiento/finalización  de los nodos $1, 2, 4$ son $I_{1} = [1, 10]$, $I_{2} = [3, 6]$ y $I_{4} = [7, 8]$ respectivamente.  Como  $I_2$ e $I_4$ son intervalos disjuntos, $I_2 \cap I_4 = \emptyset$, la arista (2,4) **necesariamente** es de cruce (C) por el teorema del paréntesis.
>La arista (1,4) une el nodo 1 con un descendiente suyo en el árbol DFS ya que $I_4 \subset I_1$. Sin embargo, la arista (1,4) **no** pertenece al árbol DFS, por tanto, **necesariamente** tiene que ser hacia adelante (F). 
> Sin embargo, la arista (4,1) liga  el nodo 4 con un ascendiente suyo en el árbol DFS, el nodo 1, por tanto ha de ser una arista hacia atrás (backward, B).
>
> *Nota:* La cuestión siguiente *profundiza* en este tipo de razonamientos.

*  **(F)** Mostrar que para una arista $(u, v)$ de un grafo:
 * Es del árbol (T) o hacia adelante (F) si y solo si $d[u] < d[v] < f[v] < f[u]$
 * Es ascendente (B) si y solo si $d[v] < d[u] < f[u] < f[v]$
 * Es de cruce (C) $d[v] < f[v] < d[u] < f[u]$
> * Si $(u, v)$ es una arista del árbol, entonces **necesariamente** $v$ es descendiente de $u$. Por el Teorema del paréntesis el intervalo $\big[d[v], f[v] \big]$ ha de estar contenido en el intervalo $\big[ d[u], f[u] \big]$
> * Si la arista  es ascendente (B) entonces, $v$ es un nodo antecedente  de $u$.  Por el Teorema del paréntesis el intervalo de tiempo de un nodo descendiente $\big[ d[u], f[u] \big]$ ha de estar contenido en  $\big[ d[v], f[v] \big]$.   
> * Si es una arista de cruce cuando no se ha acabado de procesar $u$, estaba en estado GRAY, $v$  ya había finalizado su proceso, estaba en estado BLACK. Por tanto $f[v] < f[u]$. Como los intervalos de tiempo de los nodos  **no** se pueden cruzar (Teorema del Paréntesis), por tanto  
$d[v] < f[v] < d[u] < f[u]$. 
 
 </div>

### Teorema del camino blanco

* *Un vértice $v$ será descendiente de un vértice $u$, si y solo si, en el momento de descubrirse $u$ hay un camino de $u \rightsquigarrow v$ formado por nodos de color exclusivamente blancos que conecta $u$ con $v$, excepto $u$ que obviamente es gris cuando se descubre.*

* Una consecuencia muy importante de este teorema es que en el momento de descubrirse un nodo $u$, todos aquellos nodos $v$ para los que exista un camino de nodos en estado blanco de $u$ a $v$, acabarán formando parte de un subárbol cuya raíz es $u$. 

>**Ejemplo 4:**
> * Fíjate en la figura del Ejemplo 1 (etiquetada como Figure 20.4). En el momento que se descubrió  $u$, panel _(a)_ en la figura, los nodos $v, x, y$,  eran accesible por caminos blancos desde $u$. Tras la ejecución de DFS, todos ellos acabaron formando parte de un árbol cuya raíz es $u$. 
> * Fijémonos ahora en el Ejemplo 2. Cuando se descubre el nodo $y$, cuyo tiempo de descubrimiento es $d_y = 3$, no había ningún camino blanco que conectase $y \rightsquigarrow w$. El único camino era el formado por $y \to z \to w$. Sin embargo,en ese momento, $z$ **no** se encontraba en estado blanco, ya que su tiempo de descubrimiento es $d_z=2$ anterior a $d_y$. Por tanto, $w$ **no** podrá pertenecer a un subárbol cuya raíz sea $y$ (esto es, ser descendiente de $y$). Como efectivamente se muestra en la figura del Ejemplo 3, $w$ e $y$ se hallan en diferentes ramas. Por tanto, el nodo $y$ **no** es antecedente de $w$.  

### Proposición:

*Si $G$ es **no** dirigido entonces no puede haber aristas transversales (cruce)*

*Esquema de demostración*

Sea la arista $(u, v) \in E$

* Supongamos que $d_u < d_v$, entonces tenemos $ f_v < f_u$, para $v$ adyacente a $u$ entonces
 * Si $v$.color estaba  en blanco cuando llegamos a $v$ entonces $(u, v)$ es una arista de árbol.
 * Si $v$.color estaba en gris, entonces $(u, v)$ es una arista hacía atrás (o hacía adelante, recuerda que en grafos **no** dirigidos son equivalentes)
 
* Por lo tanto, en ningún caso es $(u, v)$ un enlace de cruce.
 




# Conectividad en grafos

Sea un grafo $G=(V, E )$,

* Un grafo $G$ **no dirigido** es **conexo** si para todo par de  nodos $u, v \in V$ existe un camino de $u \rightsquigarrow v$

* Un grafo $G$ **dirigido** es **fuertemente conexo** si para todo par de nodos $u, v \in V$ existen un camino $u \rightsquigarrow v$  y otro $ v \rightsquigarrow u$ 

* Un grafo dirigido es **débilmente conexo** si su extensión a un grafo no dirigido "duplicando" las aristas individuales $(u,v)$ es conexo.

* Una **componente conexa** de un grafo $G$ es un subgrafo formado por el **conjunto maximal** $C \subseteq V$ tal que para todo par de nodos $u, v \in C$ existe un camino de $u \rightsquigarrow v$ y otro  $v  \rightsquigarrow u$. 
 
 * Si $C_i = \{ V_i, E_i \}$ con $i =1, \ldots, k$  son las componentes conexas de G, entonces los $V_i$ son una
partición de $V$ y las aristas  $E_i$ son una partición de $E$.
 * Si ordenásemos los vértices de $G$ como $V = V_1 \cup...  \cup V_K$, entonces la matriz de adyacencia $M$ de $G$ sería diagonal en bloques. Cada uno de los bloques $M_k$ se correspondería con la matriz de adyacencia de cada una de las componentes  $C_k$

  **Nota:** ser un *conjunto maximal* implica que una componente conexa **no** puede estar incluida en otra componente conexa. 
  
> **Ejemplo 5:**
>
> * El grafo del siguiente ejemplo tiene tres componentes fuertemente conexas. 
> <img src="graph_scc1.png">
>
> * En la figura siguiente se representa el **grafo dirigido acíclico (DAG)**  $G^{SCC}=( V^{SCC}, E^{SCC})$ obtenido a partir de $G$ contrayendo las aristas dentro de cada una las componentes fuertemente conexas de modo que solo permanezca un nodo por cada una de las componentes $C_i$ de $G$.  
>
><img src="graph_scc2.png">



## Algoritmos para encontrar componentes conexas

### Grafos no dirigidos

**Pseudo-código**

1. Ejecutar `dfs(G)`

1. Los vértices de cada uno de los árboles de DFS constituyen una componente conexa. 


* Notad que el grafo es conexo si y solo si el bosque DFS es un _árbol abarcador_.

<div class="alert-warning">
    
**_Cuestiones_**

* **(D+)** En **Conjuntos Disjuntos** (DS) también vimos un algoritmo para detectar las componentes conexas de un grafo no dirigido. Teniendo en cuenta que el número de *merges* y *finds* que hay que efectuar cuando se utiliza DS es $m=(V+E)$, el coste del algoritmo que utiliza conjuntos disjuntos es $O((V+E) \cdot \log^* V)$. Mientras que dfs(G) tiene un coste $\Theta(V+E)$. Es decir, no parece que hayamos ganado nada por utilizar conjuntos disjuntos. ¿Se te ocurre alguna situación en la que fuese apropiado utilizar el algoritmo de DS en vez de dfs?  
>
>Una situación en la que $G$ convendría utilizar DS en vez de dfs es cuando el grafo **no** fuese estacionario en el sentido de que cada cierto tiempo se añadiesen aristas al grafo.  Cada vez que se incrementase el número de aristas habría que re-calcular de componentes fuertemente conexas del grafo. DFS necesita volver a procesar todos los nodos del grafo y, por tanto, volver a explorar toda la lista de adyacencia. El procedimiento sería mucho menos costoso con DS ya que **solo** habría que iterar sobre las aristas añadidas (mira el ejemplo en el tema de DS). 


</div>

### Grafos dirigidos . Algoritmo de Tarjan para encontrar las componente fuertemente conexas.

**Pseudo-código**

1. Ejecutar `dfs(G)` para obtener los tiempos de finalización para cada uno de los vértices del grafo.

1.  Computar $G^T$

1.  Ejecutar dfs($G^T$) pero en el bucle principal del driver considerar los vértices en orden decreciente a su tiempo de finalización $f[u]$

1. Los vértices de cada uno de los árboles de DFS formados en el paso 3, constituyen una componente conexa 

>**Ejemplo 6**
Mostrar la evolución paso a paso del algoritmo de Tarjan para obtener las componentes fuertemente conexas del grafo del Ejemplo 5. Asumiremos que cuando en un paso dado del algoritmo se puedan elegir indistintamente entre varios nodos, siempre se elegirá el de menor orden alfabético. Por ejemplo, cuando se itera el bucle principal de `dfs(G)` por primera vez, todos los nodos están en blanco y, por tanto, se podría elegir cualquier nodo, nosotros elegiremos el nodo etiquetado como $A$.
> * Estado del bosque DFS **después** de ejecutar el primer paso del algoritmo, `dfs(G)`. Con flechas continuas se muestran las aristas de los árboles y con linea discontinua el resto de aristas del grafo. 
> <img src="graph_scc1a.png">
>
>* Estado del bosque DFS **después** de ejecutar el tercer paso del algoritmo, dfs($G^T$). Es importante notar que la primera vez que se itera el bucle principal de dfs($G^T$) **necesariamete** se ha de ejecutar sobre el nodo $A$ ya que es el que tiene mayor tiempo de finalización (18) tras finalizar la ejecución de dfs($G$). Además, una vez se han finalizado de procesar los nodos del árbol cuya raíz es $A$, se ha de seleccionar en el bucle principal del procedimiento dfs($G^T$) **necesariamente** el nodo $C$ ya que de los nodos que permanecen con color WHITE es el que tiene mayor tiempo de finalización (10) tras dfs($G$).  
>
><img src="graph_scc1b.png">
>
> * Finalmente, paso 4, se obtienen las tres componentes fuertemente conexas, cada una de las cuales se corresponde con uno de los tres árboles del bosque DFS.
><img src="graph_sccforest.png">



<div class="alert-warning">


**_Cuestiones_**


* **(F)** Justifica el siguiente Lema: 

 _Un grafo $G$ y su transpuesto $G^T$ tienen las mismas componentes fuertemente conexas._
> 
> Supongamos que $C$ es una componente fuertemente conexa de un grafo $G$. Entonces para cualquier par de nodos $u, v \in C$ existen los caminos $u \rightsquigarrow v$ y   $v  \rightsquigarrow u$, es decir, $u$ es accesible desde $v$ y $v$ es accesible desde $u$. Para hallar el grafo transpuesto $G^T$ hay que revertir todas las aristas de $G$ y, por tanto, *revertir los caminos* $u \rightsquigarrow v$ y   $v  \rightsquigarrow u$, obteniendo $v \rightsquigarrow u$ y   $u \rightsquigarrow  v$ respectivamente. Por tanto $u$ seguiría siendo accesible desde $v$ y $v$ seguiría siendo accesible desde $u$.
<P></P>


* **(D)** Justifica que el coste del algoritmo de Tarjan es $\Theta (V+E)$. Para ello  ninguno de los pasos del algoritmo debería tener un coste superior a  $\Theta(V+E)$. 
>
> Crear el $G^T$, paso 2 del algoritmo, tiene un coste $\Theta(V+E)$, revisa las primeras cuestiones. En el paso 3 los nodos deben ser procesados en el bucle principal de dfs($G^T$) en orden inverso a su tiempo de finalización tras ejecutarse dfs($G$). ¿Cómo hacerlo eficientemente? Si, por ejemplo, tratásemos de ordenar los nodos antes de procesarlos en el paso 3, tendríamos un coste no asumible de $O(V \log V)$. Sin embargo, si cada vez que acabamos de procesar un nodo en el procedimiento `dfs_visit(G)`, i.e. cuando lo coloreamos a BLACK, lo añadiésemos a una pila, acabaríamos teniendo los nodos ordenados por su tiempo de finalización **sin haber aumentado el coste de dfs(G)** ya que añadir/extraer un elemento de pila tiene coste $O(1)$. De esta forma en el bucle principal de dfs($G^T$) simplemente procesaríamos la pila sin aumentar el coste del algoritmo.




*  **(AD)** Justifica el siguiente Lema (Lemma 22.13 Cormen et al. 3 Edition puedes encontrar ahí la solución)

 _Sean $C$ y $C'$ dos componentes fuertemente conexas distintas de $G$. Suponga que $u, v \in C$ y $u', v' \in C'$
y que, además, existe un camino $ u \rightsquigarrow u'$ en $G$. Entonces **no** puede haber un camino 
$ v \rightsquigarrow v'$_
<P></P>


* **(AD)** Muestra como pueden cambiar las componentes fuertemente conexas de un grafo dirigido si se añade una nueva arista al grafo (notad como esta cuestión es una consecuencia de la cuestión anterior).
> Supongamos que se añade la arista $(u, u')$ siendo $u$ y $u'$ dos nodos cualesquiera de $G$. Si los dos nodos pertenecen a la misma componente conexa, $u, u' \in C$, obviamente **no** se modifican las componentes que habían en $G$. Sin embargo, si $u \in C$ y $u' \in C'$ se pueden dar dos situaciones:
> * Si ya existiese una arista (v, v') tal que $v \in C$ y $v' \in C'$, por el Lema anterior, **no** se modificarían las componentes fuertemente conexas.
> * Sin embargo si ya existiese una arista (v', v) tal que $v \in C$ y $v' \in C'$, las dos componentes pasarían a ser una sola.

*  **(F)** ¿Por qué **necesariamente** es acíclico todo grafo G$^{SCC}$?
>
> También es una consecuencia del último Lema. Si hubiese un ciclo entre dos  componentes fuertemente conexas, por ejemplo, $C$ y $C'$ de un grafo $G$, entonces existirían caminos entre nodos pertenecientes a diferentes componentes fuertemente conexas  $u \rightsquigarrow u'$  y $v \leadsto v'$ donde $u, v, u', v'$ son cuatro nodos cualesquiera tales que $u, v \in C$ y $u', v' \in C'$. Pero si esta situación se diese, entonces, por el Lema anterior, $C$ y $C'$ **no** serían disjuntas.  


</div>

**Extensión de la notación:** 

Suponga un conjunto de vértices $U \subseteq V$, definimos $d(U) = \text{min}_{u \in U} \ \big[ d[u] \big]$ y  $f(U) = \text{max}_{u \in U} \ \big[ f[u] \big]$. Esto es, $d(U)$ y $f(U)$ representan, respectivamente, el tiempo de descubrimiento menor y el tiempo de finalización mayor de todos los nodos de $U$ (por ejemplo, si $U$ estuviese formado por los nodos de una componente fuertemente conexa, $d[U]$ y $f[U]$ representarían los tiempos de descubrimiento y finalización de la raíz del árbol DFS correspondiente a dicha componente fuertemente conexa) 

<div class="alert-warning">

**_Cuestiones_**

* **(D**$^+$**)** Justifica el siguiente Lema (Lema 22.14 del Cormen et al. 3 Edition)

 _Sean $C$ y $C'$ dos componentes fuertemente conexas distintas de $G$. Suponga que existe una arista $(u, v)$ tal que $u \in C$  y $v \in C'$ entonces $f(C) > f(C')$_
<P></P>


</div>

# Ordenación Topológica

# Temas avanzados