# Subconjunto Disjunto

* Un Conjunto Disjunto (DS) sobre un **conjunto universal** $U$ es una familia **dinámica** $S$ de subconjuntos disjuntos de $U$,  i.e., una **partición** de $U$. 
* Cada uno de los **subconjuntos** estará representado por un cierto **elemento** $x$. Denominaremos $S_x$ al subconjunto del DS representado por el elemento $x$

* El *Conjunto Disjunto* tiene las siguientes primitivas:

    * `DS_init (U)`   recibe el conjunto universal $U$ y devuelve la partición inicial $S$ como la familia de subconjuntos disjuntos $\{ \{u\} : u \in U \}$.

    * `DS_find (u, S)`  recibe un elemento $u \in U$ y devuelve el representante del subconjunto $S_x$ de $S$ que contiene a $u$.

    *  `DS_union (u, v)`  recibe dos elementos $u,v,  \in U$. Si $u$ y $v$ pertenecen a subconjuntos disjuntos difrentes, $u \in S_x$ y $v \in S_y $, calcula la unión $S_x \cup S_{y}$. Devuelve el representante del subconjunto $S_x \cup S_y$. Normalmente el representante de $S_x \cup S_y$  será $x$ o $y$. 
    
    
**Recuerda:**
* Conjunto: Colección de elementos no repetidos
* Conjunto universal:  Es un conjunto formado por todos los objetos (elementos) de estudio en un contexto dado. 
* *Subconjuntos disjuntos*: Dos subconjuntos $S_1$ y $S_2$ son disjuntos si no tienen ningún elemento (objeto) en común $ S_1 \cap S_2 = \varnothing$.

* No son tan comunes como los diccionarios, pilas o colas pero son muy valioso porque sus implementaciones son muy rídas: cuando pueden utilizarse se consiguen grandes mejoras.
https://courses.cs.washington.edu/courses/cse373/14sp/lecture10.pdf

## Características DS

* El Conjunto Disjunto nunca está vacío.
* Los subconjuntos de un Conjunto Disjunto nunca se dividen. Solo pueden cambiar a subconjuntos más grandes mediante la unión de subconjuntos disjuntos.

* Después de invocar a `DS_init ()` tendremos una partición con $|U|$ subconjuntos (i.e tantos subconjuntos como elementos tenga el conjunto universal). Por tanto, el máximo número de uniones que se puede realizar es $|U| − 1$.

* El TaD Conjunto Disjunto no es tan común como los diccionarios, pilas o colas pero son muy valioso porque sus implementaciones son muy eficientes: cuando pueden utilizarse se consiguen grandes mejoras. https://courses.cs.washington.edu/courses/cse373/14sp/lecture10.pdf

-----
**Ejemplo:**

 Una de las muchas aplicaciones del TaD Conjuntos Disjuntos es hallar las componentes conexas de un **grafo no dirigido**. Dos nodos pertenecerán a una misma componente conexa cuando exista un camino entre ellos. 

* Por ejemplo, el grafo no-dirigido $G$ donde $G[V]$ representa al conjunto de nodos y $G[E]$ al de aristas    

 \begin{aligned}
 G[V] &= \{ 0,1,2,3,4,5,6  \} \\
 G[E] &= \{  (0,1), (4,5), (0,2), (3,0), (1,3) \}    
 \end{aligned}

 tiene tres componentes conexas formadas por los nodos: $\{ (0,1,2,3), (4,5), (6) \}$. 

* Podemos preguntarnos:
 > * ¿Cómo obtener las componentes conexas del grafo? 
 > * ¿Cómo saber si existe un camino entre dos nodos $u$ y $v$ cualesquiera del grafo? 
  
* *Respuesta:*
 > * El conjunto de nodos del grafo es un conjunto universal.
 > * Las componentes conexas son los subconjuntos disjuntos de un Conjunto Disjunto.
 > * Por tanto podemos utilizar las funciones del TaD Conjunto de Disjunto para obtener las componentes conexas de un grafo. Los algoritmos *connected_components()* y *same_component()* obtienen las componentes conexas y determinan si dos nodos están conectados.
    

 ```python
 def connected_components (G: Grafo) -> DS:
     ''' Devuelve un Subconjunto Disjunto con las componentes conexas del grafo G'''
    
     # Se genera un subconjunto disjunto por cada vértice
     dsj = DS_init (G[V])
     # Se procesan todas las aristas del grafo 
     for u, v in G[E]:
         DS_union (u, v, dsj)
     return dsj
 ```    
 

  *Evolución del algoritmo paso a paso*

|Primitive DS | edge processed |             |       |     |     |  disjoin subsets $S_x$ |     |      |
|:------------ | :-------------:| :---:       |:--    |:--- |:----|:-------:|:--- | :-- |
| S = init (G[V])       | $\cdots$      |    {**0**}      | {**1**}   | {**2**} | {**3**} | {**4**)     | {**5**} | {**6**} |
| union (0, 1, S)  |(0,1)          | {**0**, 1}      |       | {**2**} | {**3**} | {**4**)     | {**5**} | {**6**} |
| union (4, 5, S)   | (4,5)         | {**0**, 1}      |       | {**2**} | {**3**} | {**4**, 5}  |     | {**6**} |
| union (0, 2, S)   | (0,2)         | {**0**, 1, 2}   |       |     | {**3**} | {**4**, 5}  |     | {**6**} |
| union (0, 3, S)   | (0,3)         | {**0**, 1, 2, 3}|       |     |     | {**4**, 5}  |     | {**6**} |
| union (1, 3, S)   | (1,3)         | {**0**, 1, 2, 3}|       |     |     | {**4**, 5}  |     | {**6**} |

* Cuando se inicializa el conjunto disjunto se crean tantos subconjuntos como nodos tenga el grafo.
* Cada vez que se itera la lista de arista se invoca a la función `unón()`
* Notad como *union(1,3)* no modifica los subconjuntos ya que cuando se ejecuta los nodos 1 y 3 ya pertenecían al mismo subconjunto. 

* Existe un camino entre dos nodos cualesquiera si ambos pertenecen a la misma componente conexa y, por tanto, al mismo subconjunto disjunto. El procedimiento $\text{same_component}(\,)$ recibe un Conjunto Disjunto y determina si tienen el mismo representante. 

```python
def same_component (u:int, v:int, dsj:DS):
    if find(u, dsj) == find(v, dsj):
        return True
    return False
```    
--------------------------------------------
**Problema Recomendado**

Proporciona un algoritmo para determinar si un grafo dado tiene ciclos. Por ejemplo, el grafo del ejemplo anterior tiene un ciclo formado por los nodos 0, 1 y 3.

## Estructuras de datos  para DS

* Hay varias opciones para la *estructura de datos* con la que implementar DS: Por ejemplo
    * Con **Listas**:
        * Para cada subconjunto $S_x$ se utiliza una lista para cada uno de los subconjuntos y un array de punteros (enlaces) a ellas. Todos los nodos de las listas tienen un puntero al primer nodo de la lista que será el representante del subconjunto. En Cormen et al. puedes encontrar una descripción de esta estructura.
* Nosotros optaremos por una estructura más simple basada en **árboles**. 

### implemantación de  DS con árboles
* Cada subconjunto disjunto $S_x$ de DS se almacena en un **tipo particular de árbol** que denominaremos $T_x$. 
* El representante $x$ de $S_x$ se sitúa en la raíz de su correspondiente árbol $T_x$.
* El resto de elementos del subconjunto $S_x$ serán nodos del árbol $T_{S_x}$.  
* Todo nodo del árbol tiene un enlace a su nodo padre, excepto la raíz, que podemos considerar que tiene un enlace a si mismo.  

 El DS  del siguiente ejemplo esta formado por los tres árboles correspondientes a los tres subconjuntos $\{(0,1,2), (3,4)\}$ de DS
<pre>
    0        3       
     \        \
       1       4
        \
         2       
</pre>    
 
 
**Coste de las funciones**
 
* El coste de la función $\text{union}(x, y, S)$ cuando $x$ e $y$ son representantes de sus respectivos subconjuntos es $O(1)$. Por ejemplo, si tras la unión de ambos subconjuntos, queremos que el árbol $T_y$ sea un subárbol de $T_{x}$ tan solo habrá enlazar $x$ con la raíz de $T_y$.

* Sin embargo, para implementar  $\text{union}(u, v, S)$ sobre cualesquiera nodos $u$ y $v$ primero habría que hallar los representantes de sus respectivos subconjuntos, es decir invocar a la función `find()`. Por tanto necesitamos una manera eficiente de identificar a que árboles pertenecen los elementos $u$ y $v$. Una vez identificados los árboles habría que recorrerlos hasta hallar sus respectivas raíces y enlazarlas. ¿Cómo hacerlo?

**Implementación de un árbol con una tabla**

* Se puede obtener fácilmente a que árbol pertenece un nodo dado si implementamos los árboles por una tabla $p[ \, ]$ de tamaño $|U|$ e identificamos cada elemento del conjunto universal con un índice de la tabla. 

    El valor de $p$ correspondiente al índice $u$, $p[u]$ denota el índice del padre de $u$. Si queremos indicar que $u$ es un raíz asignaremos a $p[u] = -1$. Por ejemplo, el siguiente DS se implementa por la tabla $p$

<pre>
p= [-1, 0, 1, -1, 3, -1]

 0          3       5
  \          \
   1          4
    \
     2   
</pre>

### Algoritmos para las primitivas

* Una vez elegida una estructura de datos, array $p$, el **PsC** de la primitivas podría ser:

    **Nota:** Mas que un pseudocódigo se proporciona el código Python 

```python
def init (u) ->  list :
    p = len(u) * [-1] # se crea una tabla con el tamaño del conjunto universal,|U|, donde todas sus componentes se inicializan a -1
    return p
    
def find (x:int, p:list) -> int:
    # se recorre la lista hasta que llego a la ráiz del árbol
    while p[x] > -1:
        x = p[x]
    return x

def union(u:int, v:int, p:list) -> int:
    ''' PsC: Versión 1 (no optimizada)'''
    # find the representants
    x = find (u, p)
    y = find (v, p)
    
    if x == y:
        return -1
    
    p[y] = x     #join second tree to first return x
    return x

```

**Ejemplo:**
>
|Primitive    |              |        |       |       |  Disjoin Sets | |       |     p                |
|:------------| :---:        |:--     |:---   |:----  |:-------:|:---   | :--   |:---------------------:|
|init ()      | {**0**}      | {**1**}|{**2**}|{**3**}|{**4**)  |{**5**}|{**6**}|[-1,-1,-1,-1,-1,-1,-1]|
|union (0, 1) | {**0**,1}    |        |{**2**}|{**3**}|{**4**)  |{**5**}|{**6**}|[-1,0,-1,-1,-1,-1,-1]|
|union (4,5)  | {**0**,1}    |        |{**2**}|{**3**}|{**4**,5}|       |{**6**}|[-1,0,-1,-1,-1,4,-1]|
|union (0,2)  | {**0**,1,2}  |        |       |{**3**}|{**4**,5}|       |{**6**}|[-1,0,0,-1,-1,4,-1]|
|union (3,0)  | {**0**,1,2,3}|        |       |       |{**4**,5}|       |{**6**}|[-1,0,0,0,-1,4,-1]|
|union (1,3)  | {**0**,1,2,3}|        |       |       |{**4**,5}|       |{**6**}|[-1,0,0,0,-1,4,-1]|

>(en negrita denotamos a los representantes de cada uno de los subconjuntos disjuntos)

### Mejorando la *unión( ): unión por alturas*

El coste de  buscar un elemento $\text{find}(u)$ depende de la profundidad del árbol en que se encuentre $u$,  $O\left( \text{height} (T_x ) \right)$, por tanto:

* Deberíamos unir el árbol menos profundo al más profundo. Por ejemplo, si tenemos el Conjunto Disjunto con los árboles
<pre>
        0       3     5
       /       /
      1       4
     /
    2
   /
  7
</pre>
e invocamos a la función union (1, 4) obtendríamos 
<pre>
       0          5
      / \     
     1   3    
    /     \
   2       4
  /
 7
</pre>

* Pero entonces *necesitamos conocer la altura de los árboles* y, por tanto, **debemos guardar la altura de todos los arboles** $ T_i$. Una posibilidad es que cuando $x$ sea una raíz en vez de guardar en la tabla el valor $p[x]= −1$ guardar el valor $−h$ siendo $h$ la altura del árbol (número de nodos en el mayor camino desde la raíz hasta una hoja). 

**Ejemplo:**

* Por ejemplo la tabla [-3, 0, 1, -2, 3, -1, -1] representa al DS formado por los tres árboles 
    
<pre>
      0       3    5     6
     /       /
    1       4
   /
  2
</pre>  

* Si ahora invocásemos a la función  union (1, 4) obtendríamos  [-3, 0, 1, 0, 3, -1, -1]

<pre>

    0        5      6
   / \     
  1   3    
 /     \
2       4

</pre>

* En el caso de invocar a la función `union()` sobre árboles que tuviesen la misma altura
<pre>
union (5,6) obtendríamos [-3, 0, 1, 0, 3, -2, 5]

    0            5      
   / \            \
  1   3            6
 /     \
2       4

</pre>

* Notad como los árboles **no** son binarios. Por ejemplo $\text{ union}(3,6)$ produce
<pre>
[-3, 0, 1, 0, 3, 0, 5]
  
         0                   
     /   |   \         
    1    3    5         
   /     |     \
 2       4      6

</pre>




* Por tanto el **PsC** de la función *union()* cuando se utiliza unión por alturas sería:

In [3]:
 def union (u:int, v:int, p:list):
        ''' PsC: union by height
        of the set {S_x | u \in S_x}  and {S_y | v \in S_y}  '''
        
        x = Self.find (u)
        y = Self.find (v)
        
        if x == y:
            return -1
        
        if p[y] < p[x]:      #T_y is taller
            p[x] = y
            ret = y  
        elif p[y] > p[x]:    #T_x is taller
            p[y] = x 
            ret = x
        else:
            #T_x, T_y have the same lenght
            p[y] = x
            p[x] -= 1
            ret =  x     
        return ret

**Ejemplo:** 
>En el ejemplo anterior del grafo
>
>|Primitive    |              |        |       |       |  Collection disjoin Sets | |       |     p                |
|:------------| --:        |:--     |:---   |:---  |:---|:---   | :---   |:---------------------:|
|init ()      | {**0**}      | {**1**}|{**2**}|{**3**}|{**4**)  |{**5**}|{**6**}|[-1,-1,-1,-1,-1,-1,-1]|
|union (0, 1) | {**0**,1}    |        |{**2**}|{**3**}|{**4**)  |{**5**}|{**6**}|[-2,0,-1,-1,-1,-1,-1]|
|union (4,5)  | {**0**,1}    |        |{**2**}|{**3**}|{**4**,5}|       |{**6**}|[-2,0,-1,-1,-2,4,-1]|
|union (0,2)  | {**0**,1,2}  |        |       |{**3**}|{**4**,5}|       |{**6**}|[-2,0,0,-1,-2,4,-1]|
|union (3,0)  | {**0**,1,2,3}|        |       |       |{**4**,5}|       |{**6**}|[-2,0,0,0,-2,4,-1]|
|union (1,3)  | {**0**,1,2,3}|        |       |       |{**4**,5}|       |{**6**}|[-2,0,0,0,-2,4,-1]|

### Mejorando find()


**El coste de find ()**

* El coste de $\text { find}(x, p)$ es $O(\log |S_x |) = O(\log N)$.  

* Demostración (ver transparencias)

#### find() con compresión:


¿Podríamos mejorar el rendimiento de *find()* un poco más?

* Observad que cuando recorremos el árbol buscando el representante de $u$ también encontramos el representante de todos los nodos $v$ que se hallan entre $u$ y la raíz de su árbol.
* Por tanto podemos utilizar $\text{find}(u)$ además de para hallar la raíz, actualizar el padre $p[v]$ de todos los $v$ entre $u$ y la raíz. 
* En otras palabras, cada vez que invoquemos a la función `find()`podemos **comprimir** el camino desde $u$ a la raíz.

**Ejemplo:**
>
>* Suponga que en el árbol [-4, 0, 0, 2, 3, 1]
><pre>
      0
     /  \
    1    2
   /      \
  5        3
            \
             4
</pre>
>invocamos a find(4, p) con compresión. Obtendríamos el árbol
>
<pre>
[-4, 0, 0, 0, 0, 1] 

        0   
    /  |  \   \
   /   |   \   \
  1    2    3   4
 /        
5                       
</pre>

* Para *comprimir* el camino necesitamos ejecutar dos bucles. En el primer bucle obtenemos la raíz del árbol y en el segundo actualizamos el padre de todos los nodos entre $u$ y la raíz
```python
def find_cc(u, p):
    # find the representative
    z = u
    
    # get the root (representant)
    while p[z] > -1:
        z = p[z]
        
    # compress the path from u to the root
    while p[u] >-1:
        y = p[u]
        p[u] = z
        u = y
    return z
```


* Podemos obtener una versión recursiva del código anterior. En las llamadas de la recursión recorremos el árbol hasta llegar a la ráiz (caso base) y es en los retornos de la recursión cuando vamos actualizamos el valor del padre de todos los nodos en el camino.
```python
def find_compress (u, p):
        ''' find compress recursive'''
        if p[u] < 0:
            return u
        
        p[u] = find_compress (p[u])
        return p[u]
```

## Avanzado (no obligatorio)

Definición de la clase $\text{Disjoint Set}$ 

In [4]:
class DisjointSetsForest:
    '''.....'''
    
    def __init__(self, lista):
        self._p = len(lista) *[-1]
    
    def find (self, u):
        ''' find the represantive of the set '''
        while self._p[u] > -1:
            u = self._p[u]
        return u
    
    def find_compress (self, u):
        ''' recursive'''
        if self._p[u] < 0:
            return u
        
        self._p[u] = self.find_compress (self._p[u])
        return self._p[u]
    
    def union (self, u, v):
        ''' union by height
        of the set {S_x | u \in S_x}  and {S_y | v \in S_y}  '''
        
        x = self.find (u)
        y = self.find (v)
        
        if x == y:
            return -1
        
        if self._p[y] < self._p[x]:      #T_y is taller
            self._p[x] = y
            ret = y  
        elif self._p[y] > self._p[x]:    #T_x is taller
            self._p[y] = x 
            ret = x
        else:
            #T_x, T_y have the same lenght
            self._p[y] = x
            self._p[x] -= 1
            ret =  x     
        return ret
    
    def __str__(self):
        return str(self._p)
    

## Driver programm


def connected_components (G):
    dsjs = DisjointSetsForest (G['nodes'])
    for u,v in G['edges']:
        if dsjs.find(u) != dsjs.find (v):
            dsjs.union (u, v)
        print(dsjs)
    return dsjs
            
def same_component (u, v, dsjs):
    if dsjs.find(u) == dsjs.find(v):
        return True
    return False


G = {'nodes':range(7), 'edges':((0,1), (4,5), (0,2), (3,0), (1,3) ) }
dsjs = connected_components (G)

l = ( (x, y, same_component(x, y, dsjs)) for x in G['nodes'] for y in G['nodes'] if y > x) 
print(tuple(l))



[-2, 0, -1, -1, -1, -1, -1]
[-2, 0, -1, -1, -2, 4, -1]
[-2, 0, 0, -1, -2, 4, -1]
[-2, 0, 0, 0, -2, 4, -1]
[-2, 0, 0, 0, -2, 4, -1]
((0, 1, True), (0, 2, True), (0, 3, True), (0, 4, False), (0, 5, False), (0, 6, False), (1, 2, True), (1, 3, True), (1, 4, False), (1, 5, False), (1, 6, False), (2, 3, True), (2, 4, False), (2, 5, False), (2, 6, False), (3, 4, False), (3, 5, False), (3, 6, False), (4, 5, True), (4, 6, False), (5, 6, False))
