<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015-2016 Karim Pichara - Christian Pieringer <sup>1</sup>. Todos los derechos reservados.</font>
</p>

# Árboles

Un **árbol** corresponde a una estructura de datos _no lineal_. Un árbol es un conjunto de nodos que sigue una estructura **jerárquica**. A diferencia de las estructuras basadas en secuencias (lineales) como listas, colas y pilas, en los árboles los elementos están ordenados de acuerdo a una relación _padre-hijo_ entre los nodos.

El primer nodo en el árbol recibe el nombre de **nodo raíz** (_root_). Cada nodo del árbol, salvo el nodo raíz, tiene un **_padre_** (_parent_) y cero o más nodos **_hijos_** (_children_). Los nodos provenientes de un mismo padre se denominan nodos **hermanos**, y los nodos en la línea de descendencia del nodo padre se conocen como **ancestros**. Los nodos que no poseen hijos se denominan nodos **hoja**. Por último, todos los nodos que no son hoja ni raíz se denominan **nodos interiores**.

Formalmente, un árbol $T$ que ordena sus elementos bajo una relación _padre-hijo_ tiene las siguientes propiedades:

- Si $T$ no está vacío, entonces tiene un único nodo _raíz_ que no tiene padres.
- Cada nodo $c$ en $T$ distinto de la raíz, tiene un único padre $p$, y todos los nodos que tienen por padre a $p$ son hijos de $p$.

En la figura a continuación, el árbol mostrado tiene como nodo raíz a _"Reino Animal"_. Este nodo tiene dos nodos hijos: _"Vertebrados"_ e _"Invertebrados"_. Por otro lado, el nodo _"Gusanos"_ es un nojo hoja que tiene como padre al nodo _"Invertebrados"_.

![](img/trees-example.png)


Un árbol es una estructura recursiva. Cada nodo es, a su vez, la raíz de un sub-árbol formado por él y sus hijos. En el ejemplo anterior, los nodos _"Artópodos"_, _"Insectos"_ y _"Arácnidos"_ también forman un árbol.


Una **arista** corresponde a una conexión directa entre un par de nodos $(u,v)$. Cada nodo tiene una arista que lo conecta con su padre, y una arista que lo conecta con cada uno de sus hijos. Una secuencia ordenada de nodos consecutivos unidos por aristas a lo largo de un árbol $T$ forman un **camino**. En la figura anterior, los nodos _"Peces"_ y _"Oseos"_ poseen una arista entre ellos, y están en el camino _Reino Animal-Vertebrados-Peces-Oseos_.

La **profundidad** (_depth_) de un nodo $u$ corresponde al número de aristas que debe recorrer para llegar a la raíz. La **altura** (_height_) del árbol corresponde al máximo de las profundidades alcanzadas por los nodos hoja. Por ejemplo en la figura anterior, la profundidad del nodo _"Peces"_ es 2, y la altura del árbol es 3.

## Árboles basados en nodos enlazados

Definiremos la estructura `Arbol`, modelando cada nodo como un objeto con los siguientes atributos:

- `id_nodo`: corresponde a un identificador para el nodo.
- `padre`: se usa para hacer referencia al nodo padre.
- `hijos`: es una estructura que almacena referencias a los hijos del nodo
- `valor`: es lo almacenado en ese nodo.

La estructura además tendrá dos métodos:

#### `obtener_nodo(id_nodo)` 

Este método busca y retorna el nodo con identificador `id_nodo`.

#### `agregar_nodo(id_nodo, valor, id_padre)`

Esta operación permite agregar un nuevo nodo al árbol como hijo del nodo con el _id_ `id_padre`. El nuevo nodo tendrá identificador `id_nodo` y el valor `valor`.

In [1]:
# textwrap tiene varias funciones convenientes para el manejo de strings
from textwrap import indent

class Arbol:
    """
    Esta clase representa un árbol
    
    La estructura es recursiva, de manera que cada nodo es la raíz de un sub-árbol.
    Los nodos hijos pueden ser guardados en una estructura, como lista o diccionario.
    En este ejemplo, los nodos hijos serán guardados en un diccionario.
    """

    def __init__(self, id_nodo, valor=None, padre=None):
        """
        Inicializa la estructura básica del árbol.
        
        Tiene un identificador propio, la referencia a su padre, el valor almacenado
        y una estructura con sus hijos.
        """
        self.id_nodo = id_nodo
        self.padre = padre
        self.valor = valor
        self.hijos = {}
        

    def obtener_nodo(self, id_nodo):
        """
        Obtiene el nodo con el id dado, en forma recursiva
        
        A partir del nodo actual, buscamos el nodo 'id_nodo' entre sus hijos
        y lo retornamos si existe.
        """
        # Caso base: ¡Lo encontramos!
        if self.id_nodo == id_nodo:
            return self

        # Buscamos recursivamente entre los hijos
        for hijo in self.hijos.values():
            nodo = hijo.obtener_nodo(id_nodo)
            # Si lo encontró, lo retornamos
            if nodo:
                return nodo
        
        # Si no lo encuentra, retorna None
        return None


    def agregar_nodo(self, id_nodo, valor, id_padre):
        """Agrega un nodo con el id y valor dado, como hijo del nodo con el id 'id_padre'"""
        # Primero, tenemos que encontrar al padre
        padre = self.obtener_nodo(id_padre)
        # En caso de que el padre no exista no hacemos nada
        if padre is None:
            return
        
        # Creamos el nodo
        nodo = Arbol(id_nodo, valor, padre)
        # Agregamos el nodo como hijo de su padre
        padre.hijos[id_nodo] = nodo
        
        
    def __repr__(self):
        """
        Entrega una representación del árbol, en forma recursiva.
        
        Para ello, tenemos que pedir la representación de cada hijo recursivamente. 
        Esto nos lleva a recorrer todos los nodos del árbol.
        """
        # Texto de este nodo.
        # Si el nodo es hoja, se avisa de ello.
        # Si el nodo no es hoja, se deja un salto de línea para poder nombrar a los hijos.
        if self.hijos:
            texto = f"id: {self.id_nodo}, valor: {self.valor}\n"
        else:
            texto = f"id: {self.id_nodo}, valor: {self.valor}, nodo hoja"

        # Extrae el repr a cada hijo, en forma recursiva.
        texto_hijos = [repr(hijo) for hijo in self.hijos.values()]
        
        # Indentamos cada línea del texto de los hijos con dos espacios.
        # Esto es para que se note el nivel del nodo.
        texto_hijos = [indent(x, '  ')  for x in texto_hijos]
        
        return texto + '\n'.join(texto_hijos)

A continuación utilizaremos la clase `Arbol` para crear y poblar el siguiente árbol de ejemplo.
![](img/tree1.png)

In [2]:
T = Arbol(0, 10)
T.agregar_nodo(1, 8, 0)
T.agregar_nodo(3, 12, 0)
T.agregar_nodo(2, 9, 1)
T.agregar_nodo(4, 5, 3)
T.agregar_nodo(5, 14, 3)
T.agregar_nodo(6, 20, 3)
T.agregar_nodo(8, 4, 2)
T.agregar_nodo(7, 8, 4)
T.agregar_nodo(9, 15, 6)
T.agregar_nodo(10, 6, 6)

T

id: 0, valor: 10
  id: 1, valor: 8
    id: 2, valor: 9
      id: 8, valor: 4, nodo hoja
  id: 3, valor: 12
    id: 4, valor: 5
      id: 7, valor: 8, nodo hoja
    id: 5, valor: 14, nodo hoja
    id: 6, valor: 20
      id: 9, valor: 15, nodo hoja
      id: 10, valor: 6, nodo hoja

Tal como hemos definido este árbol, no hay restricciones acerca de los contenidos de los valores, o de los identificadores, o del orden de los hijos. En este caso hemos ingresado algunos valores repetidos, hemos ingresado identificadores únicos, y no todos los nodos intermedios tienen la misma cantidad de hijos. En ciencia de la computación existen distintos tipos de árboles que restringen sus reglas de construcción de acuerdo al objetivo que se quiere modelar.

En este ejemplo, el método retorna `obtener_nodo(id_nodo)` busca recursivamente un nodo con identificador `id_nodo` a partir de la raíz de un árbol, y retorna un objeto nodo (un `Arbol`).

In [3]:
nodo = T.obtener_nodo(6)
f"El id del nodo es {nodo.id_nodo}"

'El id del nodo es 6'

In [4]:
nodo = T.obtener_nodo(3)
f"El nodo con id {nodo.id_nodo} tiene {len(nodo.hijos)} hijos"

'El nodo con id 3 tiene 3 hijos'

## Recorrido de un Árbol

Una vez que el árbol está construído una problema importante es cómo recorrer (visitar) todos sus nodos de manera ordenada y sistemática. Este operación se llama **recorrido** de un árbol o **_tree traversal_**.

El recorrido de un árbol puede implementarse de manera iterativa, o recursiva aprovechando la naturaleza del árbol. En este curso nosotros revisaremos los métodos **Breadth First Search (BFS)** y **Depth First Search (DFS)**.

### Bread-First Search (BFS)

La estrategia _**Breadth First Search (BFS)**_ o **recorrido en amplitud** consiste en recorrer el árbol **por niveles**. En primer lugar se visita la raíz; a continuación se visitan todos los nodos en el segundo nivel de la jerarquía (los hijos de la raíz); posteriormente se sigue con los del nivel siguiente (los hijos de los hijos de la raíaz), y así sucesivamente hasta haber recorrido todo los nodos. 

El recorrido _por niveles_ se puede apreciar en la siguiente figura, donde los números en rojo indican el orden en que se visitan los nodos:

![](img/tree-bfs.png)

La implementación del recorrido BFS utiliza una estructura de **cola** para almacenar los nodos que aún no han sido visitados.

In [31]:
from collections import deque

class ArbolBFS(Arbol):
    # Heredamos de la clase original del Arbol y modificamos el metodo recorrer_arbol 
    # para usar Breadth-first Search
    
    def __repr__(self):
        
        def estado_cola_BFS(Q):
            s = ''
            for nodo in Q:
                s += "{} ".format(nodo.id_nodo)
            return s
        
        def recorrer_arbol(raiz):
            
            # Utilizamos una cola para almacenar los nodos por visitar
            Q = deque()
            # El primer nodo a visitar será la raíz
            Q.append(raiz)
            # Utilizamos una lista para registrar los nodos visitados (no necesario en árboles)
            visitados = []
            
            # Mientras queden nodos por visitar en la cola ...
            while len(Q) > 0:  

                # Extraemos el primero de la cola
                p = Q.popleft()
                
                # Si no ha sido visitado (no necesario en árboles)
                if p.id_nodo not in visitados:
                    
                    # Lo agregamos a la lista de visitados (no necesario en árboles)
                    visitados.append(p.id_nodo)

                    # visitamos el nodo
                    self.ret += "nodo_id: {}, id_padre: {} -> valor: {}\t".format(p.id_nodo, \
                                                                                  p.id_padre, p.valor)
                
                    # Agregamos todos los nodos hijos a la cola de nodos por visitar
                    for hijo in p.hijos.values():
                        Q.append(hijo)
                        
                    self.ret += "Por visitar: {}\n".format(estado_cola_BFS(Q))
                    
            return self

        self.ret = ''
        recorrer_arbol(self)
        return self.ret
    
# Poblamos el árbol con los datos usados en el ejemplo de la clase 'Arbol'
T = ArbolBFS(0, 10)
T.agregar_nodo(1, 8, 0)
T.agregar_nodo(3, 12, 0)
T.agregar_nodo(2, 9, 1)
T.agregar_nodo(4, 5, 3)
T.agregar_nodo(5, 14, 3)
T.agregar_nodo(6, 20, 3)
T.agregar_nodo(8, 4, 2)
T.agregar_nodo(7, 8, 4)
T.agregar_nodo(9, 15, 6)
T.agregar_nodo(10, 6, 6)
print("Recorrido EN AMPLITUD (BFS, o 'por niveles')")
print(T)

Recorrido EN AMPLITUD (BFS, o 'por niveles')
nodo_id: 0, id_padre: None -> valor: 10	Por visitar: 1 3 
nodo_id: 1, id_padre: 0 -> valor: 8	Por visitar: 3 2 
nodo_id: 3, id_padre: 0 -> valor: 12	Por visitar: 2 4 5 6 
nodo_id: 2, id_padre: 1 -> valor: 9	Por visitar: 4 5 6 8 
nodo_id: 4, id_padre: 3 -> valor: 5	Por visitar: 5 6 8 7 
nodo_id: 5, id_padre: 3 -> valor: 14	Por visitar: 6 8 7 
nodo_id: 6, id_padre: 3 -> valor: 20	Por visitar: 8 7 9 10 
nodo_id: 8, id_padre: 2 -> valor: 4	Por visitar: 7 9 10 
nodo_id: 7, id_padre: 4 -> valor: 8	Por visitar: 9 10 
nodo_id: 9, id_padre: 6 -> valor: 15	Por visitar: 10 
nodo_id: 10, id_padre: 6 -> valor: 6	Por visitar: 



El código presentado hace uso de una lista `visitados` cuyo único objetivo es evitar que el algoritmo regrese a un nodo cuyo valor ya hemos leído. En el caso de los árboles esto no puede ocurrir ya que la estructura no permite que un nodo tengo como descendiente a un ancestro de él (no puede haber _ciclos_). Podríamos eliminar toda referencia a la lista `visitados` y el algoritmo funcionaría de la misma manera. Sin embargo, en el siguiente capítulo estudiaremos una estructura más compleja (_grafos_) donde también podremos aplicar BFS y la verificación de nodos visitados será muy vital para asegurar que el algoritmo termine.

### Depth First Search (DFS)

La estrategia _**Depth First Search (DFS)**_, o **recorrido en profundidad** consiste en recorrer el árbol **por ramas**. Luego de visitar la raíz, se visitan todos sus hijos, pero descendiendo completamente por cada hijo antes de pasar el siguiente.

![](img/tree-dfs.png)

La implementación del recorrido DFS utiliza un **_stack_** para almacenar los nodos que deben ser visitados. El resultado es equivalente al recorrido **pre-order**, en el sentido que se desciende por cada rama. En la práctica el orden de las ramas puede variar dependiendo del orden en que se agregan los hijos al _stack_. La manera recursiva de implementar un recorrido DFS consiste en aplicar el recorrido _pre-order_.

In [46]:
from collections import deque

class ArbolDFS(Arbol):
    # Heredamos de la clase original del Arbol y modificamos el metodo recorrer_arbol para usar 
    # el Depth-first Search (DFS)
    
    def __repr__(self):

        def estado_stack_DFS(Q):
            s = ''
            for nodo in Q:
                s += "{} ".format(nodo.id_nodo)
            return s

        def recorrer_arbol(raiz):
            
            # En DFS utilizamos un stack para almacenar los nodos por visitar          
            Q = deque()
            # El primer nodo a visitar será la raíz
            Q.append(raiz)
            # Utilizamos una lista para registrar los nodos visitados (no necesario en árboles)
            visitados = []

            # Mientras queden nodos por visitar en la cola ...
            while len(Q) > 0:
                # Extraemos el nodo que está en el tope del stack
                p = Q.pop()

                # Si no ha sido visitado (no necesario en árboles)
                if p.id_nodo not in visitados:
                    
                    # Lo agregamos a la lista de visitados (no necesario en árboles)
                    visitados.append(p.id_nodo)
                    
                    self.ret += "nodo_id: {}, id_padre: {} -> valor: {}\t".format(p.id_nodo,\
                                                                                  p.id_padre, p.valor)

                    # Agregamos todos los nodos hijos al stack de nodos por visitar
                    # Si los agregamos de manera inversa obtendríamos el mismo resultado que pre-order
                    #for hijo in list(p.hijos.values())[::-1]:
                    for hijo in p.hijos.values():
                        Q.append(hijo)

                    self.ret += "Por visitar: {}\n".format(estado_stack_DFS(Q))

            return self
        
        self.ret = ''
        recorrer_arbol(self)
        
        return self.ret
    
    
# Poblamos el árbol con los datos usados en el ejemplo de la clase 'Arbol'
T = ArbolDFS(0, 10)
T.agregar_nodo(1, 8, 0)
T.agregar_nodo(3, 12, 0)
T.agregar_nodo(2, 9, 1)
T.agregar_nodo(4, 5, 3)
T.agregar_nodo(5, 14, 3)
T.agregar_nodo(6, 20, 3)
T.agregar_nodo(8, 4, 2)
T.agregar_nodo(7, 8, 4)
T.agregar_nodo(9, 15, 6)
T.agregar_nodo(10, 6, 6)
print("Recorrido EN PROFUNDIDAD (DFS, o 'por ramas') ")
print(T)

Recorrido EN PROFUNDIDAD (DFS, o 'por ramas') 
nodo_id: 0, id_padre: None -> valor: 10	Por visitar: 1 3 
nodo_id: 3, id_padre: 0 -> valor: 12	Por visitar: 1 4 5 6 
nodo_id: 6, id_padre: 3 -> valor: 20	Por visitar: 1 4 5 9 10 
nodo_id: 10, id_padre: 6 -> valor: 6	Por visitar: 1 4 5 9 
nodo_id: 9, id_padre: 6 -> valor: 15	Por visitar: 1 4 5 
nodo_id: 5, id_padre: 3 -> valor: 14	Por visitar: 1 4 
nodo_id: 4, id_padre: 3 -> valor: 5	Por visitar: 1 7 
nodo_id: 7, id_padre: 4 -> valor: 8	Por visitar: 1 
nodo_id: 1, id_padre: 0 -> valor: 8	Por visitar: 2 
nodo_id: 2, id_padre: 1 -> valor: 9	Por visitar: 8 
nodo_id: 8, id_padre: 2 -> valor: 4	Por visitar: 



# Árbol Binario

Los **árboles binarios** son un caso particular de las árboles, donde:

- cada nodo tiene como máximo **dos nodos hijo**
- cada nodo hijo está etiquetado como **hijo-izquierdo**o bien como **hijo-derecho** (a lo más un hijo izquierdo y a lo más un hijo derecho), y
- en términos de precedencia, el hijo-izquierdo **precede** al hijo-derecho.

En un árbol binario el máximo número de nodos crece en forma exponencial. Sea el <b>nivel</b> <i>d</i> de un arbol <b>T</b> el conjunto de todos los nodos ubicados a la misma profundidad <i>d</i>. En el nivel <i>d</i> = 0 existe a lo más el nodo raíz. El nivel <i>d</i> = 2 tiene a lo más dos nodos, y así sucesivamente. Al nivel <i>d</i>, el árbol debe tener como máximo 2<sup><i>d</i></sup> nodos. Se denomina árbol binario **completo** a aquel árbol en donde cada nodo padre del árbol presenta los dos nodos hijos, tal como se muestra en la siguiente figura.

![](img/binary-tree.png)

Un ejemplo real de árbol binario son los **árboles de decisión** en donde cada nodo interno y además la raíz están asociados a una pregunta, y cuyas respuestas (Si, No) quedan representadas en los dos nodos hijos. Otro ejemplo son las **operaciones aritméticas**, en donde las variables son representadas por los nodos hoja, y las operaciones por los nodos interiores.

## Árbol Binario basado en nodos enlazados

En esta implementación de árbol binario, modelaremos cada nodo como un objeto que tendrá por atributos las referencias al nodo padre, hijos, y el elemento en esa posición. Usaremos el valor `None` para señalar que un atributos particular no existe. Por ejemplo, si se modela el nodo padre, el atributo `padre = None`. A continuación el modelamiento queda de la siguiente forma:

In [2]:
class Nodo:
    def __init__(self, valor, padre=None):
        self.valor = valor
        self.padre = padre
        self.hijo_izquierdo = None
        self.hijo_derecho = None

    def __repr__(self):
        return 'padre: {0}, valor: {1}'.format(self.padre, self.valor)


class ArbolBinario:
    def __init__(self, nodo_raiz=None):
        self.nodo_raiz = nodo_raiz

    def agregar_nodo(self, valor):
        if self.nodo_raiz == None:
            self.nodo_raiz = Nodo(valor)
        else:
            temp = self.nodo_raiz
            agregado = False

            while not agregado:
                # Recursivamente recorremos el árbol revisando cada nodo usando
                # alguna regla. En este caso si el valor del nuevo nodo es mayor 
                # o no que el valor del nodo revisado.
                
                if valor <= temp.valor:
                    if temp.hijo_izquierdo == None:
                        # Si no hay nodo izquierdo, agregamos el nuevo nodo
                        temp.hijo_izquierdo = Nodo(valor, temp.valor)
                        agregado = True
                    else:
                        # Si ya existe un nodo izquierdo seguimos revisando
                        temp = temp.hijo_izquierdo
                else:
                    if temp.hijo_derecho == None:
                        # Si no hay un nodo derecho, agregamos el valor como 
                        # un nuevo nodo
                        temp.hijo_derecho = Nodo(valor, temp.valor)
                        agregado = True
                    else:
                        # Si ya hay un nodo seguimos buscando en profundidad
                        temp = temp.hijo_derecho

    def __repr__(self):
        def recorrer(nodo, lado="r"):
            ret = ''

            if nodo != None:
                ret += '{0} -> {1}\n'.format(nodo, lado)
                ret += recorrer(nodo.hijo_izquierdo, 'i')
                ret += recorrer(nodo.hijo_derecho, 'd')

            return ret

        ret = recorrer(self.nodo_raiz)
        return ret


T = ArbolBinario()
T.agregar_nodo(4)
T.agregar_nodo(1)
T.agregar_nodo(5)
T.agregar_nodo(3)
T.agregar_nodo(20)

print(T)

padre: None, valor: 4 -> r
padre: 4, valor: 1 -> i
padre: 1, valor: 3 -> d
padre: 4, valor: 5 -> d
padre: 5, valor: 20 -> d



<font size='1' face='Arial'><sup>1</sup>Agradecemos a los ayudantes del curso Belén Saldías, Ivania Donoso, Patricio López, Jaime Castro, Rodrigo Gómez y Marco Bucchi por su colaboración durante la revisión de este material.</font>