<p>
<font size='5' face='Georgia, Arial'>IIC-2233 Apunte Programación Avanzada</font><br>
<font size='1'>&copy; 2015-2016 Karim Pichara - Christian Pieringer <sup>1</sup>. Todos los derechos reservados. Editado por Equipo Docente IIC2233 2018-1, 2018-2.</font>
</p>

# Árboles

Un **árbol** corresponde a una estructura de datos _no lineal_. Un árbol es un conjunto de nodos que sigue una estructura **jerárquica**. A diferencia de las estructuras basadas en secuencias (lineales) como listas, colas y pilas, en los árboles los elementos están ordenados de acuerdo a una relación _padre-hijo_ entre los nodos.

El primer nodo en el árbol recibe el nombre de **nodo raíz** (_root_). Cada nodo del árbol, salvo el nodo raíz, tiene un **_padre_** (_parent_) y cero o más nodos **_hijos_** (_children_). Los nodos provenientes de un mismo padre se denominan nodos **hermanos**, y los nodos en la línea de descendencia del nodo padre se conocen como **ancestros**. Los nodos que no poseen hijos se denominan nodos **hoja**. Por último, todos los nodos que no son hoja ni raíz se denominan **nodos interiores**.

Formalmente, un árbol $T$ que ordena sus elementos bajo una relación _padre-hijo_ tiene las siguientes propiedades:

- si $T$ no está vacío, entonces tiene un único nodo _raíz_ que no tiene padres.
- cada nodo $c$ en $T$ distinto de la raíz, tiene un único padre $p$, y todos los nodos que tienen por padre a $p$ son hijos de $p$.

En la figura a continuación, el árbol mostrado tiene como nodo raíz a _"Reino Animal"_. Este nodo tiene dos nodos hijos: _"Vertebrados"_ e _"Invertebrados"_. Por otro lado, el nodo _"Gusanos"_ es un nojo hoja que tiene como padre al nodo _"Invertebrados"_.

![](img/trees-example.png)


Un árbol es una estructura recursiva. Cada nodo es, a su vez, la raíz de un sub-árbol formado por él y sus hijos. En el ejemplo anterior, los nodos _"Artópodos"_, _"Insectos"_ y _"Arácnidos"_ también forman un árbol.


Una **arista** corresponde a una conexión directa entre un par de nodos $(u,v)$. Cada nodo tiene una arista que lo conecta con su padre, y una arista que lo conecta con cada uno de sus hijos. Una secuencia ordenada de nodos consecutivos unidos por aristas a lo largo de un árbol $T$ forman un **camino**. En la figura anterior, los nodos _"Peces"_ y _"Oseos"_ poseen una arista entre ellos, y están en el camino _Reino Animal-Vertebrados-Peces-Oseos_.

La **profundidad** (_depth_) de un nodo $u$ corresponde al número de aristas que debe recorrer para llegar a la raíz. La **altura** (_height_) del árbol corresponde al máximo de las profundidades alcanzadas por los nodos hoja. Por ejemplo en la figura anterior, la profundidad del nodo _"Peces"_ es 2, y la altura del árbol es 3.

## Árboles basados en nodos enlazados

Definiremos la estructura `Arbol`, modelando cada nodo como un objeto con los siguientes atributos:

- `id_nodo`: corresponde a un identificador para el nodo.
- `padre`: se usa para hacer referencia al nodo padre.
- `hijos`: es una estructura que almacena referencias a los hijos del nodo
- `valor`: es lo almacenado en ese nodo.

La estructura además tendrá dos métodos:

#### `obtener_nodo(id_nodo)` 

Este método busca y retorna el nodo con identificador `id_nodo`.

#### `agregar_nodo(id_nodo, valor, id_padre)`

Esta operación permite agregar un nuevo nodo al árbol como hijo del nodo con el _id_ `id_padre`. El nuevo nodo tendrá identificador `id_nodo` y el valor `valor`.

In [5]:
# textwrap tiene varias funciones convenientes para el manejo de strings
from textwrap import indent

class Arbol:
    """
    Esta clase representa un árbol
    
    La estructura es recursiva, de manera que cada nodo es la raíz de un sub-árbol.
    Los nodos hijos pueden ser guardados en una estructura, como lista o diccionario.
    En este ejemplo, los nodos hijos serán guardados en un diccionario.
    """

    def __init__(self, id_nodo, valor=None, padre=None):
        """
        Inicializa la estructura básica del árbol.
        
        Tiene un identificador propio, la referencia a su padre, el valor almacenado
        y una estructura con sus hijos.
        """
        self.id_nodo = id_nodo
        self.padre = padre
        self.valor = valor
        self.hijos = {}
        

    def obtener_nodo(self, id_nodo):
        """
        Obtiene el nodo con el id dado, en forma recursiva
        
        A partir del nodo actual, buscamos el nodo 'id_nodo' entre sus hijos
        y lo retornamos si existe.
        """
        # Caso base: ¡Lo encontramos!
        if self.id_nodo == id_nodo:
            return self

        # Buscamos recursivamente entre los hijos
        for hijo in self.hijos.values():
            nodo = hijo.obtener_nodo(id_nodo)
            # Si lo encontró, lo retornamos
            if nodo:
                return nodo
        
        # Si no lo encuentra, retorna None
        return None


    def agregar_nodo(self, id_nodo, valor, id_padre):
        """Agrega un nodo con el id y valor dado, como hijo del nodo con el id 'id_padre'"""
        # Primero, tenemos que encontrar al padre
        padre = self.obtener_nodo(id_padre)
        # En caso de que el padre no exista no hacemos nada
        if padre is None:
            return
        
        # Creamos el nodo
        # Nos aseguramos de que el nodo nuevo sea del mismo tipo que la raíz
        # Esto lo ocuparemos cuando heredemos de este árbol
        nodo = type(self)(id_nodo, valor, padre)
        # Agregamos el nodo como hijo de su padre
        padre.hijos[id_nodo] = nodo
        
        
    def __repr__(self):
        """
        Entrega una representación del árbol, en forma recursiva.
        
        Para ello, tenemos que pedir la representación de cada hijo recursivamente. 
        Esto nos lleva a recorrer todos los nodos del árbol.
        """
        # Texto de este nodo.
        # Si el nodo es hoja, se avisa de ello.
        # Si el nodo no es hoja, se deja un salto de línea para poder nombrar a los hijos.
        if self.hijos:
            texto = f"id: {self.id_nodo}, valor: {self.valor}\n"
        else:
            texto = f"id: {self.id_nodo}, valor: {self.valor}, nodo hoja"

        # Extrae el repr a cada hijo, en forma recursiva.
        texto_hijos = [repr(hijo) for hijo in self.hijos.values()]
        
        # Indentamos cada línea del texto de los hijos con dos espacios.
        # Esto es para que se note el nivel del nodo.
        texto_hijos = [indent(x, "  ")  for x in texto_hijos]
        
        return texto + "\n".join(texto_hijos)

A continuación utilizaremos la clase `Arbol` para crear y poblar el siguiente árbol de ejemplo.
![](img/tree1.png)

In [6]:
T = Arbol(0, 10)
T.agregar_nodo(1, 8, 0)
T.agregar_nodo(3, 12, 0)
T.agregar_nodo(2, 9, 1)
T.agregar_nodo(4, 5, 3)
T.agregar_nodo(5, 14, 3)
T.agregar_nodo(6, 20, 3)
T.agregar_nodo(8, 4, 2)
T.agregar_nodo(7, 8, 4)
T.agregar_nodo(9, 15, 6)
T.agregar_nodo(10, 6, 6)

T

id: 0, valor: 10
  id: 1, valor: 8
    id: 2, valor: 9
      id: 8, valor: 4, nodo hoja
  id: 3, valor: 12
    id: 4, valor: 5
      id: 7, valor: 8, nodo hoja
    id: 5, valor: 14, nodo hoja
    id: 6, valor: 20
      id: 9, valor: 15, nodo hoja
      id: 10, valor: 6, nodo hoja

Tal como hemos definido este árbol, no hay restricciones acerca de los contenidos de los valores, o de los identificadores, o del orden de los hijos. En este caso hemos ingresado algunos valores repetidos, hemos ingresado identificadores únicos, y no todos los nodos intermedios tienen la misma cantidad de hijos. En ciencia de la computación existen distintos tipos de árboles que restringen sus reglas de construcción de acuerdo al objetivo que se quiere modelar.

En este ejemplo, el método retorna `obtener_nodo(id_nodo)` busca recursivamente un nodo con identificador `id_nodo` a partir de la raíz de un árbol, y retorna un objeto nodo (un `Arbol`).

In [7]:
nodo = T.obtener_nodo(6)
f"El id del nodo es {nodo.id_nodo}"

'El id del nodo es 6'

In [8]:
nodo = T.obtener_nodo(3)
f"El nodo con id {nodo.id_nodo} tiene {len(nodo.hijos)} hijos"

'El nodo con id 3 tiene 3 hijos'

## Recorrido de un Árbol

Una vez que el árbol está construído una problema importante es cómo recorrer (visitar) todos sus nodos de manera ordenada y sistemática. Este operación se llama **recorrido** de un árbol o **_tree traversal_**.

El recorrido de un árbol puede implementarse de manera iterativa, o recursiva aprovechando la naturaleza del árbol. En este curso nosotros revisaremos los métodos **Breadth First Search (BFS)** y **Depth First Search (DFS)**.

### Bread-First Search (BFS)

La estrategia _**Breadth First Search (BFS)**_ o **recorrido en amplitud** consiste en recorrer el árbol **por niveles**. En primer lugar se visita la raíz; a continuación se visitan todos los nodos en el segundo nivel de la jerarquía (los hijos de la raíz); posteriormente se sigue con los del nivel siguiente (los hijos de los hijos de la raíaz), y así sucesivamente hasta haber recorrido todo los nodos. 

El recorrido _por niveles_ se puede apreciar en la siguiente figura, donde los números en rojo indican el orden en que se visitan los nodos:

![](img/tree-bfs.png)

La implementación del recorrido BFS utiliza una estructura de **cola** para almacenar los nodos que aún no han sido visitados.

En el siguiente _snippet_, hacemos que el árbol sea iterable, tal y como lo vimos en el capítulo de Programación Funcional. La idea es que al iterar el árbol, nos entregue los nodos en orden BFS.

In [9]:
from collections import deque

class ArbolBFS(Arbol):
    """Heredamos de la clase Arbol para hacerla iterable según el orden con BFS"""
    
    def __iter__(self):
        """Itera el árbol según BFS"""
        # Utilizamos una cola para almacenar los nodos por visitar
        cola = deque()
        # El primer nodo a visitar será la raíz
        cola.append(self)
        
        # Mientras queden nodos por visitar en la cola
        while cola:
            # Extraemos el primero de la cola
            nodo = cola.popleft()
            
            # Lo visitamos
            yield nodo
            
            # Agregamos todos los nodos hijos a la cola
            for hijo in nodo.hijos.values():
                cola.append(hijo)

Poblamos el árbol con los datos usados en el ejemplo de la clase `Arbol`

In [10]:
T = ArbolBFS(0, 10)
T.agregar_nodo(1, 8, 0)
T.agregar_nodo(3, 12, 0)
T.agregar_nodo(2, 9, 1)
T.agregar_nodo(4, 5, 3)
T.agregar_nodo(5, 14, 3)
T.agregar_nodo(6, 20, 3)
T.agregar_nodo(8, 4, 2)
T.agregar_nodo(7, 8, 4)
T.agregar_nodo(9, 15, 6)
T.agregar_nodo(10, 6, 6)

In [11]:
print("Recorrido EN AMPLITUD (BFS, o 'por niveles')")
for i, nodo in enumerate(T):
    print(f"Número de visita: {i} — visitando nodo con id: {nodo.id_nodo}")

Recorrido EN AMPLITUD (BFS, o 'por niveles')
Número de visita: 0 — visitando nodo con id: 0
Número de visita: 1 — visitando nodo con id: 1
Número de visita: 2 — visitando nodo con id: 3
Número de visita: 3 — visitando nodo con id: 2
Número de visita: 4 — visitando nodo con id: 4
Número de visita: 5 — visitando nodo con id: 5
Número de visita: 6 — visitando nodo con id: 6
Número de visita: 7 — visitando nodo con id: 8
Número de visita: 8 — visitando nodo con id: 7
Número de visita: 9 — visitando nodo con id: 9
Número de visita: 10 — visitando nodo con id: 10


El código presentado no controla que no visitemos un nodo dos veces. Esto no es necesario, ya que se puede demostrar que un árbol **nunca** tiene ciclos. En la próxima semana veremos una estructura que puede tener ciclos y donde sí necesitaremos verificar que no visitemos un nodo dos veces.

### Depth First Search (DFS)

La estrategia _**Depth First Search (DFS)**_, o **recorrido en profundidad** consiste en recorrer el árbol **por ramas**. Luego de visitar la raíz, se visitan todos sus hijos, pero descendiendo completamente por cada hijo antes de pasar el siguiente.

El recorrido _en profundidad_ se puede apreciar en la siguiente figura:

![](img/tree-dfs.png)

La implementación del recorrido DFS utiliza un **_stack_** para almacenar los nodos que deben ser visitados. En la práctica, el orden de las ramas puede variar dependiendo del orden en que se agregan los hijos al _stack_.

En el siguiente trozo de código, hacemos que un árbol sea iterable con el método DFS. Vamos a agregar los hijos al _stack_ en el orden en que aparecen en el diccionario (_i.e_, en el orden en que se agregaron). Como recordarás de un capítulo anterior, esto producirá que saquemos y recorramos primero el último hijo agregado.

In [12]:
from collections import deque

class ArbolDFS(Arbol):
    """Heredamos de la clase Arbol para hacerla iterable según el orden con DFS"""
    
    def __iter__(self):
        """Itera el árbol según DFS"""
        # Utilizamos un stack para almacenar los nodos por visitar
        stack = deque()
        # El primer nodo a visitar será la raíz
        stack.append(self)
        
        # Mientras queden nodos por visitar en el stack
        while stack:
            # Extraemos el que está en el tope del stack
            nodo = stack.pop()
            
            # Lo visitamos
            yield nodo
            
            # Agregamos todos los nodos hijos al stack
            for hijo in nodo.hijos.values():
                stack.append(hijo)

Poblamos el árbol con los datos usados en el ejemplo de la clase `Arbol`

In [13]:
T = ArbolDFS(0, 10)
T.agregar_nodo(1, 8, 0)
T.agregar_nodo(3, 12, 0)
T.agregar_nodo(2, 9, 1)
T.agregar_nodo(4, 5, 3)
T.agregar_nodo(5, 14, 3)
T.agregar_nodo(6, 20, 3)
T.agregar_nodo(8, 4, 2)
T.agregar_nodo(7, 8, 4)
T.agregar_nodo(9, 15, 6)
T.agregar_nodo(10, 6, 6)

In [14]:
print("Recorrido EN PROFUNDIDAD (DFS, o 'por ramas')")
for i, nodo in enumerate(T):
    print(f"Número de visita: {i} — visitando nodo con id: {nodo.id_nodo}")

Recorrido EN PROFUNDIDAD (DFS, o 'por ramas')
Número de visita: 0 — visitando nodo con id: 0
Número de visita: 1 — visitando nodo con id: 3
Número de visita: 2 — visitando nodo con id: 6
Número de visita: 3 — visitando nodo con id: 10
Número de visita: 4 — visitando nodo con id: 9
Número de visita: 5 — visitando nodo con id: 5
Número de visita: 6 — visitando nodo con id: 4
Número de visita: 7 — visitando nodo con id: 7
Número de visita: 8 — visitando nodo con id: 1
Número de visita: 9 — visitando nodo con id: 2
Número de visita: 10 — visitando nodo con id: 8


#### DFS recursivo

Es muy sencillo implementar DFS mediante una recursión, tal y como se muestra en el siguiente código:

In [15]:
from collections import deque

class ArbolDFSRecursivo(Arbol):
    """Heredamos de la clase Arbol para hacerla iterable según el orden con DFS recursivo"""
    
    def __iter__(self):
        """Itera el árbol según DFS recursivo"""
        # Visitamos el nodo actual
        yield self
        # Aplicamos esto recursivamente a cada hijo
        for hijo in self.hijos.values():
            yield from hijo

Poblamos el árbol con los datos usados en el ejemplo de la clase `Arbol`

In [16]:
T = ArbolDFSRecursivo(0, 10)
T.agregar_nodo(1, 8, 0)
T.agregar_nodo(3, 12, 0)
T.agregar_nodo(2, 9, 1)
T.agregar_nodo(4, 5, 3)
T.agregar_nodo(5, 14, 3)
T.agregar_nodo(6, 20, 3)
T.agregar_nodo(8, 4, 2)
T.agregar_nodo(7, 8, 4)
T.agregar_nodo(9, 15, 6)
T.agregar_nodo(10, 6, 6)

In [17]:
print("Recorrido EN PROFUNDIDAD (DFS, o 'por ramas')")
for i, nodo in enumerate(T):
    print(f"Número de visita: {i} — visitando nodo con id: {nodo.id_nodo}")

Recorrido EN PROFUNDIDAD (DFS, o 'por ramas')
Número de visita: 0 — visitando nodo con id: 0
Número de visita: 1 — visitando nodo con id: 1
Número de visita: 2 — visitando nodo con id: 2
Número de visita: 3 — visitando nodo con id: 8
Número de visita: 4 — visitando nodo con id: 3
Número de visita: 5 — visitando nodo con id: 4
Número de visita: 6 — visitando nodo con id: 7
Número de visita: 7 — visitando nodo con id: 5
Número de visita: 8 — visitando nodo con id: 6
Número de visita: 9 — visitando nodo con id: 9
Número de visita: 10 — visitando nodo con id: 10


Puedes observar que el orden de visita es un poco diferente al visto en la implementación iterativa, pero aún así está bajo el principio de "recorrido por ramas".

## Árbol Binario

Los **árboles binarios** son un caso particular de las árboles, donde:

- cada nodo tiene como máximo **dos nodos hijo**
- cada nodo hijo está etiquetado como **hijo-izquierdo**, o bien como **hijo-derecho** (a lo más un hijo izquierdo y a lo más un hijo derecho), y
- en términos de precedencia, el hijo-izquierdo **precede** al hijo-derecho.

![](img/binary-tree.png)

En un árbol binario el máximo número de nodos crece en forma exponencial, según la profundidad. La cantidad de nodos que posee el nivel 0 es 1, ya que solamente la raíz se encuentra ahí. Como la raíz puede tener a lo más dos hijos, entonces la cantidad de nodos máxima en el nivel 1 es 2. Si seguimos haciendo este razonamiento, nos encontraremos que el **nivel $d$ posee a lo más $2^d$ nodos**.

Se denomina **árbol binario completo** al árbol binario donde todos los nodos interiores tienen exactamente dos hijos, y todos los nodos hoja están en el mismo nivel. La imagen de arriba es un ejemplo de un árbol binario completo. Podemos calcular cuántos nodos tiene un árbol de este tipo, si consideramos que el nivel máximo de profundidad es $d$:

$$\sum_{i=0}^{d} 2^i = 2^{d + 1} - 1$$


Un ejemplo real de árbol binario son los **árboles de decisión** en donde cada nodo interno y además la raíz están asociados a una pregunta, y cuyas respuestas (si, no) quedan representadas en los dos nodos hijos. Otro ejemplo son las **operaciones aritméticas**, en donde las variables son representadas por los nodos hoja, y las operaciones por los nodos interiores.

### Árbol Binario basado en nodos enlazados

En esta implementación de árbol binario, modelaremos cada nodo como un objeto que tendrá por atributos las referencias al nodo padre, hijos, y el elemento en esa posición. Usaremos el valor `None` para señalar que un atributo particular no existe. Por ejemplo, si se modela el nodo raíz, el atributo `padre = None`. 


Además, vamos a implementar una regla para agregar nodos nuevos: el hijo izquierdo de cada nodo, será menor o igual al valor; mientras que el hijo derecho será estrictamente mayor al valor. A continuación el modelamiento queda de la siguiente forma:

In [18]:
class ArbolBinario:
    """Modela un árbol binario"""

    def __init__(self, valor=None, padre=None):
        """
        Inicializa un árbol binario
        
        El valor es opcional y se puede llenar con el primer nodo que se intente agregar.
        """
        self.valor = valor
        self.padre = padre
        self.hijo_izquierdo = None
        self.hijo_derecho = None
    
    def agregar_nodo(self, valor):
        """
        Agrega un nodo nuevo con el valor dado siguiendo ciertas reglas, recursivamente
        
        Vamos a implementar la regla de que el 'hijo_izquierdo' debe ser menor o igual
        que el valor del nodo, y que el 'hijo_derecho' debe ser mayor.
        
        Como la regla se implementa recursivamente, el árbol que estamos armando tiene
        la siguiente propiedad: todo nodo en el subárbol izquierdo tiene un valor menor
        o igual al actual, y todo nodo en el subárbol derecho tiene un valor mayor al actual.
        """
        # Si no teníamos valor en el nodo (al crear el árbol), lo ponemos acá
        if self.valor is None:
            self.valor = valor
            return
        
        # Si el valor es menor o igual, revisamos el hijo izquierdo
        if valor <= self.valor:
            # Si no existe el hijo izquierdo, lo creamos con ese valor y terminamos
            if not self.hijo_izquierdo:
                self.hijo_izquierdo = ArbolBinario(valor, self)
            # Si existe, le delegamos la labor de agregar el nodo
            else:
                self.hijo_izquierdo.agregar_nodo(valor)
        # Este es el caso en que el valor es mayor al actual
        else:
             # Si no existe el hijo derecho, lo creamos con ese valor y terminamos
            if not self.hijo_derecho:
                self.hijo_derecho = ArbolBinario(valor, self)
            # Si existe, le delegamos la labor de agregar el nodo
            else:
                self.hijo_derecho.agregar_nodo(valor)
                
    def __repr__(self):
        """Entrega una representación del árbol, en forma recursiva"""
        texto = f"Valor: {self.valor}"
        texto_izquierdo = indent(repr(self.hijo_izquierdo), "  ")
        texto_derecho = indent(repr(self.hijo_derecho), "  ")
        
        return "\n".join([texto, texto_izquierdo, texto_derecho])

Vamos a agregar los valores `4`, `4`, `1`, `5`, `3`, y `20` al árbol (en ese orden) y veremos como queda:

In [19]:
valores = [4, 4, 1, 5, 3, 20]
T = ArbolBinario()
for valor in valores:
    T.agregar_nodo(valor)

T

Valor: 4
  Valor: 4
    Valor: 1
      None
      Valor: 3
        None
        None
    None
  Valor: 5
    None
    Valor: 20
      None
      None

![](img/binary-with-numbers.png)

<font size='1' face='Arial'><sup>1</sup>Agradecemos a los ayudantes del curso Belén Saldías, Ivania Donoso, Patricio López, Jaime Castro, Rodrigo Gómez y Marco Bucchi por su colaboración durante la revisión de este material.</font>