### TP1: Algoritmos de búsqueda en Torre de Hanoi

Integrantes:
* Mealla Pablo
* Mendoza Dante
* Vasquez Jorge
* Viñas Gustavo



##### 1. ¿Cuáles son los PEAS de este problema? (Performance, Environment, Actuators, Sensors)

**Performance:**  
Resolver correctamente la torre de Hanoi, esto es, que todos los discos queden ordenados en la última pila

**Environment:**  
  * Las tres torres
  * Los discos
  * Las reglas del juego
  * Conocer el estado inicial
  * Conocer el estado objetivo

**Actuators:**  
Movimientos de discos que se realiza en el Juego  
Si fuera manual, sería nuestras manos que realizan el movimiento de discos  
Si fuera una solución por software, sería una función que realiza el movimiento del disco: Programa (node.expand)

**Sensors:**  
Estado actual de los discos (node.state)  
Si fuera manual, serían nuestros ojos que detectan la posición actual de los discos

##### 2. ¿Cuáles son las propiedades del entorno de trabajo?

El entorno de trabajo es
* Es totalmente observable, se pueden observar los discos en todo momento en las diferentes torres.
* Deterministico, porque no hay azar en cambio de estados, y los cambios son decididos por el mismo agente.
* Episódico, porque cada solución no depende de la anterior.
* Estático, el ambiente no cambia mientras el agente esta tomando acciones.
* Discreto, porque con cada movimiento obtengo un estado determinado.
* Agente individual, porque estamos usando un solo agente para la resolución, aunque podría ser multiagente cooperativo si asignaramos ramas a distintos agentes.

##### 3. En el contexto de este problema, establezca cuáles son los: estado, espacio de estados, árbol de búsqueda, nodo de búsqueda, objetivo, acción y frontera.

**Estado:**  
Es la representación de los discos en las pilas para una combinación dada.

**Espacio de estados:**  
Son las posiciones válidas que pueden tomar los discos en las pilas.

**Árbol de búsqueda:**  
Es un diagrama del espacio de estados para encontrar una posible solución al problema de las torres de Hanoi. La raiz representa el estado 
inicial, las ramas representan los movimientos validos, los nodos representan todos los estados posibles y las hojas son los nodos frontera.

**Nodo de búsqueda:**  ***** REVISAR *****  
Es el estado a partir del cual analizo las acciones que se pueden tomar. Desde este nodo obtengo los siguientes estados posibles.

**Objetivo:**  
Es resolver la torre de Hanoi, es decir, que todos los discos esten ordenados en la última pila.

**Acción:**  
Es el movimiento válido de un disco de una pila hacia otra.

**Frontera:**  
Son los nodos no explorados (estados no explorados), es decir, próximos movimientos posibles aun no realizados.

##### 4. Implemente algún método de búsqueda. Puedes elegir cualquiera menos búsqueda en anchura primero (el desarrollado en clase). Sos libre de elegir cualquiera de los vistos en clases, o inclusive buscar nuevos.


In [17]:
num_disks = 5

In [18]:
# 1. Profundidad primero

from aima_libs.hanoi_states import ProblemHanoi, StatesHanoi
from aima_libs.tree_hanoi import NodeHanoi
from queue import LifoQueue

def depth_first_search(number_disks=5):
    # Inicializamos el problema
    list_disks = [i for i in range(number_disks, 0, -1)]
    initial_state = StatesHanoi(list_disks, [], [], max_disks=number_disks)
    goal_state = StatesHanoi([], [], list_disks, max_disks=number_disks)
    problem = ProblemHanoi(initial=initial_state, goal=goal_state)

    # Creamos una cola LIFO con el nodo inicial
    frontier = LifoQueue()
    frontier.put(NodeHanoi(problem.initial))

    # Creamos el set con estados ya visitados
    explored = set()
    
    node_explored = 0
    
    while not frontier.empty():
        node = frontier.get()
        node_explored += 1
        
        # Agregamos el estado del nodo al set. Esto evita guardar duplicados, porque set nunca tiene elementos repetidos
        explored.add(node.state)
        
        if problem.goal_test(node.state):  # Comprobamos si hemos alcanzado el estado objetivo
            metrics = {
                "solution_found": True,
                "nodes_explored": node_explored,
                "states_visited": len(explored),
                "nodes_in_frontier": frontier.qsize(),
                "max_depth": node.depth,
                "cost_total": node.state.accumulated_cost,
            }
            return node, metrics
        
        # Agregamos a la cola todos los nodos sucesores del nodo actual
        for next_node in node.expand(problem):
            # Solo si el estado del nodo no fue explorado
            if next_node.state not in explored:
                frontier.put(next_node)

    # Si no se encontro la solución, devolvemos la métricas igual
    metrics = {
        "solution_found": False,
        "nodes_explored": node_explored,
        "states_visited": len(explored),
        "nodes_in_frontier": frontier.qsize(),
        "max_depth": node.depth, # OBS: Si no se encontró la solución, este valor solo tiene sentido en breadth_first_search, en otros casos se debe ir llevando registro de cual fue la máxima profundidad
        "cost_total": None,
    }
    return None, metrics

In [19]:
solution, metrics = depth_first_search(number_disks=num_disks)
for key, value in metrics.items():
    print(f"{key}: {value}")

solution_found: True
nodes_explored: 122
states_visited: 122
nodes_in_frontier: 63
max_depth: 121
cost_total: 121.0


In [10]:
# 2. Greedy

from aima_libs.hanoi_states import ProblemHanoi, StatesHanoi
from aima_libs.tree_hanoi import NodeHanoi
from aima_libs.aima import PriorityQueue as AimaPriorityQueue

def priority_func(solution_last_rod, node):
    # La heuristica es -1 por disco correctamente ubicado
    last_rod = node.state.get_state()[-1]
    h = 0
    for i in range(0, min(len(last_rod), len(solution_last_rod))):
        if (last_rod[i] != solution_last_rod[i]):
            break
        h -= 1
    return h

def greedy_search(number_disks=5):
    # Inicializamos el problema
    list_disks = [i for i in range(number_disks, 0, -1)]
    initial_state = StatesHanoi(list_disks, [], [], max_disks=number_disks)
    goal_state = StatesHanoi([], [], list_disks, max_disks=number_disks)
    problem = ProblemHanoi(initial=initial_state, goal=goal_state)

    # Creamos una cola priorizada, con funcion heuristica, que contenga el nodo inicial
    solution_last_rod = problem.goal.get_state()[-1]
    frontier = AimaPriorityQueue(order='min', f=lambda x: priority_func(solution_last_rod, x))
    frontier.append(NodeHanoi(problem.initial))

    # Creamos el set con estados ya visitados
    explored = set()
    
    node_explored = 0
    
    while frontier.__len__() != 0:
        _, node = frontier.pop()
        node_explored += 1
        
        # Agregamos el estado del nodo al set. Esto evita guardar duplicados, porque set nunca tiene elementos repetidos
        explored.add(node.state)
        
        if problem.goal_test(node.state):  # Comprobamos si hemos alcanzado el estado objetivo
            metrics = {
                "solution_found": True,
                "nodes_explored": node_explored,
                "states_visited": len(explored),
                "nodes_in_frontier": frontier.__len__(),
                "max_depth": node.depth,
                "cost_total": node.state.accumulated_cost,
            }
            return node, metrics
        
        # Agregamos a la cola todos los nodos sucesores del nodo actual
        for next_node in node.expand(problem):
            # Solo si el estado del nodo no fue explorado
            if next_node.state not in explored:
                frontier.append(next_node)

    # Si no se encontro la solución, devolvemos la métricas igual
    metrics = {
        "solution_found": False,
        "nodes_explored": node_explored,
        "states_visited": len(explored),
        "nodes_in_frontier": frontier.__len__(),
        "max_depth": node.depth, # OBS: Si no se encontró la solución, este valor solo tiene sentido en breadth_first_search, en otros casos se debe ir llevando registro de cual fue la máxima profundidad
        "cost_total": None,
    }
    return None, metrics

In [20]:
solution, metrics = greedy_search(number_disks=num_disks)
for key, value in metrics.items():
    print(f"{key}: {value}")

solution_found: True
nodes_explored: 160
states_visited: 110
nodes_in_frontier: 46
max_depth: 31
cost_total: 31.0


##### 5. ¿Qué complejidad en tiempo y memoria teórica tiene el algoritmo elegido?

1. Búsqueda primero en profundidad
   - Complejidad en tiempo teórica: en el peor caso, es O(b^m), siendo b el factor de ramificación (número promedio de ramificaciones por nodo) y m la máxima profundidad del espacio de estados.
   - Complejidad en memoria teórica: O(b^d), siendo b el factor de ramificación y d la profundidad de la solución menos costosa, pues cada nodo generado permanece en memoria, almacenándose la mayor cantidad de nodos en el nivel meta.
     
2. Búsqueda Greedy
   - Complejidad en tiempo teórica: La complejidad temporal de la búsqueda greedy depende de dos factores clave: Número de nodos en el espacio de búsqueda: Supongamos que hay N nodos en total. Tiempo para seleccionar el mejor nodo según la heurística: Usualmente se maneja con una estructura como una cola de prioridad (heap), que permite extraer el mejor nodo en O(log N). 
Entonces, la complejidad en tiempo es aproximadamente: 𝑂(𝑁⋅log(𝑁)). 
      * En el peor caso: Si la heurística no ayuda y explora todos los nodos, la complejidad se aproxima a O(N log N).
      * En el mejor caso: Si la heurística guía directamente al objetivo, el tiempo puede ser cercano a O(d), donde d es la profundidad de la solución.
   - Complejidad en memoria teórica: La búsqueda greedy mantiene en memoria:
     1. Los nodos expandidos (visitados)
     2. Los nodos frontera (los que están por expandirse)  
   En el peor caso, podría almacenar todos los nodos del espacio de búsqueda, dando una complejidad de: O(N)

##### 6. A nivel implementación, ¿qué tiempo y memoria ocupa el algoritmo? (Se recomienda correr 10 veces y calcular promedio y desvío estándar de las métricas).


In [62]:
import tracemalloc
from math import sqrt
import time

mem_peaks_mb = []
time_measured = []

for _ in range(0, 10):
    tracemalloc.start()
    start_time = time.time()

    depth_first_search(number_disks=num_disks)
    time_measured.append(time.time() - start_time)

    # Para medir memoria consumida usamos el pico de memoria
    _, memory_peak = tracemalloc.get_traced_memory()
    memory_peak /= 1024*1024
    mem_peaks_mb.append(memory_peak)
    tracemalloc.stop()

mean_mem = sum(mem_peaks_mb) / len(mem_peaks_mb)
dev_mem = sqrt(sum([(x - mean_mem)**2 for x in mem_peaks_mb]) / (len(mem_peaks_mb)-1))
print(f"Promedio pico de memoria ocupada para búsqueda primero en profundidad: {round(mean_mem, 2)} [MB] en 10 ejecuciones. Desvío estándar: {round(dev_mem, 2)}.", )

mean_time = sum(time_measured) / len(time_measured)
dev_time = sqrt(sum([(x - mean_time)**2 for x in time_measured]) / (len(time_measured)-1))
print(f"Promedio tiempo de ejecución para búsqueda primero en profundidad: {round(mean_time, 2)} [s] en 10 ejecuciones. Desvío estándar: {round(dev_time, 2)}.", )

Promedio pico de memoria ocupada para búsqueda primero en profundidad: 0.24 [MB] en 10 ejecuciones. Desvío estándar: 0.09.
Promedio tiempo de ejecución para búsqueda primero en profundidad: 0.03 [s] en 10 ejecuciones. Desvío estándar: 0.0.


In [65]:
import tracemalloc
from math import sqrt
import time

mem_peaks_mb = []
time_measured = []

for _ in range(0, 10):
    tracemalloc.start()
    start_time = time.time()

    greedy_search(number_disks=num_disks)
    time_measured.append(time.time() - start_time)

    # Para medir memoria consumida usamos el pico de memoria
    _, memory_peak = tracemalloc.get_traced_memory()
    memory_peak /= 1024*1024
    mem_peaks_mb.append(memory_peak)
    tracemalloc.stop()

mean_mem = sum(mem_peaks_mb) / len(mem_peaks_mb)
dev_mem = sqrt(sum([(x - mean_mem)**2 for x in mem_peaks_mb]) / (len(mem_peaks_mb)-1))
print(f"Promedio pico de memoria ocupada para búsqueda greedy: {round(mean_mem, 2)} [MB] en 10 ejecuciones. Desvío estándar: {round(dev_mem, 2)}.", )

mean_time = sum(time_measured) / len(time_measured)
dev_time = sqrt(sum([(x - mean_time)**2 for x in time_measured]) / (len(time_measured)-1))
print(f"Promedio tiempo de ejecución para búsqueda greedy: {round(mean_time, 2)} [s] en 10 ejecuciones. Desvío estándar: {round(dev_time, 2)}.", )

Promedio pico de memoria ocupada para búsqueda greedy: 0.22 [MB] en 10 ejecuciones. Desvío estándar: 0.06.
Promedio tiempo de ejecución para búsqueda greedy: 0.05 [s] en 10 ejecuciones. Desvío estándar: 0.0.


##### 7. Si la solución óptima es 2^k -1 movimientos con k igual al número de discos. Qué tan lejos está la solución del algoritmo implementado de esta solución óptima (se recomienda correr al menos 10 veces y usar el promedio de trayecto usado).


Solución óptima para 5 discos: 2^5 - 1 = 31 movimientos

1. Búsqueda primero en profundidad
   - La solución del algoritmo requiere 121 movimientos, muy lejos de la cantidad óptima de movimientos
     
2. Búsqueda Greedy
   - La solución del algoritmo requiere 31 movimientos, cantidad óptima de movimientos
