<a href="https://colab.research.google.com/github/Aranzasuu/ADA-Informes/blob/main/ABB_%C3%93ptimo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. DESCRIPCIÓN DEL PROBLEMA**

### **↪ PROBLEMA DE OPTIMIZACIÓN**

▹ Los problemas de optimización buscan minimizar o maximizar el valor de una variable. Pero pongamonos en el caso que un programa que se configura para realizar una traducción de inglés a español. Para una palabra debe estar ligado a su traducción en el idioma especificado, teniendo en cuenta que cada palabra es buscada con distintas frecuencias, ¿Cómo podemos solucionar este problema ordenando una cantidad de palabras y mínimizar el tiempo de búsqueda?

▹La razón por la que este problema se considera de **optimización** es porque el objetivo es **minimizar** el costo esperado de búsqueda, la cual corresponde a la cantidad de nodos que se visitan al realizar la búsqueda.

> $$Costo Esperado = \sum_{i}p_ic_i $$



**↪ 𝙴𝚗𝚝𝚛𝚊𝚍𝚊:** Para la entrada tenemos varios valores que corresponden a:

- *Una secuencia ordenada de n claves $K = (k_1, k_2, ... , k_n)$*
> **IMPORTANTE:** $k_1 < k_2 < ... < k_n$
- *Donde cada elemento de $K$ tiene una probabilidad $p_i$ de ser buscada.*
> $$\sum_{i=1}^{n}p_i + \sum_{j=0}^{n}q_i = 1$$
- *Tenemos que tener en cuenta que existen claves representadas con $d_i$ que corresponden a las búsquedas fallidas y estas tienen una probabilidad de $q_i$ de ser buscada.*
> La **búsquedas fallidas** son aquellos valores que se buscan y no están contempladas en el árbol, es decir no se encuentran en el conjunto $K$.


**↪ 𝚂𝚊𝚕𝚒𝚍𝚊:** La construcción de un árbol de búsqueda óptimo, es decir que minimiza la cantidad esperada de nodos visitados (costo esperado).

---

# **2. DESCRIPCIÓN DEL ALGORITMO**

### **↪ SOLUCIÓN:** ÁRBOL BINARIO DE BÚSQUEDA ÓPTIMO

▹ Un **árbol binario de búsqueda** corresponde a una estructura conformada por nodos (que normalmente tiene asociada un valor "*key*"). Estos siempre tienen una raíz, subárbol izquierdo y derecho, donde en el lado izquierdo corresponden a los nodos con valor menor a la raíz y el lado derecho corresponden a lo nodos con valor mayor a la raíz.

> ![image](https://upload.wikimedia.org/wikipedia/commons/thumb/3/36/Binary_tree_%28oriented_digraph%29.png/192px-Binary_tree_%28oriented_digraph%29.png)

▹ Pero, con el **árbol binario de búsqueda óptimo** se busca organizar el árbol de tal manera que minimice la cantidad de nodos visitados cuando se realice la búsqueda de alguna palabra.

> ![image](https://programmerclick.com/images/944/246e43dd815623752cb37b8339985598.JPEG)

Para implementar esta solución podemos realizarla de distintas formas, es por esto que aquí se implementará las siguientes soluciones:

- Forma Recursiva
- Acercamiento Bottom-Up

Donde se mostrará el costo esperado y la imagen del árbol correspodiente a la entrada entregada.


In [9]:
# Importación de las librerías
import matplotlib.pyplot as plt
import math
import datetime
import seaborn as sns
from timeit import repeat
import numpy as np
import random
from termcolor import colored

### **GENERADOR DE INSTANCIAS**

In [13]:
def optimal_bst_instance_generator(n):
    keys = sorted(random.sample(range(1, 100), n))
    arr = np.random.random(n*2+1)
    arr /= arr.sum()
    
    p = list(arr[:n]) # Probabilidad de las claves
    q = arr[n:] # Probabilidad de las claves ficticias
    return keys, p, q
    
keys, p, q = optimal_bst_instance_generator(10)

## **2.1 SOLUCIÓN RECURSIVA**

▹ Para calcular el costo óptimo de forma recursiva podemos utilizar la siguiente fórmula:

> $$optCost(i,j) = \sum_{k=i}^{j}frec[k] + min_{r=1}^{j}[optCost(i,r-1) + optCost(r+1,j)]$$

▹ Con esto se necesita los índices $i$ y $j$ desde $0 ⟶ n-1$. Un punto a considerar es que al no guardar las soluciondes de los subproblemas, en cada iteración debe volver a calcularlos, así aumentando considerablemente la complejidad del algoritmo, lo que optimiza es la memoria, además el árbol puede ser modificado.

▹ Para calcular $optcost(i,j)$ asumimos que la $r$ se toma como raíz y calculamos el mínimo entre $opt(i,r-1) + opt(r+1,j)$ para todo $i ≤ r ≤ j$. Aquí para cada subproblema estamos eligiendo un nodo como raíz. Pero en realidad el nivel de raíz de subproblema y todos sus nodos descendientes será 1 mayor que el nivel de la raíz del problema padre. Por lo tanto, se debe agregar la frecuencia de todos los nodos excepto $r$ que explica el descenso en su nivel en comparación con el nivel asumido en el subproblema. Es decir, que 

In [14]:
def optCost(freq, i, j):
    if j < i:
        return 0
    if j == i:
        return freq[i]
    fsum = Sum(freq, i, j)

    Min = 999999999999

    for r in range(i, j + 1):
        cost = (optCost(freq, i, r - 1) +
                optCost(freq, r + 1, j))
        if cost < Min:
            Min = cost

    return Min + fsum

def optimalSearchTree(keys, freq, n):
    return optCost(freq, 0, n - 1)
 
def Sum(freq, i, j):
    s = 0
    for k in range(i, j + 1):
        s += freq[k]
    return s

keys = [10, 12, 20]
freq = [34, 8, 50]
n = len(keys)
print("El costo óptimo del ABB >>", optimalSearchTree(keys, freq, n))

El costo óptimo del ABB >> 142


## **EJEMPLO PASO A PASO (VERBOSE = TRUE)**

## **2.2 SOLUCIÓN ACERCAMIENTO BOTTOM-UP**


In [15]:
INT_MAX = 2147483647

def optimalSearchTree(keys, freq, n):
    cost = [[0 for x in range(n)]
               for y in range(n)]

    for i in range(n):
        cost[i][i] = freq[i]
 
    for L in range(2, n + 1):
        for i in range(n - L + 2):
            j = i + L - 1
            off_set_sum = sum(freq, i, j)

            if i >= n or j >= n: break

            cost[i][j] = INT_MAX

            for r in range(i, j + 1):
                c = 0
                if (r > i): c += cost[i][r - 1]
                if (r < j): c += cost[r + 1][j]
                c += off_set_sum
                if (c < cost[i][j]): cost[i][j] = c
    return cost[0][n - 1]

def sum(freq, i, j):
 
    s = 0
    for k in range(i-1, j): 
      s += freq[k]
    return s

keys = [10, 12, 20]
freq = [34, 8, 50]
n = len(keys)
print("El costo óptimo del ABB >>", optimalSearchTree(keys, freq, n))
     

El costo óptimo del ABB >> 142


## **EJEMPLO PASO A PASO (VERBOSE = TRUE)**

# **3. CORRECTITUD** 

(sólo el de bottom-up)

# **4. TIEMPO DE EJECUCIÓN**

(bottom-up y recursivo)

# **5. EXPERIMENTOS**