# Algoritmia
## Práctica Obligatoria 1
### Curso 2024 - 2025
###### Métodos Voraces y Divide y Vencerás
---
 

#### Autor:

<table>
    <tr>
        <td align="center"><a href="https://joseleelportfolio.vercel.app/"><img src="https://github.com/Joseleelsuper.png" width="100px;" alt="Profile Picture"/><br /><sub><b>José Gallardo</b></sub></a></td>
    </tr>
</table>

#### Notas del autor:

- He identado todo el código utilizando una extensión de VS Code: https://marketplace.visualstudio.com/items?itemName=ms-python.python
- He utilizado la versión 3.12.3 de Python tanto para programar como para la ejeucción de los tests. Si hay algún error con los tests ejecutados por el profesor en versiones anteriores, me gustaría revisión.
- Al final del código del fichero he dejado un comprobador de velocidad de ejecución de mi implementación con respecto a la de Python sorted (Timsort).

---
Resuelva la siguiente práctica.

Importe las librerías que desees
**Recuerda**: 
* Solamente puedes utilizar bibliotecas nativas (https://docs.python.org/es/3.10/library/index.html) -> Usar una biblioteca no nativa supondrá un 0 en la práctica.
* Las funciones que importes no son "gratis", cada una tendrá una complejidad temporal y espacial que se tendrá que tener en cuenta.
* Solo se ejecutarán en los tests las celdas que comiencen por #TESTEABLE

In [28]:
#TESTEABLE
import time
from collections.abc import Iterable

In [29]:
#TESTEABLE
def key_sort(
    seq: list,
    key_function: callable = lambda x: x,
    reverse: bool = False,
) -> None:
    """Ordena ascendentemente una secuencia utilizando una función clave y el algoritmo Merge Sort.

    Parameters
    ----------
    seq : sequence
        Secuencia a ordenar, por ejemplo una lista
    key_function : int
        Función que devuelve para los elementos de la secuencia un valor
        clave para la ordenación, por defecto es la identidad.
    reverse: boolean
        Si es True Invierte el orden de la ordenación.
    check_short: boolean
        Opcionalmente, se puede comprobar si la secuencia ya está ordenada. Default to False.

    Notes
    -----
    No tiene retorno. Ordena en el sitio la secuencia de entrada.

    Complexity
    ---------
    O(n log n)
    """
    if len(seq) <= 1:
        return

    mid = len(seq) // 2
    left = seq[:mid]
    right = seq[mid:]

    key_sort(left, key_function, reverse)
    key_sort(right, key_function, reverse)

    left_index = right_index = merged_index = 0

    while left_index < len(left) and right_index < len(right):
        if (
            not reverse
            and key_function(left[left_index]) <= key_function(right[right_index])
        ) or (
            reverse
            and key_function(left[left_index]) >= key_function(right[right_index])
        ):
            seq[merged_index] = left[left_index]
            left_index += 1
        else:
            seq[merged_index] = right[right_index]
            right_index += 1
        merged_index += 1

    while left_index < len(left):
        seq[merged_index] = left[left_index]
        left_index += 1
        merged_index += 1

    while right_index < len(right):
        seq[merged_index] = right[right_index]
        right_index += 1
        merged_index += 1

In [30]:
#TESTEABLE
class Video:
    """
    Clase Video.
    Representa una serie o película.
    """

    def __init__(self, name: str, size: float, fee: float):
        """Crea un objeto de clase Video

        Parameters
        ----------
        name : str
            Nombre de la serie/película
        size : number
            Tamaño en memoria de la serie/película
        fee : number
            Coste de visualización de la serie/película
        """
        self.name = name
        self.size = size
        self.fee = fee
        self._users = {}

    def __hash__(self):
        """Genera el valor hash identificativo del vídeo

        Returns
        -------
        int
            Valor hash

        Complexity
        ---------
        O(1)
        """
        return hash((self.name, self.size, self.fee))

    def __str__(self):
        """Genera una cadena descriptiva del objeto

        Returns
        -------
        str
            Cadena descriptiva

        Complexity
        ---------
        O(1)
        """
        return f"Video('{self.name}', {self.size}, {self.fee})"

    def __repr__(self):
        """Genera una cadena descriptiva del objeto dentro de colecciones

        Returns
        -------
        str
            Cadena descriptiva

        Complexity
        ---------
        O(1)
        """
        return self.__str__()

    def set_users(self, country: str, users: int):
        """Dado un pais y un número de usuarios
           almacena para este vídeo la cantidad de espectadores que tiene.

        Parameters
        ----------
        country : str
            País desde donde se ve la serie/película
        users : int
            Número de espectadores

        Complexity
        ---------
        O(1)
        """
        self._users[country] = users

    def get_users(self, country: str) -> int:
        """Dado un país, obtiene el número de usuarios.

        Parameters
        ----------
        country : str
            País desde donde se ve la serie/película

        Returns
        -------
        int
            Número de espectadores para el país `country`

        Complexity
        ---------
        O(1)
        """
        return self._users.get(country, 0)

In [31]:
#TESTEABLE
class ServidorCache:
    """
    Clase del servidor caché donde se almacenan parte de series/películas.
    """

    def __init__(self, identifier: int, country: str, capacity: int):
        """Instancia un Servidor de Caché

        Parameters
        ----------
        identifier : int
            Valor que identifica un servidor.
        country : str
            País donde está el servidor.
        capacity : int
            Cantidad de memoria de almacenamiento disponible.
        """
        self.identifier = identifier
        self.country = country
        self.capacity = capacity
        self._storage = {}

    def __hash__(self):
        """Genera el valor hash identificativo del servidor

        Returns
        -------
        int
            Valor hash

        Complexity
        ---------
        O(1)
        """
        return hash((self.identifier, self.country))

    def __str__(self):
        """Genera una cadena descriptiva del objeto

        Returns
        -------
        str
            Cadena descriptiva

        Complexity
        ---------
        O(1)
        """
        return f"ServidorCache({self.identifier}, '{self.country}', {self.capacity})"

    def __repr__(self):
        """Genera una cadena descriptiva del objeto en colecciones

        Returns
        -------
        str
            Cadena descriptiva

        Complexity
        ---------
        O(1)
        """
        return self.__str__()

    def rellena(self, videos: list):
        """Dada una colección de videos,
           seleccionar de cada uno cuanta cantidad (entre 0 y 1)
           se almacena en el servidor.
           Se ha de optimizar para que el tiempo de emisión
           sea el máximo posible.

        Parameters
        ----------
        videos : collection
            Colección de videos que se quieren almacenar en el servidor.

        Complexity
        ---------
        O(v log v) donde v es el número de videos
        """
        # Limpiar almacenamiento actual
        self._storage = {}

        # Para cada vídeo, calcular su valor/unidad para el algoritmo voraz
        videos_valor = []
        for video in videos:
            usuarios = video.get_users(self.country)
            # El valor de un video es usuarios * tamaño
            valor = usuarios * video.size
            if valor > 0:
                videos_valor.append((video, valor / video.size))

        # Ordenar por valor/unidad decreciente
        key_sort(videos_valor, key_function=lambda x: x[1], reverse=True)

        # Aplicar algoritmo de la mochila fraccional
        capacidad_restante = self.capacity
        for video, _ in videos_valor:
            if capacidad_restante <= 0:
                break

            if capacidad_restante >= video.size:
                # Almacenar el video completo
                self._storage[video] = 1.0
                capacidad_restante -= video.size
            else:
                # Almacenar una fracción del video
                fraccion = capacidad_restante / video.size
                self._storage[video] = fraccion
                capacidad_restante = 0

    def disponible(self, video: Video) -> float:
        """Obtiene la cantidad de vídeo disponible en el servidor.

        Parameters
        ----------
        video : Video object
            Vídeo del cual se quiere saber la disponibilidad

        Returns
        -------
        float
            Cantidad del vídeo disponible

        Complexity
        ---------
        O(1)
        """
        return self._storage.get(video, 0)

    def almacenados(self):
        """Material almacenado en el servidor

        Returns
        -------
        set
            Conjunto de tuplas (video, cantidad) de los videos ALMACENADOS en el servidor.

        Complexity
        ---------
        O(n) donde n es el número de videos almacenados
        """
        return {
            (video, cantidad)
            for video, cantidad in self._storage.items()
            if cantidad > 0
        }

    def tiempo_emision(self):
        """A partir de los datos almacenados
           devolver número de usuarios satisfechos
           siguiendo la fórmula:
           \\sum_{i}^{v} \\text{espectadores}_i*\\text{size}_i*\\text{cantidadAlmacenada}_i

        Returns
        -------
        number
            Tiempo de Emision

        Complexity
        ---------
        O(n) donde n es el número de videos almacenados
        """
        tiempo_total = 0
        for video, cantidad in self._storage.items():
            espectadores = video.get_users(self.country)
            tiempo_total += espectadores * video.size * cantidad
        return tiempo_total

In [32]:
#TESTEABLE
class ServidorMaestro:
    """
    Servidor central que gestiona las conexiones entre servidores cache
    """

    def __init__(self, servidores: Iterable, distancias: dict):
        """Instancia el servidor central

        Parameters
        ----------
        servidores : Iterable
            Conjunto de servidores cache disponibles
        distancias : dict{ServidorCache: dict{ServidorCache: int}}
            Grafo de distancias en milisegundos entre servidores.
        """
        self.servidores = set(servidores)
        self.distancias = distancias
        self._grafo_simplificado = None

    def get_grafo(self):
        """Devuelve el grafo de distancias recibido

        Returns
        -------
        dict{ServidorCache: dict{ServidorCache: int}}
            Grafo de distancias en milisegundos entre servidores.

        Complexity
        ---------
        O(1)
        """
        return self.distancias

    def get_grafo_simplificado(self):
        """Devuelve el grafo de distancias simplificado

        Returns
        -------
        dict{ServidorCache: dict{ServidorCache: int}}
            Grafo de distancias en milisegundos entre servidores.

        Complexity
        ---------
        O(1) si ya está simplificado, O(E log E) si necesita simplificación
        donde E es el número de conexiones entre servidores
        """
        if self._grafo_simplificado is None:
            self.simplifica_grafo()
        return self._grafo_simplificado

    def simplifica_grafo(self):
        """A partir del grafo de distancias
           hacer una simplificación de la estrucutra
           de datos para ahorrar espacio y tiempo.

        Complexity
        ---------
        O(E log E) donde E es el número de conexiones entre servidores
        """
        if self._grafo_simplificado is not None:
            return

        # Inicializar grafo simplificado
        self._grafo_simplificado = {servidor: {} for servidor in self.servidores}

        # Recopilar todas las aristas
        aristas = []
        for origen in self.servidores:
            for destino, distancia in self.distancias.get(origen, {}).items():
                # Evitar duplicados y conexiones entre el mismo servidor
                if (
                    destino in self.servidores
                    and origen.identifier < destino.identifier
                ):
                    aristas.append((origen, destino, distancia))

        # Ordenar por peso
        key_sort(aristas, key_function=lambda x: x[2])

        # Implementar Kruskal para MST (Árbol de Expansión Mínima)
        padres = {servidor: servidor for servidor in self.servidores}

        def encontrar(nodo: ServidorCache) -> ServidorCache:
            """Encuentra la raíz del conjunto al que pertenece el nodo.

            Args:
                nodo (ServidorCache): El nodo a encontrar.

            Returns:
                ServidorCache: La raíz del conjunto al que pertenece el nodo.
            """
            if padres[nodo] != nodo:
                padres[nodo] = encontrar(padres[nodo])
            return padres[nodo]

        # Unir dos conjuntos
        def unir(u: ServidorCache, v: ServidorCache) -> bool:
            """Une dos conjuntos si no están ya unidos.

            Args:
                u (ServidorCache): ServidorCache origen.
                v (ServidorCache): ServidorCache destino.

            Returns:
                bool: True si se unieron, False si ya estaban unidos.
            """
            raiz_u = encontrar(u)
            raiz_v = encontrar(v)
            if raiz_u != raiz_v:
                padres[raiz_v] = raiz_u
                return True
            return False

        # Construir MST
        for u, v, peso in aristas:
            if unir(u, v):
                self._grafo_simplificado[u][v] = peso
                self._grafo_simplificado[v][u] = peso  # Grafo no dirigido

    def mas_cercano(self, servidor: ServidorCache) -> ServidorCache:
        """Reporta el servidor más cercano al dado por parámetro

        Parameters
        ----------
        servidor : ServidorCache

        Returns
        -------
        ServidorCache
            Servidor más cercano

        Complexity
        ---------
        O(S) donde S es el número de servidores
        """
        if servidor not in self.servidores:
            return None

        # Asegurar que tenemos el grafo simplificado
        if self._grafo_simplificado is None:
            self.simplifica_grafo()

        # Buscar el servidor más cercano
        distancia_min = float("inf")
        servidor_cercano = None

        for vecino, distancia in self._grafo_simplificado.get(servidor, {}).items():
            if distancia < distancia_min:
                distancia_min = distancia
                servidor_cercano = vecino

        return servidor_cercano

### Caso de ejemplo

In [33]:
import unittest
import json


def carga_dataset(data):
    with open(data) as f:
        test_datasets = json.load(f)

    videos = list()
    for v in test_datasets["videos"]:
        v_obj = Video(v["name"], v["size"], v["fee"])
        for c, u in v["users"].items():
            v_obj.set_users(c, u)
        videos.append(v_obj)

    servers = dict()
    for s in test_datasets["servers"]:
        servers[s["country"]] = ServidorCache(s["identifier"], s["country"], s["size"])

    pings = test_datasets["pings"]
    p_ = dict()
    for s in servers.values():
        p_[s] = dict()
        for p in pings[s.country]:
            p_[s][servers[p]] = pings[s.country][p]
    maestro = ServidorMaestro(servers.values(), p_)

    return videos, servers, maestro

In [34]:
import random


class TestBasico(unittest.TestCase):
    def test_carga_simple(self):
        datos = [random.randint(0, 100) for _ in range(100)]
        ordenados = sorted(datos)
        key_sort(datos)
        self.assertEqual(ordenados, datos)

        v, s, m = carga_dataset("toy.json")

        spain = s["Spain"]
        spain.rellena(v)
        self.assertEqual(spain.tiempo_emision(), 578000)
        almacenados = spain.almacenados()
        self.assertIn((v[3], 0.5), almacenados)

        m.simplifica_grafo()
        self.assertEqual(m.mas_cercano(s["Spain"]), s["France"])
        m.simplifica_grafo()
        self.assertEqual(m.mas_cercano(s["Spain"]), s["France"])
        self.assertEqual(m.mas_cercano(s["France"]), s["Spain"])


if __name__ == "__main__":
    unittest.main(argv=["first-arg-is-ignored"], exit=False)

.
----------------------------------------------------------------------
Ran 1 test in 0.005s

OK


In [35]:
# Prueba propia


def calcular_tiempo_ej(func: callable, *args, **kwargs) -> float:
    """Calcula el tiempo de ejecución de una función.

    Parameters
    ----------
    func : callable
        Función a ejecutar
    *args : tuple
        Argumentos posicionales para la función
    **kwargs : dict
        Argumentos keyword para la función

    Returns
    -------
    float
        Tiempo de ejecución en segundos
    """

    start_time = time.time()
    func(*args, **kwargs)
    end_time = time.time()
    return end_time - start_time


def main():
    # videos: list[Video] = carga_dataset("toy.json")[0]
    # servers: dict[str, ServidorCache] = carga_dataset("toy.json")[1]
    # maestro: ServidorMaestro = carga_dataset("toy.json")[2]

    videos, servers, maestro = carga_dataset("toy.json")

    spain = servers["Spain"]
    spain.rellena(videos)
    print(f"Tiempo de emision en Spain: {spain.tiempo_emision()}")
    print(f"Videos almacenados en Spain: {spain.almacenados()}")

    nearest_server = maestro.mas_cercano(spain)
    print(f"Servidor mas cercano a Spain: {nearest_server}")

    # Tiempo de ejecución de key_sort con respecto a sorted de Python
    random_list = [random.randint(0, 100) for _ in range(1000)]
    sorted_list = sorted(random_list)

    tiempo_key_sort = calcular_tiempo_ej(key_sort, random_list.copy())
    tiempo_sort = calcular_tiempo_ej(sorted, random_list.copy())

    print(f"Tiempo key_sort: {tiempo_key_sort:.6f} segundos")
    print(f"Tiempo sorted: {tiempo_sort:.6f} segundos")

    tiempo_key_sort = calcular_tiempo_ej(key_sort, sorted_list.copy())
    tiempo_sort = calcular_tiempo_ej(sorted, sorted_list.copy())

    print(f"Tiempo key_sort (ya ordenado): {tiempo_key_sort:.6f} segundos")
    print(f"Tiempo sorted (ya ordenado): {tiempo_sort:.6f} segundos")


if __name__ == "__main__":
    main()

Tiempo de emision en Spain: 578000.0
Videos almacenados en Spain: {(Video('Flow', 500, 1000), 1.0), (Video('The Brutalist', 300, 1000), 1.0), (Video('La sustancia', 400, 1000), 0.5)}
Servidor mas cercano a Spain: ServidorCache(2, 'France', 2500)
Tiempo key_sort: 0.000828 segundos
Tiempo sorted: 0.000057 segundos
Tiempo key_sort (ya ordenado): 0.000627 segundos
Tiempo sorted (ya ordenado): 0.000003 segundos


##### **Tests**

Para probar que tu solución pasa los tests. Utilice el comando:

```bash
$ source .venv/bin/activate
$ python3 tests-py3<version de python> <mi notebook>
```

Los tests necesitan de las librerías `networkx` y `nbformat`

```bash
$ pip install networkx nbformat
```

###### Explicación de los tests
* `test_ejemplo`: Es el mismo que el caso de ejemplo.
* `test_ej1_basic_sort`: Comprueba que se ordenen correctamente listas de números.
* `test_ej1_key_sort`: Comprueba que se ordenan correctamente listas según su función clave.
* `test_ej1_video_sort`: Comprueba que se pueden ordenar vídeos.
* `test_ej2_emision_correcta`: Comprueba que el tiempo de emisión del servidor caché es correcto.
* `test_ej2_sin_espacio`: Comprueba que ante un servidor sin espacio, el tiempo de emisión es 0.
* `test_ej2_espacio_infinito`: Comprueba que ante un servidor con espacio infinito, el tiempo de emisión es el máximo.
* `test_ej2_pais_no_existe`: Comprueba que ante pais que no tiene servidor cache, el tiempo de emisión es 0.
* `test_ej3_estructura_datos_mas_simple`: Comprueba que la estructura de datos que se utiliza para almacenar la red de servidores es más simple que la original.
* `test_ej3_red_servidores_consistente`: Comprueba que la red de servidores es constitente con el mapa original, es decir, no hay conexiones nuevas y los costes son los mismos.
* `test_ej3_sistema_conexo`: Comprueba que la red de servidores cache es conexa.

---

### **Informe**
Contesta a las siguientes preguntas.

#### **Complejidad**

In [None]:
# Acceso rápido a las funciones.
key_sort()
ServidorCache().rellena()
ServidorMaestro.simplifica_grafo()

1. Método `key_sort`
    * **Complejidad temporal**: O(n log n). 
    
    Se utiliza el algoritmo Merge Sort. La división toma O(log n) pasos y la fusión en cada nivel toma O(n) pasos,
    que si los multiplicamos nos da O(n log n).

2. Método `ServidorCache.rellena`
    * **Complejidad temporal**: O(v log v) donde v es el número de videos. 
    
    La complejidad la marca la función `key_sort`. Hay otras medidas, como la iteración para calcular el valor y la iteración para llenar la caché, pero son O(v) y no afectan a la complejidad total.

3. Método `ServidorMaestro.simplifica_grafo`
    * **Complejidad temporal**: O(E log E) donde E es el número de conexiones entre servidores. 
    
    Al igual que en el caso anterior, la complejidad la marca la función `key_sort`. La iteración para crear el grafo simplificado es O(E) y no afecta a la complejidad total.
    Sobre Kruskal, la complejidad es O(E log E).
    En resumen, la suma de ambos es O(E log E), ya que no se utilizan constantes para calcular la complejidad de una función

#### **Ranking de contenidos.**

* ¿Cómo afecta la función clave, que proporciona el criterio de ordenación, a la complejidad temporal del algoritmo?

Cada vez que se comparan dos elementos en el algoritmo Merge Sort, se debe ejecutar la función clave para obtener los valores a comparar. Si la función clave tiene una complejidad O(k), entonces cada comparación también tendrá esa complejidad. Esto significa que la complejidad total del algoritmo pasaría de O(n log n) a O(k * n log n). 

En mi caso, para la ordenación de videos uso como función clave lambda x: x[1], que tiene complejidad O(1), por lo que no afecta a la complejidad total del algoritmo.

* ¿Has usado alguna estructura de datos adicional?

Sí.

En el algoritmo de ordenación `key_sort`, se crean dos listas auxiliares (`left` y `right`) para almacenar las mitades de la secuencia a ordenar. Esto aumenta la complejidad espacial y el tamaño en memoria del algoritmo, pero es necesario para el Merge Sort.

Además, en `ServidorCache.rellena` se utiliza una lista auxiliar `videos_valor` para almacenar pares (video, valor_por_unidad) antes de ordenarlos, lo que también añade una complejidad espacial O(v).

#### **Servidores cache.**

* ¿La solución es óptima (maximiza siempre el tiempo de emisión) o es aproximada (encuentra un máximo local)?

Es óptima.

El algoritmo de la mochila fraccional utilizado en `ServidorCache.rellena` es un algoritmo voraz que garantiza una solución óptima para este tipo de problemas. Al ordenar los videos por su ratio valor/tamaño (en este caso, usuarios) y asignar espacio comenzando por los de mayor ratio, se asegura que se maximiza el tiempo de emisión total.

La optimalidad se basa en la propiedad de la mochila fraccional: siempre es mejor tomar elementos con mayor valor por unidad de peso primero, y esto garantiza la maximización del valor total.

* ¿Qué ocurriría si solo se admitiese almacenar vídeos completos en cada servidor?

Si solo se permitiera almacenar videos completos (sin fracciones), el problema pasaría a ser un problema de la mochila sin particiones como en la práctica 3 (creo), donde el algoritmo voraz utilizado ya no garantizaría una solución óptima. En ese caso, habría que utilizar programación dinámica con complejidad O(nW), donde n es el número de videos y W es la capacidad del servidor.

Esto resultaría en un menor aprovechamiento del espacio disponible y potencialmente un menor tiempo de emisión total, ya que el algoritmo tendría que decidir entre incluir o excluir completamente cada video, sin poder aprovechar parcialmente su valor mediante fracciones.

* ¿Que estructuras de datos has utilizado?

Se han utilizado:
- Un diccionario `_storage` para almacenar los videos y sus fracciones correspondientes
- Una lista auxiliar `videos_valor` para almacenar pares (video, valor_por_unidad)
- Diccionarios `_users` dentro de cada objeto Video para almacenar usuarios por país

#### **Red de servidores cache**

* ¿La solución es óptima (la red es lo más simple posible) o es aproximada (encuentra un mínimo local)?

Óptima.

Utiliza el algoritmo de Kruskal para encontrar un árbol de expansión mínima (MST) del grafo de servidores. Este algoritmo garantiza la obtención del conjunto mínimo de conexiones que mantiene todos los nodos conectados, minimizando el costo total.

El MST resultante es la red más simple posible (con menor peso total) que mantiene la conectividad entre todos los servidores, lo que cumple con el objetivo de simplificación mientras se mantiene la comunicación entre todos los puntos.

* ¿Cómo afecta el número de conexiones entre servidores a la complejidad temporal del algoritmo empleado?

Las aristas afectan directamente a la complejidad del algoritmo. El algoritmo de Kruskal tiene una complejidad de O(E log E) donde E es el número de aristas. Al aumentar el número de conexiones entre servidores, aumenta el valor de E y, por tanto, aumenta el tiempo de ejecución del algoritmo.

La parte más costosa es la ordenación de las aristas por peso, que se realiza mediante `key_sort` con complejidad O(E log E). Las operaciones de Union-Pertenencia tienen una complejidad nula.

* ¿Qué estructuras de datos has utilizado?

Las estructuras de datos utilizadas son:
- Diccionarios para representar tanto el grafo original como el grafo simplificado
- Una lista `aristas` para almacenar y ordenar todas las conexiones
- Un diccionario `padres` para implementar el algoritmo Union-Pertenencia que detecta ciclos
- Funciones auxiliares `encontrar` y `unir` para manejar los conjuntos disjuntos