### **Revisión de tablas hash y hashing moderno**

El hashing y las tablas hash son elementos fundamentales en la informática moderna debido a su eficiencia y versatilidad. Las tablas hash se utilizan ampliamente en muchos sistemas, como la deduplicación y la detección de plagio, y se aplican en funciones críticas en la seguridad y en la optimización de la búsqueda.

#### **Conceptos fundamentales de hashing**

Las tablas hash son estructuras que permiten realizar operaciones de búsqueda, inserción y eliminación de manera eficiente. Utilizan funciones de hash para mapear los datos de entrada a un espacio de memoria predefinido, lo que permite acceder a ellos rápidamente. El hashing es el proceso mediante el cual se aplica una función a un valor de entrada (como una clave) para producir un valor de hash único, que se utiliza para determinar en qué "bucket" de la tabla hash debe almacenarse el valor asociado a esa clave.

Las tablas hash son utilizadas por una variedad de aplicaciones, como la verificación de contraseñas en bases de datos, la corrección ortográfica en editores de texto, el balanceo de carga en redes y la detección de spam en correos electrónicos.

#### **Tipos de estructuras de datos y comparaciones**

En el ámbito de las estructuras de datos, las tablas hash ofrecen una mejora significativa sobre otras alternativas como los arreglos o las listas enlazadas. A continuación, se presentan algunas comparaciones clave entre las tablas hash y otras estructuras de datos:

1. **Arreglos no ordenados**: Los arreglos no ordenados permiten inserciones rápidas, pero las búsquedas en el peor de los casos requieren tiempo lineal ($O(n)$). Las tablas hash mejoran este rendimiento al ofrecer un tiempo de búsqueda promedio constante $O(1)$.
   
2. **Arreglos ordenados**: Los arreglos ordenados permiten búsquedas rápidas mediante búsqueda binaria ($O(log n)$), pero las inserciones y eliminaciones pueden ser costosas, con un tiempo de $O(n)$ en el peor de los casos. Las tablas hash, al ser desordenadas, permiten realizar todas las operaciones en tiempo constante ($O(1)$), aunque en casos raros el rendimiento puede caer a $O(n)$.

3. **Listas enlazadas**: Las listas enlazadas permiten inserciones y eliminaciones rápidas, pero la búsqueda en ellas requiere un tiempo lineal $O(n)$. Las tablas hash permiten realizar búsquedas en tiempo constante en promedio, lo que las hace más eficientes en muchos escenarios.

4. **Árboles Binarios de búsqueda balanceados (BST)**: Los árboles binarios balanceados tienen un tiempo logarítmico $O(log n)$ para todas las operaciones de diccionario, pero requieren mantener el balance del árbol, lo que agrega una complejidad adicional. Las tablas hash, en cambio, no requieren estas operaciones de balance y ofrecen un rendimiento constante $O(1)$ en operaciones promedio.

#### Ventajas de las tablas hash

El beneficio principal de las tablas hash es la capacidad de realizar operaciones de búsqueda, inserción y eliminación en tiempo constante, `O(1)`, en promedio. Esto se logra mediante el uso de una buena función de hash que distribuye los elementos de manera uniforme entre los "buckets" de la tabla, reduciendo la probabilidad de colisiones.

Sin embargo, en el peor de los casos, las tablas hash pueden experimentar un rendimiento de $O(n)$, lo que ocurre cuando todos los elementos se mapean al mismo bucket (colisión). Esto es raro, pero puede suceder si la función de hash no es adecuada para los datos específicos. En esos casos, las operaciones deben recorrer todos los elementos en el bucket, lo que reduce la eficiencia de la tabla hash.

#### Desafíos y mejoras en hashing

Uno de los desafíos que enfrentan las tablas hash es el **redimensionamiento** eficiente. A medida que crece la cantidad de datos, es necesario aumentar el tamaño de la tabla para evitar que los buckets se llenen demasiado, lo que puede llevar a un rendimiento degradado. El redimensionamiento de una tabla hash implica crear una nueva tabla más grande y volver a insertar los elementos, lo que puede ser costoso. Sin embargo, técnicas modernas de hashing buscan hacer este proceso más eficiente.

Otro desafío es el **hashing consistente**, que se utiliza en sistemas distribuidos. En estas configuraciones, las tablas hash no se almacenan en una sola máquina, sino que se distribuyen entre varios servidores. El objetivo del hashing consistente es minimizar el número de claves que deben ser reubicadas cuando un servidor se une o abandona la red, lo que permite una distribución de carga eficiente y una mayor estabilidad en sistemas masivos.



### **Aplicaciones modernas del hashing**

El hashing tiene aplicaciones importantes en varios campos. En el contexto de la **seguridad**, las funciones de hash se utilizan para almacenar contraseñas de manera segura. En lugar de almacenar las contraseñas en texto claro, se almacena un valor de hash de la contraseña, y cuando un usuario intenta iniciar sesión, la contraseña proporcionada se compara con el hash almacenado.

El **corrector ortográfico** de los editores de texto también utiliza hashing para verificar si una palabra existe en el diccionario. En este caso, el texto de la palabra se transforma en un valor de hash, y este valor se busca en una tabla hash que contiene las palabras del diccionario.

El **balanceo de carga** en redes también se beneficia del hashing. Cuando un paquete de datos se envía de un origen a un destino a través de varios servidores, el hashing se utiliza para determinar a qué servidor intermedio debe enviarse el paquete. Este proceso asegura que el tráfico se distribuya de manera equilibrada entre los servidores disponibles.

#### Tablas hash distribuidas y recursos

En sistemas distribuidos, como las redes de servidores que implementan tablas hash, uno de los principales desafíos es el **balanceo de carga** de los recursos. A medida que los servidores se unen o abandonan la red, es necesario redistribuir las claves de manera eficiente. El **hashing consistente** es la técnica utilizada en estos casos, ya que permite que solo un número mínimo de claves sean reubicadas cuando un servidor se agrega o se elimina de la red.

#### Limitaciones de las tablas hash

Aunque las tablas hash son extremadamente eficientes para operaciones de búsqueda exacta, no son adecuadas para aplicaciones donde el orden de los elementos es importante. En aplicaciones como bases de datos o sistemas de almacenamiento, donde se requieren consultas de rango (por ejemplo, encontrar todos los registros con un valor en un rango determinado), las tablas hash no son la estructura más adecuada, ya que no preservan el orden de los elementos.

Sin embargo, las tablas hash son útiles para tareas de **detección de similitud** o **deduplicación**, como en la detección de plagio. En estos casos, el contenido de los documentos se transforma en valores de hash, y luego se comparan estos valores para encontrar documentos similares o duplicados.


### **Escenarios de uso en sistemas modernos**

El **hashing** se utiliza en una amplia variedad de aplicaciones modernas. A continuación, se presentan algunos casos prácticos destacados donde el hashing juega un papel crucial en la mejora de la eficiencia y el rendimiento.

#### 1. **Deduplicación en soluciones de respaldo y almacenamiento**

Las empresas que manejan grandes cantidades de datos, como **Dropbox** y **Dell EMC Data Domain**, implementan soluciones de almacenamiento que toman **instantáneas** frecuentes de los datos de sus clientes. Estas instantáneas se toman con regularidad, como cada 24 horas, y en la mayoría de los casos, la mayoría de los datos no cambian entre las instantáneas consecutivas. En este contexto, es crucial **identificar eficientemente las partes que han cambiado** para almacenar solo esas partes, lo que ahorra tanto tiempo como espacio de almacenamiento.

El proceso de **deduplicación** se utiliza para eliminar datos duplicados, y muchas implementaciones modernas de este proceso dependen del hashing. En sistemas como **ChunkStash**, los archivos se dividen en pequeños fragmentos, y cada fragmento se aplica a una función de hash (como SHA-1). Si el hash del fragmento ya está en la tabla, se reutiliza; si no, se almacena el fragmento junto con su hash en la tabla hash, lo que asegura que no se almacenen fragmentos duplicados.

Además, la **acumulación en un búfer de escritura** en memoria y el volcado en flash cuando el búfer está lleno ayudan a optimizar el uso de espacio en almacenamiento flash, evitando ediciones repetidas en la misma página, lo cual sería costoso en términos de rendimiento.

#### 2. **Detección de plagio con MOSS y huellas digitales Rabin-Karp**

El sistema **MOSS** (Measure of Software Similarity) se utiliza principalmente para detectar plagio en tareas de programación. Uno de los algoritmos fundamentales que utiliza MOSS es una variante del **algoritmo de Rabin-Karp**, que se basa en la **huella digital k-grama**. Un **k-grama** es una subcadena contigua de longitud **k**. Este algoritmo compara las huellas digitales de las subcadenas de dos textos, y cuando estas coinciden, se concluye que las subcadenas son similares.

En el algoritmo de Rabin-Karp, se calculan **hashes deslizantes** para las subcadenas de longitud k. Esto significa que para calcular el hash de una subcadena de k-grama desplazada una posición a la derecha, solo se realiza una operación constante ($O(1)$), lo que hace que el algoritmo sea eficiente en comparación con las comparaciones de caracteres. 

Sin embargo, el uso de este algoritmo directamente para comparar todos los documentos sería demasiado lento, ya que tendría un rendimiento de $O(n^2)$ en el peor de los casos. Para mejorar esto, MOSS utiliza una **tabla invertida** que mapea las huellas digitales de k-gramas a sus posiciones en los documentos. Esto reduce el tiempo de comparación al filtrar solo aquellos documentos que tienen coincidencias en lugar de comparar todos los documentos entre sí.

Además, MOSS utiliza una **selección representativa de huellas digitales** por documento. Se selecciona, por ejemplo, el hash mínimo de las subcadenas de cada ventana de caracteres consecutivos (como una ventana de 50 caracteres), lo que ayuda a evitar perder coincidencias grandes consecutivas.



#### **El problema de O(1) en el diseño de estructuras de datos**

El desafío de diseñar estructuras de datos que garanticen operaciones en tiempo constante O(1) para **búsquedas**, **inserciones** y **eliminaciones** radica en el hecho de que las funciones de hash deben mapear cada elemento potencial a un bucket en una tabla hash. El conjunto de todos los elementos posibles, denominado **universo U**, es generalmente mucho mayor que el tamaño del conjunto de datos real.

En escenarios ideales, como cuando el conjunto de datos es conocido de antemano, puede ser posible diseñar una tabla hash con una función de hash especializada para ese conjunto de datos, lo que permitiría operaciones en tiempo constante. Por ejemplo, si el conjunto de datos está compuesto por 100 números y se tiene una tabla hash de tamaño 100, se puede diseñar una función de hash que garantice que cada número se mapee a un bucket único, asegurando un rendimiento perfecto.

Sin embargo, en la mayoría de las situaciones, los datos no son predecibles, y diseñar una función de hash perfecta para todos los posibles conjuntos de datos es extremadamente difícil. El **tamaño del universo U** es considerablemente más grande que el número de elementos en el conjunto de datos real, lo que significa que las funciones de hash deben ser capaces de distribuir los elementos de manera uniforme en los buckets. Si bien se busca evitar **colisiones**, es posible que algunos elementos se mapeen al mismo bucket, lo que puede llevar a un rendimiento subóptimo.

Un ejemplo de esto es el caso de los números de teléfono, donde si el conjunto de datos tiene un tamaño de 100,000 elementos y la tabla hash tiene un tamaño de 1,000,000, es probable que haya colisiones y que algunos buckets contengan una gran cantidad de elementos.


#### **La complejidad del hashing eficiente**

El principal desafío del hashing eficaz radica en la creación de funciones de hash que asignen de manera óptima los elementos al **espacio limitado de la tabla hash**. En muchos casos, especialmente cuando los datos son impredecibles, no es posible diseñar una función de hash que garantice una distribución perfecta sin colisiones. Las funciones de hash modernas están diseñadas para minimizar las colisiones, pero aún es posible que ocurran en casos raros.

Aunque las colisiones son inevitables, el diseño de una **buena función de hash** puede reducir significativamente su ocurrencia, asegurando que el rendimiento de la tabla hash siga siendo cercano a $O(1)$ en la mayoría de los casos. Sin embargo, es importante tener en cuenta que en algunos escenarios, como cuando el conjunto de datos es muy grande o el universo de posibles entradas es extremadamente amplio, las tablas hash pueden enfrentar dificultades y el rendimiento puede caer a $O(n)$.



### Resolución de Colisiones: Teoría vs. Práctica

El hashing es una técnica utilizada en estructuras de datos como las tablas hash, y una de las dificultades comunes es la **resolución de colisiones**. En este contexto, dos de los métodos más utilizados para resolver colisiones son el **sondeo (probing) lineal** y el **encadenamiento**.

#### 1. **Encadenamiento**

El **encadenamiento** implica que cada bucket de la tabla hash tenga asociado un contenedor adicional (como una lista enlazada o un árbol de búsqueda binaria) donde se almacenan los elementos que colisionan en ese bucket. En la práctica, la inserción de nuevos elementos en el encadenamiento se realiza al principio de la lista, lo que tiene un costo de $O(1)$, pero la búsqueda y eliminación dependen de la distribución de los elementos en los buckets, ya que pueden requerir recorrer la lista o árbol. 

Este método es fácil de implementar y maneja de manera eficiente las colisiones, pero su rendimiento depende de cuán uniformemente se distribuyen los elementos entre los buckets. Si las colisiones son frecuentes, las listas o árboles asociados a los buckets pueden crecer, lo que afecta la eficiencia.

#### 2. **Sondeo lineal**
El **sondeo lineal** es una técnica de **direccionamiento abierto**, donde los elementos se almacenan directamente dentro de los propios espacios de la tabla hash. Cuando ocurre una colisión (es decir, el bucket determinado por la función de hash ya está ocupado), el sondeo lineal busca el siguiente espacio disponible en la tabla, desplazándose de manera secuencial. Si es necesario, se envuelve alrededor del final de la tabla. El **sondeo cuadrático** es una variante donde la búsqueda de la próxima posición sigue una secuencia cuadrática en lugar de lineal.

#### 3. **Comparación teórica: Encadenamiento vs. Sondeo Lineal**
Teóricamente, en un escenario donde las funciones de hash son ideales (aleatorias), las técnicas de resolución de colisiones tienen límites definidos. Se asume que las funciones de hash distribuyen los elementos uniformemente entre los buckets. En este caso, el **encadenamiento** ofrece una longitud promedio de la cadena en un bucket que es $O(\log n/l\og \log n)$, lo que significa que las operaciones de búsqueda y eliminación tienen un tiempo de ejecución logarítmico. Aunque esto es eficiente, una búsqueda logarítmica no proporciona una mejora significativa sobre un árbol de búsqueda binaria.

El **sondeo lineal**, en cambio, también puede presentar una complejidad de $O(\log n)$ en el peor de los casos, dependiendo de la distribución de los elementos y la forma en que se manejen las colisiones. Sin embargo, se demuestra que las funciones de hash **k-independientes** (funciones que son aleatorias de manera controlada) pueden mejorar la distribución, reduciendo las colisiones y logrando una eficiencia cercana a $O(1)$ en la práctica.

#### 4. **Dificultades en la implementación práctica**
A pesar de los modelos teóricos, la implementación real de las tablas hash y la resolución de colisiones enfrenta varios desafíos. Un aspecto clave es el acceso a la memoria. En el caso del **sondeo lineal**, los elementos están distribuidos de manera secuencial en la memoria, lo que mejora el rendimiento al aprovechar la **caché de la CPU**. Dado que las búsquedas en el sondeo lineal suelen ser más cortas que el tamaño de la caché de la CPU, el tiempo de acceso a memoria es bajo, lo que mejora el rendimiento real.

En contraste, el **encadenamiento** utiliza memoria no secuencial para almacenar los elementos en listas o árboles, lo que provoca un mayor acceso a la memoria y, por lo tanto, puede resultar más lento en términos de tiempo de ejecución, debido al costo adicional de la gestión de memoria.

Además, **cuckoo hashing**, una variante de la resolución de colisiones, promete una búsqueda constante en el peor de los casos al usar dos funciones de hash y dos ubicaciones posibles para cada elemento. Sin embargo, debido a que las ubicaciones de los elementos pueden estar separadas, el costo de búsqueda puede aumentar debido al acceso a diferentes puntos de la memoria.

En muchos lenguajes de programación modernos, como Python, la implementación de estructuras de diccionario clave-valor se realiza utilizando tablas hash con uno de estos métodos de resolución de colisiones. A pesar de las diferencias teóricas en cuanto al rendimiento del sondeo lineal y el encadenamiento, en la práctica, el sondeo lineal es preferido en muchos casos debido a su menor costo de acceso a la memoria, especialmente en implementaciones de alto rendimiento.

Aunque el sondeo lineal puede parecer teóricamente inferior al encadenamiento en términos de la longitud de las cadenas y la complejidad logarítmica, su **eficiencia práctica** lo convierte en la opción preferida en muchas implementaciones de tablas hash. La **secuencia de acceso a la memoria** es clave en este rendimiento, ya que el acceso secuencial en el sondeo lineal puede ser mucho más rápido debido a la proximidad de los elementos en la memoria.


### **Escenario de uso: cómo lo hace el diccionario de Python**

Los diccionarios clave-valor son comunes en muchos lenguajes de programación. En C++, se implementan como `map` y `unordered_map`, mientras que en Java, se usan `HashMap`. Estos, junto con el diccionario `dict` de Python, están basados en tablas hash. El diccionario de Python utiliza una implementación eficiente con tablas hash, que se gestionan mediante una función de hash y un mecanismo para resolver colisiones.

En Python, el diccionario `dict` es una estructura clave-valor. A continuación, se muestra un ejemplo simple de cómo crear, modificar y acceder a claves y valores:




In [None]:
d = {'turmeric': 7, 'cardamom': 5, 'oregano': 12}
print(d.keys())  
print(d.values())  
print(d.items())  
d.update({'saffron': 11})  
print(d.items())

Los diccionarios en Python, implementados en CPython, utilizan **tablas hash** para almacenar y buscar elementos de manera eficiente. A continuación se explica cómo se implementa el **hashing** para claves enteras en la implementación predeterminada de Python.

Cuando las claves del diccionario son enteros, la tabla hash se implementa con un tamaño `m = 2^i`. La función de hash utilizada es:

```python
h(x) = x mod 2^i
```

Esto significa que el número de **bucket** se determina por los últimos `i` bits de la representación binaria de la clave `x`. Esta estrategia funciona bien en situaciones comunes, como cuando las claves son secuencias de números consecutivos, ya que no produce colisiones. Sin embargo, hay casos donde esta función de hash puede fallar, como cuando las claves tienen los mismos últimos `i` bits, lo que provoca **agrupaciones** o secuencias largas de colisiones.

Para resolver las colisiones en estos casos, Python emplea un mecanismo de **sondeo lineal**. El proceso de sondeo lineal intenta encontrar una posición libre en la tabla hash comenzando desde el índice `j`, que es calculado mediante la siguiente fórmula:

```python
j = ((5 * j) + 1) mod 2^i
```

Aquí, `j` es el índice de un **bucket** donde intentaremos insertar el siguiente elemento. Si el espacio en ese bucket está ocupado, repetimos el proceso usando el nuevo valor de `j`. Este enfoque asegura que todos los **buckets** de la tabla hash sean visitados con el tiempo y evita la formación de agrupaciones, mejorando la distribución de los elementos en la tabla.


Además, para asegurarse de que se usen los **bits más altos** de la clave en el cálculo del índice, se utiliza la variable `perturb`. Esta variable se inicializa con el valor calculado por la función de hash `h(x)`, y se ajusta usando un valor constante `PERTURB_SHIFT` (establecido en 5). El cálculo para el nuevo índice es el siguiente:

```python
perturb >>= PERTURB_SHIFT
j = (5 * j) + 1 + perturb
```

El siguiente bucket donde intentaremos insertar el elemento se calcula con:

```python
j % 2^i
```

El diseño de Python y la mayoría de las implementaciones prácticas de tablas hash se enfoca en **optimizar el caso común**, es decir, situaciones donde las claves están distribuidas de manera uniforme. La idea es hacer que el caso común sea rápido y simple, sin preocuparse demasiado por los casos raros que puedan ocurrir ocasionalmente.

A continuación se presenta un ejemplo de cómo se podría simular el proceso de sondeo lineal en Python, utilizando una tabla hash simple con resolución de colisiones mediante sondeo lineal y la variable `perturb`.

In [None]:
class CustomDict:
    def __init__(self, size):
        self.size = size
        self.table = [None] * size
        self.PERTURB_SHIFT = 5  # Definición del desplazamiento de perturbación

    def hash_function(self, key):
        return key % self.size

    def insert(self, key, value):
        j = self.hash_function(key)
        original_j = j
        perturb = self.hash_function(key)  # Inicia la perturbación con la función de hash

        while self.table[j] is not None:
            if self.table[j][0] == key:
                # Si la clave ya existe, actualizamos el valor
                self.table[j] = (key, value)
                return
            # Sondeo lineal con perturbación
            perturb >>= self.PERTURB_SHIFT  # Desplazamos los bits de la perturbación
            j = (5 * j + 1 + perturb) % self.size  # Cálculo con perturbación para evitar agrupamientos

            # Si hemos recorrido todos los espacios y llegamos al punto de inicio, la tabla está llena
            if j == original_j:
                raise Exception("La tabla hash está llena")

        # Si el bucket está vacío, insertamos la clave y su valor
        self.table[j] = (key, value)

    def get(self, key):
        j = self.hash_function(key)
        original_j = j
        perturb = self.hash_function(key)

        while self.table[j] is not None:
            if self.table[j][0] == key:
                return self.table[j][1]  # Retorna el valor si la clave coincide
            perturb >>= self.PERTURB_SHIFT  # Desplazamiento de perturbación
            j = (5 * j + 1 + perturb) % self.size  # Sondeo lineal con perturbación

            if j == original_j:
                break  # Si hemos recorrido todo y no encontramos la clave, salimos del bucle

        return None  # Si no se encuentra la clave, retorna None

    def display(self):
        for index, item in enumerate(self.table):
            if item is not None:
                print(f"Index {index}: {item}")


# Ejemplo de uso
my_dict = CustomDict(20)  # Aumenta el tamaño de la tabla
my_dict.insert(1, "apple")
my_dict.insert(2, "banana")
my_dict.insert(12, "grape")
my_dict.insert(22, "orange")

my_dict.display()

# Acceder a un valor
print(f"Valor para la clave 2: {my_dict.get(2)}")


### MurmurHash
MurmurHash es una función de hash rápida y no criptográfica, ampliamente utilizada en estructuras de datos. Está basada en operaciones simples de multiplicación y rotación. Python tiene un envoltorio para MurmurHash llamado `mmh3`, que permite generar hashes de 32, 64 y 128 bits. Se puede instalar utilizando el siguiente comando:



In [None]:
!pip install mmh3

El paquete mmh3 ofrece varias formas de realizar hashing. Una función de hash básica ofrece una forma de producir enteros de 32 bits con y sin signo utilizando diferentes semillas: 

In [None]:
import mmh3 
print(mmh3.hash("Hello")) 
print(mmh3.hash(key = "Hello", seed = 5, signed = True)) 
print(mmh3.hash(key = "Hello", seed = 20, signed = True))
print(mmh3.hash(key = "Hello", seed = 20, signed = False)) 


Para producir hashes de 64 bits y 128 bits, usamos las funciones hash64 y hash128, donde hash64 utiliza la función de hash de 128 bits y produce un par de hashes de 64 bits con o sin signo. Ambas funciones de hash de 64 bits y 128 bits nos permiten especificar la arquitectura (x64 o x86) para optimizar la función en la arquitectura dada: 

In [None]:
print(mmh3.hash64("Hello")) 
print(mmh3.hash64(key = "Hello", seed = 0, x64arch= True, signed = True)) 
print(mmh3.hash64(key = "Hello", seed = 0, x64arch= False, signed = True)) 
print(mmh3.hash128("Hello")) 

### Tablas hash para sistemas distribuidos: Hashing consistente

El **hashing consistente** se destacó por primera vez en el contexto de las **cachés web**, que son esenciales en la informática moderna para mejorar el rendimiento y reducir la latencia en sistemas distribuidos. Las cachés almacenan copias de las páginas web más frecuentemente solicitadas por los usuarios para aliviar los puntos críticos que ocurren cuando muchos clientes solicitan la misma página web desde un servidor. Al colocar cachés entre los clientes y los servidores, las solicitudes pueden ser atendidas más rápidamente, distribuyendo la carga entre varios nodos de caché para evitar sobrecargar cualquier caché individual.

Cuando una página solicitada no está disponible en la caché, se produce un **"cache miss"**. En este caso, la caché debe obtener el sitio web directamente desde el servidor de origen. Para hacer esto de manera eficiente, es fundamental **asignar recursos (páginas web) a los nodos (cachés)** de forma efectiva y balanceada. La asignación debe cumplir con las siguientes restricciones:

1. **Mapeo rápido y sencillo**: El cliente y el servidor deben poder calcular rápidamente qué nodo es responsable de un recurso dado.
2. **Carga balanceada**: Los recursos deben distribuirse de manera equitativa entre los nodos para evitar sobrecargar cualquier nodo.
3. **Flexibilidad en un entorno dinámico**: Los nodos pueden entrar y salir de la red con frecuencia, por lo que los recursos deben poder ser reasignados eficientemente cuando un nodo falla o cuando se agrega un nuevo nodo a la red. Este proceso debe ser transparente y no afectar significativamente a los nodos o recursos existentes.

#### El Problema del hashing en entornos distribuidos

El **hashing consistente** ayuda a resolver estos problemas al asignar recursos a nodos mediante una función de hash. En una tabla hash, los **nodos** actúan como **buckets**, y la función de hash se utiliza para determinar qué nodo alberga cada recurso. Cuando un cliente realiza una solicitud, se aplica la función de hash al recurso solicitado y se determina el nodo correspondiente para satisfacer la solicitud.

Sin embargo, en un entorno distribuido dinámico, donde los nodos pueden unirse o salir de la red de manera constante, los cambios frecuentes pueden afectar la asignación de recursos a los nodos. Cuando un nodo se retira de la red, sus recursos deben ser reasignados rápidamente a otros nodos, y cuando un nuevo nodo se une, debe recibir una parte igual de la carga de la red. Si esta reasignación no se maneja adecuadamente, el balance de carga podría verse afectado, y los recursos podrían quedar desbalanceados entre los nodos.

En las tablas hash clásicas, cuando la carga de la tabla se acerca a su capacidad máxima, es necesario **redimensionar** la tabla. Esto implica rehacer el hash usando una nueva función de hash con un rango diferente y copiar los elementos a una nueva tabla. Este proceso es costoso, pero suele ser tolerable porque generalmente se realiza pocas veces, amortizándose frente a un gran número de operaciones rápidas.

Sin embargo, en el caso de **sistemas distribuidos altamente dinámicos** como las cachés web, donde los nodos se unen y salen frecuentemente, este tipo de redimensionamiento no es viable. Cada vez que un nodo entra o sale de la red, se necesitaría actualizar la asignación de recursos, lo que sería costoso y podría interrumpir el funcionamiento de la red. Redimensionar la tabla y cambiar las asignaciones de recursos con cada pequeña variación en la red sería impráctico y poco eficiente.

#### Hashing consistente como solución

El **hashing consistente** resuelve este problema mediante un enfoque que minimiza la reubicación de recursos cuando los nodos se agregan o eliminan de la red. En lugar de rehacer el hash para toda la tabla cada vez que ocurre un cambio, el hashing consistente permite que solo una pequeña parte de los recursos se reasigne cuando un nodo entra o sale de la red. Esto garantiza que el sistema siga funcionando de manera eficiente, incluso con cambios dinámicos en la red.

De esta manera, el **hashing consistente** es especialmente útil en sistemas donde la red está en constante cambio, como las cachés web, ya que permite una distribución de recursos eficiente y flexible, sin necesidad de realizar costosos reajustes en la asignación de nodos y recursos. Esto asegura que la carga entre los nodos se mantenga equilibrada, incluso en un entorno altamente dinámico.

#### Hashring

El **hashing consistente** es un algoritmo utilizado para distribuir recursos de manera eficiente en sistemas distribuidos, como los sistemas de caché web. La idea principal es aplicar hashing tanto a los recursos como a los nodos en un rango fijo $R = [0, 2^k - 1]$, lo que permite distribuir los recursos de manera uniforme en un anillo llamado **hashring**. Este anillo se visualiza como un círculo en el que el punto más al norte corresponde a 0 y el resto del rango se extiende en el sentido de las agujas del reloj. Los nodos y recursos tienen una posición definida en este círculo por sus valores de hash.

Cada recurso se asigna al primer nodo encontrado en el sentido horario del anillo. La distribución de recursos debe ser equitativa entre los nodos para evitar que algunos nodos estén sobrecargados. Para ilustrar cómo funciona el hashing consistente y las llegadas y salidas de nodos, se presenta una implementación en Python de una clase **HashRing**.



In [None]:
class Node:
    def __init__(self, hashValue):
        self.hashValue = hashValue  # Valor de hash que determina la posición del nodo en el anillo
        self.resources = {}  # Diccionario para almacenar los recursos del nodo
        self.next = None  # Nodo siguiente
        self.previous = None  # Nodo anterior

class HashRing:
    def __init__(self, k):
        self.head = None  # Nodo principal (cabecera del anillo)
        self.k = k  # Rango de la tabla de hash, determina el tamaño del anillo
        self.min = 0  # Valor mínimo de hash
        self.max = 2**k - 1  # Valor máximo de hash (2^k - 1)

    # Método que verifica si un valor de hash está dentro del rango legal
    def legalRange(self, hashValue):
        return self.min <= hashValue <= self.max

    # Método que calcula la distancia entre dos valores de hash en el anillo
    def distance(self, a, b):
        if a == b:
            return 0  # Si son iguales, la distancia es 0
        elif a < b:
            return b - a  # Si a es menor que b, la distancia es b - a
        else:
            return (2**self.k) + (b - a)  # Si a es mayor que b, la distancia pasa por el final del anillo

    # Método para buscar el nodo adecuado para un recurso dado un valor de hash
    def lookupNode(self, hashValue):
        if self.legalRange(hashValue):  # Verificar que el hashValue esté dentro del rango legal
            temp = self.head
            if temp is None:  # Si el anillo está vacío, no hay nodos
                return None
            else:
                # Recorremos el anillo buscando el nodo más cercano en el sentido horario
                while(self.distance(temp.hashValue, hashValue) > self.distance(temp.next.hashValue, hashValue)):
                    temp = temp.next
                if temp.hashValue == hashValue:
                    return temp  # Si encontramos el nodo exacto, lo devolvemos
                return temp.next  # Si no, devolvemos el siguiente nodo

    # Método auxiliar para mover los recursos entre nodos
    def moveResources(self, dest, orig, deleteTrue):
        delete_list = []  # Lista para almacenar los recursos a eliminar
        for i, j in orig.resources.items():  # Recorrer los recursos del nodo original
            if (self.distance(i, dest.hashValue) < self.distance(i, orig.hashValue) or deleteTrue):
                dest.resources[i] = j  # Mover el recurso al nodo destino
                delete_list.append(i)  # Agregar el recurso a la lista de eliminación
                print("\tMoviendo un recurso " + str(i) + " desde " + str(orig.hashValue) + " a " + str(dest.hashValue))
        for i in delete_list:  # Eliminar los recursos movidos del nodo original
            del orig.resources[i]

    # Método para agregar un nuevo nodo al anillo de hash
    def addNode(self, hashValue):
        if self.legalRange(hashValue):  # Verificar que el hashValue esté dentro del rango legal
            newNode = Node(hashValue)  # Crear un nuevo nodo con el hashValue dado
            if self.head is None:  # Si el anillo está vacío, agregar el nodo como la cabecera
                newNode.next = newNode
                newNode.previous = newNode
                self.head = newNode
                print("Agregando un nodo cabecera " + str(newNode.hashValue) + "...")
            else:
                # Buscar el nodo adecuado para insertar el nuevo nodo
                temp = self.lookupNode(hashValue)
                newNode.next = temp
                newNode.previous = temp.previous
                newNode.previous.next = newNode
                newNode.next.previous = newNode
                print("Agregando un nodo " + str(newNode.hashValue) + ". Su anterior es " + str(newNode.previous.hashValue) + ", y su siguiente es " + str(newNode.next.hashValue) + ".")
                self.moveResources(newNode, newNode.next, False)  # Mover los recursos a la nueva posición
                if hashValue < self.head.hashValue:  # Actualizar la cabeza del anillo si es necesario
                    self.head = newNode

    # Método para agregar un recurso al nodo adecuado según su valor de hash
    def addResource(self, hashValueResource):
        if self.legalRange(hashValueResource):  # Verificar que el hashValueResource esté dentro del rango legal
            print("Agregando un recurso " + str(hashValueResource) + "...")
            targetNode = self.lookupNode(hashValueResource)  # Buscar el nodo correspondiente
            if targetNode is not None:
                value = "Valor del recurso de " + str(hashValueResource)
                targetNode.resources[hashValueResource] = value  # Asignar el recurso al nodo
            else:
                print("No se puede agregar un recurso a un hashring vacío")

    # Método para eliminar un nodo y reasignar sus recursos
    def removeNode(self, hashValue):
        temp = self.lookupNode(hashValue)  # Buscar el nodo a eliminar
        if temp.hashValue == hashValue:
            print("Eliminando el nodo " + str(hashValue) + ":")
            self.moveResources(temp.next, temp, True)  # Mover los recursos del nodo eliminado al siguiente nodo
            temp.previous.next = temp.next
            temp.next.previous = temp.previous
            if self.head.hashValue == hashValue:  # Actualizar la cabeza si se elimina el nodo principal
                self.head = temp.next
            if self.head == self.head.next:  # Si queda solo un nodo en el anillo
                self.head = None
            return temp.next
        else:
            print("Nada que eliminar.")

    # Método para imprimir el estado actual del HashRing
    def printHashRing(self):
        print("*****")
        print("Imprimiendo el hashring en orden horario:")
        temp = self.head
        if self.head is None:
            print("Hashring vacío")
        else:
            while(True):  # Recorrer el anillo e imprimir los nodos y sus recursos
                print("Nodo: " + str(temp.hashValue) + ", ", end=" ")
                print("Recursos: ", end=" ")
                if not bool(temp.resources):
                    print("Vacío", end="")
                else:
                    for i in temp.resources.keys():
                        print(str(i), end=" ")
                temp = temp.next
                print(" ")
                if (temp == self.head):  # Si hemos vuelto al inicio, terminamos
                    break
        print("*****")


# Ejemplo de uso
hr = HashRing(5)  # Creamos un HashRing con k=5
hr.addNode(12)  # Agregamos nodos
hr.addNode(18)
hr.addResource(24)
hr.addResource(21)
hr.addResource(16)
hr.addResource(23)
hr.addResource(2)
hr.addResource(29)
hr.addResource(28)
hr.addResource(7)
hr.addResource(10)
hr.printHashRing()

hr.addNode(5)
hr.addNode(27)
hr.addNode(30)
hr.printHashRing()

hr.removeNode(12)
hr.printHashRing()


En la implementación, la clase **Node** representa cada nodo en el anillo, con su `hashValue` que indica su posición, un diccionario `resources` que almacena los recursos del nodo, y punteros a los nodos siguiente y anterior para formar una lista doblemente enlazada.

La clase **HashRing** gestiona el anillo de hash. Su constructor usa el parámetro `k`, que define el rango de valores posibles para los valores de hash, y establece los valores mínimo y máximo de hash.

**Métodos básicos**

- **`legalRange`**: Este método asegura que los valores de hash de recursos y nodos estén dentro del rango permitido.
  
- **`distance`**: La función calcula la distancia circular entre dos valores de hash, considerando el anillo. Si el valor de hash `a` es mayor que `b`, la distancia se calcula teniendo en cuenta el ciclo del anillo.

La búsqueda del nodo adecuado para un recurso se realiza mediante el método **`lookupNode`**. Este método recorre el anillo de nodos y compara la distancia entre el valor de hash del recurso y los nodos. El nodo que se encuentra más cercano al recurso es el que lo asignará. La función compara las distancias de los nodos en el anillo, buscando el nodo en el que el recurso debe ser asignado.

Cuando se agrega un nuevo nodo al anillo, algunos recursos de nodos vecinos pueden necesitar ser reasignados al nuevo nodo, si están más cerca de este nodo en el sentido horario. La reasignación de recursos se maneja mediante el método **`moveResources`**. Este método mueve recursos de un nodo a otro si es necesario, y elimina los recursos de su nodo original.

Para agregar un nuevo nodo, se usa el método **`addNode`**. Este método verifica si el hash del nuevo nodo está dentro del rango y lo agrega al anillo, manteniendo la estructura de lista doblemente enlazada. También reasigna recursos si es necesario.

La eliminación de nodos se maneja con el método **`removeNode`**. Cuando un nodo se elimina, sus recursos son reasignados al siguiente nodo en el anillo. Este método también maneja los casos especiales, como cuando el nodo a eliminar es la cabeza del anillo o cuando el anillo contiene solo un nodo.


El método **`printHashRing`** imprime el estado del anillo de hash. Muestra los nodos en el orden creciente, en el sentido de las agujas del reloj, junto con los recursos almacenados en cada nodo.

**Ejemplo de uso**

En el ejemplo de uso, se crea un **HashRing** con un rango de valores de hash determinado por `k=5`. Luego, se agregan nodos y recursos al anillo. Después de agregar varios nodos y recursos, se imprime el estado del anillo. Posteriormente, se agregan más nodos y se muestra cómo los recursos se reasignan entre los nodos. Finalmente, se elimina un nodo y se muestra el estado actualizado del anillo.

Este proceso demuestra cómo el hashing consistente distribuye los recursos de manera eficiente, incluso cuando los nodos entran o salen del sistema, sin causar grandes alteraciones en el mapeo de recursos.


#### **Escenario de hashing consistente: Chord**

[Chord](https://en.wikipedia.org/wiki/Chord_(peer-to-peer))  es el protocolo de búsqueda distribuida para redes peer-to-peer que utiliza hashing consistente. El esquema de Chord, además de ser utilizado en varias redes peer-to-peer, también se ha reutilizado para Dynamo de Amazon, un almacén de datos altamente escalable que almacena varios servicios centrales de la plataforma de comercio electrónico de Amazon . 

El protocolo simplista de lista enlazada que implementamos deja mucho que desear en términos de eficiencia para un sistema de producción real. Para enrutar una solicitud desde un recurso, esperamos seguir un número lineal de punteros hacia adelante, y cada puntero de estos se traduce en una llamada de red entre dos máquinas. El tiempo requerido para enrutar la llamada no escalará en sistemas grandes. Además, para enrutar la solicitud, cada máquina necesita mantener una copia del hashring, lo que consume una cantidad no trivial de memoria local. 

Chord mejora el algoritmo básico haciendo que cada nodo almacene solo la información de otros $O(\log n)$ nodos. Cada nodo $x$ mantiene una llamada tabla de dedos que almacena el mapeo clave-valor de los puntos en el hashring a distancias exponenciales crecientes desde $x$ (key fingers) hacia sus nodos sucesores. Esto ayuda al algoritmo de búsqueda a encontrar el nodo correcto en un número logarítmico de pasos. 

Específicamente, para el hashring con intervalo $R = [0, 2^k - 1]$, la tabla de dedos de un nodo x contiene todos los fingers  $f_i$ tales que $\text{distance}(x, f_i) = 2^{i-1}$ para todos $i\leq k$. 

Los sucesores de los dedos pueden ser calculados utilizando el método `lookupNode` que implementamos anteriormente. 

¿Cómo podemos usar las tablas fingers para agilizar la búsqueda? La operación de búsqueda en este esquema funciona de tal manera que, si la tabla de dedos de un nodo donde se origina la solicitud no contiene el recurso y, entonces, el nodo reenvía la solicitud al sucesor determinado por el dedo con la distancia más pequeña al recurso. 

#### **Ejercicios**

**Ejercicio 1** 

Dada la clase `HashRing`, agrega un nuevo atributo fingerTable de tipo dict a la definición de la clase `Node`. Ahora implementa un método `buildFingerTables(self)` en la clase `HashRing` que construya una tabla de dedos para cada nodo en el hashring usando los métodos que ya implementamos. Junto con el par que contiene un dedo y un sucesor, tu tabla de dedos también debe almacenar el puntero directo al nodo dado (para permitir el acceso directo al nodo desde la tabla de dedos). 

**Ejercicio 2**

Ahora que cada nodo contiene su propia tabla de dedos, implementa una búsqueda más eficiente en un método `chordLookup(self, hashValue)`. Luego crea un gran hashring con decenas de miles de nodos y recursos, y mide el número promedio de saltos requeridos por el nuevo método de búsqueda. Compara eso con la búsqueda de tiempo lineal ingenua que implementamos. 

**Ejercicio 3**

Con la adición y eliminación de nodos, las tablas de dedos pueden quedar desactualizadas y necesitan ser reconstruidas. Modifica la implementación de `HashRing` para que las tablas de dedos siempre se mantengan actualizadas. 

In [None]:
## Tus respuestas