<a href="https://colab.research.google.com/github/andres-merino/MatematicasDiscretas-Virtual-05-N0279/blob/main/pages/clases/clase08/FuncionesHash.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<table style="border: none; border-collapse: collapse;">
    <tr>
        <td style="width: 20%; vertical-align: middle; padding-right: 10px;">
            <img src="https://i.imgur.com/nt7hloA.png" width="100">
        </td>
        <td style="width: 2px; text-align: center;">
            <font color="#0030A1" size="7">|</font><br>
            <font color="#0030A1" size="7">|</font>
        </td>
        <td>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="5">
                <b>Catálogo STEM</b>
            </font> </p>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="4">
                Relaciones de Equivalencia y Funciones Hash
            </font></p>
            <p style="font-style: oblique;"><font color="#0030A1" size="3">
                Andrés Merino &bull; Agosto 2025
            </font></p>
        </td>  
    </tr>
</table>

---
## <font color='264CC7'> Relaciones de equivalencia</font>
---

Una **relación de equivalencia** $R$ sobre un conjunto $A$ cumple:

1. **Reflexividad**: $a\, R\, a$
2. **Simetría**: $a\, R\, b \;\Rightarrow\; b\, R\, a$
3. **Transitividad**: $a\, R\, b$ y $b\, R\, c \;\Rightarrow\; a\, R\, c$

Cada relación de equivalencia particiona $A$ en **clases de equivalencia**.


---
## <font color='264CC7'> ¿Qué es un hash?</font>
---

Un **hash** es una representación numérica fija de un dato, usada para identificarlo de forma eficiente. Se aplica ampliamente en:

* **Guardado de contraseñas**: en lugar de almacenar la contraseña original, se guarda su *hash*. Cuando el usuario ingresa su contraseña, se calcula su hash y se compara. Si coinciden, se asume que las contraseñas son equivalentes.
* **Revisión de versiones**: sistemas como Git usan hashes para identificar versiones de archivos. Si dos versiones tienen el mismo hash, se consideran idénticas.

De manera formal, un hash es una función y `hash(x)` devuelve un entero (en ocasiones un hexadecimal) que sirve como **identificador** rápido de `x`. En este sentido, el hash puede definir una relación de equivalencia:
$$
x \sim y  \Leftrightarrow   hash(x) = hash(y).
$$

Aquí, las clases de equivalencia son los grupos de elementos que comparten el mismo hash.

Se esperaría que el hash de dos objetos distintos sea diferente, pero esto no siempre es posible debido a que el hash es una función que mapea un espacio potencialmente infinito (todos los posibles objetos) a un espacio finito (los enteros). Por lo tanto, es inevitable que diferentes objetos puedan producir el mismo hash, lo que se conoce como **colisión de hash**.

Veamos algunos ejemplos simples. Iniciemos con un hash que determine la longitud de un texto:

In [1]:
def hash_text_length(text):
    return len(text)

Si tenemos un conjunto de datos, podemos generar las clases de equivalencia dadas por el hash. Primero calculemos algunos hashes:

In [2]:
# Datos base: 
datos = ["hola", "adiós", "chat", "gpt", "IA", "bot", "code", "rules"]

# Hash de hola, chat y gpt
print("Hash de 'hola':", hash_text_length("hola"))
print("Hash de 'chat':", hash_text_length("chat"))
print("Hash de 'gpt':", hash_text_length("gpt"))


Hash de 'hola': 4
Hash de 'chat': 4
Hash de 'gpt': 3


Como podemos ver, los hashes de "hola" y "chat" son iguales, lo que significa que pertenecen a la misma clase de equivalencia. Esto es un ejemplo de colisión de hash, donde diferentes entradas producen el mismo hash.

Ahora, determinemos las clases de equivalencia para todos los datos.

In [3]:
# Generación de clases de equivalencia
clases_equivalencia = {}
for texto in datos:
    hash_val = hash_text_length(texto)
    if hash_val not in clases_equivalencia:
        clases_equivalencia[hash_val] = []
    clases_equivalencia[hash_val].append(texto)

# Mostrando las clases de equivalencia
for hash_val, textos in clases_equivalencia.items():
    print(f"Hash: {hash_val} -> Textos: {textos}")

Hash: 4 -> Textos: ['hola', 'chat', 'code']
Hash: 5 -> Textos: ['adiós', 'rules']
Hash: 3 -> Textos: ['gpt', 'bot']
Hash: 2 -> Textos: ['IA']


Como podemos ver, este hash no es muy bueno dado que existen clases de equivalencia con múltiples elementos, es decir, existen colisiones.

Ahora, consideremos otro hash que tenga en cuenta el contenido de los textos, no solo su longitud. Por ejemplo, podríamos usar una función hash más compleja que combine que tome el ordinal de cada caracter del texto (por ejemplo, el ordinal de 'a' es 97), los sume y, para tener un número delimitado, aplique el módulo de un número primo.

In [4]:
def hash_text_content(texto):
    contenido_hash = sum(ord(caracter) for caracter in texto) % 31
    return contenido_hash

Generemos las clases de equivalencia:

In [5]:
# Generación de clases de equivalencia
clases_equivalencia = {}
for texto in datos:
    hash_val = hash_text_content(texto)
    if hash_val not in clases_equivalencia:
        clases_equivalencia[hash_val] = []
    clases_equivalencia[hash_val].append(texto)

# Mostrando las clases de equivalencia
for hash_val, textos in clases_equivalencia.items():
    print(f"Hash: {hash_val} -> Textos: {textos}")

Hash: 17 -> Textos: ['hola']
Hash: 9 -> Textos: ['adiós']
Hash: 13 -> Textos: ['chat']
Hash: 21 -> Textos: ['gpt']
Hash: 14 -> Textos: ['IA']
Hash: 15 -> Textos: ['bot']
Hash: 8 -> Textos: ['code']
Hash: 28 -> Textos: ['rules']


Dado que todas las clases de equivalencia son disjuntas, podemos afirmar que el hash que hemos implementado es una función de hash válida en nuestro conjunto de datos. Pero si ampliamos nuestro conjunto de datos, es posible que se produzcan colisiones. 


In [6]:
# Datos base: 
datos = ["hola", "adiós", "chat", "gpt", "IA", "bot", "code", "rules", "amor"]

# Generación de clases de equivalencia
clases_equivalencia = {}
for texto in datos:
    hash_val = hash_text_content(texto)
    if hash_val not in clases_equivalencia:
        clases_equivalencia[hash_val] = []
    clases_equivalencia[hash_val].append(texto)

# Mostrando las clases de equivalencia
for hash_val, textos in clases_equivalencia.items():
    print(f"Hash: {hash_val} -> Textos: {textos}")

Hash: 17 -> Textos: ['hola']
Hash: 9 -> Textos: ['adiós']
Hash: 13 -> Textos: ['chat']
Hash: 21 -> Textos: ['gpt']
Hash: 14 -> Textos: ['IA']
Hash: 15 -> Textos: ['bot']
Hash: 8 -> Textos: ['code']
Hash: 28 -> Textos: ['rules', 'amor']


Como vemos, solo agregando una palabra más, ya tenemos una clase de equivalencia con dos elementos, "rules" y "amor". En este caso, nuestro hash ha generado una colisión.


Un ejemplo de hash que se usan en la práctica es el algoritmo SHA-1, que produce un hash de 160 bits.


In [7]:
import hashlib

# Generación de clases de equivalencia
clases_equivalencia = {}
for texto in datos:
    hash_val = hashlib.sha1(texto.encode()).hexdigest()
    if hash_val not in clases_equivalencia:
        clases_equivalencia[hash_val] = []
    clases_equivalencia[hash_val].append(texto)

# Mostrando las clases de equivalencia
for hash_val, textos in clases_equivalencia.items():
    print(f"Hash: {hash_val} -> Textos: {textos}")

Hash: 99800b85d3383e3a2fb45eb7d0066a4879a9dad0 -> Textos: ['hola']
Hash: 01674e46d2551bcc1778e001e09ceb47a0ee31f9 -> Textos: ['adiós']
Hash: 7ecde348ff9cda2c3ba69a0c4543365039d0d65b -> Textos: ['chat']
Hash: b84ab73df2228c86f0ba49223e222a70948918a6 -> Textos: ['gpt']
Hash: d41daf5937a59238d6dd74dc0d89dea1307a99f8 -> Textos: ['IA']
Hash: c71e7261d37a4f6ae4cfb0cbd79081310a237e67 -> Textos: ['bot']
Hash: e6fb06210fafc02fd7479ddbed2d042cc3a5155e -> Textos: ['code']
Hash: caa155adf81fddd29ab4b21a147927fb0295eb53 -> Textos: ['rules']
Hash: f56fe68c0a0ae4ee32e66f54df90db08ad4334eb -> Textos: ['amor']
