# Tarea: Ataque con Rainbow Tables a MD5

**Asignatura:** Criptograf√≠a (3.¬∫ Ingenier√≠a Matem√°tica)  
**Objetivo general:** Investigar y experimentar con ataques a la integridad de contrase√±as basados en rainbow tables aplicados al algoritmo MD5.

---

## Enunciado

### Contexto  
Las rainbow tables son una t√©cnica de pre‚Äëc√≥mputo que permite invertir funciones hash (como MD5) a costa de memoria adicional. En esta pr√°ctica, limitaremos el espacio de contrase√±as a todas las cadenas de 4 d√≠gitos (`"0000"`‚Äì`"9999"`) para atacar un hash objetivo y detectar colisiones.

### Pasos de la pr√°ctica

1. **Construcci√≥n de la Rainbow Table**  
   - Para cada contrase√±a de 4 d√≠gitos, generar una **cadena de transformaci√≥n** de longitud 4:  
     1. Calcular MD5 del valor actual.  
     2. Reducir (usando los primeros 8 d√≠gitos del hash + n√∫mero de ronda) a un n√∫mero 0000‚Äì9999.  
   - Almacenar en un diccionario `{ endpoint ‚Üí contrase√±a_inicial }`.  
   - Documentar en el informe cu√°ntas entradas hay y si surgieron colisiones en el endpoint durante el pre‚Äëc√≥mputo.

2. **Obtenci√≥n del Hash Objetivo y Generaci√≥n de la Cadena del Target**  
   - Elegir una contrase√±a real.  
   - Calcular su cadena de transformaci√≥n y anotar el **endpoint**.

3. **B√∫squeda en la Rainbow Table**  
   - Buscar ese endpoint en la tabla pre‚Äëcomputada.  
   - **Detectar colisiones y falso positivo**.

4. **Verificaci√≥n y An√°lisis de Colisiones**  

### Entregables - El trabajo se realizar√° sobre esta misma plantilla de forma individual

1. **Informe Markdown y c√≥digo Python** que incluya:    
   - C√≥digo Python completo y comentado.  
   - Discusi√≥n de resultados y conclusiones.
   - Tener ejecutada todas las celdas para facilitar su correci√≥n


---

## R√∫brica de Evaluaci√≥n

| Descriptor                    | Insuficiente (1‚Äì3)                                                                                                   | Satisfactorio (4‚Äì7)                                                                                                                                       | Sobresaliente (8‚Äì10)                                                                                                                                            |
|-------------------------------|-----------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **1. Comprensi√≥n te√≥rica**    | Conceptos de rainbow tables y MD5 confusos o err√≥neos; no identifica correctamente colisiones ni trade‚Äëoff tiempo/memoria. | Define correctamente rainbow tables y MD5; explica los pasos del ataque; menciona colisiones, aunque con vac√≠os conceptuales.                               | Explica con claridad y profundidad los conceptos: Merkle‚ÄìDamg√•rd, funci√≥n de reducci√≥n, colisiones, trade‚Äëoff; aporta referencias y ejemplos adicionales.        |
| **2. Implementaci√≥n pr√°ctica**| C√≥digo incompleto, sin comentarios o con errores que impiden la ejecuci√≥n; no muestra pasos en pantalla.               | C√≥digo funcional que genera la tabla y ataca el hash; incluye comentarios b√°sicos y muestra salidas por pantalla.                                          | C√≥digo muy bien estructurado y documentado; usa funciones reutilizables; muestra interactivamente cada paso con mensajes claros y capturas o gr√°ficos si procede. |
| **3. An√°lisis de resultados** | Informe sin discusi√≥n de resultados, o conclusiones equivocadas; no detecta ni explica colisiones.                   | Presenta resultados de forma clara; detecta colisiones y ofrece una breve reflexi√≥n sobre sus causas.                                                    | An√°lisis cr√≠tico y profundo: cuantifica colisiones, compara tasas de √©xito, discute c√≥mo ampliar√≠a el espacio o usar√≠a salt para mitigar ataques; propone mejoras. |

---
**Fecha de entrega:** 13 de mayo  
**Formato:** Markdown + c√≥digo  (Notebook Jupyter)
**Peso en la nota final:** 20% de la evaluaci√≥n de la asignatura en su parte ordinaria (40%) 


## üîß Funciones de Hashing y Reducci√≥n

A continuaci√≥n se definen tres funciones clave para construir la Rainbow Table:

### 1. `md5_hash(texto)`
Esta funci√≥n aplica el algoritmo MD5 a una cadena de texto y devuelve su hash en formato hexadecimal.

- **Entrada**: una contrase√±a como `"1234"`.
- **Salida**: un hash MD5 como `"81dc9bdb52d04dc20036dbd8313ed055"`.

### 2. `reducir(hash_hex, ronda)`
Transforma un hash largo (hexadecimal) en una contrase√±a de 4 d√≠gitos (`"0000"` a `"9999"`), usando una funci√≥n de reducci√≥n.

- Toma los primeros 8 caracteres del hash.
- Los convierte a un n√∫mero entero en base 16.
- Le suma el n√∫mero de ronda para evitar repeticiones.
- Lo reduce al rango 0000‚Äì9999 usando m√≥dulo.
- Devuelve ese n√∫mero como string de 4 cifras con ceros a la izquierda.

Este paso es fundamental en las Rainbow Tables para pasar de un hash largo a una clave corta dentro del espacio de b√∫squeda.

### 3. `calcular_endpoint(contrase√±a_inicial)`
Aplica 4 veces el proceso de hash y reducci√≥n para una contrase√±a dada. Devuelve el **endpoint**, que es el resultado final despu√©s de esas 4 transformaciones.

Este endpoint ser√° la clave usada en la Rainbow Table para asociarla con su contrase√±a inicial.

---


In [1]:
import hashlib

# Funci√≥n que aplica MD5 a una cadena y devuelve el hash en hexadecimal
def md5_hash(texto):
    return hashlib.md5(texto.encode()).hexdigest()

# Funci√≥n de reducci√≥n: convierte un hash en una contrase√±a de 4 d√≠gitos
def reducir(hash_hex, ronda):
    # Cogemos los primeros 8 caracteres del hash (32 bits)
    sub_hash = hash_hex[:8]
    # Lo convertimos a n√∫mero entero y le sumamos la ronda para evitar colisiones repetidas
    num = int(sub_hash, 16) + ronda
    # Lo llevamos al rango 0000-9999 con m√≥dulo
    reducido = str(num % 10000).zfill(4)
    return reducido

# Funci√≥n que calcula el endpoint de una contrase√±a haciendo 4 pasos de hash+reducci√≥n
def calcular_endpoint(contrase√±a_inicial):
    actual = contrase√±a_inicial
    for ronda in range(4):
        hash_actual = md5_hash(actual)
        actual = reducir(hash_actual, ronda)
    return actual  # Este es el endpoint final de la cadena

# Creamos la tabla rainbow
rainbow_table = {}

# Recorremos todas las contrase√±as de 0000 a 9999
for i in range(10000):
    inicio = str(i).zfill(4)
    endpoint = calcular_endpoint(inicio)
    
    # Guardamos solo si el endpoint a√∫n no est√° (evita colisiones)
    if endpoint not in rainbow_table:
        rainbow_table[endpoint] = inicio

# Mostrar algunos ejemplos de la tabla
for i, (end, start) in enumerate(rainbow_table.items()):
    print(f"{i+1}: {start} -> {end}")
    if i == 9:  # solo muestra los primeros 10
        break

# Informaci√≥n general
print(f"\nTama√±o total de la Rainbow Table: {len(rainbow_table)} entradas")


1: 0000 -> 5961
2: 0001 -> 1512
3: 0002 -> 1660
4: 0003 -> 9301
5: 0004 -> 7161
6: 0005 -> 9755
7: 0006 -> 8244
8: 0008 -> 7529
9: 0009 -> 6624
10: 0010 -> 0072

Tama√±o total de la Rainbow Table: 3157 entradas


## üìâ Colisiones durante la construcci√≥n de la Rainbow Table

Durante la generaci√≥n de la Rainbow Table se recorrieron todas las contrase√±as posibles de 4 d√≠gitos, es decir, un total de **10.000 combinaciones** (`"0000"` a `"9999"`). Para cada una de ellas, se aplic√≥ una cadena de 4 pasos de hash y reducci√≥n, y se almacen√≥ el `endpoint` final asociado a la contrase√±a inicial.

Sin embargo, al finalizar la construcci√≥n, observamos que la tabla contiene **solo 3.157 entradas √∫nicas**. Esto significa que se han producido **colisiones en los endpoints**, es decir, varias contrase√±as distintas han terminado generando el mismo `endpoint`.

Dado que en la implementaci√≥n de la tabla solo se guarda el primer valor asociado a cada endpoint (usando un diccionario), las colisiones provocan que se descarten las contrase√±as repetidas. En consecuencia, **se han perdido aproximadamente 6.843 combinaciones posibles**, lo que refleja el cl√°sico **compromiso entre memoria y cobertura** que presentan las Rainbow Tables.

Este resultado demuestra que, aunque la Rainbow Table es m√°s eficiente en memoria que una tabla exhaustiva, **no garantiza cobertura total del espacio de claves**.


In [3]:
# Repetimos el proceso de obtener el endpoint real
def obtener_endpoint_real(contrase√±a_real):
    actual = contrase√±a_real
    for ronda in range(4):
        hash_actual = md5_hash(actual)
        actual = reducir(hash_actual, ronda)
    return actual

# Vamos a probar con una lista de contrase√±as y ver si hay colisiones en sus endpoints

# Lista de 5 contrase√±as a probar
contrasenas_a_probar = ["1234", "5678", "0000", "2025", "9999"]

# Diccionario para guardar resultados
endpoints_info = []

for pwd in contrasenas_a_probar:
    endpoint = obtener_endpoint_real(pwd)
    inicio_posible = rainbow_table.get(endpoint, None)
    colision = (inicio_posible != pwd) if inicio_posible else None
    endpoints_info.append({
        "Contrase√±a_real": pwd,
        "Endpoint_obtenido": endpoint,
        "En_tabla": endpoint in rainbow_table,
        "Inicio_guardado_en_tabla": inicio_posible,
        "¬øHay_colisi√≥n?": colision
    })

# Mostrar resultados
import pandas as pd
df_endpoints = pd.DataFrame(endpoints_info)
df_endpoints



Unnamed: 0,Contrase√±a_real,Endpoint_obtenido,En_tabla,Inicio_guardado_en_tabla,¬øHay_colisi√≥n?
0,1234,5595,True,1234,False
1,5678,3002,True,665,True
2,0,5961,True,0,False
3,2025,8232,True,214,True
4,9999,8113,True,1327,True


## üîç Detecci√≥n de colisiones en endpoints

Para analizar c√≥mo afectan las colisiones a la Rainbow Table, se seleccionaron 5 contrase√±as distintas: `"1234"`, `"5678"`, `"0000"`, `"2025"` y `"9999"`. Para cada una de ellas, se aplicaron 4 pasos de hash y reducci√≥n para obtener su `endpoint`. Luego, se comprob√≥ si dicho endpoint ya estaba registrado en la Rainbow Table y, en caso afirmativo, con qu√© contrase√±a inicial estaba asociado.

### üìã Resultados

| Contrase√±a real | Endpoint obtenido | ¬øEst√° en la tabla? | Contrase√±a guardada | ¬øHay colisi√≥n? |
|------------------|-------------------|----------------------|----------------------|----------------|
| 1234             | 5595               | S√≠                   | 1234                 | No             |
| 5678             | 3002               | S√≠                   | distinta             | S√≠             |
| 0000             | 5961               | S√≠                   | 0000                 | No             |
| 2025             | 8232               | S√≠/No                | distinta                  | S√≠          |
| 9999             | 8113               | S√≠                   | distinta             | S√≠             |

*(Nota: los endpoints exactos y los valores reales de colisi√≥n se generan autom√°ticamente con el c√≥digo Python.)*

### üß† Conclusi√≥n

- Algunas contrase√±as como `"1234"` y `"0000"` no presentan colisi√≥n: el endpoint que generan est√° en la tabla y fue generado por ellas mismas.
- Otras como `"5678"`, `"2025"`  y `"9999"` s√≠ presentan colisi√≥n: su endpoint ya estaba en la tabla pero asociado a otra contrase√±a distinta.
- Este comportamiento refleja una limitaci√≥n clave de las Rainbow Tables: si varias contrase√±as generan el mismo endpoint, **solo se conserva la primera**, y el resto se pierde, haciendo imposible su recuperaci√≥n.

Esto evidencia el compromiso entre eficiencia y cobertura que implica este tipo de ataques por precomputaci√≥n.
