# Conjuntos (HashSet)

**Curso:** Estructuras de Datos (Ingeniería de Sistemas)

**Propósito:** Comprender y aplicar las ideas clave del tema, analizando complejidad y usos prácticos.

### Objetivos de aprendizaje
- Reconocer el modelo de datos y operaciones fundamentales.
- Analizar la complejidad temporal y espacial de las operaciones clave.
- Implementar y probar funciones en Python con casos de uso reales.
- Comparar ventajas y limitaciones frente a alternativas.


### Teoría esencial

Estructura basada en hashing para pertenencia sin duplicados.
Operaciones promedio:
- inserción, búsqueda, eliminación: O(1) promedio; O(n) peor caso por colisiones.

### Guía de estudio
- Identifica operaciones fundamentales y su costo asintótico.
- Observa invariante(s) de la estructura (lo que siempre debe cumplirse).
- Relaciona la estructura con patrones de uso en software (colas de trabajo, caches, planificadores, etc.).

### Implementación base (desde el archivo `.py`)
El siguiente bloque contiene el código original.

In [None]:
print('*** Manejo de Sets ***')
# Crear un conjunto
mi_set = {1, 2, 3, 4, 5, 4}
print(f'Mi set: {mi_set}')

# Agregar elementos al set
mi_set.add(6)
mi_set.add(7)

# Intentamos agregar un elemento duplicado
mi_set.add(3)

# Eliminar un elemento del conjunto
mi_set.remove(4)
print(f'Mi set modificado: {mi_set}')

# Iterar los elementos del set
for elemento in mi_set:
    print(elemento, end=' ')

# Comprobar si existe un elemento en el set
print(f'\nExiste el valor de 1 en el set? {1 in mi_set}')

# Obtener la longitud del set
print(f'Longitud del conjunto: {len(mi_set)}')

### Pruebas rápidas
Usa estos ejemplos para verificar comportamientos básicos. Ajusta según tus funciones.

In [None]:
# Agrega aquí tus pruebas unitarias

### Complejidad (análisis informal)
Completa esta tabla de forma crítica, justificando cada costo.

| Operación | Mejor caso | Promedio | Peor caso | Nota |
|---|---|---|---|---|
| op1 | O( ) | O( ) | O( ) |  |
| op2 | O( ) | O( ) | O( ) |  |
| op3 | O( ) | O( ) | O( ) |  |

### Ejercicios propuestos
1. Implementa pruebas unitarias con `pytest` para al menos 5 funciones/operaciones.
2. Mide empíricamente tiempos (con `timeit`) al variar n, y compara con el análisis teórico.
3. Extiende la implementación para cubrir un caso límite (overflow, colisión, degeneración, etc.).
4. Escribe una breve reflexión: ¿en qué contextos reales usarías esta estructura sobre sus alternativas?

### Desarrollo de los ejercicios
**1. Pruebas unitarias:** Se creó `src/set_ops.py` con operaciones y `tests/test_set_ops.py` cubriendo: creación, add (idempotencia), remove (éxito y excepción), unión/intersección/diferencia, tamaño, pertenencia y un caso de colisiones extremas (`BadHash`).

**2. Medición empírica:** Script `benchmarks/bench_set_ops.py` compara tiempos de `contains` y `add` para enteros normales vs objetos `BadHash` que fuerzan colisiones (hash constante). Esperado: escenario normal casi constante (O(1) promedio) y el degenerado crece más con n.

**3. Caso límite / degeneración:** La clase `BadHash` demuestra cómo el abuso de colisiones puede degradar el rendimiento teórico, acercando operaciones a O(n).

**4. Reflexión (resumen):** Un `set` es ideal para pruebas rápidas de pertenencia, eliminación de duplicados, operaciones de algebra de conjuntos (recomendaciones, filtros de permisos, etc.) sobre tamaños moderados a grandes; comparado con listas evita O(n) en búsqueda. Frente a `dict`, se usa cuando sólo importa la clave (no un valor asociado). Frente a estructuras ordenadas, se sacrifica orden para ganar eficiencia promedio.


In [None]:
# Benchmark rápido inline (complementario al script en benchmarks)
from timeit import repeat
from ppython_sda.src.set_ops import create_set, add_element, contains, BadHash

sizes = [10, 100, 1000, 5000]
res = []
for n in sizes:
    normal = create_set(range(n))
    deg = create_set(BadHash(i) for i in range(n))
    setup = "from __main__ import normal, contains"  # normal in scope
    t_contains = min(repeat(stmt="contains(normal, 0)", setup=setup, number=50, repeat=3))/50
    # Degenerado: pick an element
    setup2 = "from __main__ import deg, contains"
    t_contains_deg = min(repeat(stmt="contains(deg, list(deg)[0])", setup=setup2, number=50, repeat=3))/50
    res.append((n, t_contains, t_contains_deg))

print("n\tnormal_contains\tdegen_contains (BadHash)")
for n, t1, t2 in res:
    print(f"{n}\t{t1:.3e}\t{t2:.3e}")
print("\nObserva si la columna degenerada crece más rápidamente -> efecto de colisiones.")

#### Comparación empírico vs teórico
En el caso normal, los tiempos de `contains` permanecen casi planos (O(1) promedio). Con `BadHash`, al aumentar n la estructura pierde eficiencia porque todas las inserciones comparten bucket, acercándose a un comportamiento lineal. Esto ilustra por qué la calidad de las funciones hash y la dispersión de claves son críticas para mantener la complejidad promedio ideal.

Conclusión: los sets son potentes para pertenencia y álgebra de conjuntos, pero dependen de una buena función hash y claves apropiadas para garantizar su rendimiento típico.

### Referencias rápidas
- Cormen, Leiserson, Rivest, Stein. *Introduction to Algorithms* (CLRS).
- Sedgewick & Wayne. *Algorithms*.
- Documentación oficial de Python: `collections`, `heapq`, `bisect`, `array`.

*Fuente de código:* `16-EjemploSets-UP.py`  — Generado automáticamente el 2025-09-08 22:41.