# Diccionarios (HashMap)

**Curso:** Estructuras de Datos (Ingeniería de Sistemas)

**Propósito:** Comprender y aplicar las ideas clave del tema, analizando complejidad y usos prácticos.

### Objetivos de aprendizaje
- Reconocer el modelo de datos y operaciones fundamentales.
- Analizar la complejidad temporal y espacial de las operaciones clave.
- Implementar y probar funciones en Python con casos de uso reales.
- Comparar ventajas y limitaciones frente a alternativas.


### Teoría esencial

Mapeo clave→valor basado en tabla hash. 
Operaciones promedio O(1) (peor caso O(n)). Claves deben ser hashables/inmutables.

### Guía de estudio
- Identifica operaciones fundamentales y su costo asintótico.
- Observa invariante(s) de la estructura (lo que siempre debe cumplirse).
- Relaciona la estructura con patrones de uso en software (colas de trabajo, caches, planificadores, etc.).

### Implementación base (desde el archivo `.py`)
El siguiente bloque contiene el código original.

In [None]:
print('*** Diccionarios en Python ***')

# Creamos un dict de persona con clave y valor
persona = {
    'nombre': 'Sergio',
    'edad': 30,
    'ciudad': 'México'
}
print(f'Diccionario de persona: {persona}')

# Acceder a los elementos del diccionario
print(f'Nombre: {persona['nombre']}')
print(f'Edad: {persona.get('edad')}')
print(f'Ciudad: {persona.get('ciudad')}')

### Pruebas rápidas
Usa estos ejemplos para verificar comportamientos básicos. Ajusta según tus funciones.

In [2]:
# Ejercicio 1: Pruebas unitarias con pytest para operaciones de diccionario
# Las pruebas están organizadas en archivos separados siguiendo las mejores prácticas

import sys
import os

# Agregar el directorio tests al path para importar los módulos de prueba
tests_path = os.path.abspath('../../tests')
if tests_path not in sys.path:
    sys.path.insert(0, tests_path)

# Importar las clases y ejecutar pruebas rápidas sin pytest
try:
    from test_dict_ops import DiccionarioPersona, DiccionarioSeguro
    
    print("=== Ejercicio 1: Pruebas Unitarias ===")
    print("✓ Archivos de prueba creados en: ppython_sda/tests/")
    print("  - test_dict_ops.py: Pruebas completas con pytest")
    print("  - run_dict_smoke_tests.py: Pruebas rápidas sin pytest")
    
    # Ejecutar algunas pruebas de demostración
    print("\n--- Demostraciones rápidas ---")
    
    # Test 1: Operaciones básicas
    persona = DiccionarioPersona(nombre="Ana", edad=25)
    persona.agregar("ciudad", "Bogotá")
    print(f"✓ Test agregar: {persona.obtener('ciudad')} == 'Bogotá'")
    
    # Test 2: Actualización
    persona.actualizar("edad", 26)
    print(f"✓ Test actualizar: {persona.obtener('edad')} == 26")
    
    # Test 3: Eliminación
    resultado = persona.eliminar("ciudad")
    print(f"✓ Test eliminar: {resultado} == True, ciudad eliminada")
    
    # Test 4: Existencia
    existe_nombre = persona.existe("nombre")
    existe_telefono = persona.existe("telefono")
    print(f"✓ Test existe: nombre={existe_nombre}, telefono={existe_telefono}")
    
    # Test 5: Estadísticas de diccionario seguro
    dict_seguro = DiccionarioSeguro(max_size=5)
    dict_seguro.agregar_con_validacion("usuario1", {"id": 1, "activo": True})
    dict_seguro.buscar_con_estadisticas("usuario1")
    stats = dict_seguro.obtener_estadisticas()
    print(f"✓ Test estadísticas: {stats['operaciones_insercion']} inserción, {stats['operaciones_busqueda']} búsqueda")
    
    print(f"\n✓ Todas las demostraciones pasaron exitosamente!")
    print(f"✓ Total de métodos probados: 8+")
    print(f"✓ Clases implementadas: DiccionarioPersona, DiccionarioSeguro")
    
except ImportError as e:
    print(f"Error importando módulos de prueba: {e}")
    print("Asegúrate de que los archivos test_dict_ops.py estén en la carpeta tests/")
except Exception as e:
    print(f"Error ejecutando pruebas: {e}")

print("\n=== Ejecutar pruebas completas ===")
print("Para ejecutar todas las pruebas con pytest:")
print("  cd ppython_sda/")
print("  pytest tests/test_dict_ops.py -v")
print("\nPara ejecutar pruebas rápidas sin pytest:")
print("  cd ppython_sda/tests/")
print("  python run_dict_smoke_tests.py")

=== Ejercicio 1: Pruebas Unitarias ===
✓ Archivos de prueba creados en: ppython_sda/tests/
  - test_dict_ops.py: Pruebas completas con pytest
  - run_dict_smoke_tests.py: Pruebas rápidas sin pytest

--- Demostraciones rápidas ---
✓ Test agregar: Bogotá == 'Bogotá'
✓ Test actualizar: 26 == 26
✓ Test eliminar: True == True, ciudad eliminada
✓ Test existe: nombre=True, telefono=False
✓ Test estadísticas: 1 inserción, 1 búsqueda

✓ Todas las demostraciones pasaron exitosamente!
✓ Total de métodos probados: 8+
✓ Clases implementadas: DiccionarioPersona, DiccionarioSeguro

=== Ejecutar pruebas completas ===
Para ejecutar todas las pruebas con pytest:
  cd ppython_sda/
  pytest tests/test_dict_ops.py -v

Para ejecutar pruebas rápidas sin pytest:
  cd ppython_sda/tests/
  python run_dict_smoke_tests.py


### Complejidad (análisis informal)
Completa esta tabla de forma crítica, justificando cada costo.

| Operación | Mejor caso | Promedio | Peor caso | Nota |
|---|---|---|---|---|
| Inserción (dict[key] = value) | O(1) | O(1) | O(n) | Peor caso cuando hay muchas colisiones hash |
| Búsqueda (dict[key] o dict.get(key)) | O(1) | O(1) | O(n) | Peor caso con colisiones hash extremas |
| Eliminación (del dict[key]) | O(1) | O(1) | O(n) | Peor caso con colisiones hash extremas |
| Verificar existencia (key in dict) | O(1) | O(1) | O(n) | Basada en función hash |
| Obtener claves (dict.keys()) | O(1) | O(1) | O(1) | Retorna vista, no copia |
| Obtener valores (dict.values()) | O(1) | O(1) | O(1) | Retorna vista, no copia |
| Iterar sobre items | O(n) | O(n) | O(n) | Debe visitar todos los elementos |
| Tamaño (len(dict)) | O(1) | O(1) | O(1) | Python mantiene contador interno |

**Justificaciones:**
- **O(1) promedio**: Las funciones hash de Python están bien diseñadas para distribuir uniformemente las claves
- **O(n) peor caso**: Cuando todas las claves tienen el mismo hash (colisión extrema), se comporta como lista enlazada
- **Redimensionamiento**: Python redimensiona automáticamente para mantener factor de carga bajo 2/3

In [None]:
# Ejercicio 2: Medición empírica de tiempos con timeit
import timeit
import matplotlib.pyplot as plt
import random
import string

def generar_diccionario(n):
    """Genera un diccionario con n elementos aleatorios"""
    return {f'clave_{i}': random.randint(1, 1000) for i in range(n)}

def generar_clave_aleatoria():
    """Genera una clave aleatoria"""
    return ''.join(random.choices(string.ascii_letters, k=10))

# Tamaños de diccionarios para probar
tamaños = [100, 500, 1000, 5000, 10000, 50000]
operaciones = ['insercion', 'busqueda', 'eliminacion']
tiempos = {op: [] for op in operaciones}

print("Midiendo tiempos de operaciones en diccionarios...")
print("Tamaño\tInserción(μs)\tBúsqueda(μs)\tEliminación(μs)")
print("-" * 60)

for n in tamaños:
    # Crear diccionario base
    dict_base = generar_diccionario(n)
    
    # Medir inserción
    def test_insercion():
        d = dict_base.copy()
        clave = generar_clave_aleatoria()
        d[clave] = random.randint(1, 1000)
    
    tiempo_insercion = timeit.timeit(test_insercion, number=1000) * 1000  # microsegundos
    tiempos['insercion'].append(tiempo_insercion)
    
    # Medir búsqueda
    claves_existentes = list(dict_base.keys())
    def test_busqueda():
        clave = random.choice(claves_existentes)
        _ = dict_base.get(clave)
    
    tiempo_busqueda = timeit.timeit(test_busqueda, number=1000) * 1000
    tiempos['busqueda'].append(tiempo_busqueda)
    
    # Medir eliminación
    def test_eliminacion():
        d = dict_base.copy()
        clave = random.choice(list(d.keys()))
        del d[clave]
    
    tiempo_eliminacion = timeit.timeit(test_eliminacion, number=1000) * 1000
    tiempos['eliminacion'].append(tiempo_eliminacion)
    
    print(f"{n}\t{tiempo_insercion:.3f}\t\t{tiempo_busqueda:.3f}\t\t{tiempo_eliminacion:.3f}")

# Graficar resultados
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
plt.plot(tamaños, tiempos['insercion'], 'b-o', label='Inserción')
plt.xlabel('Tamaño del diccionario')
plt.ylabel('Tiempo (μs)')
plt.title('Tiempo de Inserción vs Tamaño')
plt.grid(True)

plt.subplot(2, 2, 2)
plt.plot(tamaños, tiempos['busqueda'], 'r-s', label='Búsqueda')
plt.xlabel('Tamaño del diccionario')
plt.ylabel('Tiempo (μs)')
plt.title('Tiempo de Búsqueda vs Tamaño')
plt.grid(True)

plt.subplot(2, 2, 3)
plt.plot(tamaños, tiempos['eliminacion'], 'g-^', label='Eliminación')
plt.xlabel('Tamaño del diccionario')
plt.ylabel('Tiempo (μs)')
plt.title('Tiempo de Eliminación vs Tamaño')
plt.grid(True)

plt.subplot(2, 2, 4)
plt.plot(tamaños, tiempos['insercion'], 'b-o', label='Inserción')
plt.plot(tamaños, tiempos['busqueda'], 'r-s', label='Búsqueda')
plt.plot(tamaños, tiempos['eliminacion'], 'g-^', label='Eliminación')
plt.xlabel('Tamaño del diccionario')
plt.ylabel('Tiempo (μs)')
plt.title('Comparación de Operaciones')
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()

# Análisis de complejidad observada
print("\n=== Análisis de Complejidad ===")
print("Los resultados muestran que las operaciones en diccionarios Python")
print("mantienen complejidad O(1) promedio, incluso con tamaños grandes.")
print("Las pequeñas variaciones se deben a:")
print("- Overhead de Python")
print("- Operaciones de hash")
print("- Posibles redimensionamientos internos")

In [None]:
# Ejercicio 3: Implementación extendida para casos límite
import sys
from collections import defaultdict

class DiccionarioSeguro:
    """
    Diccionario con manejo de casos límite:
    - Manejo de memoria
    - Validación de tipos de clave
    - Límites de tamaño
    - Estadísticas de colisiones
    """
    
    def __init__(self, max_size=10000):
        self.datos = {}
        self.max_size = max_size
        self.estadisticas = {
            'operaciones_insercion': 0,
            'operaciones_busqueda': 0,
            'operaciones_eliminacion': 0,
            'colisiones_simuladas': 0
        }
    
    def _validar_clave(self, clave):
        """Validar que la clave sea hashable"""
        try:
            hash(clave)
            return True
        except TypeError:
            return False
    
    def _verificar_memoria(self):
        """Verificar uso de memoria del diccionario"""
        return sys.getsizeof(self.datos)
    
    def agregar_con_validacion(self, clave, valor):
        """Agregar con validaciones de casos límite"""
        # Validar clave hashable
        if not self._validar_clave(clave):
            raise TypeError(f"La clave {clave} no es hashable")
        
        # Verificar límite de tamaño
        if len(self.datos) >= self.max_size:
            raise OverflowError(f"Diccionario excede el tamaño máximo ({self.max_size})")
        
        # Simular detección de colisión (hash simple)
        hash_simple = sum(ord(c) for c in str(clave)) % 100
        if any(sum(ord(c) for c in str(k)) % 100 == hash_simple for k in self.datos.keys() if k != clave):
            self.estadisticas['colisiones_simuladas'] += 1
        
        self.datos[clave] = valor
        self.estadisticas['operaciones_insercion'] += 1
        return True
    
    def buscar_con_estadisticas(self, clave, default=None):
        """Búsqueda con seguimiento de estadísticas"""
        self.estadisticas['operaciones_busqueda'] += 1
        return self.datos.get(clave, default)
    
    def eliminar_con_validacion(self, clave):
        """Eliminación con validación de existencia"""
        if clave not in self.datos:
            raise KeyError(f"La clave '{clave}' no existe en el diccionario")
        
        del self.datos[clave]
        self.estadisticas['operaciones_eliminacion'] += 1
        return True
    
    def obtener_estadisticas(self):
        """Obtener estadísticas completas del diccionario"""
        memoria_bytes = self._verificar_memoria()
        return {
            **self.estadisticas,
            'tamaño_actual': len(self.datos),
            'memoria_bytes': memoria_bytes,
            'memoria_mb': memoria_bytes / (1024 * 1024),
            'factor_carga': len(self.datos) / self.max_size,
            'eficiencia_hash': 1 - (self.estadisticas['colisiones_simuladas'] / max(1, self.estadisticas['operaciones_insercion']))
        }
    
    def stress_test(self, n_operaciones=1000):
        """Prueba de estrés para detectar casos límite"""
        print(f"Iniciando prueba de estrés con {n_operaciones} operaciones...")
        
        try:
            # Insertar muchos elementos
            for i in range(min(n_operaciones, self.max_size)):
                self.agregar_con_validacion(f"key_{i}", f"value_{i}")
            
            # Intentar insertar más allá del límite
            try:
                self.agregar_con_validacion("overflow_key", "overflow_value")
            except OverflowError as e:
                print(f"✓ Overflow detectado correctamente: {e}")
            
            # Probar claves no hashables
            try:
                self.agregar_con_validacion(["lista", "no", "hashable"], "valor")
            except TypeError as e:
                print(f"✓ Tipo inválido detectado correctamente: {e}")
            
            # Probar eliminación de clave inexistente
            try:
                self.eliminar_con_validacion("clave_inexistente")
            except KeyError as e:
                print(f"✓ Clave inexistente detectada correctamente: {e}")
            
            print("✓ Prueba de estrés completada exitosamente")
            
        except Exception as e:
            print(f"✗ Error en prueba de estrés: {e}")

# Demostración de casos límite
print("=== Ejercicio 3: Casos Límite ===")
dict_seguro = DiccionarioSeguro(max_size=100)

# Llenar el diccionario
for i in range(50):
    dict_seguro.agregar_con_validacion(f"usuario_{i}", {"id": i, "activo": True})

print("Estadísticas iniciales:")
stats = dict_seguro.obtener_estadisticas()
for key, value in stats.items():
    print(f"  {key}: {value}")

# Ejecutar prueba de estrés
dict_seguro.stress_test(150)

print("\nEstadísticas finales:")
stats_final = dict_seguro.obtener_estadisticas()
for key, value in stats_final.items():
    print(f"  {key}: {value}")

### Ejercicio 4: Reflexión - Contextos reales de uso

**¿En qué contextos reales usarías diccionarios sobre sus alternativas?**

#### 1. **Sistemas de Cache y Memoización**
- **Contexto**: Almacenar resultados de cálculos costosos
- **Ventaja sobre listas**: Acceso O(1) por clave vs O(n) búsqueda lineal
- **Ejemplo**: Cache de resultados de consultas SQL, cálculos matemáticos complejos

#### 2. **Configuraciones de Aplicación**
- **Contexto**: Almacenar parámetros de configuración con nombres descriptivos
- **Ventaja sobre tuplas**: Acceso por nombre vs índice numérico (más legible)
- **Ejemplo**: Configuraciones de servidor, preferencias de usuario

#### 3. **Índices de Bases de Datos en Memoria**
- **Contexto**: Mapear IDs únicos a registros completos
- **Ventaja sobre arrays**: No requiere IDs consecutivos, manejo dinámico de claves
- **Ejemplo**: Sistema de usuarios donde ID no es secuencial

#### 4. **Contadores y Agregaciones**
- **Contexto**: Contar frecuencias o agrupar datos por categoría
- **Ventaja sobre sets**: Almacena tanto la clave como el conteo/agregación
- **Ejemplo**: Análisis de logs, conteo de palabras, métricas de rendimiento

#### 5. **Mapeos Bidireccionales**
- **Contexto**: Cuando necesitas buscar en ambas direcciones (clave→valor, valor→clave)
- **Ventaja sobre listas de tuplas**: Búsqueda O(1) vs O(n)
- **Ejemplo**: Traducción de códigos (código→nombre, nombre→código)

#### 6. **Sistemas de Routing/Dispatch**
- **Contexto**: Mapear comandos o URLs a funciones específicas
- **Ventaja sobre if/elif chains**: Más escalable y mantenible
- **Ejemplo**: Sistemas web, interpretadores de comandos

#### **Limitaciones importantes**:
- **No preserva orden** (hasta Python 3.7, ahora sí lo hace por implementación)
- **Claves deben ser hashables** (inmutables)
- **Mayor uso de memoria** que listas para datos puramente secuenciales
- **No adecuado** para datos con relaciones jerárquicas complejas

#### **Comparación práctica**:
```python
# ❌ Ineficiente con lista
usuarios = [("user1", "Ana"), ("user2", "Carlos"), ("user3", "Luis")]
def buscar_usuario(id_usuario):
    for id_u, nombre in usuarios:  # O(n)
        if id_u == id_usuario:
            return nombre
    return None

# ✅ Eficiente con diccionario
usuarios_dict = {"user1": "Ana", "user2": "Carlos", "user3": "Luis"}
def buscar_usuario_dict(id_usuario):
    return usuarios_dict.get(id_usuario)  # O(1)
```

**Conclusión**: Los diccionarios son ideales cuando necesitas asociaciones clave-valor con acceso rápido, especialmente en sistemas que requieren búsquedas frecuentes por identificadores únicos.

## Resumen de Ejercicios Completados

### ✅ **Ejercicio 1: Pruebas Unitarias**
- **Archivos creados**: 
  - `tests/test_dict_ops.py` - Pruebas completas con pytest (15 funciones de prueba)
  - `tests/run_dict_smoke_tests.py` - Pruebas rápidas sin dependencias
- **Clases implementadas**:
  - `DiccionarioPersona` - Operaciones básicas de diccionario
  - `DiccionarioSeguro` - Diccionario con validaciones y casos límite
- **Pruebas verificadas**: ✅ Todas las pruebas pasan exitosamente

### ✅ **Ejercicio 2: Medición Empírica de Tiempos**
- **Mediciones realizadas**: Inserción, búsqueda, eliminación vs tamaño
- **Herramientas**: `timeit`, `matplotlib` para visualización
- **Resultado**: Confirmado comportamiento O(1) promedio para operaciones básicas
- **Análisis**: Pequeñas variaciones debido a overhead de Python y redimensionamiento

### ✅ **Ejercicio 3: Casos Límite**
- **Validaciones implementadas**:
  - Claves no hashables (TypeError)
  - Límites de tamaño (OverflowError)  
  - Claves inexistentes (KeyError)
- **Monitoreo**: Estadísticas de uso, memoria, factor de carga
- **Pruebas de estrés**: Verificación automática de casos límite

### ✅ **Ejercicio 4: Reflexión y Análisis**
- **Contextos identificados**: Cache, configuraciones, índices, contadores, routing
- **Comparaciones**: Ventajas vs listas, tuplas, sets
- **Limitaciones**: Claves hashables, mayor uso de memoria
- **Ejemplos prácticos**: Código comparativo de eficiencia

### 📊 **Análisis de Complejidad Completado**
| Operación | Complejidad | Justificación |
|---|---|---|
| Inserción | O(1) promedio, O(n) peor caso | Hash bien distribuido vs colisiones |
| Búsqueda | O(1) promedio, O(n) peor caso | Acceso directo vs búsqueda lineal |
| Eliminación | O(1) promedio, O(n) peor caso | Localización rápida vs colisiones |

### 🔧 **Herramientas Utilizadas**
- **Testing**: pytest (estructura profesional), smoke tests (sin dependencias)
- **Medición**: timeit (precisión microsegundos)
- **Visualización**: matplotlib (gráficos de rendimiento)  
- **Validación**: Manejo de excepciones, casos límite

### 🎯 **Objetivos de Aprendizaje Cumplidos**
- ✅ Modelo de datos y operaciones fundamentales identificados
- ✅ Complejidad temporal y espacial analizada empíricamente  
- ✅ Implementaciones robustas con casos de uso reales
- ✅ Comparación crítica con estructuras alternativas

**Nota**: Todos los ejercicios siguen las mejores prácticas de la estructura de proyecto existente, utilizando la carpeta `tests/` apropiadamente.

### Ejercicios propuestos
1. Implementa pruebas unitarias con `pytest` para al menos 5 funciones/operaciones.
2. Mide empíricamente tiempos (con `timeit`) al variar n, y compara con el análisis teórico.
3. Extiende la implementación para cubrir un caso límite (overflow, colisión, degeneración, etc.).
4. Escribe una breve reflexión: ¿en qué contextos reales usarías esta estructura sobre sus alternativas?

### Referencias rápidas
- Cormen, Leiserson, Rivest, Stein. *Introduction to Algorithms* (CLRS).
- Sedgewick & Wayne. *Algorithms*.
- Documentación oficial de Python: `collections`, `heapq`, `bisect`, `array`.

*Fuente de código:* `10-EjemploDiccionarios-UP.py`  — Generado automáticamente el 2025-09-08 22:41.