# Estructuras de Datos Avanzadas: `collections` y `Enum`

En este notebook, exploraremos herramientas de la biblioteca estándar que nos permiten manejar datos de forma más eficiente y escribir código más claro y robusto.

* **`collections`**: Proporciona estructuras de datos especializadas que son versiones "con superpoderes" de los diccionarios y listas.
* **`Enum`**: Permite crear enumeraciones, que es la forma profesional de manejar un conjunto de constantes con nombre.

## 1. El Módulo `collections`

### `defaultdict`: El Diccionario que Nunca da Error
`defaultdict` se comporta como un diccionario normal, pero si intentas acceder a una clave que no existe, en lugar de dar un `KeyError`, crea la clave automáticamente con un valor por defecto que tú definas.
* **Uso en DS:** Perfecto para **agrupar datos** sin necesidad de verificar si la clave ya existe en cada iteración.

In [16]:
from collections import defaultdict

# Queremos agrupar los scores por departamento.
# Le decimos que el valor por defecto para una clave nueva será una lista vacía (list).
datos_agrupados = defaultdict(list)

scores = [("Ventas", 85), ("Marketing", 92), ("Ventas", 78)]

for depto, score in scores:
    # La primera vez que vea "Ventas", crea la lista. La segunda, solo hace el append.
    datos_agrupados[depto].append(score)

print(datos_agrupados)

defaultdict(<class 'list'>, {'Ventas': [85, 78], 'Marketing': [92]})


### `Counter`: El Contador Automático
`Counter` es una subclase de diccionario diseñada específicamente para contar frecuencias. Es la forma más rápida y eficiente de hacer lo que hicimos manualmente en el "Analizador de Logs".
* **Uso en DS:** Es la herramienta #1 para el **Análisis Exploratorio de Datos (EDA)**. Perfecta para obtener la distribución de frecuencia de una variable categórica o para contar palabras en NLP.

In [8]:
from collections import Counter

# Tenemos una lista de categorías de productos vendidos
ventas_categorias = ['electronica', 'hogar', 'ropa', 'electronica', 'juguetes', 'hogar', 'electronica']

# Counter hace todo el trabajo de contar en una sola línea
conteo_categorias = Counter(ventas_categorias)
print(f"Conteo de ventas: {conteo_categorias}")

# Su método más útil: .most_common()
print(f"La categoría más vendida es: {conteo_categorias.most_common(1)}")

<class 'list'>
Conteo de ventas: Counter({'electronica': 3, 'hogar': 2, 'ropa': 1, 'juguetes': 1})
La categoría más vendida es: [('electronica', 3)]


### `deque`: La Fila de Doble Extremo
`deque` (se pronuncia "deck") es una estructura similar a una lista, pero súper optimizada para añadir y quitar elementos de sus **extremos** (el principio y el final).
* **Uso en DS:** Ideal para trabajar con **datos en streaming** o **series de tiempo**. Se usa para calcular "ventanas móviles" (ej. el promedio de los últimos 7 días) o para guardar un historial de los últimos N eventos.

In [15]:
from collections import deque

# Guardaremos un historial de los últimos 3 sensores activados
historial_sensores = deque(maxlen=3)
print(f"Historial inicial: {historial_sensores}")

historial_sensores.append("Sensor Puerta")
print(f"Se activa sensor puerta: {historial_sensores}")

historial_sensores.append("Sensor Ventana")
print(f"Se activa sensor ventana: {historial_sensores}")

# Al añadir un elemento, si el deque está lleno, el más antiguo se elimina automáticamente
historial_sensores.append("Sensor Movimiento")
print(f"Se activa sensor movimiento: {historial_sensores}")

historial_sensores.append("Sensor Garaje")
print(f"Se activa sensor garaje (el de la puerta se eliminó): {historial_sensores}")

Historial inicial: deque([], maxlen=3)
Se activa sensor puerta: deque(['Sensor Puerta'], maxlen=3)
Se activa sensor ventana: deque(['Sensor Puerta', 'Sensor Ventana'], maxlen=3)
Se activa sensor movimiento: deque(['Sensor Puerta', 'Sensor Ventana', 'Sensor Movimiento'], maxlen=3)
Se activa sensor garaje (el de la puerta se eliminó): deque(['Sensor Ventana', 'Sensor Movimiento', 'Sensor Garaje'], maxlen=3)


## 2. Enumeraciones (`Enum`): Creando Constantes Claras

Una enumeración es un conjunto de nombres simbólicos (miembros) vinculados a valores únicos y constantes. Son la forma profesional de manejar un conjunto fijo de estados o categorías.

* **Uso en DS:** Mejoran la legibilidad del código al evitar "números mágicos" o strings hardcodeados. Por ejemplo, para definir los estados de un pipeline de datos (`RAW`, `PROCESSED`, `VALIDATED`) o las categorías de un modelo (`SPAM`, `NOT_SPAM`).

In [None]:
from enum import Enum

# Creamos una enumeración para los estados de una orden
class EstadoOrden(Enum):
    PENDIENTE = 1
    ENVIADO = 2
    ENTREGADO = 3
    CANCELADO = 4

# Ahora podemos usar los nombres en lugar de números, lo que es mucho más claro
estado_actual = EstadoOrden.ENVIADO

def verificar_estado_orden(status: EstadoOrden):
    if status == EstadoOrden.PENDIENTE:
        return "La orden está pendiente."
    elif status == EstadoO"orden ha sido enviada."
    elif status == EstadoOrden.ENTREGADO:
        return "La orden ha sido entregada."
    else:
        return "La orden ha sido cancelada."

print(verificar_estado_orden(estado_actual))

# También puedes acceder a su nombre y valor
print(f"Nombre del estado: {estado_actual.name}, Valor: {estado_actual.value}")

# Collections: La Caja de Herramientas para Estructuras de Datos

El módulo `collections` nos proporciona estructuras de datos especializadas que son versiones "con superpoderes" de los diccionarios, listas y tuplas estándar. Son increíblemente eficientes y nos permiten escribir código más limpio y legible para tareas comunes.

## 1. `collections.Counter`

Un diccionario optimizado para contar la frecuencia de elementos. Es tu herramienta #1 para el Análisis Exploratorio de Datos (EDA).

| Método | Descripción y Uso en DS |
| :--- | :--- |
| `Counter(iterable)` | **Constructor.** Crea un diccionario con elementos como claves y sus frecuencias como valores. **Uso:** Obtener la distribución de una variable categórica en una línea. |
| `.most_common(n)` | **El más importante.** Devuelve una lista de tuplas `(elemento, conteo)` de los `n` elementos más comunes. **Uso:** Encontrar las palabras más frecuentes en NLP, los productos más vendidos, etc. |
| `.elements()` | Devuelve un iterador que repite cada elemento según su conteo. **Uso:** Reconstruir una lista a partir de un resumen de frecuencias para muestreo. |

In [9]:
from collections import Counter

# Lista de categorías de productos vendidos
ventas_categorias = ['electronica', 'hogar', 'ropa', 'electronica', 'juguetes', 'hogar', 'electronica']

# Creamos el contador y obtenemos las 2 categorías más vendidas
conteo_categorias = Counter(ventas_categorias)
print(f"Conteo de ventas: {conteo_categorias}")
print(f"Las 2 categorías más vendidas: {conteo_categorias.most_common(2)}")

Conteo de ventas: Counter({'electronica': 3, 'hogar': 2, 'ropa': 1, 'juguetes': 1})
Las 2 categorías más vendidas: [('electronica', 3), ('hogar', 2)]


## 2. `collections.defaultdict`

Un diccionario que asigna un valor por defecto a las claves que no existen, evitando errores (`KeyError`) y simplificando la lógica de agrupación.

| Método | Descripción y Uso en DS |
| :--- | :--- |
| `defaultdict(factory)` | **Constructor.** El `factory` (ej. `list`, `int`) define qué valor por defecto se creará para una clave nueva. **Uso:** `defaultdict(list)` para agrupar valores, `defaultdict(int)` para construir contadores. |
| `__missing__(key)` | El método "mágico" que se llama internamente cuando una clave no existe para crear el valor por defecto. |

In [None]:
from collections import defaultdict

transacciones = [('Bogota', 150), ('Medellin', 80), ('Bogota', 200)]

# Le decimos que el valor por defecto para una clave nueva será una lista vacía (list)
ventas_por_ciudad = defaultdict(list)

# El bucle se simplifica enormemente, sin necesidad de un if/else
for ciudad, venta in transacciones:
    ventas_por_ciudad[ciudad].append(venta)

print(ventas_por_ciudad)

## 3. `collections.deque`

Una lista optimizada para añadir y quitar elementos de forma muy rápida por ambos extremos (se pronuncia "deck").

| Método | Descripción y Uso en DS |
| :--- | :--- |
| `deque(iterable, maxlen)` | **Constructor.** `maxlen` limita el tamaño. Si se llena, al añadir un elemento, el del otro extremo se elimina. |
| `.append(x)` / `.appendleft(x)` | Añade un elemento al final o al principio. **Uso:** Ideal para procesar datos en streaming o series de tiempo. |
| `.pop()` / `.popleft()` | Elimina y devuelve un elemento del final o del principio. **Uso:** Procesar colas de tareas o eventos en orden. |
| `.rotate(n)` | Rota todos los elementos `n` pasos. **Uso:** Crear "features" basadas en valores pasados (*lagged features*) en series de tiempo. |

In [None]:
from collections import deque

# Guardaremos un historial de los últimos 3 sensores activados
historial_sensores = deque(maxlen=3)

historial_sensores.append("Sensor Puerta")
historial_sensores.append("Sensor Ventana")
historial_sensores.append("Sensor Movimiento")
print(f"Historial: {historial_sensores}")

# Al añadir un 4º elemento, el más antiguo ("Sensor Puerta") se elimina
historial_sensores.append("Sensor Garaje")
print(f"Historial actualizado: {historial_sensores}")

## 4. `collections.namedtuple`

Una función que crea "plantillas" para tuplas, permitiendo acceder a los elementos por nombre en lugar de por índice.

| Atributo / Método | Descripción y Uso en DS |
| :--- | :--- |
| `tupla.campo` | **Acceso por nombre.** Su principal ventaja (`punto.x` en vez de `punto[0]`). **Uso:** Almacenar registros de datos simples e inmutables. |
| `._asdict()` | Convierte la tupla nombrada en un diccionario. **Uso:** Muy útil para exportar los datos a formato JSON. |
| `._make(iterable)` | Crea una nueva instancia a partir de una lista o tupla. **Uso:** Crear una tupla nombrada desde una fila leída de un archivo. |

In [None]:
from collections import namedtuple

# 1. Creamos la "plantilla" para nuestra tupla con nombre
Coordenadas = namedtuple('Coordenadas', ['latitud', 'longitud', 'ciudad'])

# 2. Creamos una instancia
punto_a = Coordenadas(4.71, -74.07, "Bogotá")

# 3. Accedemos a los datos por nombre
print(f"La latitud de {punto_a.ciudad} es: {punto_a.latitud}")