# Estructuras de datos avanzadas

Hace poco me tope con este post de Alexey Grigorev (busquenlo, el man es un teso):

> Most candidates cannot solve this interview problem:
> 
> 🔸 Input: "aaaabbbcca"
> 
> 🔸 Output: [("a", 4), ("b", 3), ("c", 2), ("a", 1)]
> 
> Write a function that converts the input to the output
> 
> I ask it in the screening interview and give it 25 minutes
> 
> How would you solve it?

*@Al_Grigor en Twitter*

[Problema de entrevista: conteo de caracteres consecutivos](https://x.com/Al_Grigor/status/1357028887209902088)

No me creo que la mayoria de candidatos no sepan como resolverlo, ademas, resulta ser un buen ejercicio para explicar las estrcuturas de datos mencionadas; asi que ¡A darle!

## Default dict
Los diccionarios tradicionales de python tienen un pequeño problema, y es que, si la llave con la que se accede o busca en el diccionario no existe, una excepcion KeyError() es lanzada. 

In [1]:
from collections import defaultdict

In [2]:
days_of_week = {
    1: "Monday",
    2: "Tuesday",
    3: "Wednesday",
    4: "Thursday",
    5: "Friday",
}

days_of_week[7]

KeyError: 7

Esto se vuelve problematico para resolver el problema propuesto ya que de antemano, no sabemos que letras contenga o no el texto de entrada.

Asi pues, tenemos dos posibles soluciones, crear un diccionario con todos los posibles caracteres como llaves, o, manejar el KeyException() que va a lanzar el diccionario, veamos ambos casos.

### "Todos" los posibles caracteres como llaves 

In [3]:
def count_letters(text: str) -> list[tuple[str, int]]:
    counts: dict[str, int] = {
        "a": 0, "A": 0,
        "b": 0, "B": 0,
        "c": 0, "C": 0,
        "d": 0, "D": 0,
        "e": 0, "E": 0,
        "f": 0, "F": 0,
        "g": 0, "G": 0,
        "h": 0, "H": 0,
        "i": 0, "I": 0,
        "j": 0, "J": 0,
        "k": 0, "K": 0,
        "l": 0, "L": 0,
        "m": 0, "M": 0,
        "n": 0, "N": 0,
        "o": 0, "O": 0,
        "p": 0, "P": 0,
        "q": 0, "Q": 0,
        "r": 0, "R": 0,
        "s": 0, "S": 0,
        "t": 0, "T": 0
    }
    for letter in text:
     counts[letter] += 1
    
    return [(letter, count) for letter, count in counts.items()]
    

In [4]:
count_letters("aaaabbbcca")

[('a', 5),
 ('A', 0),
 ('b', 3),
 ('B', 0),
 ('c', 2),
 ('C', 0),
 ('d', 0),
 ('D', 0),
 ('e', 0),
 ('E', 0),
 ('f', 0),
 ('F', 0),
 ('g', 0),
 ('G', 0),
 ('h', 0),
 ('H', 0),
 ('i', 0),
 ('I', 0),
 ('j', 0),
 ('J', 0),
 ('k', 0),
 ('K', 0),
 ('l', 0),
 ('L', 0),
 ('m', 0),
 ('M', 0),
 ('n', 0),
 ('N', 0),
 ('o', 0),
 ('O', 0),
 ('p', 0),
 ('P', 0),
 ('q', 0),
 ('Q', 0),
 ('r', 0),
 ('R', 0),
 ('s', 0),
 ('S', 0),
 ('t', 0),
 ('T', 0)]

Ahora, esta primera solucion es bastante ineficiente, ya que estamos asignando espacio en memoria para letras que puede que no esten dentro del texto dado. Ademas, esta solucion se rompera si se ingresan caracteres especiales como: @, é, ó, á o cualquier caracter que no hallamos colocado previamente en las llaves del diccionario.

In [5]:
count_letters("aaa@bbbccaa")

KeyError: '@'

In [6]:
count_letters("áaa@bbbccaa")

KeyError: 'á'

### Manejando el KeyError()

In [7]:
def count_letters(text: str) -> list[tuple[str, int]]:
    counts: dict[str, int] = {}
    for letter in text:
        try:
            counts[letter] += 1
        except KeyError:  # capturamos la excpecion y creamos una nueva llave
            counts[letter] = 1
    return [(letter, count) for letter, count in counts.items()]

In [8]:
count_letters("aaa@bbbccaa")

[('a', 5), ('@', 1), ('b', 3), ('c', 2)]

Ahora no asignamos espacios no usados en memoria y no falla en la presencia de caracteres especiales. Sin embargo hay una forma de hacer el codigo mas elegante y eficiente, usando `defaultdict`. 

`defaultdict` asigna un valor por defecto para llaves no existentes evitando que manejar el KeyError().

In [9]:
def count_letters(text: str) -> list[tuple[str, int]]:
    counts = defaultdict(int)
    for letter in text:
        counts[letter] += 1
    return [(letter, count) for letter, count in counts.items()]

In [10]:
count_letters("aaa@bbbccaa")

[('a', 5), ('@', 1), ('b', 3), ('c', 2)]

Si se quiere retornar un valor fijo por defecto con el default dict se puede hacer lo siguiente:

In [11]:
def default_value() -> str:
    return "Weekend"

days_of_week = defaultdict(default_value)

days_of_week[1] = "Monday"
days_of_week[2] = "Tuesday"
days_of_week[3] = "Wednesday"
days_of_week[4] = "Thursday"
days_of_week[5] = "Friday"

days_of_week[20]  # esta llave no existe

'Weekend'

## Counter
Por su parte, counter es una estructura de datos diseñada espacialmente para contar cosas. Tiene metodos especiales como:
- `.most_common()` → devuelve los elementos más frecuentes.
- `.elements()` → devuelve un iterador con los elementos repetidos según su conteo.
- Tambien soporta operaciones matematicas entre contadores.

In [12]:
from collections import Counter

In [13]:
count1 = Counter("aaaabbbcc")
count2 = Counter("aaa@bbbccaa")

In [14]:
count1 + count2

Counter({'a': 9, 'b': 6, 'c': 4, '@': 1})

In [15]:
count1 & count2  # interseccion

Counter({'a': 4, 'b': 3, 'c': 2})

In [16]:
count1 | count2  # union 

Counter({'a': 5, 'b': 3, 'c': 2, '@': 1})

Ahora veamos como resolver el problema propuesto:

In [17]:
def count_letters(text: str):
    counts = Counter(text)
    return [(letter, count) for letter, count in counts.items()]

In [18]:
count_letters("aaa@bbbccaa")

[('a', 5), ('@', 1), ('b', 3), ('c', 2)]

## Deque
La Double-Ended Queue (deque) es una estructura de datos la cual almacena elementos, optimizada para agregar y quitar elementos por ambos extremos `inicio` (head) y `fin` (tail).

Mientras que las listas (list) en Python tienen una complejidad O(n) al eliminar el primer elemento y O(1) al eliminar el último, las colas de doble extremo (deque, por double-ended queue) tienen una complejidad O(1) tanto al eliminar el primer como el último elemento.

Por esta razón, son ampliamente utilizadas en la resolución de problemas que requieren un alto dinamismo, es decir, inserciones y eliminaciones eficientes en ambos extremos de la estructura de datos.

![Double-Ended Queue](https://i.ytimg.com/vi/UqCyZKaWX7E/hq720.jpg?sqp=-oaymwEhCK4FEIIDSFryq4qpAxMIARUAAAAAGAElAADIQj0AgKJD&rs=AOn4CLDcHxdcjfL0KBKBhwUxleDhdwlQBQ)

Esta estructura de datos en particular no es util ni necesaria para resolver el problema inicial, sin embargo, si que sirve para un escenario mas avanzado tal y como se dice en el siguiente post:

> I don’t know about clarifying questions, but there are plenty of follow-up questions.
>
> How would your solution change if:
> - The vocabulary was unlimited?
> - The input was a stream?

*@jdot en Twitter*

[Escenarios avanzados](https://x.com/jdot/status/1357324007683612673)

Veamos que hacer **si el input fuera un stream**.

## Input como stream
Stream se refiere a un flujo constante, potencialmente ininterrumpido de textos de entrada. Esto implica que no podremos procesar todos los textos de entrada en una sola operacion, ya que desde un inicio no estaran disponibles.

Para poder procesar un stream de datos una de las posibles soluciones es usar **ventanas deslizantes** de procesamiento. El concepto de ventana de procesamiento, es que en un flujo constante e ininterrumpido vayamos procesando de a N datos fijos. 

A continuacion, simularemos un stream de textos de entrada y veremos como funcionan las ventanas de procesamiento, haciendo uso de la estructura de datos ideal para crear las mismas: `deque`.

In [None]:
from collections import deque, Counter

import lorem

In [20]:
def gen_fixed_text(length: int) -> str:
    text: str = ""
    while len(text) < length:
        text += " " + lorem.sentence()
    return text

def get_execution_summary(
    idx: int, window_size: int, window_counts: Counter, accumulator: Counter
) -> None: 
    print(f"\nVentana {idx//window_size + 1}:")
    print("Palabras más comunes en la ventana actual:")
    print(window_counts.most_common(5))
        
    print("\nAcumulador global:")
    print("Palabras más comunes acumuladas:")
    print(accumulator.most_common(5))
    print("-" * 50)
    return

In [21]:
window_size: int = 5
stream: list[str] = gen_fixed_text(1000).split()

window: deque = deque(maxlen=window_size)
accumulator: Counter = Counter()  # acumulador de resultados entre ventanas

for idx, word in enumerate(stream):
    window.append(word)
    if len(window) == window_size:
        counts: Counter = Counter(window)  # cuenta las palabras en la ventana
        accumulator += counts  # actualiza el acumulador
        
        get_execution_summary(idx, window_size, counts, accumulator)
        
        window.clear()


Ventana 1:
Palabras más comunes en la ventana actual:
[('quiquia', 2), ('Ut', 1), ('magnam', 1), ('modi', 1)]

Acumulador global:
Palabras más comunes acumuladas:
[('quiquia', 2), ('Ut', 1), ('magnam', 1), ('modi', 1)]
--------------------------------------------------

Ventana 2:
Palabras más comunes en la ventana actual:
[('sit', 2), ('numquam', 1), ('dolore.', 1), ('Neque', 1)]

Acumulador global:
Palabras más comunes acumuladas:
[('quiquia', 2), ('sit', 2), ('Ut', 1), ('magnam', 1), ('modi', 1)]
--------------------------------------------------

Ventana 3:
Palabras más comunes en la ventana actual:
[('quaerat', 1), ('consectetur', 1), ('eius', 1), ('sit', 1), ('dolore.', 1)]

Acumulador global:
Palabras más comunes acumuladas:
[('sit', 3), ('quiquia', 2), ('dolore.', 2), ('Ut', 1), ('magnam', 1)]
--------------------------------------------------

Ventana 4:
Palabras más comunes en la ventana actual:
[('Dolorem', 1), ('quaerat', 1), ('velit', 1), ('sit', 1), ('ut', 1)]

Acumulado

Asi pues, si el input es un stream de datos, un flujo constante, potencialmente ininterrumpido de datos, podemos hacer uso de `deque` para procesar el stream en **ventanas fijas de N palabras**.