### Enfoques de tokenización: top-down vs. bottom-up

La tokenización puede implementarse mediante diferentes estrategias. Dos de los enfoques principales son:

#### Tokenización top-down

El enfoque **top-down** consiste en comenzar con una estructura global del texto y descomponerla en partes cada vez más pequeñas hasta obtener los tokens deseados. Este método es muy utilizado en contextos donde se conocen de antemano las reglas o estándares de segmentación. Por ejemplo, en el análisis sintáctico de expresiones matemáticas o en la preparación de datos para algoritmos que se apoyan en estructuras lingüísticas predefinidas.

#### Características clave

- **Reglas definidas**: Se establecen estándares y patrones (por ejemplo, mediante expresiones regulares) para identificar los tokens.  
- **Preservación de elementos**: Se mantiene la puntuación, números, y caracteres especiales (como en "m.p.h.", "$45.55" o URLs), tratándolos como tokens separados cuando es necesario.
- **Expansión de contracciones**: Se pueden expandir contracciones clíticas (por ejemplo, convertir "doesn’t" en "does" y "n’t"), algo común en la tokenización basada en estándares como el Penn Treebank.
- **Aplicación en lenguajes con delimitadores claros**: Es especialmente útil en idiomas como el inglés, donde existen reglas ortográficas y gramaticales que facilitan la segmentación.




#### Ejemplo de algoritmo de tokenización top-down

**Escenario**: Imagina que estás tokenizando una expresión matemática simple.

**Expresión**: `"3 + 5 * (10 - 2)"`

**Proceso de tokenización (top-down)**:
1. **Inicio con la expresión completa**: Se reconoce que toda la cadena es una expresión matemática.
2. **Descomposición en partes mayores: números, operadores y paréntesis.**:
   - `"3"` → Número.
   - `"+"` → Operador.
   - `"5"` → Número.
   - `"*"` → Operador.
   - `"("` → Paréntesis de apertura.
   - `"10"` → Número.
   - `"-"` → Operador.
   - `"2"` → Número.
   - `")"` → Paréntesis de cierre.
3. **Descomposición de cada parte en tokens**:
   - `"3"` → Token de número.
   - `"+"` → Token de operador.
   - `"5"` → Token de número.
   - `"*"` → Token de operador.
   - `"("` → Token de paréntesis de apertura.
   - `"10"` → Token de número.
   - `"-"` → Token de operador.
   - `"2"` → Token de número.
   - `")"` → Token de paréntesis de cierre.

- El resultado es la lista: `[3, +, 5, *, (, 10, -, 2, )]`



#### Ejemplo práctico en texto

Supongamos que tenemos la siguiente oración en inglés:

**Texto:** `"The quick brown fox jumps over the lazy dog."`


**Paso 1: Identificar frases o cláusulas**

En un enfoque *top-down*, podríamos primero descomponer el texto en frases o cláusulas más grandes. Sin embargo, dado que esta oración no tiene múltiples cláusulas separadas por comas o conjunciones, consideraremos la oración completa como una unidad.

**Resultado del paso 1:**

```plaintext
"The quick brown fox jumps over the lazy dog."
```

**Paso 2: Descomponer en palabras**

El siguiente paso es descomponer la oración en palabras. En un enfoque *top-down*, nos movemos desde la estructura más grande (la oración) hacia componentes más pequeños (las palabras).

**Resultado del paso 2:**

```plaintext
["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]
```

**Paso 3: Descomponer palabras en prefijos, raíces y sufijos**

Podríamos seguir descomponiendo cada palabra en prefijos, raíces y sufijos, si es necesario. Esto es especialmente útil en lenguajes con morfología compleja o en tareas de análisis morfológico.

##### Ejemplo de descomposición de palabras:

- `"jumps"` → `["jump", "s"]` (raíz y sufijo)
- `"quick"` → `["quick"]` (palabra base)
- `"lazy"` → `["lazy"]` (palabra base)

**Resultado del paso 3:**

```plaintext
["The", "quick", "brown", "fox", "jump", "s", "over", "the", "lazy", "dog"]
```

**Descomponer en caracteres (opcional)**

Si quisiéramos ir aún más lejos, podríamos descomponer cada palabra en caracteres individuales.

##### Ejemplo de descomposición en caracteres:

- `"jump"` → `["j", "u", "m", "p"]`
- `"s"` → `["s"]`
- `"quick"` → `["q", "u", "i", "c", "k"]`

**Resultado del paso 4:**

```plaintext
["T", "h", "e", "q", "u", "i", "c", "k", "b", "r", "o", "w", "n", "f", "o", "x", "j", "u", "m", "p", "s", "o", "v", "e", "r", "t", "h", "e", "l", "a", "z", "y", "d", "o", "g"]
```



#### Código de tokenización Top-Down


In [None]:
import re

def tokenize_top_down(text):
    # Paso 1: Tokenización en palabras (top-level)
    words = tokenize_sentence(text)
    
    # Paso 2: Descomposición de palabras en sub-palabras o caracteres
    tokens = []
    for word in words:
        tokens.extend(tokenize_word(word))
    
    return tokens

def tokenize_sentence(sentence):
    # Utilizamos una expresión regular simple para dividir la oración en palabras y puntuación
    return re.findall(r'\w+|[^\w\s]', sentence, re.UNICODE)

def tokenize_word(word):
    # Aquí podríamos implementar un tokenizador más sofisticado, pero por simplicidad
    # lo dividimos en caracteres individuales
    return list(word)

# Ejemplo de uso
text = "The quick brown fox jumps over the lazy dog"
tokens = tokenize_top_down(text)
print(tokens)


#### Tokenización Bottom-Up

El enfoque **bottom-up** es, en cierto sentido, el inverso del top‐down. En lugar de partir de una estructura global, este método utiliza estadísticas y análisis de secuencias para construir tokens a partir de elementos básicos. Es particularmente útil para crear vocabularios de subpalabras en modelos de lenguaje modernos, como aquellos que utilizan técnicas de aprendizaje profundo.

#### Características clave

- **Análisis estadístico**: Se analiza la frecuencia y la coocurrencia de secuencias de letras o caracteres para determinar cuáles deben combinarse y formar tokens.
- **Generación de subpalabras**: Se crean tokens que pueden representar palabras completas, partes de palabras o incluso letras individuales, lo que permite manejar vocabularios muy grandes y palabras poco frecuentes.
- **Adaptabilidad a idiomas complejos**: En lenguajes con morfología rica o en aquellos en los que la división en palabras es ambigua, la tokenización bottom‐up permite construir una representación más flexible del vocabulario.
- **Uso en algoritmos modernos**: Este enfoque se utiliza en técnicas como Byte-Pair Encoding (BPE) o WordPiece, que se han convertido en estándares para el preprocesamiento de texto en modelos de lenguaje avanzados.

#### Ejemplo: Creación de subpalabras

Imagina que se quiere tokenizar la palabra "unhappiness". El proceso bottom‐up puede identificar que la secuencia "un", "happi" y "ness" se presentan con alta frecuencia en un corpus y, por lo tanto, se pueden considerar subunidades significativas. De esta forma, la palabra se descompone en:

```plaintext
["un", "happi", "ness"]
```

Esta segmentación permite que el modelo reconozca patrones y relaciones morfológicas, facilitando el manejo de palabras que de otra forma serían muy raras o inexistentes en el vocabulario base.

#### Ejemplo con expresiones regulares

El siguiente código en Python muestra cómo se puede tokenizar un texto en inglés utilizando expresiones regulares y la biblioteca NLTK:


In [None]:
import nltk
import re

# Texto de entrada
text = 'That U.S.A. poster-print costs $12.40...'

# Patrón para la tokenización
pattern = r'''(?x)                   # activar verbose mode
              (?:[A-Z]\.)+           # abreviaturas, por ejemplo, U.S.A.
            | \w+(?:-\w+)*           # palabras con guiones internos opcionales
            | \$?\d+(?:\.\d+)?%?     # monedas, porcentajes, ej. $12.40, 82%
            | \.\.\.                 # elipsis
            | [][.,;"'?():-_`]       # tokens separados; incluye ], [
            '''

# Aplicando la tokenización usando el patrón
tokens = nltk.regexp_tokenize(text, pattern)

# Mostrando los tokens resultantes
print(tokens)


Este código ilustra varios puntos importantes:
- Se utiliza el modo _verbose_ en la expresión regular para mejorar la legibilidad.
- Se reconocen abreviaturas, palabras con guiones, números con o sin símbolos de moneda, elipsis y ciertos signos de puntuación.
- El proceso es determinista y se ejecuta de forma rápida, lo cual es esencial en sistemas de NLP.

#### Tokenización en idiomas sin delimitadores explícitos

El desafío se vuelve mucho mayor en idiomas como el chino, japonés o tailandés, donde los espacios no indican de forma explícita los límites de las palabras.  
En el caso del chino, por ejemplo, los caracteres (llamados *hanzi*) representan generalmente un morfema y cada uno suele pronunciarse como una sola sílaba. Un hecho interesante es que, en promedio, una palabra en chino tiene alrededor de 2 a 4 caracteres. Sin embargo, la definición de "palabra" en chino puede variar según el estándar de segmentación adoptado.

##### Ejemplos de segmentación en Chino

1. **Segmentación según el Chinese Treebank**:  
   Se podría segmentar la oración  
   ```plaintext
   姚明进入总决赛
   ```  
   en tres palabras, donde “姚明” se considera una unidad y “进入总决赛” se trata como otra unidad compuesta.

2. **Segmentación según la Peking University**:  
   Otra aproximación puede segmentar la misma oración en cinco palabras, separando cada componente de manera más granular:  
   ```plaintext
   姚 明 进入 总 决赛
   ```

3. **Tokenización a nivel de caracteres**:  
   En muchos casos, especialmente en aplicaciones de aprendizaje profundo, se opta por ignorar la noción de "palabra" y se tokeniza a nivel de caracteres. Así, la oración se convierte en una secuencia de 7 caracteres individuales:  
   ```plaintext
   姚 明 进 入 总 决 赛
   ```

El uso de caracteres como tokens en chino suele resultar más eficiente para muchas tareas de NLP, ya que evita la creación de un vocabulario excesivamente grande y maneja de forma natural las variaciones en la segmentación. En contraste, en idiomas como el japonés y el tailandés, el carácter individual es demasiado pequeño para capturar el significado completo, por lo que se deben aplicar algoritmos de segmentación de palabras.


### **Byte-Pair Encoding (BPE)**: Un algoritmo de tokenización bottom-up

El procesamiento del lenguaje natural (NLP) requiere transformar el texto en unidades manejables que puedan ser interpretadas y procesadas por algoritmos de aprendizaje automático. Tradicionalmente, la tokenización se realizaba a nivel de palabras o caracteres; sin embargo, estos enfoques presentan desafíos. La tokenización a nivel de palabra, por ejemplo, se ve afectada por el problema de las **palabras desconocidas**: cuando un modelo se enfrenta a una palabra no presente en su vocabulario de entrenamiento, este puede fallar al procesarla adecuadamente.

Para solucionar este inconveniente, se han desarrollado técnicas que dividen las palabras en unidades más pequeñas conocidas como **subpalabras**. Estas subunidades pueden ser fragmentos arbitrarios o componentes lingüísticos significativos (como morfemas, que son la unidad mínima portadora de significado). De esta forma, palabras que no fueron vistas durante el entrenamiento pueden representarse mediante la combinación de subpalabras conocidas. Este método no solo mejora la cobertura del vocabulario, sino que también ayuda a reducir la cantidad de tokens necesarios para representar una palabra, manteniendo una buena eficiencia en el modelo.

Originalmente, el algoritmo BPE fue desarrollado como una técnica de compresión de datos. Su capacidad para identificar y fusionar los pares de caracteres más frecuentes permitía reducir el tamaño del texto sin perder información esencial. Con el tiempo, se adaptó al ámbito del NLP, aprovechando la idea de que la información lingüística también se puede compactar fusionando unidades frecuentes de caracteres. En este sentido, **BPE** actúa como un método bottom-up: inicia con un vocabulario elemental de caracteres y, mediante iteraciones, fusiona pares adyacentes hasta formar tokens que pueden abarcar palabras completas o partes significativas de ellas.



#### Descripción detallada del algoritmo BPE

##### Proceso general de BPE

El algoritmo BPE se compone de dos fases principales:
1. **Token learner (aprendiz de tokens):** Se toma un corpus de entrenamiento y se induce un vocabulario inicial basado únicamente en caracteres. A partir de allí, se identifican y fusionan de manera iterativa los pares de caracteres adyacentes que aparecen con mayor frecuencia en el corpus. Cada fusión agrega un nuevo token al vocabulario.
2. **Token segmenter (segmentador de tokens):** Una vez aprendido el vocabulario con las fusiones, el token segmenter aplica estas fusiones de forma greedy (codiciosa) en el mismo orden en el que fueron aprendidas para tokenizar nuevos textos.

Este procedimiento permite construir un vocabulario que abarca desde los caracteres individuales hasta combinaciones que representan subpalabras o palabras completas.

##### Pasos del algoritmo

A continuación se describe el proceso paso a paso:

- **Inicialización:**
  - Se parte de un corpus de entrenamiento y se separa el texto en palabras (generalmente utilizando espacios en blanco).
  - Cada palabra se descompone en caracteres individuales. Por ejemplo, la palabra `"low"` se transforma en `["l", "o", "w"]`.
  - Se construye el vocabulario inicial utilizando todos los caracteres únicos presentes en el corpus.

- **Identificación del par más frecuente:**
  - Se analiza el corpus tokenizado para contar la frecuencia de cada par de tokens adyacentes.
  - Se identifica el par con la frecuencia más alta. Por ejemplo, si en las palabras **"newer"** y **"wider"** el par **("e", "r")** aparece de manera recurrente, éste se selecciona para la fusión.

- **Fusión de tokens:**
  - El par identificado se fusiona en un nuevo token, que se añade al vocabulario.
  - En el corpus, cada aparición de dicho par es reemplazada por el nuevo token. Este proceso se repite un número predefinido de veces, denominado **num_merges**.

- **Actualización del corpus y del vocabulario:**
  - Con cada fusión, el corpus se actualiza para reflejar la nueva estructura de tokens.
  - El vocabulario crece incorporando los nuevos tokens generados a partir de las fusiones.

- **Tokenización de nuevos textos:**
  - Una vez completado el proceso de entrenamiento, se dispone de una lista ordenada de fusiones. Para tokenizar una nueva palabra, se comienza con la división en caracteres y se aplican las fusiones en el orden aprendido.

Esta metodología permite que, al final del proceso, la mayoría de las palabras se representen por tokens completos. Solo aquellas palabras que son poco frecuentes o que no aparecieron durante el entrenamiento se segmentarán en subpalabras.

#### Ejemplos ilustrativos de BPE

##### **Ejemplo con palabras cortas**

Imaginemos un corpus muy pequeño formado por las palabras:  

- `"low"` (5 apariciones)  
- `"lowest"` (2 apariciones)  
- `"newer"` (6 apariciones)  
- `"wider"` (3 apariciones)  
- `"new"` (2 apariciones)

El vocabulario inicial consiste en los caracteres únicos:  
`{_, d, e, i, l, n, o, r, s, t, w}`  

Aquí, el símbolo especial de fin de palabra (`_`) se podría usar para marcar el final de cada palabra.

El algoritmo procede fusionando los pares de caracteres más frecuentes. Por ejemplo, en la primera iteración se cuenta la frecuencia de todos los pares y se encuentra que **("e", "r")** es el par más frecuente. Se fusiona para obtener el token `"er"`, y el corpus se actualiza. En las siguientes iteraciones se podrían fusionar otros pares como **("n", "e")** para formar `"ne"`, luego **("ne", "w")** para formar `"new"`, y así sucesivamente. Este proceso permite que palabras conocidas se representen con tokens completos, mientras que palabras raras se descomponen en subpalabras.

##### **Ejemplo de descomposición en subpalabras**

Consideremos un corpus con las palabras: `"hello"`, `"hell"` y `"help"`. El proceso es el siguiente:
- Se inicia con el vocabulario: `{"h", "e", "l", "o", "p"}`.
- Las palabras se tokenizan inicialmente como:
  - `"hello"` → `["h", "e", "l", "l", "o"]`
  - `"hell"` → `["h", "e", "l", "l"]`
  - `"help"` → `["h", "e", "l", "p"]`
- Se identifican y fusionan los pares de tokens más frecuentes. Por ejemplo, si **("l", "l")** es el par más común, se fusiona para formar `"ll"`, obteniéndose:
  - `"hello"` → `["h", "e", "ll", "o"]`
  - `"hell"` → `["h", "e", "ll"]`
  - `"help"` → `["h", "e", "l", "p"]`
- Posteriormente, se podría fusionar otro par, como **("h", "e")**, dando lugar a:
  - `"hello"` → `["he", "ll", "o"]`
  - `"hell"` → `["he", "ll"]`
  - `"help"` → `["he", "l", "p"]`

De esta manera, las palabras se segmentan en subpalabras que se pueden recombinar para representar tanto palabras conocidas como desconocidas.

##### **Ejemplo con una oración completa**

Supongamos que queremos tokenizar la oración:  
`"I am learning BPE"`  
El proceso sería:

1. **Inicialización:** Se dividen los caracteres de cada palabra, generando tokens individuales.
2. **Identificación y fusión:** Se identifican los pares más frecuentes, por ejemplo, **("i", "n")** en la palabra `"learning"`.
3. **Aplicación de fusiones:** Se fusionan los tokens correspondientes en el orden aprendido hasta obtener tokens que pueden representar palabras enteras o fragmentos significativos.

El resultado final podría ser que palabras como `"learning"` se representen por un token único o por una combinación de subpalabras, dependiendo de la granularidad deseada.

##### **Manejo de palabras desconocidas**

Un caso interesante ocurre al tokenizar una palabra no vista durante el entrenamiento. Por ejemplo, si el vocabulario aprendido incluye tokens como `"cat"`, `"er"`, `"p"`, `"ill"` y `"ar"`, la palabra `"caterpillar"` podría descomponerse en:  
`["cat", "er", "p", "ill", "ar"]`  
Incluso sin haber aparecido la palabra completa en el corpus, se logra una representación mediante la combinación de subpalabras conocidas.


### Implementación básica del algoritmo BPE

In [None]:
class BytePairEncoding:
    def __init__(self, num_merges):
        self.num_merges = num_merges  # num_merges: define el número de fusiones de pares de tokens
        self.vocab = {}  # vocab: almacena el vocabulario actual 
        self.merges = []  # merges: lista donde se almacenan las fusiones que se van realizando

    def train(self, corpus):
        # Inicializa el corpus tokenizado y el vocabulario con todos los caracteres únicos en el corpus
        tokenized_corpus = []
        for word in corpus:
            tokens = list(word)  # Convierte cada palabra en una lista de caracteres (tokens iniciales)
            tokenized_corpus.append(tokens)
            # Agrega todos los caracteres únicos al vocabulario
            for char in tokens:
                self.vocab[char] = char

        print(f"Vocabulario inicial: {self.vocab}")
        
        # En cada iteración, el modelo cuenta las frecuencias de todos los pares de tokens
        for merge_step in range(1, self.num_merges + 1):
            pairs = self.get_pair_frequencies(tokenized_corpus)
            if not pairs:
                break

            # Encuentra el par con la frecuencia más alta
            most_frequent_pair = max(pairs, key=pairs.get)

            # Concatenar el par más frecuente para formar un nuevo token
            new_token = ''.join(most_frequent_pair)

            # Actualiza el vocabulario y guarda la fusión
            self.vocab[new_token] = new_token
            self.merges.append(most_frequent_pair)

            # Muestra el estado actual del vocabulario y el corpus
            print(f"\nPaso {merge_step}:")
            print(f"Par más frecuente: {most_frequent_pair}")
            print(f"Nuevo token: {new_token}")

            # Reemplaza cada aparición del par en las listas de tokens
            tokenized_corpus = self.replace_pairs_in_corpus(tokenized_corpus, most_frequent_pair, new_token)

            print(f"Corpus actualizado: {tokenized_corpus}")
            print(f"Vocabulario actualizado: {self.vocab}")

    # Calcula las frecuencias de todos los pares consecutivos de tokens en el corpus.
    def get_pair_frequencies(self, tokenized_corpus):
        pairs = {}
        for tokens in tokenized_corpus:
            for i in range(len(tokens) - 1):
                pair = (tokens[i], tokens[i + 1])
                if pair in pairs:
                    pairs[pair] += 1
                else:
                    pairs[pair] = 1
        return pairs

    # Toma un par de tokens (pair) y lo reemplaza por un nuevo token
    def replace_pairs_in_corpus(self, tokenized_corpus, pair, new_token):
        new_corpus = []
        for tokens in tokenized_corpus:
            new_word = []
            i = 0
            # Verifica cada posición para detectar el par
            while i < len(tokens):
                if i < len(tokens) - 1 and (tokens[i], tokens[i + 1]) == pair:
                    new_word.append(new_token)  # Fusiona el par en un nuevo token
                    i += 2  # Salta ambos tokens fusionados
                else:
                    new_word.append(tokens[i])
                    i += 1
            new_corpus.append(new_word)
        return new_corpus

    # Tokeniza una palabra nueva utilizando las fusiones aprendidas durante el entrenamiento
    def tokenize(self, word):
        tokens = list(word)  # Inicialmente cada letra es un token separado
        for merge in self.merges:
            new_token = ''.join(merge)
            merged_word = []
            i = 0
            while i < len(tokens):
                if i < len(tokens) - 1 and (tokens[i], tokens[i + 1]) == merge:
                    merged_word.append(new_token)
                    i += 2
                else:
                    merged_word.append(tokens[i])
                    i += 1
            tokens = merged_word
        return tokens

    def get_vocabulary(self):  # Devuelve el vocabulario actual de trabajo
        return self.vocab

# Ejemplo de uso
corpus = ["low", "lowest", "new", "wider", "lowering"]
num_merges = 4  # Número de combinaciones deseadas

bpe = BytePairEncoding(num_merges)
bpe.train(corpus)
vocab = bpe.get_vocabulary()

print("\nVocabulario final generado:")
print(vocab)

# Tokenización de una palabra nueva
word_to_tokenize = "lower"
tokens = bpe.tokenize(word_to_tokenize)
print(f"\nTokenización de '{word_to_tokenize}': {tokens}")


### Variantes del BPE

1. **[Subword regularization](https://arxiv.org/abs/1804.10959)**
   - **Descripción**: Subword Regularization es una técnica que introduce aleatoriedad en la tokenización para mejorar la robustez del modelo. En lugar de generar una única secuencia de sub-palabras para una palabra, esta técnica genera múltiples posibles segmentaciones de sub-palabras durante el entrenamiento. Esto mejora la capacidad del modelo para manejar variaciones y reduce la dependencia en una única tokenización.
   - **Aplicación**: Este método es útil en situaciones donde las palabras pueden tener múltiples formas o en idiomas con morfología compleja.
   - **Implementación**: En lugar de siempre elegir la segmentación con la mayor frecuencia, se elige de forma aleatoria entre las opciones disponibles, ponderando según la probabilidad de cada segmentación.
   
2. **[BPE-Dropout](https://arxiv.org/abs/1910.13267)**
   - **Descripción**: BPE-Dropout es una técnica que introduce aleatoriedad durante el entrenamiento de BPE. En lugar de siempre aplicar la regla de combinación más frecuente, se omite aleatoriamente ciertas reglas durante la construcción del vocabulario.
   - **Ventaja**: Esta técnica promueve la diversidad en la tokenización y reduce el sobreajuste del modelo a una tokenización específica, lo que puede mejorar el rendimiento en situaciones de prueba con palabras no vistas.
   - **Aplicación**: Es útil para mejorar la generalización de modelos de lenguaje, especialmente en casos con corpus de entrenamiento limitado.

3. **[Unigram language model](https://huggingface.co/learn/nlp-course/en/chapter6/7)**
   - **Descripción**: En lugar de usar BPE, donde los pares de tokens más frecuentes se combinan de manera iterativa, el modelo de lenguaje Unigram es un enfoque basado en la probabilidad. En este enfoque, se construye un modelo de lenguaje unigram (donde cada token es independiente de los demás), y se realiza una selección basada en la probabilidad para determinar qué tokens mantener y cuáles eliminar durante la tokenización.
   - **Ventaja**: Este método es más flexible en cuanto a la tokenización, ya que permite mantener múltiples segmentaciones posibles, y se ajusta bien a diferentes idiomas con complejidades morfológicas.
   - **Aplicación**: Es utilizado en modelos como SentencePiece, que implementa tanto BPE como Unigram para la tokenización.

4. **BBPE (Bilateral Byte Pair Encoding)**
   - **Descripción**: BBPE es una variante del BPE que considera tanto la frecuencia de los tokens como la regularidad de la estructura de sub-palabras. Esta técnica busca evitar la creación de sub-palabras que no sean lingüísticamente significativas o que sean demasiado raras.
   - **Proceso**: BBPE introduce un criterio de regularización que penaliza la fusión de pares de tokens si estos no contribuyen a una representación más coherente del lenguaje.
   - **Aplicación**: Es especialmente útil para reducir la fragmentación en palabras largas o compuestas.

5. **[Scaffold-BPE](https://arxiv.org/html/2404.17808v1)**
    - **Descripción**: Incorpora un mecanismo dinámico de eliminación de tokens de andamiaje mediante modificaciones sin parámetros, de bajo costo computacional y fáciles de implementar al BPE original.
   - **Proceso**: Usa un mecanismo de exclusión de Scaffold Tokens de baja frecuencia de las representaciones de tokens para los textos dados, mitigando así el problema del desequilibrio de frecuencia y facilitando el entrenamiento del modelo.
   - **Aplicación**: Es especialmente útil para tareas de modelado de lenguaje y de traducción automática.

6. **[Multi-lingual BPE](https://aclanthology.org/P19-1341/)**
   - **Descripción**: Multi-lingual BPE es una extensión del BPE que se aplica a múltiples idiomas simultáneamente. El vocabulario se construye a partir de corpus multilingües y las reglas de combinación se aplican de manera que maximicen la reutilización de sub-palabras comunes entre diferentes idiomas.
   - **Ventaja**: Promueve la transferencia de conocimiento entre idiomas y es útil en modelos multilingües.
   - **Aplicación**: Utilizado en sistemas de traducción automática multilingüe o en modelos de lenguaje que abarcan varios idiomas.

7. **Adaptive BPE**
   - **Descripción**: En Adaptive BPE, la segmentación de palabras se adapta dinámicamente durante el entrenamiento de un modelo, en lugar de utilizar un vocabulario estático. Esto permite al modelo ajustar la granularidad de la tokenización según la complejidad del contexto.
   - **Ventaja**: Mejora la capacidad del modelo para manejar palabras raras o complejas y permite una segmentación más fina cuando es necesario.
   - **Aplicación**: Este enfoque es ideal para modelos que requieren un alto nivel de precisión en la tokenización, como los utilizados en tareas de traducción automática.

8. **BPE con vocabulary restriction**
   - **Descripción**: En esta variante, se aplica una restricción de vocabulario donde solo se permite que ciertas combinaciones de tokens se realicen si no exceden un tamaño de vocabulario predeterminado.
   - **Ventaja**: Controla el crecimiento del vocabulario y previene la generación de demasiados tokens, lo que puede ser útil en situaciones donde el tamaño del vocabulario debe mantenerse limitado.
   - **Aplicación**: Utilizado en sistemas donde los recursos de memoria o procesamiento son limitados.

9. **BPE con hierarchical merging**
   - **Descripción**: En lugar de combinar los pares de tokens más frecuentes en una sola fase, la combinación se realiza en múltiples fases, siguiendo una estructura jerárquica. Este enfoque permite una tokenización que respeta la estructura morfológica o gramatical del idioma.
   - **Ventaja**: Mejor preservación de la semántica y la morfología del lenguaje durante la tokenización.
   - **Aplicación**: Especialmente útil en idiomas con estructuras morfológicas complejas, como el turco o el finés.




#### **Uso en modelos de lenguaje modernos**

La tokenización basada en BPE ha sido adoptada ampliamente en modelos de lenguaje modernos, como GPT, BERT y sus variantes. Su capacidad para reducir el número de tokens y gestionar de forma flexible la diversidad léxica ha contribuido a mejorar el rendimiento en tareas de generación y comprensión del lenguaje. Además, su implementación relativamente sencilla permite integrarlo en pipelines de procesamiento de datos sin requerir grandes recursos computacionales.



#### Consideraciones técnicas y limitaciones del enfoque BPE

##### **El enfoque greedy y sus implicaciones**

Una característica importante del algoritmo BPE es su naturaleza **greedy** al aplicar las fusiones: se realizan las combinaciones en el orden en que fueron aprendidas sin reevaluar el contexto en cada paso de tokenización. Este enfoque tiene implicaciones en la calidad de la segmentación, ya que las fusiones tempranas pueden limitar las opciones disponibles para subdividir palabras complejas. Sin embargo, en la práctica, la simplicidad y eficiencia del método han hecho que este compromiso sea aceptable para la mayoría de las aplicaciones.

##### **Elección del número de fusiones**

El parámetro `num_merges` define cuántas veces se fusionarán pares de tokens y, por ende, el tamaño final del vocabulario. La elección de este número es crucial:
- Un valor muy bajo puede resultar en un vocabulario fragmentado en el que muchas palabras se dividen en demasiados tokens, perdiendo información semántica.
- Un valor muy alto puede llevar a que se incluyan tokens demasiado específicos, lo que podría dificultar la representación de palabras desconocidas.

En aplicaciones reales, la elección de `num_merges` se basa en un balance entre la cobertura del vocabulario y la eficiencia computacional.

##### **Relación entre el corpus de entrenamiento y el vocabulario generado**

El rendimiento de BPE depende en gran medida del corpus de entrenamiento:
- **Diversidad lingüística:**  
  Un corpus amplio y representativo permite que BPE aprenda subpalabras que capturan la variación morfológica y léxica del idioma.
- **Frecuencia de tokens:**  
  El algoritmo se basa en la frecuencia de aparición de pares de tokens. Por ello, en dominios especializados, es importante disponer de un corpus que refleje el uso real del lenguaje en ese contexto.



##### **Comparación con implementaciones existentes**

Bibliotecas como **SentencePiece** han popularizado el uso de BPE y otros métodos (como el modelado de lenguaje unigram) en la industria. Estas implementaciones ofrecen:
- Herramientas robustas para el preprocesamiento y la tokenización.
- Optimización para trabajar en entornos de producción.
- Flexibilidad para ajustar parámetros y adaptar el vocabulario a necesidades específicas del dominio.


##### **Consideraciones sobre la granularidad y el contexto**

Un aspecto importante en el diseño de tokenizadores es la **granularidad** con la que se segmenta el texto. BPE ofrece la posibilidad de controlar esta granularidad mediante el parámetro de fusiones. Una granularidad fina (más fusiones) permite capturar subpalabras muy específicas, lo que puede ser ventajoso en idiomas con alta morfología o en dominios técnicos. Sin embargo, una granularidad excesivamente fina podría conducir a una mayor longitud de secuencias y, en consecuencia, a un aumento del costo computacional durante el entrenamiento y la inferencia del modelo.

Asimismo, el contexto en el que se aplica la tokenización es relevante. Por ejemplo, en tareas de traducción automática o resumen de textos, mantener ciertas unidades semánticas intactas puede ser crucial para preservar el significado original. BPE, al aprender de la frecuencia de pares en el corpus, tiende a agrupar aquellas combinaciones que son estadísticamente significativas, contribuyendo a una representación coherente del lenguaje.


##### **Integración en modelos de lenguaje**

El uso de BPE no se limita a la tokenización de palabras aisladas; es una parte integral en el preprocesamiento de datos para modelos de lenguaje. Al incorporar un tokenizador BPE en el pipeline de entrenamiento, se consigue:
- Una reducción en el tamaño del vocabulario, lo que simplifica la representación del texto.
- Una mayor robustez frente a la variabilidad lingüística, ya que se pueden representar palabras nuevas mediante la combinación de subpalabras.
- Una mayor eficiencia en el procesamiento, ya que la longitud de las secuencias puede disminuir notablemente en comparación con una tokenización estrictamente a nivel de caracteres.

La implementación presentada puede ser adaptada y extendida para formar parte de sistemas más complejos, integrándose con bibliotecas y frameworks especializados en NLP.

