In [5]:
import collections

# Corpus inicial
raw_token_freqs = {'fast_': 4, 'faster_': 3, 'tall_': 5, 'taller_': 4}

# Convertir palabras en caracteres separados por espacios
token_freqs = {}
for token, freq in raw_token_freqs.items():
    token_freqs[' '.join(list(token))] = freq

# Función para encontrar el par más frecuente
def get_max_freq_pair(token_freqs):
    pairs = collections.defaultdict(int)
    for token, freq in token_freqs.items():
        symbols = token.split()
        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i + 1]] += freq
    return max(pairs, key=pairs.get)

# Función para fusionar el par más frecuente
def merge_symbols(max_freq_pair, token_freqs, symbols):
    symbols.append(''.join(max_freq_pair))
    new_token_freqs = {}
    for token, freq in token_freqs.items():
        new_token = token.replace(' '.join(max_freq_pair), ''.join(max_freq_pair))
        new_token_freqs[new_token] = freq
    return new_token_freqs

# Inicializar vocabulario y ejecutar BPE paso a paso
symbols = list("abcdefghijklmnopqrstuvwxyz_")
num_merges = 10  # Número de fusiones deseadas

print("=== Proceso de Byte Pair Encoding ===\n")
for i in range(num_merges):
    print(f"\nIteración {i + 1}:")
    print(f"Corpus actual: {token_freqs}")
    max_freq_pair = get_max_freq_pair(token_freqs)
    print(f"Par más frecuente: {max_freq_pair}")
    token_freqs = merge_symbols(max_freq_pair, token_freqs, symbols)
    print(f"Nuevo corpus: {token_freqs}")
    print(f"Vocabulario aprendido: {symbols}")

print("\n=== Resultado final ===")
print("Corpus segmentado:", token_freqs)
print("Vocabulario aprendido:", symbols)


=== Proceso de Byte Pair Encoding ===


Iteración 1:
Corpus actual: {'f a s t _': 4, 'f a s t e r _': 3, 't a l l _': 5, 't a l l e r _': 4}
Par más frecuente: ('t', 'a')
Nuevo corpus: {'f a s t _': 4, 'f a s t e r _': 3, 'ta l l _': 5, 'ta l l e r _': 4}
Vocabulario aprendido: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '_', 'ta']

Iteración 2:
Corpus actual: {'f a s t _': 4, 'f a s t e r _': 3, 'ta l l _': 5, 'ta l l e r _': 4}
Par más frecuente: ('ta', 'l')
Nuevo corpus: {'f a s t _': 4, 'f a s t e r _': 3, 'tal l _': 5, 'tal l e r _': 4}
Vocabulario aprendido: ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '_', 'ta', 'tal']

Iteración 3:
Corpus actual: {'f a s t _': 4, 'f a s t e r _': 3, 'tal l _': 5, 'tal l e r _': 4}
Par más frecuente: ('tal', 'l')
Nuevo corpus: {'f a s t _': 4, 'f a s t e r _': 3, 'tall _': 5,