# Ejercicio de BYTE-PAIR ENCODING
Integrantes:
*   Aguilar Valenzuela Luis Hector
*   Camargo Loaiza Julio Andres
*   Minjares Neriz Victor Manuel

# Token Learning Example

## Importaciones

In [1]:
import re, collections

## Funciones

### get_vocab(filename)
Función que recibe el nombre de el archivo de texto y devuelve un vocabulario de palabras con la frecuencia de cada palabra y un separador en cada palabra

In [46]:
def get_vocab(filename):
    # La funcion defaultdict crea un dictionario vacio. 
    vocab = collections.defaultdict(int)
    with open(filename, 'r', encoding='utf-8') as fhand:
        for line in fhand:
            # La función strip quita los espacios al principio y al final de un string
            # La función split separa las palabras y las devuelve en un array
            words = line.strip().split()
            
            # Recorre cada palabra del arreglo de palabras
            for word in words:
                # Aqui se llena el diccionario. Agregara al diccionario el elemnto : un espacio +
                # la palabra + el simbolo de fin de palabra </w>.
                # NOTA : list() aqui puede ser opcional, tal vez.
                vocab[' '.join(list(word)) + ' </w>'] += 1 
    return vocab

# get_vocab('miniCorpus.txt')

### get_tokens(vocab)

Funcion que recibe un diccionario de palabras, despues transforma el diccionario de palabras a uno de letras.

In [50]:
def get_tokens(vocab):

    # Declara un diccionario vacío
    tokens = collections.defaultdict(int)

    # Iteramos por cada palabra y tomando su respectiva frecuencia
    for word, freq in vocab.items():
        # Separa las palabras por letra
        word_tokens = word.split()
        # Llenamos el diccionario tokens con cada letra y su respectiva frecuencia
        for token in word_tokens:
            # Guarda la palabra en el diccionario y le suma la frecuencia de la palabra.
            tokens[token] += freq
    return tokens

# get_tokens(get_vocab('miniCorpus.txt'))

### get_stats(vocab)
Función que recibe un vocabulario (un diccionario con la frecuencia de cada palabra) y devuelve un diccionario con la frecuencia de los bigramas (pares de palabras consecutivos) en el vocabulario.

In [33]:
def get_stats(vocab):
    # Declara un diccionario vacío
    pairs = collections.defaultdict(int)

    # Iteramos por cada palabra y tomando su respectiva frecuencia
    for word, freq in vocab.items():
        # Separa las palabras por letra
        symbols = word.split()
        # Esto se lee "Recorre el largo de"
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs

# get_stats(get_vocab('miniCorpus.txt'))

### merge_vocab(pair, v_in)
Función que recibe una pareja de palabras (pair) y un vocabulario (v_in) y devuelve otro vocabulario nuevo (v_out) con las nuevas parejas de palabras concatenadas.

In [5]:
def merge_vocab(pair, v_in):
    #Crea un diccionario vacío
    v_out = {}
    # Quita los caracteres especiales
    bigram = re.escape(' '.join(pair))
    # Crea expresión regular para buscar un bigrama que esté rodeado por caracteres 
    # no blancos y que no esté precedido ni seguido por otras palabras. 
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    # Reemplaza la cadena bigram con la pareja concatenada y lo agrega en v_out
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    # Regresa el nuevo vocabulario
    return v_out

## Codigo principal

### Corpus a usar

In [6]:
# Minicorpus a usar :
# https://drive.google.com/file/d/17h_rLrWL2xg3jD0U1CCseeaAd6t17yc0/view?usp=share_linket 

vocab = get_vocab('miniCorpus.txt')

Visualización de los tokens antes de aplicarles el algoritmo de Byte Pair Encoding 

In [48]:
# En este bloque de código se muestran un diccionario de todas las palabras en el vocabulario.

print('==========')
print('Tokens Before BPE')
tokens = get_tokens(vocab)
print('Tokens: {}'.format(tokens))
print('Number of tokens: {}'.format(len(tokens)))
print('==========')

Tokens Before BPE
Tokens: defaultdict(<class 'int'>, {'Y': 2, 'o': 22, ',</w>': 14, 'J': 1, 'u': 11, 'a': 30, 'n': 22, '</w>': 33, 'G': 1, 'l': 15, 'o</w>': 24, 'de</w>': 8, 'A': 1, 'd': 19, 'r': 27, 'es': 12, 'c': 22, 'i': 26, 'b': 7, 'C': 3, 'á': 1, 'm': 11, 'ar': 7, 'a</w>': 19, 'de': 9, 'l</w>': 13, 'R': 1, 'e': 28, 'y</w>': 12, 't': 23, 's': 18, 'ñ': 3, 'os': 7, 'qu': 7, 'e</w>': 16, 'en': 17, 'j': 1, 'f': 2, 'h': 9, 'v': 10, 'p': 17, 'é': 1, 'li': 8, 'E': 1, 'g': 6, 'M': 2, 'S': 1, 'di': 8, 'í': 3, ';': 2, '.': 2, 'V': 1})
Number of tokens: 52


In [14]:
num_merges = 15
for i in range(num_merges):
    pairs = get_stats(vocab)
    if not pairs:
        break
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print('Iter: {}'.format(i))
    print('Best pair: {}'.format(best))
    tokens = get_tokens(vocab)
    print('Tokens: {}'.format(tokens))
    print('Number of tokens: {}'.format(len(tokens)))
    print('==========')

Iter: 0
Best pair: ('o', '</w>')
Tokens: defaultdict(<class 'int'>, {'Y': 2, 'o': 29, ',': 14, '</w>': 115, 'J': 1, 'u': 18, 'a': 56, 'n': 39, 'G': 1, 'l': 36, 'o</w>': 24, 'd': 44, 'e': 90, 'A': 1, 'r': 34, 's': 37, 'c': 22, 'i': 42, 'b': 7, 'C': 3, 'á': 1, 'm': 11, 'R': 1, 'y': 12, 't': 23, 'ñ': 3, 'q': 7, 'j': 1, 'f': 2, 'h': 9, 'v': 10, 'p': 17, 'é': 1, 'E': 1, 'g': 6, 'M': 2, 'S': 1, 'í': 3, ';': 2, '.': 2, 'V': 1})
Number of tokens: 41
Iter: 1
Best pair: ('e', '</w>')
Tokens: defaultdict(<class 'int'>, {'Y': 2, 'o': 29, ',': 14, '</w>': 91, 'J': 1, 'u': 18, 'a': 56, 'n': 39, 'G': 1, 'l': 36, 'o</w>': 24, 'd': 44, 'e</w>': 24, 'A': 1, 'r': 34, 'e': 66, 's': 37, 'c': 22, 'i': 42, 'b': 7, 'C': 3, 'á': 1, 'm': 11, 'R': 1, 'y': 12, 't': 23, 'ñ': 3, 'q': 7, 'j': 1, 'f': 2, 'h': 9, 'v': 10, 'p': 17, 'é': 1, 'E': 1, 'g': 6, 'M': 2, 'S': 1, 'í': 3, ';': 2, '.': 2, 'V': 1})
Number of tokens: 42
Iter: 2
Best pair: ('a', '</w>')
Tokens: defaultdict(<class 'int'>, {'Y': 2, 'o': 29, ',': 14, '