# Codificacion de pares de bytes

Esta  sección  describe  un  esquema  de  tokenización  más  sofisticado  basado  en  un  concepto  denominado  codificación  de  pares  de  bytes  (BPE).  El  tokenizador  BPE  que  se  describe  en  esta  sección  se  utilizó  para  entrenar  LLM  como  GPT2,  GPT3 y ChatGpt.

Para la implentación del algortimo BPE se hace uso de la librería tiktoken, ya que sería demasiado costoso implementarla desde cero.


In [2]:
#Comprobación de tiktoken

from importlib.metadata import version
import tiktoken
print("Tiktoken version: ", version("tiktoken"))

Tiktoken version:  0.11.0


Una vez instalado se puede instanciar el tokenizador BPE desde tiktoken.
El uso del tokenizador es similar al tokenizador creado anteriormente.

In [4]:
tokenizador = tiktoken.get_encoding("gpt2")

#Uso del tokenizador
text = "Hello, do you like tea? <|endoftext|> In the sunlit terraces of someunknownPlace."

ids = tokenizador.encode(text, allowed_special={"<|endoftext|>"})
print(ids)

#Luego se pueden convertir los ids a texto con el decoder
text = tokenizador.decode(ids)
print(text)

[15496, 11, 466, 345, 588, 8887, 30, 220, 50256, 554, 262, 4252, 18250, 8812, 2114, 286, 617, 34680, 27271, 13]
Hello, do you like tea? <|endoftext|> In the sunlit terraces of someunknownPlace.


Se pueden hacer  dos  observaciones  importantes  basándonos  en  los  ID  de  token  y  el  texto  decodificado  anterior.  En  primer  lugar,  al  token  <|endoftext|>  se  le  asigna  un  ID  de  token  relativamente  grande,  concretamente  50256.  De  hecho,  el  tokenizador  BPE,  utilizado  para  entrenar  modelos  como  GPT2,  GPT3  y  el  modelo  original  utilizado  en  ChatGPT,  tiene  un  tamaño  total  de  vocabulario  de  50257,  y  a  <|endoftext|>  se  le  asigna  el  ID  de  token  más  grande.

El  algoritmo  subyacente  a  BPE  descompone  las  palabras  que  no  están  en  su  vocabulario  predefinido  en  subpalabras  más  pequeñas  o  incluso  en  caracteres  individuales,  lo  que  le  permite  gestionar  palabras  fuera  de  vocabulario.  Así,  gracias  al  algoritmo  BPE,  si  el  tokenizador  encuentra  una  palabra  desconocida  durante  la  tokenización,  puede  representarla  como  una  secuencia  de  subpalabras  o  caracteres.

![Texto alternativo](./imgs/2.9.png)

In [5]:
print(tokenizador.encode("Akwirw ier"))

[33901, 86, 343, 86, 220, 959]


[Agregar tokens de contexto especiales](./5_Muestreo_de_datos_con_una_ventana_deslizante.ipynb)