#  Conversión  de  tokens  en  ID  de  tokens
En  la  sección  anterior,  convertimos  un  cuento  de  Edith  Wharton  en  tokens  individuales.
En  esta  sección,  convertiremos  estos  tokens  de  una  cadena  de  Python  a  una  representación  entera  para  generar  los  llamados  ID  de  token.  Esta  conversión  es  un  paso  intermedio  antes  de  convertir  los  ID  de  token  en  vectores  de  incrustación.

Para  asignar  los  tokens  generados  previamente  a  sus  identificadores,  primero  debemos  crear  un  vocabulario.  Este  vocabulario  define  cómo  asignamos  cada  palabra  única  y  carácter  especial  a  un  entero  único.

In [1]:
#lectura y tokenizacion
import re
with open("../txt/The_Verdict.txt", "r", encoding="utf-8") as f:
    r_text = f.read()

preprocessed = re.split(r'([,.:;?_!"()\']|--|\s)',r_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]

![Texto alternativo](../imgs/2.5.png)

Creamos  un  vocabulario  tokenizando  todo  el  texto  de  un  conjunto  de  datos  de  entrenamiento  en  tokens  individuales.  Estos  tokens  individuales  se  ordenan  alfabéticamente  y  se  eliminan  los  duplicados.  Los  tokens  únicos  se  agregan  en  un  vocabulario  que  define  una  asignación  de  cada  token  único  a  un  valor  entero  único.  El  vocabulario  mostrado  es  deliberadamente  pequeño  para  fines  ilustrativos  y  no  contiene  puntuación  ni  caracteres  especiales  para  simplificar

In [12]:
#Convertir  estos  tokens  de  una  cadena  de  Python  a  una  representación  entera  para  
#generar  los  llamados  ID  de  token.

#Primero hay que crear un vocabulario para cada palabra única
all_words = sorted(set(preprocessed))
vocab_tam = len(all_words)
print(vocab_tam)

vocab = {w:i for i,w in enumerate(all_words)}
#Imprimir 50 primeros
for i, w in enumerate(vocab.items()):
    print(w)
    if i == 50:
        break

1130
('!', 0)
('"', 1)
("'", 2)
('(', 3)
(')', 4)
(',', 5)
('--', 6)
('.', 7)
(':', 8)
(';', 9)
('?', 10)
('A', 11)
('Ah', 12)
('Among', 13)
('And', 14)
('Are', 15)
('Arrt', 16)
('As', 17)
('At', 18)
('Be', 19)
('Begin', 20)
('Burlington', 21)
('But', 22)
('By', 23)
('Carlo', 24)
('Chicago', 25)
('Claude', 26)
('Come', 27)
('Croft', 28)
('Destroyed', 29)
('Devonshire', 30)
('Don', 31)
('Dubarry', 32)
('Emperors', 33)
('Florence', 34)
('For', 35)
('Gallery', 36)
('Gideon', 37)
('Gisburn', 38)
('Gisburns', 39)
('Grafton', 40)
('Greek', 41)
('Grindle', 42)
('Grindles', 43)
('HAD', 44)
('Had', 45)
('Hang', 46)
('Has', 47)
('He', 48)
('Her', 49)
('Hermia', 50)


Como  podemos  ver,  según  el  resultado  anterior,  el  diccionario  contiene  tokens  individuales  asociados  con  etiquetas  enteras  únicas.  Nuestro  siguiente  objetivo  es aplicar  este  vocabulario  para  convertir  el  nuevo  texto  en  identificadores  de  token.

In [None]:
#Implementacón  una  clase  tokenizadora  completa  en  Python  con  un  método  encode  que  divide  el  texto  en  tokens  y  realiza  la  
#conversión  de  cadena  a  entero  para  generar  identificadores  de  token  mediante  el  vocabulario.  Además,  implementamos  un  método  
#decode  que  realiza  la  conversión  inversa  de  entero  a  cadena  para  convertir  los  identificadores  de  token  de  nuevo  en  tex

class SimpleTokenizerV1:
    def __init__(self, vocab):   
        self.vocab = vocab #Almacenar el vocabulario para acceder a el en los métodos 
        self.reverse_vocab = {i:w for w, i in self.vocab.items()} #Vocabulario inverso para el decode, asigna los identificadores a los tokens
    #Procesar el texto de entrada en identificadores de tokens
    def encode(self, real_text):
        preprocessed = re.split(r'([,.:;?_!"()\']|--|\s)',real_text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]

        ids = [self.vocab[p] for p in preprocessed]
        return ids
    
    #Convertir los ids de token en texto
    def decode(self, ids):
        text = [self.reverse_vocab[id] for id in ids]
        text = " ".join(text)
        text = re.sub(r'\s+([,.?!"()\'])', r'\1', text) #Reemplazar espacios antes de la puntuación especificada 
        return text

    
tokenizer = SimpleTokenizerV1(vocab)
text =  """"It's the last he painted, you know," Mrs. Gisburn said with pardonable 
pride."""
ids = tokenizer.encode(text)
print(ids)
text = tokenizer.decode(ids)
print(text)

[1, 56, 2, 850, 988, 602, 533, 746, 5, 1126, 596, 5, 1, 67, 7, 38, 851, 1108, 754, 793, 7]
" It' s the last he painted, you know," Mrs. Gisburn said with pardonable pride.


![Texto alternativo](../imgs/2.6.png)


[Agregar tokens de contexto especiales](./3_tokens_especiales.ipynb)