# Incrustaciones de tokens

El  último  paso  para  preparar  el  texto  de  entrada  para  el  entrenamiento  LLM  es  convertir  los  identificadores  de  token  en  vectores  de  incrustación

![Texto alternativo](./imgs/2.13.png)

La  preparación  del  texto  de  entrada  para  un  LLM  implica  tokenizar  el  texto,  convertir  los  tokens  de  texto  en  identificadores  de  token  y  convertir  los  identificadores  de  token  en  vectores  de  incrustación  de  vectores.

In [7]:
#Ejemplo de como funciona la coneversion del ID de token en vector de incrustación 

import torch
input_ids = torch.tensor([2, 3, 5, 1])

#Suponer un vocabulario de tamaño 6 y crear inscrustaciones de tamaño 3
vocab_tam = 6
salida_dim = 3

#Instanciar una capa de incrustación en pytorch
torch.manual_seed(123)
layer = torch.nn.Embedding(vocab_tam, salida_dim)
print(layer.weight)

Parameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
        [ 0.9178,  1.5810,  1.3010],
        [ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-1.1589,  0.3255, -0.6315],
        [-2.8400, -0.7849, -1.4096]], requires_grad=True)


Podemos  ver  que  la  matriz  de  peso  de  la  capa  de  incrustación  contiene  valores  pequeños  y  aleatorios. Estos  valores  se  optimizan  durante  el  entrenamiento  LLM  como  parte  de  la  propia  optimización  LLM. Matriz de ponderación de seis filas y tres columnas.

In [8]:
#Aplicar un ID de token para obtener el vector de incrustación
print(layer(torch.tensor([3])))

tensor([[-0.4015,  0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)


Si  comparamos  el  vector  de  incrustación  del  ID  de  token  3  con  la  matriz  de  incrustación  anterior,  observamos  que  es  idéntico  a  la  cuarta  fila  (Python  comienza  con  un  índice  cero,  por  lo  que  es  la  fila  correspondiente  al  índice  3).  En  otras  palabras,  la  capa  de  incrustación  es  esencialmente  una  operación  de  búsqueda  que  recupera  filas  de  la  matriz  de  pesos  de  la  capa  de  incrustación  mediante  un  ID  de  token.

In [9]:
print(layer(input_ids))

tensor([[ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-2.8400, -0.7849, -1.4096],
        [ 0.9178,  1.5810,  1.3010]], grad_fn=<EmbeddingBackward0>)


![Texto alternativo](./imgs/2.14.png)

Las  capas  de  incrustación  realizan  una  operación  de  búsqueda,  recuperando  el  vector  de  incrustación  correspondiente  al  ID  del  token  de  la  matriz  de  pesos  de  la  capa  de  incrustación.  Por  ejemplo,  el  vector  de  incrustación  del  ID  del  token  5  es  la  sexta  fila  de  la  matriz  de  pesos  de  la  capa  de  incrustación  (es  la  sexta  en  lugar  de  la  quinta  porque  Python  empieza  a  contar  desde  0).  A  modo  de  ilustración,  asumimos  que  los  ID  de  los  tokens  fueron  generados  por  el  vocabulario  pequeño.

[Codificación de posiciones de palabras](./7_codificación_posiciones_palabras.ipynb)