# Embedding Ejemplo practivo
1. Cargar el modelo y el tonikezer.

In [None]:
from transformers import GPT2Tokenizer, GPT2Model  # Importamos el tokenizer y el modelo GPT-2 desde transformers
import torch  # Importamos PyTorch para trabajar con tensores

# Cargamos el tokenizer y el modelo base (no el de generación, sino el puro modelo)
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")  # Inicializamos el tokenizer preentrenado de GPT-2
model = GPT2Model.from_pretrained("gpt2")  # Cargamos el modelo base preentrenado de GPT-2

# Ponemos el modelo en modo evaluación para que no calcule gradientes
model.eval()  # Configuramos el modelo en modo evaluación


GPT2Model(
  (wte): Embedding(50257, 768)
  (wpe): Embedding(1024, 768)
  (drop): Dropout(p=0.1, inplace=False)
  (h): ModuleList(
    (0-11): 12 x GPT2Block(
      (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (attn): GPT2Attention(
        (c_attn): Conv1D(nf=2304, nx=768)
        (c_proj): Conv1D(nf=768, nx=768)
        (attn_dropout): Dropout(p=0.1, inplace=False)
        (resid_dropout): Dropout(p=0.1, inplace=False)
      )
      (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (mlp): GPT2MLP(
        (c_fc): Conv1D(nf=3072, nx=768)
        (c_proj): Conv1D(nf=768, nx=3072)
        (act): NewGELUActivation()
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
  )
  (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
)

2. Tokeniza una palabra y obtiene su ID.

In [None]:
# Palabra o frase que quieras analizar
texto = "Hola"  # Definimos el texto de entrada

# Obtenemos los token IDs
tokens = tokenizer.encode(texto, add_special_tokens=False)  # Convertimos el texto en IDs de tokens
print("Token IDs:", tokens)  # Mostramos los IDs de los tokens

# Tomamos el primer token ID
token_id = tokens[0]  # Seleccionamos el primer token ID
print("Primer token ID:", token_id)  # Mostramos el primer token ID

# Mostramos el texto original de ese token
print("Token decodificado:", tokenizer.decode([token_id]))  # Decodificamos el token ID para obtener el texto original


Token IDs: [39, 5708]
Primer token ID: 39
Token decodificado: H


3. Accede al embedding del token.

In [None]:
# Convertimos el token ID a un tensor de PyTorch
token_tensor = torch.tensor([token_id])  # Creamos un tensor a partir del token ID

# Accedemos a la capa de embeddings del modelo
embedding_layer = model.get_input_embeddings()  # Obtenemos la capa de embeddings del modelo

# Obtenemos el vector de embedding del token
embedding_vector = embedding_layer(token_tensor)  # Calculamos el vector de embedding para el token

# Mostramos el vector
print("Vector de embedding:", embedding_vector)  # Imprimimos el vector de embedding
print("Dimensión del vector:", embedding_vector.shape)  # Esperamos torch.Size([1, 768])


Vector de embedding: tensor([[ 7.4618e-02,  5.7276e-02,  2.2950e-01, -2.0877e-02,  1.5292e-02,
         -1.0244e-01, -2.1924e-01, -6.3817e-02,  7.5938e-02,  1.6799e-01,
         -7.6611e-02, -3.0865e-02,  7.1921e-02, -6.0985e-02, -3.3183e-02,
          9.6738e-03,  1.0140e-01,  2.4016e-01,  1.6326e-02,  2.3878e-01,
         -9.1324e-02,  5.3105e-02, -1.5359e-01, -6.0741e-02, -7.1321e-02,
         -1.5475e-02, -1.2215e-02,  7.0836e-03, -8.6383e-02,  5.5227e-02,
         -7.1300e-02, -8.2663e-02, -1.0706e-01,  1.2035e-02, -6.2054e-02,
          1.7525e-02, -3.1762e-01, -1.5260e-02,  7.0130e-02, -1.1614e-01,
          2.1425e-02, -3.8277e-02,  1.6987e-02, -3.3121e-02,  5.2936e-02,
          8.9032e-02,  1.4139e-02, -3.4462e-03,  1.6221e-02, -1.2182e-01,
         -8.5824e-02,  6.5456e-02,  1.5971e-01, -5.0398e-02, -1.3756e-01,
         -2.3698e-01,  1.5698e-02,  2.3051e-02,  5.8821e-02, -5.4457e-02,
         -6.2108e-02,  6.8050e-02,  2.3765e-02,  3.3778e-03, -1.4321e-01,
          1.1054e

4. Visualiza los primeros valores.

In [None]:
# Mostrar los primeros 10 valores del embedding
print("Primeros 10 valores:", embedding_vector[0][:10].detach().numpy())  # Mostramos los primeros 10 valores del vector de embedding


Primeros 10 valores: [ 0.07461753  0.05727639  0.22950119 -0.02087739  0.01529151 -0.10244091
 -0.21923806 -0.06381667  0.07593805  0.16798739]
