In [1]:

import os
import pandas as pd
import time
import numpy as np
import re


In [2]:
# Paths
DATA_PATH ="../../data"

path_lb_embb = os.path.join(DATA_PATH, "lb_npy.npy")
path_dataset = os.path.join(DATA_PATH, "spotify_dataset_sin_duplicados_4.csv")


## Revisando que sean embbedings iguales en khipu

In [3]:
from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

MODEL_NAME = 'brunokreiner/lyrics-bert'
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModel.from_pretrained(MODEL_NAME)

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)


  from .autonotebook import tqdm as notebook_tqdm
Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.58.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.


Sentence embeddings:
tensor([[ 8.5982e-02, -1.9938e-01,  3.1403e-01, -2.1909e-01, -3.9347e-04,
          2.8418e-01,  1.1639e+00, -2.5347e-01, -5.9031e-01,  2.8978e-01,
         -4.3361e-01,  2.6265e-01,  1.2186e-02, -2.1822e-01,  1.0540e-01,
          1.8403e-01,  5.8598e-01, -1.6739e-01, -2.6611e-01,  3.8995e-01,
         -1.9267e-01,  3.5165e-01,  5.3251e-01,  4.8379e-01,  5.9596e-01,
         -1.0685e+00,  3.0516e-01, -4.1388e-01,  3.8347e-01, -3.3050e-01,
         -3.3174e-01,  4.0777e-01,  1.8344e-01, -2.9582e-01, -1.4029e-01,
         -4.2408e-01,  2.6159e-01, -2.7347e-01, -7.7970e-02, -3.2933e-01,
          3.9029e-01,  8.3547e-02,  1.7815e-01, -4.2287e-01,  2.5291e-02,
          5.4537e-01, -3.9749e-01,  1.0715e-01, -1.1429e+00,  4.7099e-01,
          2.0548e-01,  1.8556e-01, -3.1428e-01,  6.5785e-01,  2.4795e-01,
          5.3135e-01, -1.9034e-01,  3.3224e-01,  4.9253e-01, -1.7496e-02,
          4.9282e-01,  5.9564e-01,  2.2089e-01,  1.9639e-01, -1.7313e-01,
         -2.4567e

  return forward_call(*args, **kwargs)


In [4]:
BATCH_SIZE = 500 # Porque nos quedamos sin RAM :(
INIT = 0
TOTAL_ROWS = 108138
# TOTAL_ROWS = 1000

# To save vectors
# save_dir = "/content/drive/MyDrive/embeddings_lyricsbert_to_fusion/"
save_dir = os.path.join(DATA_PATH, "embbedings_khipu")
os.makedirs(save_dir, exist_ok=True)
# start = 0
# end = 5000
# ROWS = end - start
A = ['text', 'song', 'Artist(s)', 'Album', 'Similar Artist 1', 'Genre']


for start in range(INIT, TOTAL_ROWS, BATCH_SIZE):
  end = min(start + BATCH_SIZE, TOTAL_ROWS)
  print(f"\nProcesando filas {start} a {end-1}...")
  df = pd.read_csv(path_dataset, skiprows=range(1, start + 1), nrows=end - start)
  
  df['combined_text'] = df[A].fillna('').agg(' '.join, axis=1)

  df_sentences = df['combined_text'].fillna("").astype(str).tolist()

  print("shape de sentences: ", len(df_sentences))

  # Tokenize input
  start_time = time.time()

  encoded_df_input = tokenizer(df_sentences, padding=True, truncation=True, return_tensors='pt')

  # Compute embeddings
  with torch.no_grad():
      model_output = model(**encoded_df_input)

  # Pooling (mean)
  sentence_df_embeddings = mean_pooling(model_output, encoded_df_input['attention_mask'])



  # Print results
  end_time = time.time()
  print(f"\nTiempo total: {end_time - start_time:.2f} segundos")

  print("Iniciando guardado de los vectores: ")
  embeddings_np = sentence_df_embeddings.numpy()

  # Guardar en formato binario .npy
  npy_filename = f"embeddings_lyricsbert_{start}_{end-1}.npy"
  np.save(os.path.join(save_dir, npy_filename), embeddings_np)

  # # Guardar en CSV
  # csv_filename = f"embeddings_lyricsbert_{start}_{end-1}.csv"
  # np.savetxt(os.path.join(save_dir, csv_filename), embeddings_np, delimiter=",")
  print("Sentence embeddings:")
  # print(sentence_df_embeddings)
  print(sentence_df_embeddings.shape)
  print(f"Guardado batch {start}-{end-1}")



Procesando filas 0 a 499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 5.92 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 0-499

Procesando filas 500 a 999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.54 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 500-999

Procesando filas 1000 a 1499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 1000-1499

Procesando filas 1500 a 1999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 1500-1999

Procesando filas 2000 a 2499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 2000-2499

Procesando filas 2500 a 2999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 2500-2999

Procesando filas 3000 a 3499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 3000-3499

Procesando filas 3500 a 3999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 3500-3999

Procesando filas 4000 a 4499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 4000-4499

Procesando filas 4500 a 4999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 4500-4999

Procesando filas 5000 a 5499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 5000-5499

Procesando filas 5500 a 5999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.44 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 5500-5999

Procesando filas 6000 a 6499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 6000-6499

Procesando filas 6500 a 6999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 6500-6999

Procesando filas 7000 a 7499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.66 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 7000-7499

Procesando filas 7500 a 7999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 7500-7999

Procesando filas 8000 a 8499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 8000-8499

Procesando filas 8500 a 8999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.45 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 8500-8999

Procesando filas 9000 a 9499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 9000-9499

Procesando filas 9500 a 9999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 9500-9999

Procesando filas 10000 a 10499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 10000-10499

Procesando filas 10500 a 10999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.44 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 10500-10999

Procesando filas 11000 a 11499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 11000-11499

Procesando filas 11500 a 11999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 11500-11999

Procesando filas 12000 a 12499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 12000-12499

Procesando filas 12500 a 12999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 12500-12999

Procesando filas 13000 a 13499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 13000-13499

Procesando filas 13500 a 13999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 13500-13999

Procesando filas 14000 a 14499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 14000-14499

Procesando filas 14500 a 14999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 14500-14999

Procesando filas 15000 a 15499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 15000-15499

Procesando filas 15500 a 15999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 15500-15999

Procesando filas 16000 a 16499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 16000-16499

Procesando filas 16500 a 16999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.45 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 16500-16999

Procesando filas 17000 a 17499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.44 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 17000-17499

Procesando filas 17500 a 17999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 17500-17999

Procesando filas 18000 a 18499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 18000-18499

Procesando filas 18500 a 18999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 18500-18999

Procesando filas 19000 a 19499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 19000-19499

Procesando filas 19500 a 19999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.43 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 19500-19999

Procesando filas 20000 a 20499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 20000-20499

Procesando filas 20500 a 20999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 20500-20999

Procesando filas 21000 a 21499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 21000-21499

Procesando filas 21500 a 21999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.55 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 21500-21999

Procesando filas 22000 a 22499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 22000-22499

Procesando filas 22500 a 22999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 22500-22999

Procesando filas 23000 a 23499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.45 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 23000-23499

Procesando filas 23500 a 23999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 23500-23999

Procesando filas 24000 a 24499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 24000-24499

Procesando filas 24500 a 24999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 24500-24999

Procesando filas 25000 a 25499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 25000-25499

Procesando filas 25500 a 25999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 25500-25999

Procesando filas 26000 a 26499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 26000-26499

Procesando filas 26500 a 26999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 26500-26999

Procesando filas 27000 a 27499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.45 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 27000-27499

Procesando filas 27500 a 27999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 27500-27999

Procesando filas 28000 a 28499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 28000-28499

Procesando filas 28500 a 28999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.57 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 28500-28999

Procesando filas 29000 a 29499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.56 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 29000-29499

Procesando filas 29500 a 29999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 29500-29999

Procesando filas 30000 a 30499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 30000-30499

Procesando filas 30500 a 30999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 30500-30999

Procesando filas 31000 a 31499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 31000-31499

Procesando filas 31500 a 31999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.66 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 31500-31999

Procesando filas 32000 a 32499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 32000-32499

Procesando filas 32500 a 32999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 32500-32999

Procesando filas 33000 a 33499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 33000-33499

Procesando filas 33500 a 33999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 33500-33999

Procesando filas 34000 a 34499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.64 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 34000-34499

Procesando filas 34500 a 34999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 34500-34999

Procesando filas 35000 a 35499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 5.00 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 35000-35499

Procesando filas 35500 a 35999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.55 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 35500-35999

Procesando filas 36000 a 36499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 36000-36499

Procesando filas 36500 a 36999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.93 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 36500-36999

Procesando filas 37000 a 37499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.71 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 37000-37499

Procesando filas 37500 a 37999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 37500-37999

Procesando filas 38000 a 38499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.66 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 38000-38499

Procesando filas 38500 a 38999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.58 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 38500-38999

Procesando filas 39000 a 39499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 39000-39499

Procesando filas 39500 a 39999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 39500-39999

Procesando filas 40000 a 40499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 40000-40499

Procesando filas 40500 a 40999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 40500-40999

Procesando filas 41000 a 41499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.54 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 41000-41499

Procesando filas 41500 a 41999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 41500-41999

Procesando filas 42000 a 42499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 42000-42499

Procesando filas 42500 a 42999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 42500-42999

Procesando filas 43000 a 43499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 43000-43499

Procesando filas 43500 a 43999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.55 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 43500-43999

Procesando filas 44000 a 44499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 44000-44499

Procesando filas 44500 a 44999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 44500-44999

Procesando filas 45000 a 45499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.44 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 45000-45499

Procesando filas 45500 a 45999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 45500-45999

Procesando filas 46000 a 46499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 46000-46499

Procesando filas 46500 a 46999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 46500-46999

Procesando filas 47000 a 47499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 47000-47499

Procesando filas 47500 a 47999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.45 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 47500-47999

Procesando filas 48000 a 48499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 48000-48499

Procesando filas 48500 a 48999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 48500-48999

Procesando filas 49000 a 49499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 49000-49499

Procesando filas 49500 a 49999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 49500-49999

Procesando filas 50000 a 50499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 50000-50499

Procesando filas 50500 a 50999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 50500-50999

Procesando filas 51000 a 51499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 51000-51499

Procesando filas 51500 a 51999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 51500-51999

Procesando filas 52000 a 52499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 52000-52499

Procesando filas 52500 a 52999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 52500-52999

Procesando filas 53000 a 53499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 53000-53499

Procesando filas 53500 a 53999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 53500-53999

Procesando filas 54000 a 54499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 54000-54499

Procesando filas 54500 a 54999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 54500-54999

Procesando filas 55000 a 55499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 55000-55499

Procesando filas 55500 a 55999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 55500-55999

Procesando filas 56000 a 56499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 56000-56499

Procesando filas 56500 a 56999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.58 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 56500-56999

Procesando filas 57000 a 57499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.56 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 57000-57499

Procesando filas 57500 a 57999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 57500-57999

Procesando filas 58000 a 58499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 58000-58499

Procesando filas 58500 a 58999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 58500-58999

Procesando filas 59000 a 59499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 59000-59499

Procesando filas 59500 a 59999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 59500-59999

Procesando filas 60000 a 60499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 60000-60499

Procesando filas 60500 a 60999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 60500-60999

Procesando filas 61000 a 61499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 61000-61499

Procesando filas 61500 a 61999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 61500-61999

Procesando filas 62000 a 62499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 62000-62499

Procesando filas 62500 a 62999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 62500-62999

Procesando filas 63000 a 63499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 63000-63499

Procesando filas 63500 a 63999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 63500-63999

Procesando filas 64000 a 64499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 64000-64499

Procesando filas 64500 a 64999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 64500-64999

Procesando filas 65000 a 65499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 65000-65499

Procesando filas 65500 a 65999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 65500-65999

Procesando filas 66000 a 66499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 66000-66499

Procesando filas 66500 a 66999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 66500-66999

Procesando filas 67000 a 67499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 67000-67499

Procesando filas 67500 a 67999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.56 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 67500-67999

Procesando filas 68000 a 68499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.54 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 68000-68499

Procesando filas 68500 a 68999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 68500-68999

Procesando filas 69000 a 69499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 69000-69499

Procesando filas 69500 a 69999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 69500-69999

Procesando filas 70000 a 70499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 70000-70499

Procesando filas 70500 a 70999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 70500-70999

Procesando filas 71000 a 71499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 71000-71499

Procesando filas 71500 a 71999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 71500-71999

Procesando filas 72000 a 72499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 72000-72499

Procesando filas 72500 a 72999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 72500-72999

Procesando filas 73000 a 73499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 73000-73499

Procesando filas 73500 a 73999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 73500-73999

Procesando filas 74000 a 74499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 74000-74499

Procesando filas 74500 a 74999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 74500-74999

Procesando filas 75000 a 75499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 75000-75499

Procesando filas 75500 a 75999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 75500-75999

Procesando filas 76000 a 76499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 76000-76499

Procesando filas 76500 a 76999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 76500-76999

Procesando filas 77000 a 77499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 77000-77499

Procesando filas 77500 a 77999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 77500-77999

Procesando filas 78000 a 78499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 78000-78499

Procesando filas 78500 a 78999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 78500-78999

Procesando filas 79000 a 79499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 79000-79499

Procesando filas 79500 a 79999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 79500-79999

Procesando filas 80000 a 80499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 80000-80499

Procesando filas 80500 a 80999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 80500-80999

Procesando filas 81000 a 81499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 81000-81499

Procesando filas 81500 a 81999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 81500-81999

Procesando filas 82000 a 82499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.45 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 82000-82499

Procesando filas 82500 a 82999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 82500-82999

Procesando filas 83000 a 83499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 83000-83499

Procesando filas 83500 a 83999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 83500-83999

Procesando filas 84000 a 84499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.54 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 84000-84499

Procesando filas 84500 a 84999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 84500-84999

Procesando filas 85000 a 85499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 85000-85499

Procesando filas 85500 a 85999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 85500-85999

Procesando filas 86000 a 86499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 86000-86499

Procesando filas 86500 a 86999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 86500-86999

Procesando filas 87000 a 87499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 87000-87499

Procesando filas 87500 a 87999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 87500-87999

Procesando filas 88000 a 88499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 88000-88499

Procesando filas 88500 a 88999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 88500-88999

Procesando filas 89000 a 89499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 89000-89499

Procesando filas 89500 a 89999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 89500-89999

Procesando filas 90000 a 90499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 90000-90499

Procesando filas 90500 a 90999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 90500-90999

Procesando filas 91000 a 91499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 91000-91499

Procesando filas 91500 a 91999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 91500-91999

Procesando filas 92000 a 92499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.52 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 92000-92499

Procesando filas 92500 a 92999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.54 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 92500-92999

Procesando filas 93000 a 93499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 93000-93499

Procesando filas 93500 a 93999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.66 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 93500-93999

Procesando filas 94000 a 94499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 94000-94499

Procesando filas 94500 a 94999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 94500-94999

Procesando filas 95000 a 95499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 95000-95499

Procesando filas 95500 a 95999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 95500-95999

Procesando filas 96000 a 96499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 96000-96499

Procesando filas 96500 a 96999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.44 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 96500-96999

Procesando filas 97000 a 97499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 97000-97499

Procesando filas 97500 a 97999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 97500-97999

Procesando filas 98000 a 98499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 98000-98499

Procesando filas 98500 a 98999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 98500-98999

Procesando filas 99000 a 99499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 99000-99499

Procesando filas 99500 a 99999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 99500-99999

Procesando filas 100000 a 100499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 100000-100499

Procesando filas 100500 a 100999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.59 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 100500-100999

Procesando filas 101000 a 101499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 101000-101499

Procesando filas 101500 a 101999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 101500-101999

Procesando filas 102000 a 102499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.49 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 102000-102499

Procesando filas 102500 a 102999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.47 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 102500-102999

Procesando filas 103000 a 103499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.46 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 103000-103499

Procesando filas 103500 a 103999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 103500-103999

Procesando filas 104000 a 104499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.45 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 104000-104499

Procesando filas 104500 a 104999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.44 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 104500-104999

Procesando filas 105000 a 105499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.44 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 105000-105499

Procesando filas 105500 a 105999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 105500-105999

Procesando filas 106000 a 106499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.50 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 106000-106499

Procesando filas 106500 a 106999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.51 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 106500-106999

Procesando filas 107000 a 107499...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.53 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 107000-107499

Procesando filas 107500 a 107999...
shape de sentences:  500


  return forward_call(*args, **kwargs)



Tiempo total: 4.48 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([500, 300])
Guardado batch 107500-107999

Procesando filas 108000 a 108137...
shape de sentences:  138


  return forward_call(*args, **kwargs)



Tiempo total: 1.29 segundos
Iniciando guardado de los vectores: 
Sentence embeddings:
torch.Size([138, 300])
Guardado batch 108000-108137


In [5]:
## Make fusion of the embeddings of example
save_dir_df_npy = os.path.join(save_dir, "lb_khipu_A.npy")
# print(os.listdir(save_dir))

embbedings_df_npy =os.listdir(save_dir)

def get_start_number(filename):
    match = re.search(r'embeddings_lyricsbert_(\d+)_\d+\.npy', filename)
    return int(match.group(1)) if match else float('inf')
embbedings_df_npy = sorted(embbedings_df_npy, key=get_start_number)

all_embeddings = []

for embb in embbedings_df_npy:
  if embb.endswith('.npy'):
    # print(embb)
    file_path = os.path.join(save_dir, embb)
    embeddings = np.load(file_path)
    all_embeddings.append(embeddings)
    print(f"Leído: {embb} - Shape: {embeddings.shape}")
    print(f"Total: {len(all_embeddings)}")

final_embeddings = np.vstack(all_embeddings)
print("Shape final:", final_embeddings.shape)

# Guardar en .npy
np.save(save_dir_df_npy, final_embeddings)
print(f"Embeddings guardados en: {save_dir_df_npy}")



Leído: embeddings_lyricsbert_0_499.npy - Shape: (500, 300)
Total: 1
Leído: embeddings_lyricsbert_500_999.npy - Shape: (500, 300)
Total: 2
Leído: embeddings_lyricsbert_1000_1499.npy - Shape: (500, 300)
Total: 3
Leído: embeddings_lyricsbert_1500_1999.npy - Shape: (500, 300)
Total: 4
Leído: embeddings_lyricsbert_2000_2499.npy - Shape: (500, 300)
Total: 5
Leído: embeddings_lyricsbert_2500_2999.npy - Shape: (500, 300)
Total: 6
Leído: embeddings_lyricsbert_3000_3499.npy - Shape: (500, 300)
Total: 7
Leído: embeddings_lyricsbert_3500_3999.npy - Shape: (500, 300)
Total: 8
Leído: embeddings_lyricsbert_4000_4499.npy - Shape: (500, 300)
Total: 9
Leído: embeddings_lyricsbert_4500_4999.npy - Shape: (500, 300)
Total: 10
Leído: embeddings_lyricsbert_5000_5499.npy - Shape: (500, 300)
Total: 11
Leído: embeddings_lyricsbert_5500_5999.npy - Shape: (500, 300)
Total: 12
Leído: embeddings_lyricsbert_6000_6499.npy - Shape: (500, 300)
Total: 13
Leído: embeddings_lyricsbert_6500_6999.npy - Shape: (500, 300)
Tot

In [6]:
#Delete the butches files

dir_clean = save_dir
print(dir_clean)

butches_embb = os.listdir(dir_clean)

for butch in butches_embb:
    if butch != "lb_khipu_A.npy" and butch != "lb_khipu.npy"  :
        # Delete 
        file_path = os.path.join(dir_clean, butch)
        print(file_path)
        os.remove(file_path)


../../data/embbedings_khipu
../../data/embbedings_khipu/embeddings_lyricsbert_1000_1499.npy
../../data/embbedings_khipu/embeddings_lyricsbert_500_999.npy
../../data/embbedings_khipu/embeddings_lyricsbert_36500_36999.npy
../../data/embbedings_khipu/embeddings_lyricsbert_45500_45999.npy
../../data/embbedings_khipu/embeddings_lyricsbert_63000_63499.npy
../../data/embbedings_khipu/embeddings_lyricsbert_26500_26999.npy
../../data/embbedings_khipu/embeddings_lyricsbert_42000_42499.npy
../../data/embbedings_khipu/embeddings_lyricsbert_63500_63999.npy
../../data/embbedings_khipu/embeddings_lyricsbert_58000_58499.npy
../../data/embbedings_khipu/embeddings_lyricsbert_86500_86999.npy
../../data/embbedings_khipu/embeddings_lyricsbert_68000_68499.npy
../../data/embbedings_khipu/embeddings_lyricsbert_60500_60999.npy
../../data/embbedings_khipu/embeddings_lyricsbert_69000_69499.npy
../../data/embbedings_khipu/embeddings_lyricsbert_83000_83499.npy
../../data/embbedings_khipu/embeddings_lyricsbert_1000

## 1) LB KHIPU VS LB COLAB

In [None]:
# colab_embbeding = np.load(path_lb_embb) 
# khipu_embbeding = np.load("../data/embbedings_khipu/lb_khipu.npy") 
# are_equal = np.array_equal(colab_embbeding, khipu_embbeding)
# print("¿Son exactamente iguales?", are_equal)

# are_close = np.allclose(colab_embbeding, khipu_embbeding, atol=1e-6)
# print("¿Son prácticamente iguales (con tolerancia)?", are_close)


¿Son exactamente iguales? False
¿Son prácticamente iguales (con tolerancia)? True


Son iguales pero diferentes, con tol de e-6

## 2) Comparing df 1000 VS 1000 primeras filas de Colab an khipu

In [None]:
# df_data = pd.read_csv(path_dataset)

In [None]:
# df_data = df_data[: 1000]
# print(df_data.shape)
# list_text  = df_data['text'].fillna("").astype(str).tolist()
# print(len(list_text))


(1000, 41)
1000


In [None]:
# from transformers import AutoTokenizer, AutoModel
# import torch


# #Mean Pooling - Take attention mask into account for correct averaging
# def mean_pooling(model_output, attention_mask):
#     token_embeddings = model_output[0] #First element of model_output contains all token embeddings
#     input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
#     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# # Sentences we want sentence embeddings for
# sentences = list_text

# # Load model from HuggingFace Hub
# tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# model = AutoModel.from_pretrained(MODEL_NAME)

# # Tokenize sentences
# encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# # Compute token embeddings
# with torch.no_grad():
#     model_output = model(**encoded_input)

# # Perform pooling. In this case, mean pooling.
# sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# print("Sentence embeddings:")
# print(sentence_embeddings)


  return forward_call(*args, **kwargs)


Sentence embeddings:
tensor([[ 0.0043, -0.2640, -0.0681,  ..., -0.1682, -0.0212, -0.0591],
        [ 0.0013, -0.1634, -0.1466,  ..., -0.1082, -0.0870,  0.0344],
        [ 0.0144,  0.0016,  0.0267,  ..., -0.1320, -0.0767, -0.0183],
        ...,
        [ 0.1645, -0.0803, -0.1348,  ..., -0.2597, -0.2391,  0.0845],
        [ 0.1008, -0.1003,  0.0754,  ..., -0.1176, -0.1607,  0.1153],
        [ 0.0109, -0.2829,  0.1105,  ..., -0.0596, -0.1596,  0.0998]])


In [None]:
# colab_embbeding_first = colab_embbeding[:1000]
# khipu_embbeding_first = khipu_embbeding[:1000]
# are_close_khipu = np.allclose(khipu_embbeding_first, sentence_embeddings, atol=1e-7)
# print("Son casi iguales con Khipu" if are_close_khipu else "Son diferentes")

# are_close_colab = np.allclose(colab_embbeding_first, sentence_embeddings, atol=1e-7)
# print("Son casi iguales con Colab" if are_close_colab else "Son diferentes")



Son casi iguales con Khipu
Son casi iguales con Colab


Ahora con los 1000 ultimos

In [None]:
# # Actualziar df_data skdjksl

# df_data = pd.read_csv(path_dataset)
# df_data =df_data[-1000:] 
# print(df_data.shape)
# list_text_last  = df_data['text'].fillna("").astype(str).tolist()
# print(len(list_text_last))


(1000, 41)
1000


In [None]:
# from transformers import AutoTokenizer, AutoModel
# import torch


# #Mean Pooling - Take attention mask into account for correct averaging
# def mean_pooling(model_output, attention_mask):
#     token_embeddings = model_output[0] #First element of model_output contains all token embeddings
#     input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
#     return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# # Sentences we want sentence embeddings for
# sentences = list_text_last

# # Load model from HuggingFace Hub
# tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# model = AutoModel.from_pretrained(MODEL_NAME)

# # Tokenize sentences
# encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# # Compute token embeddings
# with torch.no_grad():
#     model_output = model(**encoded_input)

# # Perform pooling. In this case, mean pooling.
# sentence_embeddings_last = mean_pooling(model_output, encoded_input['attention_mask'])

# print("Sentence embeddings:")
# # print(sentence_embeddings)

# #               total        used        free      shared  buff/cache   available
# # Mem:          1.0Ti        23Gi       820Gi       3.2Gi       163Gi       975Gi
# # Swap:            0B          0B          0B
# # [marcelino.maita@ds001 sanity_check]$


  return forward_call(*args, **kwargs)


Sentence embeddings:


In [None]:
# print(colab_embbeding.shape)
# print(khipu_embbeding.shape)

(108138, 300)
(108138, 300)


In [None]:
# colab_embbeding_last = colab_embbeding[-1000:]
# khipu_embbeding_last = khipu_embbeding[-1000:]
# are_close_khipu = np.allclose(khipu_embbeding_last, sentence_embeddings_last, atol=1e-7)
# print("Son casi iguales con Khipu" if are_close_khipu else "Son diferentes")

# are_close_colab = np.allclose(colab_embbeding_last, sentence_embeddings_last, atol=1e-7)
# print("Son casi iguales con Colab" if are_close_colab else "Son diferentes")



Son casi iguales con Khipu
Son casi iguales con Colab


En resumen son iguales con almenos tolerancia de 1e-6