In [8]:
import pickle
import torch
import pandas as pd
from tqdm import tqdm
import sys
sys.path.append('/home/rod/Documents/Taller de Título/topic_models/TNTM/Code/TNTM')
import TNTM_SentenceTransformer  # Asegúrate de que este módulo esté en tu PATH o instalado

# ------------------------------------------------------------------
# 1. Cargar el dataset OCTIS preprocesado
# ------------------------------------------------------------------
data_raw = pickle.load(open("Preprocessed_Data/octis_dataset_20ng.pickle", "rb"))

corpus = data_raw.get_corpus()                    # List[List[str]]
print(f"Número de documentos: {len(corpus)}")

vocab = sorted(data_raw._Dataset__vocabulary)     # List[str]
print(f"Tamaño del vocabulario: {len(vocab)}")

# ------------------------------------------------------------------
# 2. Cargar las embeddings de palabras calculadas con BERT
# ------------------------------------------------------------------
word_df = pickle.load(open("../../Data/DataResults_BERT/cleaned_embedding_df_20ng_BERT.pickle", "rb"))

print(word_df.head())
print("Columnas:", word_df.columns)
print("Nombre del índice:", word_df.index.name)

# Convertir la columna 'embedding' (lista de tensores) a un tensor único (768,)
def embeddings_to_tensor(emb_list):
    # Caso típico: [tensor(-0.58), tensor(0.16), ...] → lista de 768 tensores
    if isinstance(emb_list, list):
        return torch.stack(emb_list)
    # Por si acaso ya es un tensor
    elif isinstance(emb_list, torch.Tensor):
        return emb_list
    else:
        raise ValueError(f"Tipo inesperado en embedding: {type(emb_list)}")

word_df['emb_tensor'] = word_df['embedding'].apply(embeddings_to_tensor)

# ------------------------------------------------------------------
# Detectar si 'word' es columna o índice y extraer las palabras correctamente
# ------------------------------------------------------------------
if 'word' in word_df.columns:
    words_series = word_df['word']
    print("'word' es una columna")
else:
    # 'word' es el nombre del índice → usamos el índice directamente
    words_series = word_df.index
    print("'word' es el índice del DataFrame")

# Crear diccionario: palabra → embedding tensor
word_to_emb = dict(zip(words_series, word_df['emb_tensor']))

# ------------------------------------------------------------------
# 3. Preparar word_embeddings: tensor (len(vocab), embedding_dim)
# ------------------------------------------------------------------
embedding_dim = word_df['emb_tensor'].iloc[0].shape[0]
print(f"Dimensión de embeddings: {embedding_dim}")

word_embeddings_list = []
for word in vocab:
    emb = word_to_emb.get(word, torch.zeros(embedding_dim))  # fallback a cero si falta
    word_embeddings_list.append(emb)

word_embeddings = torch.stack(word_embeddings_list)  # (V, 768)
print(f"word_embeddings shape: {word_embeddings.shape}")

Número de documentos: 100
Tamaño del vocabulario: 4938
                                               embedding  is_valid
word                                                              
a      [tensor(-0.5807), tensor(0.1609), tensor(0.093...      True
aa     [tensor(-0.5670), tensor(1.5925), tensor(0.769...      True
aaa    [tensor(-0.4409), tensor(0.3651), tensor(-0.51...      True
aaai   [tensor(-0.9470), tensor(0.8986), tensor(0.632...      True
aaron  [tensor(-0.1968), tensor(1.1235), tensor(-0.31...      True
Index(['embedding', 'is_valid'], dtype='object')


  return torch.stack(inner) if isinstance(inner, list) else torch.tensor(inner)


KeyError: 'word'

In [None]:
# ------------------------------------------------------------------
# 4. Preparar document_embeddings: promedio de las word embeddings por documento
#    (esto es lo que típicamente se usa cuando no se tienen sentence embeddings directas)
# ------------------------------------------------------------------
document_embeddings_list = []

for doc in tqdm(corpus, desc="Calculando document embeddings"):
    if len(doc) == 0:
        doc_emb = torch.zeros(embedding_dim)
    else:
        doc_embs = [word_to_emb.get(word, torch.zeros(embedding_dim)) for word in doc]
        doc_emb = torch.stack(doc_embs).mean(dim=0)  # promedio simple
    document_embeddings_list.append(doc_emb)

document_embeddings = torch.stack(document_embeddings_list)  # torch.Tensor (N_docs, 768)
print(f"document_embeddings shape: {document_embeddings.shape}")

In [None]:
# ------------------------------------------------------------------
# 5. Entrenar el modelo TNTM_SentenceTransformer
# ------------------------------------------------------------------
tntm = TNTM_SentenceTransformer.TNTM_SentenceTransformer(
    n_topics=20,
    save_path="example/20_topics",   # Cambia la ruta si lo deseas
    enc_lr=1e-3,
    dec_lr=1e-3
)

result = tntm.fit(
    corpus=corpus,                    # List[List[str]]
    vocab=vocab,                      # List[str]
    word_embeddings=word_embeddings,  # torch.Tensor (V, d)
    document_embeddings=document_embeddings  # torch.Tensor (N, d)
)

print("Entrenamiento completado. Resultados guardados en:", tntm.save_path)