In [3]:
import pandas as pd
from sklearn.cluster import AgglomerativeClustering
from sentence_transformers import SentenceTransformer
import numpy as np

# Cargar modelo BERT multilingüe
model = SentenceTransformer('distiluse-base-multilingual-cased')

# Cargar el archivo Excel
ruta_archivo = 'FrasesArticulos.xlsx'
df = pd.read_excel(ruta_archivo)

# Asegurar que las columnas necesarias están presentes
assert 'Frase' in df.columns and 'IDArticulo' in df.columns, "El archivo Excel debe contener las columnas 'Frase' e 'IDArticulo'."

# Convertir las frases a embeddings
frases = df['Frase'].tolist()
frases_embed = model.encode(frases, convert_to_tensor=True)

# Convertir tensores a arrays de numpy
frases_embed_np = frases_embed.cpu().numpy()

# Aplicar clustering jerárquico
umbral_distancia = 1.0  # Ajusta este valor si es necesario
clustering = AgglomerativeClustering(n_clusters=None, distance_threshold=umbral_distancia, linkage='average')
etiquetas = clustering.fit_predict(frases_embed_np)

# Añadir la columna de grupos al dataframe
df['IDGrupo'] = etiquetas

# Reordenar columnas para el output
df_output = df[['IDGrupo', 'Frase', 'IDArticulo']]

# Guardar el nuevo dataframe en un archivo Excel
df_output.to_excel('FrasesAgrupadas.xlsx', index=False)



