In [22]:
import pandas as pd
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer

In [23]:
df = pd.read_csv("../datos/comentarios.csv")
model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
embeddings = model.encode(df["texto_comentario"].tolist(), show_progress_bar=True)

topic_model = BERTopic(language="spanish", calculate_probabilities=True, verbose=True)

topics, probs = topic_model.fit_transform(df["texto_comentario"], embeddings)

df["topic"] = topics
df.head()

Batches: 100%|██████████| 20/20 [00:00<00:00, 64.89it/s]
2025-10-07 21:21:21,482 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-10-07 21:21:21,790 - BERTopic - Dimensionality - Completed ✓
2025-10-07 21:21:21,790 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-10-07 21:21:21,811 - BERTopic - Cluster - Completed ✓
2025-10-07 21:21:21,812 - BERTopic - Representation - Fine-tuning topics using representation models.
2025-10-07 21:21:21,826 - BERTopic - Representation - Completed ✓


Unnamed: 0,id_comentario,id_cliente,id_producto,calificacion,texto_comentario,fecha_comentario,topic
0,1,1,2,5,El Smartphone Nexus 5G es un cambio de juego. ...,2024-05-20,7
1,2,2,4,4,La Camiseta Deportiva Ultralight es muy cómoda...,2024-05-21,6
2,3,3,1,5,La Laptop Gamer Pro es una bestia de rendimien...,2024-05-22,5
3,4,4,5,3,Las Zapatillas Urbanas Fit tienen un diseño mu...,2024-05-23,8
4,5,5,3,4,Los Auriculares Inalámbricos X ofrecen un soni...,2024-05-24,1


In [21]:
topic_info = topic_model.get_topic_info()
topic_info.head()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,33,-1_es_la_de_fuga,"[es, la, de, fuga, cable, en, menor, un, sueño...",[La Cámara de Acción 4K es una joya. La calida...
1,0,89,0_laptop_rendimiento_pantalla_es,"[laptop, rendimiento, pantalla, es, el, teclad...",[La laptop es una maravilla. El procesador es ...
2,1,53,1_cámara_teléfono_la_es,"[cámara, teléfono, la, es, móvil, rápido, pero...","[El mejor teléfono que he tenido, la pantalla ..."
3,2,52,2_trama_personajes_me_historia,"[trama, personajes, me, historia, final, libro...","[Es un libro muy interesante, pero me esperaba..."
4,3,50,3_suela_no_me_zapatillas,"[suela, no, me, zapatillas, son, las, para, có...",[La suela de estas zapatillas se desgastó en p...


In [24]:
topic_model.visualize_topics()           # Mapa general de temas (UMAP interno)
topic_model.visualize_hierarchy()        # Árbol jerárquico de temas
topic_model.visualize_barchart()         # Palabras más relevantes por tema
topic_model.visualize_term_rank()        # Importancia relativa de términos

In [25]:
topic_model.get_topic(0)

[('laptop', np.float64(0.07511587830213139)),
 ('rendimiento', np.float64(0.05928614671536811)),
 ('pantalla', np.float64(0.05823395221236145)),
 ('es', np.float64(0.049976244698659855)),
 ('el', np.float64(0.04798405255931171)),
 ('teclado', np.float64(0.04706253652915461)),
 ('resolución', np.float64(0.0445023127717292)),
 ('alta', np.float64(0.04408251187931692)),
 ('cómodo', np.float64(0.04301890234600488)),
 ('de', np.float64(0.040061259903199704))]

In [26]:
topic_info = topic_model.get_topic_info()
topic_info.head(10)

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,40,-1_en_la_es_de,"[en, la, es, de, luz, buena, cámara, pero, cab...",[La Cámara de Acción 4K es una joya. La calida...
1,0,89,0_laptop_rendimiento_pantalla_es,"[laptop, rendimiento, pantalla, es, el, teclad...",[La laptop es una maravilla. El procesador es ...
2,1,46,1_sonido_auriculares_los_son,"[sonido, auriculares, los, son, cancelación, r...","[El sonido es claro, muy contento con la compr..."
3,2,46,2_ollas_se_cocina_son,"[ollas, se, cocina, son, las, comida, calor, s...","[Excelente set de ollas, muy buena inversión. ..."
4,3,45,3_trama_personajes_me_historia,"[trama, personajes, me, historia, libro, final...","[Es un libro muy interesante, pero me esperaba..."
5,4,44,4_mochila_puerto_material_funcional,"[mochila, puerto, material, funcional, usb, el...","[La mochila es funcional, pero el material se ..."
6,5,34,5_gamer_pro_laptop_una,"[gamer, pro, laptop, una, responsivo, potente,...",[La Laptop Gamer Pro es una máquina increíblem...
7,6,31,6_camiseta_se_material_ejercicio,"[camiseta, se, material, ejercicio, sudor, cóm...",[La mejor camiseta para hacer deporte. No reti...
8,7,30,7_teléfono_nexus_smartphone_rápido,"[teléfono, nexus, smartphone, rápido, pantalla...",[El teléfono es muy rápido y la pantalla se ve...
9,8,29,8_zapatillas_me_no_suela,"[zapatillas, me, no, suela, las, arrepiento, p...",[Las zapatillas son bonitas pero no muy cómoda...
