# 3. Modelado

In [526]:
!pip install bertopic



In [527]:
!pip install cohere



In [528]:
from bertopic import BERTopic
import pandas as pd

from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import CountVectorizer

from hdbscan import HDBSCAN
from umap import UMAP

In [529]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [530]:
import cohere
from bertopic.representation import Cohere

API_KEY = 'kR.....I'
co = cohere.Client(API_KEY)

In [531]:
# agregar palabras consideradas vacías y que no están en stopwords
words = ['así', 'ej','si','través']
stopwords = nltk.corpus.stopwords.words('spanish')
stopwords.extend(words)

## 3.1 Carga de datos

In [532]:
# Cargar el archivo CSV preparado en la etapa anterior en un DataFrame de pandas

df = pd.read_csv('https://github.com/carocardoso/dataset_tesis/raw/refs/heads/main/datos_carr_sel_prepro.csv', sep=";", encoding='latin1')

#ruta_csv = "../datos/datos_carr_sel_prepro.csv"
#df = pd.read_csv(ruta_csv, encoding='latin1', sep=";")

df.head()

Unnamed: 0,id,anio,titulo,resumen,texto_limpio,texto_tok,facultad,carrera,descargas,vistas,url,pdf,resumen_orig,palabras
0,69877,2021,Intervenciones que lleva adelante el psicólogo...,"el presente informe, que se realiza como traba...",intervenciones que lleva adelante el psicólogo...,intervenciones lleva adelante psicólogo practi...,Artes y Ciencias,Licenciatura en Psicología,143,40,https://bibliotecas.ucasal.edu.ar/opac_css/ind...,https://bibliotecas.ucasal.edu.ar/opac_css/698...,"El presente informe, que se realiza como traba...",78
1,69993,2021,La gestión estratégica de Recursos Humanos en ...,"el presente trabajo de investigación, toma com...",la gestión estratégica de recursos humanos en ...,gestión estratégica recursos humanos ente regu...,Economía y Administración,Licenciatura en Recursos Humanos,143,108,https://bibliotecas.ucasal.edu.ar/opac_css/ind...,https://bibliotecas.ucasal.edu.ar/opac_css/699...,"El presente trabajo de investigación, toma com...",79
2,69991,2021,El impacto del Covid-19 y la reorganización la...,la vida laboral no está exenta de sucesos estr...,el impacto del covid y la reorganización lab...,impacto covid reorganización laboral estrés la...,Economía y Administración,Licenciatura en Recursos Humanos,156,115,https://bibliotecas.ucasal.edu.ar/opac_css/ind...,https://bibliotecas.ucasal.edu.ar/opac_css/699...,La vida laboral no está exenta de sucesos estr...,84
3,64368,2018,El bienestar psicológico en las mujeres conduc...,"el presente estudio tiene como objetivo, estab...",el bienestar psicológico en las mujeres conduc...,bienestar psicológico mujeres conductoras tran...,Artes y Ciencias,Licenciatura en Psicología,349,161,https://bibliotecas.ucasal.edu.ar/opac_css/ind...,https://bibliotecas.ucasal.edu.ar/opac_css/643...,"El presente estudio tiene como objetivo, estab...",87
4,75264,2023,Las características de la comunicación mediáti...,el objetivo del presente proyecto es analizar ...,las características de la comunicación mediáti...,características comunicación mediática formas ...,Artes y Ciencias,Licenciatura en Comunicaciones Sociales,38,25,https://bibliotecas.ucasal.edu.ar/opac_css/ind...,https://bibliotecas.ucasal.edu.ar/opac_css/752...,El objetivo del presente proyecto es analizar ...,88


## 3.2 Preparación de datos
Esto se hizo en la etapa anterior pero se afina el preprocesamiento
Se probó el modelado "limpiando los textos" y con el campo sin procesar

In [533]:
# al generar el csv se agregó como salto de linea '_x000D_'. Se elimina aqui
df['texto_limpio'] = df['texto_limpio'].str.replace('_x000D_', '')
df['texto_limpio'] = df['texto_limpio'].str.replace('nº bº', '')
df['texto_limpio'] = df['texto_limpio'].str.replace('n° b°', '')
df['texto_limpio'] = df['texto_limpio'].str.replace('nº', '')
df['texto_limpio'] = df['texto_limpio'].str.replace('n°', '')
df['texto_limpio'] = df['texto_limpio'].str.replace('bº', '')
df['texto_limpio'] = df['texto_limpio'].str.replace('b°', '')

## 3.3 Entrenamiento

In [534]:
# # agregar palabras consideradas vacías y que no están en stopwords
# words = ['así', 'ej','si','través']
# stopwords = nltk.corpus.stopwords.words('spanish')
# stopwords.extend(words)

Crear una función personalizada para generar etiquetas con Command-R

In [535]:
def generar_labels(topic_model, docs_per_topic, active_topic_ids, carrera, nr_words=10):
    """
    Genera etiquetas para cada tópico usando Cohere Command-R.

    Args:
        topic_model: Modelo BERTopic entrenado.
        docs_per_topic: Documentos agrupados por tópico.
        active_topic_ids: Lista de IDs de tópicos activos en el modelo.
        nr_words: Número de palabras clave a incluir en el prompt.

    Returns:
        dict: Diccionario {topic_id: "etiqueta_generada"}
    """
    lista=[]
    labels = {}

    for topic_id in active_topic_ids:
        if topic_id == -1:  # Tópico de outliers
            labels[topic_id] = "Documentos diversos"
            continue

        # Obtener palabras clave del tópico
        keywords = topic_model.get_topic(topic_id)[:nr_words]
        keyword_list = [word for word, _ in keywords]

        # Obtener los documentos representativos para este tópico
        representative_docs_for_topic = docs_per_topic.get(topic_id, [])

        palclave= ', '.join(keyword_list)
        docu= chr(10).join([f'- {doc[:200]}...' for doc in representative_docs_for_topic[:5]])
        lista.append([palclave, docu])


        # Crear prompt para Command-R
        prompt = f"""
    Eres un experto en análisis temático. Genera un título descriptivo (5 a 7 palabras)
    para un grupo de documentos académicos basado en:

    PALABRAS CLAVE: {', '.join(keyword_list)}

    FRAGMENTOS DE DOCUMENTOS:
    {chr(10).join([f'- {doc[:200]}...' for doc in representative_docs_for_topic[:5]])}

    CONTEXTO:
    Los documentos son resúmenes de trabajos finales de la carrera universitaria: {carrera}.

    INSTRUCCIONES:
    1. El título debe capturar la esencia temática
    2. Usar terminología académica apropiada
    3. Formato: sustantivo + adjetivo/modificador
    4. Escrito en idioma español

    TÍTULO SUGERIDO:
    """

        # Llamada a la API de Cohere
        try:
            # Llamada a la NUEVA Chat API
            response = co.chat(
                model='command-r-plus-08-2024',  # o 'command-r-plus-08-2024'
                message=prompt,
                temperature=0.3,
                max_tokens=30
            )

            # Extraer texto de la respuesta
            label = response.text.strip()
            # Limpieza básica
            label = label.replace('"', '').replace("'", "").strip()
            labels[topic_id] = label

        except Exception as e:
            print(f"Error generando etiqueta para tópico {topic_id}: {e}")
            # Fallback a palabras clave
            labels[topic_id] = " - ".join(keyword_list[:3])
    print(lista)
    return labels

In [536]:
## CAMBIAR AQUI
def config_model(cantidad_docs):
  if cantidad_docs >200:
   min_cluster_size = 3
   n_neighbors = 15
   outliers = 40

  elif cantidad_docs >=110:
    min_cluster_size = 2
    n_neighbors = 5
    outliers = 20
  else:
    min_cluster_size = 3
    n_neighbors = 15
    outliers = 20
  # Ajustar min_cluster_size para fomentar más clusters, con un mínimo de 2 tópicos.
  # min_cluster_size = max(3, int(round(cantidad_docs * 0.01, 0))) # e.g., 1% of docs, with a minimum of 2
  # n_neighbors = max(15, int(round(cantidad_docs * 0.15,0)))  # Cantidad de vecinos en el cluster, proporción según cant de docs 10%. DEFAULT 15
  # outliers = min(20, int(round(cantidad_docs * 0.15,0)))  # Cantidad máx de docs sin clasificar 15%
  print(f'Cantidad de documentos: {cantidad_docs}.  min_cluster_size: {min_cluster_size}, n_neighbors: {n_neighbors}, outliers: {outliers}')

  return min_cluster_size, n_neighbors, outliers

In [537]:
from bertopic.representation import MaximalMarginalRelevance

#Mejorar la representación predeterminada. CountVectorizer elimina palabras vacías e ignora las palabras poco frecuentes.
#Considera los tokens con una o dos palabras (ngramas).
vectorizer_model = CountVectorizer(stop_words=stopwords, ngram_range=(1, 2))

#Obtener embeddings
embedding_model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")

  #Para reducir esta redundancia y mejorar la diversidad de palabras clave, el algoritmo MMR considera la similitud de las palabras clave o frases clave con el documento,
    #así la selección de palabras clave maximiza su diversidad dentro del documento.
representation_model = MaximalMarginalRelevance(diversity=0.5)
#   λ = 1.0: Relevancia pura (búsqueda vectorial regular)
# λ = 0,5: Enfoque equilibrado
# λ = 0,0: Diversidad pura

# función para entrenar el modelo a partir de un conjunto de documentos
def train_model(docs, carrera, df_carr):
  #configuración inicial
  min_cluster_size, n_neighbors, outliers = config_model(len(docs))

  #embeddings
  embeddings = embedding_model.encode(docs, show_progress_bar=True)

 # HDBSCAN: min_cluster_size controla la cantidad de temas que se crearán. Un número grande generará menos temas y un número pequeño generará más temas.
  hdbscan_model = HDBSCAN(min_cluster_size=min_cluster_size, metric='euclidean', cluster_selection_epsilon=0.05, min_samples=10, prediction_data=True)
 # cluster_selection_epsilon=0.05,  # ↓ Menor valor para evitar unir clusters cercanos
 # cluster_selection_method='eom', , prediction_data=True
 #min_samples=3,             # ↑ Mayor valor para clusters más densos

    # UMAP reduce la dimensionalidad
  umap_model = UMAP(n_neighbors=n_neighbors, min_dist=0.2, metric='cosine', random_state=42)
    #n_neighbors=15 n_neighbors
    #n_components=10 ↑ Mayor dimensionalidad para separar clusters


  # Definición del modelo
  topic_model = BERTopic(
      # Pipeline models
      embedding_model=embedding_model,
      umap_model=umap_model,
      hdbscan_model=hdbscan_model,
      vectorizer_model=vectorizer_model,
      representation_model=representation_model,

      nr_topics=5,  # FORZAR max de tópicos (intenta reducir a 5 si hay más)

      calculate_probabilities=True,
      language="multilingual",
      # Hyperparameters
      #top_n_words=10,
      verbose=True
    )

# Train model
  topics, probs = topic_model.fit_transform(docs, embeddings=embeddings)

  print(f" Tópico -1 ...Cant:  {topics.count(-1)}")

  # # si hay muchos outliers, ajustar modelo
  if (topics.count(-1) > outliers):
     print(f"  Reajustando modelo ...outliers: {topics.count(-1)}")
     # reducción de outliers
     new_topics = topic_model.reduce_outliers(docs, topics, probabilities=probs, strategy="probabilities") #strategy xq en topic_model se calculó las probab

  #   #topic_model.update_topics(docs, topics=new_topics)  #toma stopwords
  #   #topic_model.update_topics(docs, vectorizer_model=vectorizer_model, embedding_model=embedding_model)
  #   #topic_model.update_topics(docs, vectorizer_model=vectorizer_model)
     #topic_model.update_topics(docs, topics=new_topics,vectorizer_model=vectorizer_model)
     topic_model.update_topics(docs, topics=new_topics,vectorizer_model=vectorizer_model, representation_model=representation_model)

  #Generar etiquetas personalizadas
  docs_per_topic = topic_model.get_representative_docs()

  # Get the active topic IDs from the model's final state after reduction
  active_topic_ids = topic_model.get_topic_info()['Topic'].tolist()

  custom_labels = generar_labels(topic_model, docs_per_topic, active_topic_ids, carrera)

  # Asignar las etiquetas al modelo
  topic_model.set_topic_labels(custom_labels)

  df_carr['topic'] = topics

  # Extract the probability of the assigned topic from the 2D 'probs' array
  assigned_probabilities = []
  for doc_idx, topic_id in enumerate(topics):
      if topic_id == -1:
          assigned_probabilities.append(0.0)  # Assign 0 for outlier topic, or consider a different approach
      else:
          # Ensure topic_id maps to a valid column index in probs
          if topic_id < probs.shape[1]:
              assigned_probabilities.append(probs[doc_idx, topic_id])
          else:
              assigned_probabilities.append(0.0) # Fallback if topic_id is out of bounds

  df_carr['topic_probability'] = assigned_probabilities

  # Add Representative_document column
  representative_docs_set = set()
  for topic_id, docs_list in docs_per_topic.items():
      for doc_text in docs_list:
          representative_docs_set.add((topic_id, doc_text))

  df_carr['Representative_document'] = df_carr.apply(
      lambda row: (row['topic'], row['texto_limpio']) in representative_docs_set,
      axis=1
  )

  # Print the number of valid topics found
  # num_valid_topics = len(topic_model.get_topic_info()) - 1
  # print(f"  Número de tópicos válidos encontrados: {num_valid_topics}")

  return topic_model , df_carr

## 3.4 Obtener modelos para cada carrera

In [538]:
# Obtener lista de carreras seleccionadas
carr_sel = df['carrera'].unique()
carr_sel

array(['Licenciatura en Psicología', 'Licenciatura en Recursos Humanos',
       'Licenciatura en Comunicaciones Sociales'], dtype=object)

In [539]:
#guardar los modelos para evaluar y mostrar gráficos
lista_modelos = pd.DataFrame(columns=['carrera', 'modelo'])

topic_freq_list = []
topic_docs_list = []

for carr in carr_sel:
    df_carr = df[df['carrera']==carr]

    sel_docs = df_carr['texto_limpio'].tolist() # Convert Series to a list of strings
    print('\n'+carr+ '. Cantidad de docs: '+ str(len(sel_docs)))

    # ENTRENAMIENTO con docs de la carrera seleccionada
    #topic_model = train_model(sel_docs, carr)
    topic_model, tdoc = train_model(sel_docs, carr, df_carr)

    #tópicos frecuentes
    freq = topic_model.get_topic_info()
    freq['carrera'] = carr  # agregar una columna con la carrera

    #agregar a la lista de tópicos frecuentes
    topic_freq_list.append(freq) # Append DataFrame to the list

    # #asignar a cada documento el tópico que le corresponda, using the filtered documents
    # tdoc = topic_model.get_document_info(sel_docs)
    # tdoc['carrera'] = carr
    # tdoc['anio'] = df_carr['anio'] #.values  #df['anio']  #agregar columna año

    topic_docs_list.append(tdoc)

    # guardar el modelo (reducido) para usar en dashboard
    nbre_modelo="model_" + carr.replace(" ","_")

    #topic_model.save(nbre_modelo)
    topic_model.save(nbre_modelo, serialization="safetensors", save_ctfidf=True, save_embedding_model=embedding_model)
    lista_modelos = pd.concat([lista_modelos, pd.DataFrame({'carrera': [carr], 'modelo': nbre_modelo})]) #para descarga de zip

# Concatenate all DataFrames in the list after the loop
topic_freq = pd.concat(topic_freq_list, ignore_index=True) if topic_freq_list else pd.DataFrame()
topic_docs = pd.concat(topic_docs_list, ignore_index=True) if topic_docs_list else pd.DataFrame()


Licenciatura en Psicología. Cantidad de docs: 204
Cantidad de documentos: 204.  min_cluster_size: 3, n_neighbors: 15, outliers: 40


Batches:   0%|          | 0/7 [00:00<?, ?it/s]

2025-12-11 18:33:05,669 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-12-11 18:33:06,150 - BERTopic - Dimensionality - Completed ✓
2025-12-11 18:33:06,151 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-12-11 18:33:06,169 - BERTopic - Cluster - Completed ✓
2025-12-11 18:33:06,170 - BERTopic - Representation - Extracting topics using c-TF-IDF for topic reduction.
2025-12-11 18:33:06,352 - BERTopic - Representation - Completed ✓
2025-12-11 18:33:06,356 - BERTopic - Topic reduction - Reducing number of topics
2025-12-11 18:33:06,357 - BERTopic - Topic reduction - Number of topics (5) is equal or higher than the clustered topics(4).
2025-12-11 18:33:06,358 - BERTopic - Representation - Fine-tuning topics using representation models.
2025-12-11 18:33:07,969 - BERTopic - Representation - Completed ✓


 Tópico -1 ...Cant:  35
[['mujeres, participantes, violencia género, provincia salta, entrevistas, presente investigación, capital, víctimas, relación, juegos', '- prisión domiciliaria en mujeres : violencias y vulnerabilidad. el presente trabajo de investigación abordará acerca de las violencias y vulnerabilidades que anteceden al contexto carcelario, vivenciad...\n- creencias irracionales y violencia de género : una mirada desde la terapia racional emotiva conductual sobre las mujeres víctimas de violencia de género en la pareja. la presente investigación surge c...\n- las representaciones sociales del personal de la policía de la provincia de salta sobre las mujeres que denuncian violencia de género en el año  . la presente investigación se enmarcó dentro del campo...'], ['salud, trabajo, ciudad salta, entrevistas, participantes, análisis, psicología, cualitativo, hospital, jóvenes', '- representaciones sociales de los profesionales de salud mental sobre las modalidades de atención 

Batches:   0%|          | 0/4 [00:00<?, ?it/s]

2025-12-11 18:33:26,736 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-12-11 18:33:26,897 - BERTopic - Dimensionality - Completed ✓
2025-12-11 18:33:26,898 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-12-11 18:33:26,913 - BERTopic - Cluster - Completed ✓
2025-12-11 18:33:26,914 - BERTopic - Representation - Extracting topics using c-TF-IDF for topic reduction.
2025-12-11 18:33:26,998 - BERTopic - Representation - Completed ✓
2025-12-11 18:33:26,999 - BERTopic - Topic reduction - Reducing number of topics
2025-12-11 18:33:27,001 - BERTopic - Topic reduction - Number of topics (5) is equal or higher than the clustered topics(5).
2025-12-11 18:33:27,004 - BERTopic - Representation - Fine-tuning topics using representation models.
2025-12-11 18:33:28,754 - BERTopic - Representation - Completed ✓


 Tópico -1 ...Cant:  67
  Reajustando modelo ...outliers: 67
[['recursos humanos, empresa, proceso, personal, desarrollo, reclutamiento selección, salta, herramientas, empleados, horas', '- el desarrollo de carrera de los jóvenes no profesionales a través de la técnica de mentoring en mkd s.a.. el presente trabajo analiza el desarrollo profesional de los operadores telefónicos a través d...\n- gestión estrategica de recursos humanos, desarrollo e implementación de los procesos correspondientes a los subsistemas de integración y organización en la empresa colorearg durante el año  . los subt...\n- proceso de reclutamiento y selección de asesores comerciales en una empresa privada de comercialización de vehículos de la provincia de jujuy. cualquier organización, independientemente de su tamaño, ...'], ['investigación, recursos humanos, gestión, empleados, relación, salud, desempeño, social, teletrabajo, estrés', '- la rotación y las políticas de retención de personal en el gimnasio xx pe

Batches:   0%|          | 0/4 [00:00<?, ?it/s]

2025-12-11 18:33:49,985 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-12-11 18:33:50,212 - BERTopic - Dimensionality - Completed ✓
2025-12-11 18:33:50,213 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-12-11 18:33:50,226 - BERTopic - Cluster - Completed ✓
2025-12-11 18:33:50,227 - BERTopic - Representation - Extracting topics using c-TF-IDF for topic reduction.
2025-12-11 18:33:50,318 - BERTopic - Representation - Completed ✓
2025-12-11 18:33:50,319 - BERTopic - Topic reduction - Reducing number of topics
2025-12-11 18:33:50,321 - BERTopic - Topic reduction - Number of topics (5) is equal or higher than the clustered topics(5).
2025-12-11 18:33:50,322 - BERTopic - Representation - Fine-tuning topics using representation models.
2025-12-11 18:33:52,155 - BERTopic - Representation - Completed ✓


 Tópico -1 ...Cant:  66
  Reajustando modelo ...outliers: 66
[['redes sociales, comunicación, trabajo, periodismo, sociedad, medios comunicación, periodistas, cobertura, provincia, juicio', '- las manifestaciones de periodismo social en tucumán: el caso de el tucumano. el periodismo social busca ser transversal a toda producción de la prensa. tiene como objeto jerarquizar la información del...\n- la participación ciudadana en los medios de comunicación de salta y sus plataformas virtuales. la presente investigación consiste en un estudio de casos realizado a ocho medios masivos de comunicación...\n- comunicación pública del gobierno municipal de la ciudad de salta : el plan de medios con foco en redes sociales durante el período  . el propósito de este trabajo es investigar y describir de qué man...'], ['comunicación, investigación, público, cambios, ciudad salta, canciones, identidad, estrategias, social, videojuegos', '- el cine grotesco. la presente investigación aborda el cuerpo hu

In [540]:
descarga=1  #descargar cada carpeta que contiene los archivos de modelos como un .zip
if descarga==1:
  # Code added to zip and download the model folders
  from google.colab import files
  import os

  print("\nDescargando modelos...")
  for index, row in lista_modelos.iterrows():
      model_dir = row['modelo']
      zip_filename = f"{model_dir}.zip"
      if os.path.isdir(model_dir):
          print(f"Zipping {model_dir}...")
          !zip -r $zip_filename $model_dir
          print(f"Downloading {zip_filename}...")
          files.download(zip_filename)
      else:
          print(f"Directory {model_dir} not found. Skipping download.")


Descargando modelos...
Zipping model_Licenciatura_en_Psicología...
updating: model_Licenciatura_en_Psicología/ (stored 0%)
updating: model_Licenciatura_en_Psicología/topics.json (deflated 75%)
updating: model_Licenciatura_en_Psicología/config.json (deflated 43%)
updating: model_Licenciatura_en_Psicología/ctfidf_config.json (deflated 73%)
updating: model_Licenciatura_en_Psicología/ctfidf.safetensors (deflated 84%)
updating: model_Licenciatura_en_Psicología/topic_embeddings.safetensors (deflated 6%)
Downloading model_Licenciatura_en_Psicología.zip...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Zipping model_Licenciatura_en_Recursos_Humanos...
updating: model_Licenciatura_en_Recursos_Humanos/ (stored 0%)
updating: model_Licenciatura_en_Recursos_Humanos/topics.json (deflated 73%)
updating: model_Licenciatura_en_Recursos_Humanos/config.json (deflated 43%)
updating: model_Licenciatura_en_Recursos_Humanos/ctfidf_config.json (deflated 73%)
updating: model_Licenciatura_en_Recursos_Humanos/ctfidf.safetensors (deflated 84%)
updating: model_Licenciatura_en_Recursos_Humanos/topic_embeddings.safetensors (deflated 7%)
Downloading model_Licenciatura_en_Recursos_Humanos.zip...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Zipping model_Licenciatura_en_Comunicaciones_Sociales...
updating: model_Licenciatura_en_Comunicaciones_Sociales/ (stored 0%)
updating: model_Licenciatura_en_Comunicaciones_Sociales/topics.json (deflated 73%)
updating: model_Licenciatura_en_Comunicaciones_Sociales/config.json (deflated 43%)
updating: model_Licenciatura_en_Comunicaciones_Sociales/ctfidf_config.json (deflated 73%)
updating: model_Licenciatura_en_Comunicaciones_Sociales/ctfidf.safetensors (deflated 85%)
updating: model_Licenciatura_en_Comunicaciones_Sociales/topic_embeddings.safetensors (deflated 7%)
Downloading model_Licenciatura_en_Comunicaciones_Sociales.zip...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [541]:
topic_freq

Unnamed: 0,Topic,Count,Name,CustomName,Representation,Representative_Docs,carrera
0,-1,35,-1_trabajo_investigación_niños_adolescentes,Documentos diversos,"[trabajo, investigación, niños, adolescentes, ...",[las representaciones sociales sobre los jóven...,Licenciatura en Psicología
1,0,25,0_mujeres_participantes_violencia género_provi...,Violencia de Género: Estudio de Casos en Mujer...,"[mujeres, participantes, violencia género, pro...",[prisión domiciliaria en mujeres : violencias ...,Licenciatura en Psicología
2,1,136,1_salud_trabajo_ciudad salta_entrevistas,Representaciones Psicosociales en la Inclusión...,"[salud, trabajo, ciudad salta, entrevistas, pa...",[representaciones sociales de los profesionale...,Licenciatura en Psicología
3,2,8,2_poder judicial_poder_servicio psicología_pas...,Prácticas Forenses en Psicología Jurídica: Eva...,"[poder judicial, poder, servicio psicología, p...",[el rol del psicólogo jurídico forense en la e...,Licenciatura en Psicología
4,0,46,0_recursos humanos_empresa_proceso_personal,Gestión Estratégica de Recursos Humanos en Emp...,"[recursos humanos, empresa, proceso, personal,...",[el desarrollo de carrera de los jóvenes no pr...,Licenciatura en Recursos Humanos
5,1,27,1_investigación_recursos humanos_gestión_emple...,"Gestión de Recursos Humanos: Salud, Estrés y R...","[investigación, recursos humanos, gestión, emp...",[la rotación y las políticas de retención de p...,Licenciatura en Recursos Humanos
6,2,12,2_clima_clima organizacional_clima laboral_pro...,Satisfacción Laboral y su Impacto en el Desemp...,"[clima, clima organizacional, clima laboral, p...",[influencia de la satisfacción laboral en la p...,Licenciatura en Recursos Humanos
7,3,25,3_empleados_habilidades_motivación_liderazgo,Desarrollo de Habilidades y Motivación en el C...,"[empleados, habilidades, motivación, liderazgo...",[los procesos de capacitaciones del capital hu...,Licenciatura en Recursos Humanos
8,0,20,0_redes sociales_comunicación_trabajo_periodismo,Comunicación Social: Periodismo y Participació...,"[redes sociales, comunicación, trabajo, period...",[las manifestaciones de periodismo social en t...,Licenciatura en Comunicaciones Sociales
9,1,22,1_comunicación_investigación_público_cambios,Comunicación Social: Identidad y Estrategias e...,"[comunicación, investigación, público, cambios...",[el cine grotesco. la presente investigación a...,Licenciatura en Comunicaciones Sociales


In [542]:
#ponerr todos los nombres de columnas en minúsculas para facilitar el proceso/visualización posterior
#topic_freq.columns = topic_freq.columns.str.lower()
#topic_docs.columns = topic_docs.columns.str.lower()

# descargar los datos para mostrar
topic_freq.to_csv('topic_freq.csv', index=False, encoding='latin1', sep=";" , quoting=1)
topic_docs.to_csv('topic_docs.csv', index=False, encoding='latin1', sep=";" , quoting=1)

## 3.5 Mostrar resultados de cada carrera seleccionada

In [543]:
def mostrar_resultados_por_carrera(carrera, df, model):
  print(f"Resultados del modelado de tópicos - {carrera}")
  print("-"*(len(carrera)+40))

  df_carrera = df[df['carrera']==carrera]

    # Imprimo resulados
  print("\nTópicos")
  print("-----------")
  freq = model.get_topic_info()
  display(freq)
  print()

  print("\nTópicos y probabilidades")
  print("------------------------")
  # mostrar todos los tópicos cons las keys
  df_topics = pd.DataFrame()   #auxiliar
  all_topics = model.get_topics()
  for topico in all_topics:
    df_topic_words_temp = pd.DataFrame(model.get_topic(topico))
    df_topic_words_temp.columns = [f'Topic{topico}_word', f'Topic{topico}_prob']
    df_topics = pd.concat([df_topics, df_topic_words_temp], axis=1)

  display(df_topics)

  print('\nRanking de palabras en cada tópico')
  print('----------------------------------')
 # barchart de ranking de palabras por tópico (se inclyen 5 keys por tópico por claridad)
  fig1 = model.visualize_barchart(top_n_topics=len(model.get_topics()), n_words=5)
  fig1.show()

  if (len(all_topics)-1) > 2:
    print('\nDistribución de clusters')
    print('------------------------')
    # interactivo distribución/distancia entre tópicos
    try:
      fig2 = model.visualize_topics()
      fig2.show()
    except TypeError as e:
      print(f"  Error al visualizar la distribución de clusters (visualize_topics): {e}")
      print("  Esto puede ocurrir con un número muy pequeño de tópicos. Se omitirá esta visualización.")

  print('\nJerarquía de clusters')
  print('---------------------')

  # jerarquia de clusters
  fig3 = model.visualize_hierarchy(top_n_topics=50) # Commented out due to ValueError with few topics
  fig3.show()

  print('\nEvolución de tópicos por años')
  print('---------------------------')
  # Evolución de tópicos por años
  timestamps = df_carrera['anio'].tolist()
  topics_over_time = model.topics_over_time(df_carrera['texto_limpio'], timestamps, nr_bins=20)
  fig4 =  model.visualize_topics_over_time(topics_over_time, top_n_topics=10)
  fig4.show()

  #Visualizacion de documentos
  print('\nVisualización de documentos')
  print('---------------------------')

  embeddings = embedding_model.encode(df_carrera['texto_limpio'], show_progress_bar=True)

  # Run the visualization with the original embeddings
  topic_model.visualize_documents(df_carrera['texto_limpio'], embeddings=embeddings)

  # Reduce dimensionality of embeddings, this step is optional but much faster to perform iteratively:
  reduced_embeddings = UMAP(n_neighbors=10, n_components=2, min_dist=0.0, metric='cosine').fit_transform(embeddings)
  topic_model.visualize_documents(df_carrera['texto_limpio'], reduced_embeddings=reduced_embeddings)

In [544]:
#cargo cada modelo para ver los resultados

elto_lista_mod = lista_modelos.iloc[0]
model_name = elto_lista_mod['modelo']
carrera =elto_lista_mod['carrera']

df_datos = df[df['carrera'] == elto_lista_mod['carrera']]

# cargar el modelo
modelo = BERTopic.load(model_name, embedding_model)

# mostrar resultados en forma visual
mostrar_resultados_por_carrera(carrera, df_datos, modelo)

Resultados del modelado de tópicos - Licenciatura en Psicología
------------------------------------------------------------------

Tópicos
-----------


Unnamed: 0,Topic,Count,Name,CustomName,Representation,Representative_Docs
0,-1,35,-1_trabajo_investigación_niños_adolescentes,Documentos diversos,"[trabajo, investigación, niños, adolescentes, ...",
1,0,25,0_mujeres_participantes_violencia género_provi...,Violencia de Género: Estudio de Casos en Mujer...,"[mujeres, participantes, violencia género, pro...",
2,1,136,1_salud_trabajo_ciudad salta_entrevistas,Representaciones Psicosociales en la Inclusión...,"[salud, trabajo, ciudad salta, entrevistas, pa...",
3,2,8,2_poder judicial_poder_servicio psicología_pas...,Prácticas Forenses en Psicología Jurídica: Eva...,"[poder judicial, poder, servicio psicología, p...",




Tópicos y probabilidades
------------------------


Unnamed: 0,Topic-1_word,Topic-1_prob,Topic0_word,Topic0_prob,Topic1_word,Topic1_prob,Topic2_word,Topic2_prob
0,trabajo,0.02283,mujeres,0.053792,salud,0.012951,poder judicial,0.067791
1,investigación,0.022438,participantes,0.020109,trabajo,0.011455,poder,0.060263
2,niños,0.012813,violencia género,0.019169,ciudad salta,0.010789,servicio psicología,0.046331
3,adolescentes,0.011044,provincia salta,0.013867,entrevistas,0.010294,pasantía académica,0.042358
4,nivel,0.010032,entrevistas,0.013778,participantes,0.010216,forense,0.041338
5,rol psicólogo,0.009372,presente investigación,0.013149,análisis,0.010026,mediación,0.039503
6,rugby,0.009193,capital,0.012734,psicología,0.00993,rol psicólogo,0.038336
7,riesgo,0.009044,víctimas,0.012251,cualitativo,0.009753,psicólogo jurídico,0.038152
8,violencia,0.008659,relación,0.012026,hospital,0.009007,judicial provincia,0.032174
9,licenciatura psicología,0.00863,juegos,0.011964,jóvenes,0.008227,distrito centro,0.030028



Ranking de palabras en cada tópico
----------------------------------



Distribución de clusters
------------------------



Jerarquía de clusters
---------------------



Evolución de tópicos por años
---------------------------


10it [00:00, 13.34it/s]


In [545]:
elto_lista_mod = lista_modelos.iloc[1]
model_name = elto_lista_mod['modelo']
carrera =elto_lista_mod['carrera']

df_datos = df[df['carrera'] == elto_lista_mod['carrera']]

# cargar el modelo
modelo = BERTopic.load(model_name,embedding_model)

# mostrar resultados en forma visual
mostrar_resultados_por_carrera(carrera, df_datos, modelo)

Resultados del modelado de tópicos - Licenciatura en Recursos Humanos
------------------------------------------------------------------------

Tópicos
-----------


Unnamed: 0,Topic,Count,Name,CustomName,Representation,Representative_Docs
0,0,46,0_recursos humanos_empresa_proceso_personal,Gestión Estratégica de Recursos Humanos en Emp...,"[recursos humanos, empresa, proceso, personal,...",
1,1,27,1_investigación_recursos humanos_gestión_emple...,"Gestión de Recursos Humanos: Salud, Estrés y R...","[investigación, recursos humanos, gestión, emp...",
2,2,12,2_clima_clima organizacional_clima laboral_pro...,Satisfacción Laboral y su Impacto en el Desemp...,"[clima, clima organizacional, clima laboral, p...",
3,3,25,3_empleados_habilidades_motivación_liderazgo,Desarrollo de Habilidades y Motivación en el C...,"[empleados, habilidades, motivación, liderazgo...",




Tópicos y probabilidades
------------------------


Unnamed: 0,Topic0_word,Topic0_prob,Topic1_word,Topic1_prob,Topic2_word,Topic2_prob,Topic3_word,Topic3_prob
0,recursos humanos,0.025781,investigación,0.02253,clima,0.060877,empleados,0.015622
1,empresa,0.022494,recursos humanos,0.016107,clima organizacional,0.039442,habilidades,0.015617
2,proceso,0.020299,gestión,0.015943,clima laboral,0.02556,motivación,0.014641
3,personal,0.013895,empleados,0.015593,productividad,0.024205,liderazgo,0.014342
4,desarrollo,0.011623,relación,0.014035,evaluación desempeño,0.019256,calidad,0.014228
5,reclutamiento selección,0.011595,salud,0.013554,empleados,0.018226,diferencias,0.012623
6,salta,0.011358,desempeño,0.012816,satisfacción laboral,0.015777,recursos humanos,0.011736
7,herramientas,0.00904,social,0.012662,recursos humanos,0.014453,organizaciones,0.010822
8,empleados,0.00867,teletrabajo,0.012424,desempeño laboral,0.014132,objetivos,0.009827
9,horas,0.008402,estrés,0.011629,cultura,0.013754,capital,0.009761



Ranking de palabras en cada tópico
----------------------------------



Distribución de clusters
------------------------



Jerarquía de clusters
---------------------



Evolución de tópicos por años
---------------------------


10it [00:00, 29.05it/s]


In [546]:
elto_lista_mod = lista_modelos.iloc[2]
model_name = elto_lista_mod['modelo']
carrera =elto_lista_mod['carrera']

df_datos = df[df['carrera'] == elto_lista_mod['carrera']]

# cargar el modelo
modelo = BERTopic.load(model_name, embedding_model)

# mostrar resultados en forma visual
mostrar_resultados_por_carrera(carrera, df_datos, modelo)

Resultados del modelado de tópicos - Licenciatura en Comunicaciones Sociales
-------------------------------------------------------------------------------

Tópicos
-----------


Unnamed: 0,Topic,Count,Name,CustomName,Representation,Representative_Docs
0,0,20,0_redes sociales_comunicación_trabajo_periodismo,Comunicación Social: Periodismo y Participació...,"[redes sociales, comunicación, trabajo, period...",
1,1,22,1_comunicación_investigación_público_cambios,Comunicación Social: Identidad y Estrategias e...,"[comunicación, investigación, público, cambios...",
2,2,15,2_influencers_redes sociales_estrategias_insta...,Estrategias de Influencia Digital: Emprendimie...,"[influencers, redes sociales, estrategias, ins...",
3,3,46,3_análisis_trabajo_estrategias_institucional,Comunicación Estratégica: Gestión Instituciona...,"[análisis, trabajo, estrategias, institucional...",




Tópicos y probabilidades
------------------------


Unnamed: 0,Topic0_word,Topic0_prob,Topic1_word,Topic1_prob,Topic2_word,Topic2_prob,Topic3_word,Topic3_prob
0,redes sociales,0.023206,comunicación,0.026513,influencers,0.026869,análisis,0.016412
1,comunicación,0.0208,investigación,0.021678,redes sociales,0.025933,trabajo,0.015723
2,trabajo,0.017399,público,0.013431,estrategias,0.024179,estrategias,0.0152
3,periodismo,0.015501,cambios,0.012551,instagram,0.023487,institucional,0.010658
4,sociedad,0.013475,ciudad salta,0.012059,mercado,0.016535,ciudad salta,0.010119
5,medios comunicación,0.012387,canciones,0.009792,usuarios,0.016149,campaña,0.009828
6,periodistas,0.01158,identidad,0.009535,branding,0.015929,estrategias comunicación,0.009795
7,cobertura,0.01086,estrategias,0.009289,blogs,0.013965,salud,0.009747
8,provincia,0.010822,social,0.008893,mujeres,0.013383,social,0.008291
9,juicio,0.009521,videojuegos,0.008585,red social,0.012932,alumnos,0.008156



Ranking de palabras en cada tópico
----------------------------------



Distribución de clusters
------------------------



Jerarquía de clusters
---------------------



Evolución de tópicos por años
---------------------------


9it [00:00, 27.19it/s]


## Attributes

There are a number of attributes that you can access after having trained your BERTopic model:


| Attribute | Description |
|------------------------|---------------------------------------------------------------------------------------------|
| topics_               | The topics that are generated for each document after training or updating the topic model. |
| probabilities_ | The probabilities that are generated for each document if HDBSCAN is used. |
| topic_sizes_           | The size of each topic                                                                      |
| topic_mapper_          | A class for tracking topics and their mappings anytime they are merged/reduced.             |
| topic_representations_ | The top *n* terms per topic and their respective c-TF-IDF values.                             |
| c_tf_idf_              | The topic-term matrix as calculated through c-TF-IDF.                                       |
| topic_labels_          | The default labels for each topic.                                                          |
| custom_labels_         | Custom labels for each topic as generated through `.set_topic_labels`.                                                               |
| topic_embeddings_      | The embeddings for each topic if `embedding_model` was used.                                                              |
| representative_docs_   | The representative documents for each topic if HDBSCAN is used.                                                |

For example, to access the predicted topics for the first 10 documents, we simply run the following:

In [548]:
# from bertopic.representation import MaximalMarginalRelevance

# #Mejorar la representación predeterminada. CountVectorizer elimina palabras vacías e ignora las palabras poco frecuentes.
# #Considera los tokens con una o dos palabras (ngramas).
# vectorizer_model = CountVectorizer(stop_words=stopwords, ngram_range=(1, 2))

# #Obtener embeddings
# embedding_model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")

#   #Para reducir esta redundancia y mejorar la diversidad de palabras clave, el algoritmo MMR considera la similitud de las palabras clave o frases clave con el documento,
#     #así la selección de palabras clave maximiza su diversidad dentro del documento.
# representation_model = MaximalMarginalRelevance(diversity=0.5)
# #   λ = 1.0: Relevancia pura (búsqueda vectorial regular)
# # λ = 0,5: Enfoque equilibrado
# # λ = 0,0: Diversidad pura

# # función para entrenar el modelo a partir de un conjunto de documentos
# def train_model(docs, carrera, df_carr):
#   #configuración inicial
#   min_cluster_size, n_neighbors, outliers = config_model(len(docs))

#   #embeddings
#   embeddings = embedding_model.encode(docs, show_progress_bar=True)

#  # HDBSCAN: min_cluster_size controla la cantidad de temas que se crearán. Un número grande generará menos temas y un número pequeño generará más temas.
#   hdbscan_model = HDBSCAN(min_cluster_size=min_cluster_size, metric='euclidean', cluster_selection_epsilon=0.05, min_samples=3, prediction_data=True)
#  # cluster_selection_epsilon=0.05,  # ↓ Menor valor para evitar unir clusters cercanos
#  # cluster_selection_method='eom', , prediction_data=True
#  #min_samples=3,             # ↑ Mayor valor para clusters más densos

#     # UMAP reduce la dimensionalidad
#   umap_model = UMAP(n_neighbors=n_neighbors, min_dist=0.2, metric='cosine', random_state=42)
#     #n_neighbors=15 n_neighbors
#     #n_components=10 ↑ Mayor dimensionalidad para separar clusters


#   # Definición del modelo
#   topic_model = BERTopic(
#       # Pipeline models
#       embedding_model=embedding_model,
#       umap_model=umap_model,
#       hdbscan_model=hdbscan_model,
      vectorizer_model=vectorizer_model,
      representation_model=representation_model,

      nr_topics=5,  # FORZAR max de tópicos (intenta reducir a 5 si hay más)

      calculate_probabilities=True,
      language="multilingual",
      # Hyperparameters
      #top_n_words=10,
      verbose=True
    )

# Train model
  topics, probs = topic_model.fit_transform(docs, embeddings=embeddings)

  # # si hay muchos outliers, ajustar modelo
  if (topics.count(-1) > outliers):
     print(f"  Reajustando modelo ...outliers: {topics.count(-1)}")
     # reducción de outliers
     new_topics = topic_model.reduce_outliers(docs, topics, probabilities=probs, strategy="probabilities") #strategy xq en topic_model se calculó las probab

  #   #topic_model.update_topics(docs, topics=new_topics)  #toma stopwords
  #   #topic_model.update_topics(docs, vectorizer_model=vectorizer_model, embedding_model=embedding_model)
  #   #topic_model.update_topics(docs, vectorizer_model=vectorizer_model)
     #topic_model.update_topics(docs, topics=new_topics,vectorizer_model=vectorizer_model)
     topic_model.update_topics(docs, topics=new_topics,vectorizer_model=vectorizer_model, representation_model=representation_model)

  #Generar etiquetas personalizadas
  docs_per_topic = topic_model.get_representative_docs()

  # Get the active topic IDs from the model's final state after reduction
  #active_topic_ids = topic_model.get_topic_info()['Topic'].tolist()

  #custom_labels = generar_labels(topic_model, docs_per_topic, active_topic_ids, carrera)

  # Asignar las etiquetas al modelo
  #topic_model.set_topic_labels(custom_labels)

  df_carr['topic'] = topics

  # Extract the probability of the assigned topic from the 2D 'probs' array
  assigned_probabilities = []
  for doc_idx, topic_id in enumerate(topics):
      if topic_id == -1:
          assigned_probabilities.append(0.0)  # Assign 0 for outlier topic, or consider a different approach
      else:
          # Ensure topic_id maps to a valid column index in probs
          if topic_id < probs.shape[1]:
              assigned_probabilities.append(probs[doc_idx, topic_id])
          else:
              assigned_probabilities.append(0.0) # Fallback if topic_id is out of bounds

  df_carr['topic_probability'] = assigned_probabilities

  # Add Representative_document column
  representative_docs_set = set()
  for topic_id, docs_list in docs_per_topic.items():
      for doc_text in docs_list:
          representative_docs_set.add((topic_id, doc_text))

  df_carr['Representative_document'] = df_carr.apply(
      lambda row: (row['topic'], row['texto_limpio']) in representative_docs_set,
      axis=1
  )

  # Print the number of valid topics found
  # num_valid_topics = len(topic_model.get_topic_info()) - 1
  # print(f"  Número de tópicos válidos encontrados: {num_valid_topics}")

  return topic_model , df_carr

IndentationError: unindent does not match any outer indentation level (<tokenize>, line 53)

In [None]:
No va
from IPython.display import display

def mostrar_resultados_por_carrera(carrera, df, model):
  print(f"Resultados del modelado de tópicos - {carrera}")
  print("-"*(len(carrera)+40))

  df_carrera = df[df['carrera']==carrera]

    # Imprimo resulados
  print("\nTópicos")
  print("-----------")
  freq = model.get_topic_info()
  display(freq)
  print()

  print("\nTópicos y probabilidades")
  print("------------------------")
  # mostrar todos los tópicos cons las keys
  df_topics = pd.DataFrame()   #auxiliar
  all_topics = model.get_topics()
  for topico in all_topics:
    df_topic_words_temp = pd.DataFrame(model.get_topic(topico))
    df_topic_words_temp.columns = [f'Topic{topico}_word', f'Topic{topico}_prob']
    df_topics = pd.concat([df_topics, df_topic_words_temp], axis=1)

  display(df_topics)

  print('\nRanking de palabras en cada tópico')
  print('----------------------------------')
 # barchart de ranking de palabras por tópico (se inclyen 5 keys por tópico por claridad)
  fig1 = model.visualize_barchart(top_n_topics=len(model.get_topics()), n_words=5)
  display(fig1)

  if (len(all_topics)-1) > 2:
    print('\nDistribución de clusters')
    print('------------------------')
    # interactivo distribución/distancia entre tópicos
    try:
      fig2 = model.visualize_topics()
      display(fig2)
    except TypeError as e:
      print(f"  Error al visualizar la distribución de clusters (visualize_topics): {e}")
      print("  Esto puede ocurrir con un número muy pequeño de tópicos. Se omitirá esta visualización.")

  print('\nJerarquía de clusters')
  print('---------------------')

  # jerarquia de clusters
  fig3 = model.visualize_hierarchy(top_n_topics=50)
  display(fig3)

  print('\nEvolución de tópicos por años')
  print('---------------------------')
  # Evolución de tópicos por años
  timestamps = df_carrera['anio'].tolist()
  topics_over_time = model.topics_over_time(df_carrera['texto_limpio'], timestamps, nr_bins=20)
  fig4 =  model.visualize_topics_over_time(topics_over_time, top_n_topics=10)
  display(fig4)

**Reasoning**:
After updating the `mostrar_resultados_por_carrera` function to correctly display the Plotly figures, I need to re-run the cell that calls this function for 'Licenciatura en Psicología' to see the visualizations.



In [None]:
elto_lista_mod = lista_modelos.iloc[0]
model_name = elto_lista_mod['modelo']
carrera =elto_lista_mod['carrera']

df_datos = df[df['carrera'] == elto_lista_mod['carrera']]

# cargar el modelo
modelo = BERTopic.load(model_name, embedding_model)

# mostrar resultados en forma visual
mostrar_resultados_por_carrera(carrera, df_datos, modelo)

In [None]:
FINAL ...
