<a href="https://colab.research.google.com/github/cbadenes/curso-pln/blob/main/notebooks/04_LDA_Cordis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelado de Tópicos con LDA (Latent Dirichlet Allocation)

## ¿Qué es LDA?
LDA es una técnica de modelado probabilístico que nos permite descubrir "temas" o "tópicos" ocultos en una colección de documentos.
Cada documento se considera una mezcla de varios tópicos, y cada tópico es una distribución sobre palabras.

## ¿Para qué sirve?
- Descubrir temas subyacentes en grandes colecciones de textos
- Clasificar documentos automáticamente
- Recomendar contenidos similares
- Analizar tendencias en documentos

## En este notebook aprenderemos:
1. Preparar y cargar datos textuales
2. Preprocesar texto para LDA
3. Entrenar un modelo LDA
4. Interpretar y evaluar los resultados

## Dataset:
Usaremos una [colección de resúmenes de proyectos europeos](https://docs.google.com/spreadsheets/d/1up1Q9RcWhqQYkeM7b0SiToDJaMYzoSQeG-vfA3wY57s/edit?gid=0#gid=0) extraídos de [CORDIS](https://cordis.europa.eu/projects/en) como ejemplo.
"""

# 1) Importaciones y configuración inicial

In [1]:
# Instalamos las bibliotecas necesarias
!pip install --upgrade -q gspread
!pip install --upgrade -q google-auth-oauthlib

# Instalamos las versiones específicas necesarias
!pip install pyLDAvis==2.1.2

# Reiniciamos el runtime de Colab para asegurar que los cambios surtan efecto
#import IPython
#IPython.Application.instance().kernel.do_shutdown(True)



In [2]:
# Importamos las bibliotecas que usaremos
from sklearn.feature_extraction.text import CountVectorizer  # Para crear bag-of-words
from sklearn.decomposition import LatentDirichletAllocation  # Para el modelo LDA
import numpy as np  # Para operaciones numéricas
import pandas as pd  # Para manipular datos tabulares
import warnings
warnings.filterwarnings('ignore')  # Suprimimos warnings para mayor claridad

# Configuramos la visualización de DataFrames en Colab
from google.colab import data_table
data_table.enable_dataframe_formatter()

print("Bibliotecas cargadas correctamente")

Bibliotecas cargadas correctamente


# 2) Autenticación y carga de datos

Para acceder a los datos, seguiremos estos pasos:

1. Crear una hoja de cálculo en Google Drive:
   - Nombre: 'texts'
   - Columnas: ID, TITLE, DESCRIPTION
   - Primera fila: encabezados
   - Filas siguientes: datos de ejemplo
   
2. Compartir la hoja:
   - Clic en 'Compartir' en Google Sheets
   - Configurar como "Cualquier persona con el enlace puede editar"
   
3. Autenticarnos con Google:

In [3]:
from google.colab import auth
auth.authenticate_user()

import gspread
from google.auth import default
creds, _ = default()

gc = gspread.authorize(creds)

# Nombre de la hoja de cálculo (crear en Drive con texto de ejemplo)
corpus = 'texts'
worksheet = gc.open(corpus).sheet1

# Cargar datos a DataFrame
rows = worksheet.get_all_values()
dataset_df = pd.DataFrame.from_records(rows[1:], columns=["ID","TITLE","DESCRIPTION"])

print(f"Datos cargados exitosamente:")
print(f"- Número de documentos: {len(dataset_df)}")
print(f"- Columnas disponibles: {', '.join(dataset_df.columns)}")

# Mostrar los primeros documentos
print("\nPrimeros documentos:")
data_table.DataTable(dataset_df.head(), include_index=False, num_rows_per_page=5)


Datos cargados exitosamente:
- Número de documentos: 100
- Columnas disponibles: ID, TITLE, DESCRIPTION

Primeros documentos:


Unnamed: 0,ID,TITLE,DESCRIPTION
0,EU100000,Visual object population codes relating human...,Two major challenges facing systems neuroscien...
1,EU100001,New Opportunities for Research Funding Agency ...,NORFACE is a co-ordinated common action of fif...
2,EU100002,USA and Europe Cooperation in Mini UAVs,Unmanned Aerial Systems have been an active ar...
3,EU100003,Sustainable Infrastructure for Resilient Urban...,This fellowship aim is to identify how the use...
4,EU100004,Modelling star formation in the local universe,The goal of this proposal is to revolutionize ...


# 3) Procesamiento inicial

Para aplicar LDA, necesitamos convertir nuestros textos en una representación numérica.
Usaremos Bag of Words (BoW), que:
1. Crea un vocabulario con todas las palabras únicas
2. Representa cada documento como un vector de frecuencias de palabras

Parámetros importantes del vectorizador:
- stop_words: palabras comunes a ignorar
- min_df: frecuencia mínima de documento para incluir una palabra
- max_df: frecuencia máxima de documento para incluir una palabra
- lowercase: convertir todo a minúsculas
- token_pattern: patrón para identificar palabras válidas

In [4]:
# Lista de textos a procesar
documents = dataset_df['DESCRIPTION'].tolist()

# Configurar y crear el vectorizador
tf_vectorizer = CountVectorizer(
    stop_words=[],  # No eliminamos stopwords por ahora
    min_df=1,      # Incluir palabras que aparecen al menos 1 vez
    max_df=1.0,    # Sin límite superior de frecuencia
    lowercase=True, # Convertir todo a minúsculas
    max_features=50000,  # Máximo número de palabras a considerar
    token_pattern='[a-zA-Z0-9]{3,}',  # Palabras de 3+ caracteres
    analyzer = 'word'
)

# Crear la matriz de documentos-términos
bag_of_words = tf_vectorizer.fit_transform(documents)

# Obtener el vocabulario
dictionary = tf_vectorizer.get_feature_names_out()
vocabulary = tf_vectorizer.vocabulary_

print("Estadísticas del preprocesamiento:")
print(f"- Tamaño del vocabulario: {len(dictionary)} palabras únicas")
print(f"- Dimensiones de la matriz: {bag_of_words.shape}")

# Mostrar las palabras más frecuentes
word_freq = bag_of_words.sum(axis=0).A1
top_words_idx = word_freq.argsort()[-10:][::-1]
print("\nPalabras más frecuentes:")
for idx in top_words_idx:
    print(f"- {dictionary[idx]}: {word_freq[idx]} apariciones")

Estadísticas del preprocesamiento:
- Tamaño del vocabulario: 4530 palabras únicas
- Dimensiones de la matriz: (100, 4530)

Palabras más frecuentes:
- the: 1663 apariciones
- and: 1204 apariciones
- will: 379 apariciones
- for: 332 apariciones
- this: 191 apariciones
- that: 169 apariciones
- with: 166 apariciones
- research: 149 apariciones
- are: 149 apariciones
- project: 115 apariciones


# 4) Entrenamiento LDA

El algoritmo LDA tiene varios hiperparámetros importantes:

1. n_topics: Número de tópicos a encontrar
   - Debe elegirse según el conocimiento del dominio
   - Se puede optimizar usando métricas como coherencia o perplejidad

2. alpha: Prior de la distribución documentos-tópicos
   - alpha < 1: documentos se concentran en pocos tópicos
   - alpha > 1: documentos mezclan varios tópicos
   - alpha = 1: distribución uniforme

3. beta: Prior de la distribución tópicos-palabras
   - beta < 1: tópicos más específicos (pocas palabras)
   - beta > 1: tópicos más generales (muchas palabras)
   - beta = 1: distribución uniforme

Probaremos primero con valores conservadores:

In [5]:
# Parámetros del modelo
n_topics = 5    # Número moderado de tópicos para empezar
alpha = 0.1     # Documentos algo especializados
beta = 0.01     # Tópicos bastante específicos

# Crear y entrenar el modelo
print("Configuración del modelo LDA:")
print(f"- Número de tópicos: {n_topics}")
print(f"- Alpha: {alpha}")
print(f"- Beta: {beta}")
print("\nIniciando entrenamiento...\n")

lda = LatentDirichletAllocation(
    n_components=n_topics,      # Número de tópicos
    doc_topic_prior=alpha,      # Prior documentos-tópicos
    topic_word_prior=beta,      # Prior tópicos-palabras
    max_iter=25,               # Máximo de iteraciones
    learning_method='online',   # Método de aprendizaje
    evaluate_every=1,          # Evaluar en cada iteración
    n_jobs=-1,                # Usar todos los cores
    random_state=0,           # Semilla para reproducibilidad
    verbose=1                 # Mostrar progreso
)

# Entrenar el modelo
lda.fit(bag_of_words)

Configuración del modelo LDA:
- Número de tópicos: 5
- Alpha: 0.1
- Beta: 0.01

Iniciando entrenamiento...

iteration: 1 of max_iter: 25, perplexity: 46300.0638
iteration: 2 of max_iter: 25, perplexity: 32375.6845
iteration: 3 of max_iter: 25, perplexity: 26515.7889
iteration: 4 of max_iter: 25, perplexity: 22904.6664
iteration: 5 of max_iter: 25, perplexity: 20267.5881
iteration: 6 of max_iter: 25, perplexity: 18180.6967
iteration: 7 of max_iter: 25, perplexity: 16458.8900
iteration: 8 of max_iter: 25, perplexity: 15001.4921
iteration: 9 of max_iter: 25, perplexity: 13746.1066
iteration: 10 of max_iter: 25, perplexity: 12651.8809
iteration: 11 of max_iter: 25, perplexity: 11690.0460
iteration: 12 of max_iter: 25, perplexity: 10839.2152
iteration: 13 of max_iter: 25, perplexity: 10082.8422
iteration: 14 of max_iter: 25, perplexity: 9407.7400
iteration: 15 of max_iter: 25, perplexity: 8803.1630
iteration: 16 of max_iter: 25, perplexity: 8260.2043
iteration: 17 of max_iter: 25, perplexit

LatentDirichletAllocation(doc_topic_prior=0.1, evaluate_every=1,
                          learning_method='online', max_iter=25, n_components=5,
                          n_jobs=-1, random_state=0, topic_word_prior=0.01,
                          verbose=1)

# 5) Análisis de Resultados

Analizaremos los resultados desde tres perspectivas:

1. Palabras más relevantes por tópico
2. Documentos más representativos de cada tópico
3. Distribución de tópicos en documentos específicos

In [6]:
# Configuración de visualización
no_top_words = 10      # Número de palabras top por tópico
no_top_documents = 2   # Número de documentos top por tópico

# Obtener las distribuciones
doc_topics = lda.transform(bag_of_words)  # Distribución de tópicos por documento
topics = lda.components_                  # Distribución de palabras por tópico

# 1. Detallar tópicos encontrados
print("TÓPICOS DESCUBIERTOS")
print("Cada tópico se representa por sus palabras más probables\n")

for topic_idx, topic in enumerate(topics):
    print(f" Tópico {topic_idx + 1}:")
    # Obtener índices de las palabras más probables
    top_words_idx = topic.argsort()[:-no_top_words-1:-1]
    top_words = [dictionary[i] for i in top_words_idx]
    top_probs = [topic[i] for i in top_words_idx]

    # Mostrar palabras y sus probabilidades
    for word, prob in zip(top_words, top_probs):
        print(f"   {word}: {prob:.4f}")
    print()

TÓPICOS DESCUBIERTOS
Cada tópico se representa por sus palabras más probables

 Tópico 1:
   the: 529.9311
   and: 445.2790
   for: 118.9823
   will: 109.9895
   research: 56.3189
   data: 54.5386
   with: 53.0728
   are: 50.2753
   this: 48.8662
   new: 41.1116

 Tópico 2:
   quantum: 17.0245
   placebo: 10.3181
   memories: 5.6173
   the: 4.9842
   mechanisms: 4.8479
   nocebo: 4.6492
   responses: 4.3280
   sediments: 3.8541
   ocean: 3.8343
   entanglement: 3.7397

 Tópico 3:
   the: 1055.8902
   and: 703.8277
   will: 251.5600
   for: 197.2489
   this: 133.7157
   that: 124.4376
   with: 105.6128
   are: 91.1066
   research: 84.5731
   project: 71.7300

 Tópico 4:
   the: 0.4286
   and: 0.4281
   for: 0.2527
   will: 0.2292
   are: 0.1622
   that: 0.1581
   protocol: 0.1329
   this: 0.1255
   secure: 0.1242
   practice: 0.1120

 Tópico 5:
   star: 9.5687
   formation: 8.6666
   galaxies: 3.8771
   molecular: 3.6362
   the: 3.1308
   gmcs: 2.9180
   nearby: 2.9158
   clouds: 2.9150

## Visualización de Tópicos


In [8]:
# Importamos las bibliotecas necesarias
import pyLDAvis
import pyLDAvis.sklearn

# Convertimos sparse matrix a dense ya que pyLDAvis no maneja sparse matrices
import scipy.sparse
dense_bag_of_words = scipy.sparse.csr_matrix.todense(bag_of_words)

# Preparamos la visualización
prepared_data = pyLDAvis.sklearn.prepare(
    lda,                # El modelo LDA entrenado
    dense_bag_of_words, # La matriz documento-término (en formato denso)
    tf_vectorizer,      # El vectorizador usado
    mds='mmds'         # Método de escalamiento multidimensional
)

# Mostrar la visualización en el notebook
pyLDAvis.enable_notebook()
pyLDAvis.display(prepared_data)

  and should_run_async(code)
See https://numpy.org/devdocs/release/1.25.0-notes.html and the docs for more information.  (Deprecated NumPy 1.25)
  return np.find_common_type(types, [])  # type: ignore[arg-type]
See https://numpy.org/devdocs/release/1.25.0-notes.html and the docs for more information.  (Deprecated NumPy 1.25)
  return np.find_common_type(types, [])  # type: ignore[arg-type]


## Documentos más representativos por tópico

In [9]:
# 2. Documentos más representativos por tópico
print("\n DOCUMENTOS MÁS REPRESENTATIVOS POR TÓPICO")
print("Se muestran los documentos que más peso tienen en cada tópico\n")

for topic_idx in range(n_topics):
    print(f" Tópico {topic_idx + 1}:")
    # Obtener los documentos más representativos
    top_doc_indices = np.argsort(doc_topics[:,topic_idx])[::-1][:no_top_documents]

    for doc_idx in top_doc_indices:
        title = dataset_df.iloc[doc_idx]['TITLE']
        weight = doc_topics[doc_idx, topic_idx]
        print(f"   '{title}'")
        print(f"      Peso: {weight:.4f}")
    print()


 DOCUMENTOS MÁS REPRESENTATIVOS POR TÓPICO
Se muestran los documentos que más peso tienen en cada tópico

 Tópico 1:
   'TOWARDS A JOINT EUROPEAN RESEARCH INFRASTRUCTURE NETWORK FOR COASTAL OBSERVATORIES'
      Peso: 0.9987
   'Virtual Enterprises by Networked Interoperability Services'
      Peso: 0.9985

 Tópico 2:
   'Phosphorus dynamics in low-oxygen marine systems: quantifying the nutrient-climate connection in Earth’s past, present and future'
      Peso: 0.5322
   'Ensemble based advanced quantum light matter interfaces'
      Peso: 0.4716

 Tópico 3:
   'A network for supporting the coordination of Supercomputing research between Europe and Latin America'
      Peso: 0.9989
   'Models for Optimising Dynamic Urban Mobility'
      Peso: 0.9989

 Tópico 4:
   'International Partnership for Advanced Coatings by Thermal Spraying'
      Peso: 0.0015
   'Supporting decentralised management to improve health workforce performance in Ghana, Uganda and Tanzania'
      Peso: 0.0013

 Tóp

  and should_run_async(code)


## Matriz Documento-Topico

In [14]:
from IPython.display import display, HTML
import pandas as pd
#pd.set_option('display.max_columns', None)

topicnames = ["topic"+ str(x) for x in range(0, lda.n_components)]
norm_doc_topics = []
for i in doc_topics:
  norm_doc_topics.append([ "{0:.3f}".format(weight) for weight in i])

df = pd.DataFrame(norm_doc_topics,
                  columns=topicnames,
                  index=dataset_df['TITLE'].tolist())

data_table.DataTable(df, num_rows_per_page=10)

  and should_run_async(code)


Unnamed: 0,topic0,topic1,topic2,topic3,topic4
Visual object population codes relating human brains to nonhuman and computational models with representational similarity analysis,0.998,0.000,0.000,0.000,0.000
New Opportunities for Research Funding Agency Co-operation in Europe II,0.998,0.000,0.000,0.000,0.000
USA and Europe Cooperation in Mini UAVs,0.000,0.000,0.998,0.000,0.000
Sustainable Infrastructure for Resilient Urban Environments,0.000,0.000,0.998,0.000,0.000
Modelling star formation in the local universe,0.001,0.001,0.312,0.001,0.686
...,...,...,...,...,...
The Environmental Observation Web and its Service Applications within the Future Internet,0.998,0.000,0.000,0.000,0.000
Future INternet for Smart ENergY,0.004,0.000,0.995,0.000,0.000
Smart Food and Agribusiness: Future Internet for Safe and Healthy Food from Farm to Fork,0.998,0.000,0.000,0.000,0.000
Instant Mobility for Passengers and Goods,0.001,0.001,0.998,0.001,0.001


## Matriz Tópico-Palabra

In [15]:
# Topic-Keyword Matrix
df_topic_keywords = pd.DataFrame(lda.components_ / lda.components_.sum(axis=1)[:, np.newaxis])

# Assign Column and Index
df_topic_keywords.columns = dictionary
df_topic_keywords.index = topicnames

# View
data_table.DataTable(df_topic_keywords, num_rows_per_page=10)
#df_topic_keywords.head()



  and should_run_async(code)


Unnamed: 0,000,100,146a,1500,1844,192,1993,1mbit,200,2000,...,yes,yet,yield,young,younger,youngest,zebrafish,zone,zones,zoo
topic0,8e-06,7e-06,0.000133,0.000131,7e-06,7e-06,7e-06,0.000131,7e-06,0.000132,...,0.000131,0.000133,0.000132,0.000758,7e-06,7e-06,7e-06,0.00038,6e-06,6e-06
topic1,8.2e-05,0.000105,9.6e-05,9e-05,9.3e-05,9.2e-05,9.9e-05,9.1e-05,9.8e-05,9e-05,...,8.4e-05,0.000371,0.000104,0.000106,9.6e-05,0.000104,7.7e-05,0.000119,0.001853,9.9e-05
topic2,7.3e-05,0.000351,3e-06,4e-06,7.3e-05,7.3e-05,7.3e-05,4e-06,7.4e-05,4e-06,...,4e-06,0.000271,7.3e-05,7.5e-05,7.3e-05,7.4e-05,0.000281,4e-06,6e-06,7.3e-05
topic3,0.000194,0.000217,0.000183,0.000209,0.000195,0.000238,0.000252,0.000191,0.000195,0.000219,...,0.000258,0.000259,0.000229,0.000199,0.000207,0.000189,0.000206,0.000217,0.000229,0.000217
topic4,0.000154,0.000201,0.000134,0.00013,0.000146,0.000163,0.00014,0.000164,0.000155,0.000156,...,0.000148,0.000128,0.000147,0.000129,0.000151,0.000134,0.00021,0.000167,0.000147,0.000138


# 6)  Evaluación del modelo

Usaremos dos métricas principales:

1. Log Likelihood (mayor es mejor):
   - Indica qué tan bien el modelo explica los datos
   - Valores más altos indican mejor ajuste

2. Perplejidad (menor es mejor):
   - Mide qué tan "sorprendido" está el modelo por los datos
   - Valores más bajos indican mejor generalización


In [10]:
# Calcular métricas
log_likelihood = lda.score(bag_of_words)
perplexity = lda.perplexity(bag_of_words)

print("MÉTRICAS DE EVALUACIÓN")
print(f"- Log Likelihood: {log_likelihood:.2f}")
print(f"- Perplejidad: {perplexity:.2f}")

# Comparar con diferentes valores de hiperparámetros
print("\nCOMPARACIÓN DE HIPERPARÁMETROS")
print("Probando diferentes configuraciones para encontrar el mejor modelo...")

# Probar diferentes números de tópicos
n_topics_range = [3, 5, 7, 10]
results = []

for n_top in n_topics_range:
    model = LatentDirichletAllocation(
        n_components=n_top,
        doc_topic_prior=alpha,
        topic_word_prior=beta,
        max_iter=25,
        random_state=0
    )
    model.fit(bag_of_words)

    results.append({
        'n_topics': n_top,
        'perplexity': model.perplexity(bag_of_words),
        'log_likelihood': model.score(bag_of_words)
    })

# Mostrar resultados
results_df = pd.DataFrame(results)
print("\nResultados con diferentes números de tópicos:")
print(results_df)

  and should_run_async(code)


MÉTRICAS DE EVALUACIÓN
- Log Likelihood: -190742.85
- Perplejidad: 5204.76

COMPARACIÓN DE HIPERPARÁMETROS
Probando diferentes configuraciones para encontrar el mejor modelo...

Resultados con diferentes números de tópicos:
   n_topics   perplexity  log_likelihood
0         3  2700.793654  -176119.998280
1         5  2735.128715  -176401.583863
2         7  2760.976094  -176611.238643
3        10  2697.976778  -176096.738107


# 7) Análisis de Similitud

Podemos usar las distribuciones de tópicos para:
1. Encontrar documentos similares
2. Clasificar nuevos documentos
3. Recomendar contenido relacionado

In [13]:
from scipy.spatial.distance import jensenshannon

def get_similar_documents(doc_idx, n=3):
    """Encuentra los documentos más similares a uno dado."""
    # Obtener distribución de tópicos del documento
    doc_topic_dist = doc_topics[doc_idx]

    # Calcular similitud con todos los documentos
    similarities = []
    for i in range(len(doc_topics)):
        if i != doc_idx:
            # Usar distancia Jensen-Shannon
            dist = jensenshannon(doc_topic_dist, doc_topics[i])
            sim = 1 - dist
            similarities.append((i, sim))

    # Ordenar por similitud
    similarities.sort(key=lambda x: x[1], reverse=True)
    return similarities[:n]

# Ejemplo con un documento aleatorio
example_doc = np.random.randint(0, len(dataset_df))
print(f" Documento de ejemplo: '{dataset_df.iloc[example_doc]['TITLE']}'")
print("\n Documentos más similares:")

similar_docs = get_similar_documents(example_doc)
for idx, sim in similar_docs:
    print(f"- '{dataset_df.iloc[idx]['TITLE']}'")
    print(f"  Similitud: {sim:.4f}")

 Documento de ejemplo: 'Make it simple: towards a new era for organic synthesis'

 Documentos más similares:
- 'International Partnership for Advanced Coatings by Thermal Spraying'
  Similitud: 0.7118
- 'Supporting decentralised management to improve health workforce performance in Ghana, Uganda and Tanzania'
  Similitud: 0.7111
- 'Discovery Festival'
  Similitud: 0.7102


  and should_run_async(code)
