In [None]:
import pandas as pd
import os

# Importa las librerías necesarias de scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# Define la ruta del archivo de datos limpios
project_dir = os.path.abspath(os.path.join(os.getcwd(), '..'))
file_path = os.path.join(project_dir, 'data', 'processed', 'clean_pubmed_articles.csv')
print(f"Cargando datos limpios desde: {file_path}")

# Carga los datos preprocesados en un DataFrame
df = pd.read_csv(file_path)

# --- Vectorización de los datos ---
# Crea un vectorizador para convertir los textos en números
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, stop_words='english')
# 'fit_transform' aprende el vocabulario y transforma los datos
data_vectorized = vectorizer.fit_transform(df['clean_abstract'])

# --- Entrenamiento del modelo LDA ---
# Crea el modelo LDA. Puedes cambiar 'n_components' para el número de temas que quieres.
num_topics = 5
lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
# Entrena el modelo
lda.fit(data_vectorized)

# --- Impresión de los temas ---
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print(f"\nTema #{topic_idx+1}:")
        # Imprime las palabras más importantes de cada tema
        print(" ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))

# Extrae las palabras clave del vectorizador
feature_names = vectorizer.get_feature_names_out()

# Imprime los temas y sus palabras clave
print_top_words(lda, feature_names, 10)