In [3]:
%pip install gensim



In [4]:
# ==============================
# 📌 Comparación NMF vs LDA
# ==============================

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF
from gensim import corpora
from gensim.models import LdaModel

# ----------------------------
# 1. Corpus de ejemplo (el mismo que ya tienes definido)
# ----------------------------
documentos = [
    "La inteligencia artificial avanza rápidamente en aplicaciones médicas y tecnológicas.",
    "Las vacunas han sido fundamentales en la salud pública mundial.",
    "La economía global enfrenta desafíos debido a la inflación.",
    "Los deportes fomentan la salud física y el trabajo en equipo.",
    "La educación en línea se expandió durante la pandemia.",
    "La robótica impulsa la automatización industrial.",
    "Los hábitos alimenticios saludables previenen enfermedades.",
    "El comercio internacional influye en las políticas económicas."
]

# ----------------------------
# 2. NMF con TF-IDF
# ----------------------------
tfidf_vectorizer = TfidfVectorizer(max_features=1000)
X_tfidf = tfidf_vectorizer.fit_transform(documentos)

nmf_model = NMF(n_components=3, random_state=42)
nmf_model.fit(X_tfidf)

print("🔹 Temas con NMF (TF-IDF)")
feature_names = tfidf_vectorizer.get_feature_names_out()
for idx, topic in enumerate(nmf_model.components_):
    top_words = [feature_names[i] for i in topic.argsort()[-8:]]
    print(f"Tema {idx+1}: {', '.join(top_words)}")

# ----------------------------
# 3. LDA con Bag of Words (gensim)
# ----------------------------
# Tokenización básica
tokenized_docs = [doc.lower().split() for doc in documentos]

# Diccionario y corpus en formato BoW
dictionary = corpora.Dictionary(tokenized_docs)
corpus_bow = [dictionary.doc2bow(text) for text in tokenized_docs]

lda_model = LdaModel(corpus=corpus_bow,
                     id2word=dictionary,
                     num_topics=3,
                     passes=10,
                     random_state=42)

print("\n🔹 Temas con LDA (BoW)")
for idx, topic in lda_model.print_topics(num_topics=3, num_words=8):
    print(f"Tema {idx+1}: {topic}")

🔹 Temas con NMF (TF-IDF)
Tema 1: desafíos, economía, global, robótica, impulsa, industrial, automatización, la
Tema 2: influye, económicas, comercio, internacional, salud, el, en, las
Tema 3: equipo, física, los, alimenticios, previenen, enfermedades, saludables, hábitos

🔹 Temas con LDA (BoW)
Tema 1: 0.114*"la" + 0.035*"expandió" + 0.035*"educación" + 0.035*"línea" + 0.035*"se" + 0.035*"durante" + 0.035*"pandemia." + 0.035*"previenen"
Tema 2: 0.092*"la" + 0.037*"las" + 0.037*"salud" + 0.037*"vacunas" + 0.037*"sido" + 0.037*"mundial." + 0.037*"han" + 0.037*"fundamentales"
Tema 3: 0.072*"en" + 0.050*"el" + 0.050*"y" + 0.050*"la" + 0.029*"los" + 0.029*"deportes" + 0.029*"equipo." + 0.029*"fomentan"


In [5]:
%pip install pyldavis



In [6]:
import pyLDAvis.gensim_models
import pyLDAvis

# Prepare the visualization data
vis_data = pyLDAvis.gensim_models.prepare(lda_model, corpus_bow, dictionary)

# Display the visualization
pyLDAvis.display(vis_data)

  return datetime.utcnow().replace(tzinfo=utc)


  return datetime.utcnow().replace(tzinfo=utc)
  return datetime.utcnow().replace(tzinfo=utc)
  return datetime.utcnow().replace(tzinfo=utc)
