# P3.4 :: Topic modeling vs K-Means

**1) Implementación de LDA con Scikit-Learn**

Definimos una serie de documentos a modo de ejemplo

In [2]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer

# Corpus de documentos de ejemplo
corpus = [
    "el cielo es azul",
    "las nubes son blancas",
    "el sol brilla",
    "el cielo está despejado",
    "las estrellas brillan en la noche"
]

# Vectorizador de términos
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# Función para ajustar el modelo LDA y mostrar las distribuciones
def explore_lda(num_topics):
    # Ajustar el modelo LDA
    lda_model = LatentDirichletAllocation(n_components=num_topics, random_state=0)
    lda_model.fit(X)

    # Obtener distribución de tópicos para cada documento
    doc_topic_distribution = lda_model.transform(X)

    # Obtener distribución de palabras para cada tópico
    topic_word_distribution = lda_model.components_

    # Mostrar distribución de tópicos para cada documento
    print(f"\nDistribución de tópicos para {num_topics} tópicos:")
    for i, doc_topics in enumerate(doc_topic_distribution):
        print(f"Documento {i+1}: {doc_topics}")

    # Mostrar distribución de palabras para cada tópico
    print(f"\nDistribución de palabras para {num_topics} tópicos:")
    for i, topic_words in enumerate(topic_word_distribution):
        top_words_indices = topic_words.argsort()[-5:][::-1]  # Tomar las 5 palabras más probables en el tópico
        top_words = [vectorizer.get_feature_names_out()[index] for index in top_words_indices]
        print(f"Tópico {i+1}: {top_words}")

# Prueba con diferentes números de tópicos
explore_lda(2)
explore_lda(3)
explore_lda(4)



Distribución de tópicos para 2 tópicos:
Documento 1: [0.89681804 0.10318196]
Documento 2: [0.103541 0.896459]
Documento 3: [0.87057837 0.12942163]
Documento 4: [0.89681804 0.10318196]
Documento 5: [0.07406869 0.92593131]

Distribución de palabras para 2 tópicos:
Tópico 1: ['el', 'cielo', 'es', 'azul', 'está']
Tópico 2: ['las', 'noche', 'la', 'en', 'estrellas']

Distribución de tópicos para 3 tópicos:
Documento 1: [0.86561848 0.06724436 0.06713716]
Documento 2: [0.06692822 0.86400186 0.06906992]
Documento 3: [0.83185439 0.08414893 0.08399668]
Documento 4: [0.86561848 0.06724436 0.06713716]
Documento 5: [0.04784399 0.04945574 0.90270028]

Distribución de palabras para 3 tópicos:
Tópico 1: ['el', 'cielo', 'está', 'despejado', 'es']
Tópico 2: ['las', 'son', 'nubes', 'blancas', 'sol']
Tópico 3: ['las', 'noche', 'la', 'brillan', 'estrellas']

Distribución de tópicos para 4 tópicos:
Documento 1: [0.05018141 0.84751728 0.05018141 0.0521199 ]
Documento 2: [0.05018111 0.84903326 0.05018111 0.05

Evaluación de coherencia de los temas:

In [4]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import silhouette_score

# Corpus de documentos de ejemplo
corpus = [
    "el cielo es azul",
    "las nubes son blancas",
    "el sol brilla",
    "el cielo está despejado",
    "las estrellas brillan en la noche"
]

# Vectorizador de términos
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# Función para evaluar la coherencia de tópicos
def evaluate_topic_coherence(num_topics):
    # Ajustar el modelo LDA
    lda_model = LatentDirichletAllocation(n_components=num_topics, random_state=0)
    lda_model.fit(X)

    # Obtener distribución de tópicos para cada documento
    doc_topic_distribution = lda_model.transform(X)

    # Obtener distribución de palabras para cada tópico
    topic_word_distribution = lda_model.components_

    # Calcular la coherencia de los tópicos
    coherence_scores = []
    for topic_words in topic_word_distribution:
        top_words_indices = topic_words.argsort()[-5:]  # Tomar las 5 palabras más probables en el tópico
        top_words = [vectorizer.get_feature_names_out()[index] for index in top_words_indices]
        coherence_score = silhouette_score(X[:, top_words_indices], labels=doc_topic_distribution.argmax(axis=1))
        coherence_scores.append(coherence_score)

    # Mostrar la coherencia de los tópicos
    print(f"\nCoherencia de los tópicos para {num_topics} tópicos:")
    for i, coherence_score in enumerate(coherence_scores):
        print(f"Tópico {i+1}: {coherence_score}")

# Prueba con diferentes números de tópicos
evaluate_topic_coherence(2)
evaluate_topic_coherence(3)
evaluate_topic_coherence(4)



Coherencia de los tópicos para 2 tópicos:
Tópico 1: 0.37228015922865254
Tópico 2: 0.5211145618000168

Coherencia de los tópicos para 3 tópicos:
Tópico 1: -0.02771984077134746
Tópico 2: 0.2585786437626905
Tópico 3: 0.6

Coherencia de los tópicos para 4 tópicos:
Tópico 1: -0.33019964108049893
Tópico 2: -0.051643928543738594
Tópico 3: -0.33019964108049893
Tópico 4: -0.2326006442000393


**2) Implementación de K-Means con Scikit-Learn**

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score


# Construimos los vectores
#tfidf_vectorizer = TfidfVectorizer(lowercase=True, max_features=100, max_df=0.6, min_df=10, ngram_range = (1,2), stop_words = None)
tfidf_vectorizer = TfidfVectorizer(lowercase=True, max_features=100, stop_words = "english")
tfidf = tfidf_vectorizer.fit_transform(corpus)

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score


# Construimos los vectores
#tfidf_vectorizer = TfidfVectorizer(lowercase=True, max_features=100, max_df=0.6, min_df=10, ngram_range = (1,2), stop_words = None)
tfidf_vectorizer = TfidfVectorizer(lowercase=True, max_features=100, stop_words = "english")
tfidf = tfidf_vectorizer.fit_transform(corpus)

In [9]:
true_k = 3

model = KMeans(n_clusters=true_k, init="k-means++", max_iter=50, n_init=1)

model.fit(tfidf)

order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = tfidf_vectorizer.get_feature_names_out()

for i in range(0, true_k):
  print(f"Cluster {i+1}: ")
  for ind in order_centroids[i,:5]:
    print(f'{terms[ind]}', end=" ")
  print("\n")

Cluster 1: 
las son nubes blancas noche 

Cluster 2: 
cielo el es está despejado 

Cluster 3: 
brilla sol el son en 



In [11]:
import pandas as pd

pd.DataFrame({'documents': corpus, 'cluster':model.labels_})

Unnamed: 0,documents,cluster
0,el cielo es azul,1
1,las nubes son blancas,0
2,el sol brilla,2
3,el cielo está despejado,1
4,las estrellas brillan en la noche,0
