In [15]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')

def preprocess_text(text):
    # Tokenizar el texto
    tokens = word_tokenize(text.lower())
    # Eliminar palabras de parada
    stop_words = set(stopwords.words('spanish'))
    filtered_words = [word for word in tokens if word.isalpha() and word not in stop_words]
    return ' '.join(filtered_words)

def cluster_keywords(texts, num_clusters):
    # Vectorizar el texto
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(texts)

    # Comprobar si hay suficientes muestras
    if X.shape[0] < num_clusters:
        print(f"Ajustando num_clusters de {num_clusters} a {X.shape[0]}")
        num_clusters = X.shape[0]

    # KMeans clustering
    kmeans = KMeans(n_clusters=num_clusters, random_state=0)
    kmeans.fit(X)
    
    # Obtener etiquetas y palabras clave
    labels = kmeans.labels_
    keywords = vectorizer.get_feature_names_out()
    
    return keywords, labels

def export_to_excel(keywords, labels, excel_path):
    # Crear un DataFrame
    df = pd.DataFrame({'Keyword': keywords, 'Cluster': labels})
    # Exportar a Excel
    df.to_excel(excel_path, index=False)

if __name__ == "__main__":
    # Ejemplo de textos (puedes cambiarlo por tus propios textos)
    texts = [
        """La inteligencia artificial está transformando el mundo. La tecnología avanza a pasos agigantados.""",
        """Las empresas deben adaptarse para no quedarse atrás en esta era digital.""",
        """El aprendizaje automático es una rama de la inteligencia artificial que se centra en el desarrollo de algoritmos.""",
        """Las tecnologías de la información y la comunicación están cambiando nuestra forma de vivir y trabajar."""
    ]

    # Procesar los textos
    processed_texts = [preprocess_text(text) for text in texts]

    # Definir el número de clusters
    num_clusters = 3

    # Agrupar palabras clave
    keywords, labels = cluster_keywords(processed_texts, num_clusters)

    # Definir la ruta de salida de Excel
    excel_path = 'resultados_clustering.xlsx'

    # Exportar a Excel
    export_to_excel(keywords, labels, excel_path)

    print(f"Resultados exportados a {excel_path}")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\yerzy_hqbafrm\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\yerzy_hqbafrm\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


ValueError: All arrays must be of the same length