In [7]:
import pandas as pd
from gensim import corpora
from gensim.models import LdaModel
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jorge\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\jorge\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [8]:
def preprocess_texts(texts):
    """
    Preprocesar los textos eliminando stopwords, puntuación y convirtiendo a minúsculas.
    
    :param texts: Lista de textos a preprocesar
    :return: Lista de textos tokenizados y preprocesados
    """
    stop_words = set(stopwords.words('english'))
    processed_texts = []
    
    for text in texts:
        # Convertir a minúsculas y tokenizar
        tokens = word_tokenize(text.lower())
        
        # Eliminar puntuación y stopwords
        tokens = [word for word in tokens if word not in stop_words and word not in string.punctuation]
        
        processed_texts.append(tokens)
    
    return processed_texts

def lda_topic_modeling(csv_file, column_name, num_topics=5, num_words=10, passes=10):
    """
    Realiza un análisis de temas utilizando LDA en un archivo CSV.
    
    :param csv_file: Ruta al archivo CSV
    :param column_name: Nombre de la columna que contiene los textos a analizar
    :param num_topics: Número de temas a generar
    :param num_words: Número de palabras más representativas por tema
    :param passes: Número de veces que el modelo iterará sobre el corpus
    """
    # Leer el archivo CSV
    data = pd.read_csv(csv_file)

    # Verificar si la columna existe
    if column_name not in data.columns:
        raise ValueError(f"Columna '{column_name}' no encontrada en el archivo CSV")

    # Obtener los textos de la columna
    texts = data[column_name].dropna().astype(str).tolist()

    # Preprocesar los textos (tokenización, eliminación de stopwords y puntuación)
    processed_texts = preprocess_texts(texts)

    # Crear diccionario y corpus para el modelo LDA
    dictionary = corpora.Dictionary(processed_texts)
    corpus = [dictionary.doc2bow(text) for text in processed_texts]

    # Entrenar el modelo LDA
    lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=passes)

    # Mostrar los temas generados por el modelo LDA
    print(f"Top {num_topics} temas generados por LDA:")
    for idx, topic in lda_model.print_topics(num_topics=num_topics, num_words=num_words):
        print(f"Tema {idx}: {topic}")

if __name__ == "__main__":
    # Ruta del archivo CSV
    csv_file = "BehavioralFinance_def.csv"

    # Nombre de la columna que contiene los textos
    column_name = "Abstract"

    # Realizar el análisis de temas (puedes ajustar los parámetros según sea necesario)
    lda_topic_modeling(csv_file, column_name, num_topics=5, num_words=10, passes=10)


Top 5 temas generados por LDA:
Tema 0: 0.011*"public" + 0.010*"behavioral" + 0.009*"health" + 0.008*"finance" + 0.007*"tax" + 0.006*"research" + 0.006*"people" + 0.006*"'s" + 0.005*"care" + 0.005*"use"
Tema 1: 0.013*"finance" + 0.012*"behavioral" + 0.009*"information" + 0.007*"financial" + 0.006*"market" + 0.006*"risk" + 0.006*"©" + 0.005*"returns" + 0.005*"reserved" + 0.004*"rights"
Tema 2: 0.019*"market" + 0.017*"behavioral" + 0.016*"finance" + 0.014*"investors" + 0.011*"model" + 0.010*"stock" + 0.008*"theory" + 0.008*"financial" + 0.007*"©" + 0.007*"investor"
Tema 3: 0.012*"financial" + 0.010*"behavioral" + 0.009*"study" + 0.009*"finance" + 0.007*"research" + 0.007*"©" + 0.006*"investment" + 0.005*"’" + 0.004*"data" + 0.004*"results"
Tema 4: 0.014*"finance" + 0.013*"behavioral" + 0.010*"market" + 0.009*"model" + 0.007*"©" + 0.007*"models" + 0.006*"stock" + 0.006*"risk" + 0.006*"paper" + 0.006*"returns"
