# LIBRERIAS

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# ALGORITMO

In [2]:
def analyze_ngrams(csv_file, column_name, ngram_range=(2, 2), top_n=10):
    """
    Analiza los N-gramas más comunes de un archivo CSV.

    :param csv_file: Ruta al archivo CSV
    :param column_name: Nombre de la columna que contiene los textos a analizar
    :param ngram_range: Tupla para el rango de n-gramas (min, max), por defecto (2, 2) para bigramas
    :param top_n: Número de n-gramas más comunes a mostrar, por defecto 10
    """
    # Leer el archivo CSV
    data = pd.read_csv(csv_file)

    # Verificar si la columna existe
    if column_name not in data.columns:
        raise ValueError(f"Columna '{column_name}' no encontrada en el archivo CSV")

    # Obtener los textos de la columna
    texts = data[column_name].dropna().astype(str).tolist()

    # Crear el vectorizador de N-gramas
    vectorizer = CountVectorizer(ngram_range=ngram_range, stop_words='english')
    ngram_matrix = vectorizer.fit_transform(texts)

    # Obtener los nombres de los n-gramas y sus frecuencias
    feature_names = vectorizer.get_feature_names_out()
    word_counts = ngram_matrix.sum(axis=0).A1
    ngram_counts = dict(zip(feature_names, word_counts))

    # Ordenar los n-gramas por su frecuencia de aparición
    sorted_ngrams = sorted(ngram_counts.items(), key=lambda item: item[1], reverse=True)

    # Mostrar los N-gramas más comunes
    print(f"Top {top_n} N-gramas más comunes:")
    for ngram, count in sorted_ngrams[:top_n]:
        print(f"{ngram}: {count}")


# IMPLEMENTACION

In [3]:
if __name__ == "__main__":
    # Ruta del archivo CSV
    csv_file = "BehavioralFinance_def.csv"

    # Nombre de la columna que contiene los textos
    column_name = "Abstract"

    # Análisis de bigramas (puedes cambiar el rango de N-gramas y el top_n si lo deseas)
    analyze_ngrams(csv_file, column_name, ngram_range=(2, 2), top_n=15)
    print('-------------------------------------------')
    analyze_ngrams(csv_file, column_name, ngram_range=(3, 3), top_n=15)

Top 15 N-gramas más comunes:
behavioral finance: 1594
decision making: 589
stock market: 564
rights reserved: 369
investor sentiment: 338
behavioral biases: 239
financial markets: 233
investment decisions: 233
behavioral economics: 204
design methodology: 199
individual investors: 196
methodology approach: 195
originality value: 195
publishing limited: 185
covid 19: 162
-------------------------------------------
Top 15 N-gramas más comunes:
design methodology approach: 193
behavioral experimental finance: 148
journal behavioral experimental: 148
emerald publishing limited: 146
10 1016 jbef: 129
doi org 10: 129
https doi org: 129
org 10 1016: 129
institute behavioral finance: 115
behavioral finance theory: 105
investment decision making: 100
decision making process: 79
behavioral finance literature: 70
declaration competing authors: 70
research limitations implications: 70
