# LIBRERIAS

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# ALGORITMO

In [2]:
def analyze_ngrams(csv_file, column_name, ngram_range=(2, 2), top_n=10):
    """
    Analiza los N-gramas más comunes de un archivo CSV.

    :param csv_file: Ruta al archivo CSV
    :param column_name: Nombre de la columna que contiene los textos a analizar
    :param ngram_range: Tupla para el rango de n-gramas (min, max), por defecto (2, 2) para bigramas
    :param top_n: Número de n-gramas más comunes a mostrar, por defecto 10
    """
    # Leer el archivo CSV
    data = pd.read_csv(csv_file)

    # Verificar si la columna existe
    if column_name not in data.columns:
        raise ValueError(f"Columna '{column_name}' no encontrada en el archivo CSV")

    # Obtener los textos de la columna
    texts = data[column_name].dropna().astype(str).tolist()

    # Crear el vectorizador de N-gramas
    vectorizer = CountVectorizer(ngram_range=ngram_range, stop_words='english')
    ngram_matrix = vectorizer.fit_transform(texts)

    # Obtener los nombres de los n-gramas y sus frecuencias
    feature_names = vectorizer.get_feature_names_out()
    word_counts = ngram_matrix.sum(axis=0).A1
    ngram_counts = dict(zip(feature_names, word_counts))

    # Ordenar los n-gramas por su frecuencia de aparición
    sorted_ngrams = sorted(ngram_counts.items(), key=lambda item: item[1], reverse=True)

    # Mostrar los N-gramas más comunes
    print(f"Top {top_n} N-gramas más comunes:")
    for ngram, count in sorted_ngrams[:top_n]:
        print(f"{ngram}: {count}")


# IMPLEMENTACION

In [9]:
if __name__ == "__main__":
    # Ruta del archivo CSV
    csv_file = "AssetPricingModels_dfdef.csv"

    # Nombre de la columna que contiene los textos
    column_name = "Abstract"

    # Análisis de bigramas (puedes cambiar el rango de N-gramas y el top_n si lo deseas)
    analyze_ngrams(csv_file, column_name, ngram_range=(2, 2), top_n=15)
    print('-------------------------------------------')
    analyze_ngrams(csv_file, column_name, ngram_range=(3, 3), top_n=15)

Top 15 N-gramas más comunes:
asset pricing: 5868
pricing model: 3464
capital asset: 1784
pricing models: 1536
rights reserved: 1142
stock market: 1088
option pricing: 1059
stock returns: 919
factor model: 900
fama french: 887
model capm: 776
underlying asset: 755
asset price: 649
black scholes: 626
stochastic volatility: 617
-------------------------------------------
Top 15 N-gramas más comunes:
asset pricing model: 2788
capital asset pricing: 1771
asset pricing models: 1198
pricing model capm: 766
elsevier rights reserved: 405
fama french factor: 346
design methodology approach: 318
taylor francis group: 313
black scholes model: 264
based asset pricing: 263
french factor model: 258
science business media: 217
springer science business: 217
option pricing model: 216
factor asset pricing: 202
