# LIBRERIAS

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# ALGORITMO

In [2]:
def analyze_ngrams(csv_file, column_name, ngram_range=(2, 2), top_n=10):
    """
    Analiza los N-gramas más comunes de un archivo CSV.

    :param csv_file: Ruta al archivo CSV
    :param column_name: Nombre de la columna que contiene los textos a analizar
    :param ngram_range: Tupla para el rango de n-gramas (min, max), por defecto (2, 2) para bigramas
    :param top_n: Número de n-gramas más comunes a mostrar, por defecto 10
    """
    # Leer el archivo CSV
    data = pd.read_csv(csv_file)

    # Verificar si la columna existe
    if column_name not in data.columns:
        raise ValueError(f"Columna '{column_name}' no encontrada en el archivo CSV")

    # Obtener los textos de la columna
    texts = data[column_name].dropna().astype(str).tolist()

    # Crear el vectorizador de N-gramas
    vectorizer = CountVectorizer(ngram_range=ngram_range, stop_words='english')
    ngram_matrix = vectorizer.fit_transform(texts)

    # Obtener los nombres de los n-gramas y sus frecuencias
    feature_names = vectorizer.get_feature_names_out()
    word_counts = ngram_matrix.sum(axis=0).A1
    ngram_counts = dict(zip(feature_names, word_counts))

    # Ordenar los n-gramas por su frecuencia de aparición
    sorted_ngrams = sorted(ngram_counts.items(), key=lambda item: item[1], reverse=True)

    # Mostrar los N-gramas más comunes
    print(f"Top {top_n} N-gramas más comunes:")
    for ngram, count in sorted_ngrams[:top_n]:
        print(f"{ngram}: {count}")


# IMPLEMENTACION

In [3]:
if __name__ == "__main__":
    # Ruta del archivo CSV
    csv_file = "ComputationalFinance_def.csv"

    # Nombre de la columna que contiene los textos
    column_name = "Abstract"

    # Análisis de bigramas (puedes cambiar el rango de N-gramas y el top_n si lo deseas)
    analyze_ngrams(csv_file, column_name, ngram_range=(2, 2), top_n=15)
    print('-------------------------------------------')
    analyze_ngrams(csv_file, column_name, ngram_range=(3, 3), top_n=15)

Top 15 N-gramas más comunes:
computational finance: 365
machine learning: 289
time series: 257
rights reserved: 240
monte carlo: 239
big data: 153
real world: 138
artificial intelligence: 131
springer nature: 124
decision making: 120
state art: 120
option pricing: 115
stock market: 114
neural network: 111
deep learning: 110
-------------------------------------------
Top 15 N-gramas más comunes:
elsevier rights reserved: 66
science business media: 61
springer science business: 61
time series data: 60
nature switzerland ag: 51
springer nature switzerland: 51
springer verlag berlin: 50
verlag berlin heidelberg: 49
monte carlo methods: 45
business media llc: 43
agent based computational: 42
taylor francis group: 41
association computational linguistics: 39
author exclusive license: 39
exclusive license springer: 39
