# Normalización con lemmatización

In [5]:
import spacy
import dask.dataframe as dd
from dask.diagnostics import ProgressBar

# Cargar el modelo de SpaCy con lemmatización y desactivando NER
nlp = spacy.load('en_core_web_sm', disable=['ner'])  # Mantener desactivado 'ner' para optimización

# Leer archivos CSV con Dask
def load_data_with_dask(file_paths):
    # Leer varios archivos CSV utilizando Dask
    df = dd.read_csv(file_paths)
    return df

# Tokenización y lemmatización por lotes y paralelización
def lemmatize_abstracts_batch(texts, batch_size=1000, n_process=2):
    lemmas = []
    with ProgressBar():  # Mostrar barra de progreso
        for doc in nlp.pipe(texts, batch_size=batch_size, n_process=n_process):
            # Extraer las lemas (forma base) de los tokens
            lemmas.append([token.lemma_ for token in doc])
    return lemmas

# Cargar archivos CSV
file_paths = ['D:\CodeProjects\QuantFinanceResearch\CSVs\AssetPricingModels.csv',
            'D:\CodeProjects\QuantFinanceResearch\CSVs\BehavioralFinance.csv',
            'D:\CodeProjects\QuantFinanceResearch\CSVs\CorporateFinance.csv',
            'D:\CodeProjects\QuantFinanceResearch\CSVs\Financial_Risk_Combined.csv',
            'D:\CodeProjects\QuantFinanceResearch\CSVs\FinancialDerivatives.csv',
            'D:\CodeProjects\QuantFinanceResearch\CSVs\FinancialEngineering.csv',
            'D:\CodeProjects\QuantFinanceResearch\CSVs\PortfolioOptimization.csv',
            'D:\CodeProjects\QuantFinanceResearch\CSVs\SustainableFinance.csv']  # Cambia los nombres de los archivos CSV
df = load_data_with_dask(file_paths)

# Convertir la columna de abstracts a lista para pasarla a la función de SpaCy
texts = df['Abstract'].compute().tolist()  # Reemplaza 'Abstract' con el nombre real de la columna de abstracts

# Ejecutar la lemmatización
lemmas = lemmatize_abstracts_batch(texts, batch_size=1000, n_process=2)  # Reducido a 2 procesos

# Imprimir algunos lemas como ejemplo
print(lemmas[:5])


[['a', 'low', 'frequency', 'factor', 'model', 'regression', 'use', 'change', 'or', 'return', 'compute', 'at', 'a', 'low', 'frequency', 'than', 'datum', 'available', '.', 'use', 'overlap', 'observation', 'to', 'estimate', 'low', 'frequency', 'factor', 'model', 'regression', 'result', 'in', 'more', 'efficient', 'estimate', 'of', 'ols', 'coefficient', 'and', 'standard', 'error', ',', 'relative', 'to', 'use', 'independent', 'observation', 'or', 'high', 'frequency', 'estimate', '.', 'I', 'derive', 'the', 'relevant', 'inference', 'and', 'propose', 'a', 'new', 'method', 'to', 'correct', 'for', 'the', 'induced', 'autocorrelation', '.', 'I', 'present', 'a', 'series', 'of', 'simulation', 'and', 'empirical', 'example', 'to', 'support', 'the', 'theoretical', 'result', '.', 'in', 'test', 'of', 'asset', 'pricing', 'model', ',', 'use', 'overlap', 'observation', 'result', 'in', 'low', 'pricing', 'error', ',', 'compare', 'to', 'exist', 'alternative', '.', '©', '2024', 'elsevi', 'B.V.'], ['we', 'develop

# Cálculo de métricas (Comparación antes y después de normalización)