# PLN (Procesamiento de Lenguaje Natural) "Español - UTF-8" en BIGDATA

# 0_INSTALACIÓN

In [None]:
!pip install -q spacy                       # Para procesamiento de lenguaje natural avanzado, como tokenización, lematización y reconocimiento de entidades.
!pip install -q transformers                # Para trabajar con modelos de lenguaje de última generación como BERT, GPT, etc.
!pip install -q sentence-transformers       # Para obtener embeddings de oraciones.
!pip install -q pymongo                     # Para interactuar con bases de datos MongoDB.
!pip install -q nltk                        # Otra librería popular para tareas de PLN, con una amplia gama de módulos.
!pip install -q pandas numpy scikit-learn   # Librerías fundamentales para manipulación de datos, cálculo numérico y machine learning.
!python -m spacy download es_core_news_lg   # Descarga el modelo grande de spaCy para español.

# 1_CONFIGURACIÓN INICIAL

In [None]:
import spacy
import nltk                           # Importa la biblioteca NLTK (Natural Language Toolkit) para tareas de PLN.
from nltk.corpus import stopwords     # Importa la lista de palabras vacías (stopwords) de NLTK.
from collections import Counter       # Importa Counter para contar la frecuencia de elementos.
import numpy as np                    # Importa NumPy para operaciones numéricas y con arrays.
from sklearn.metrics.pairwise import cosine_similarity # Importa cosine_similarity para calcular la similitud del coseno entre vectores.
from sklearn.feature_extraction.text import TfidfVectorizer # Importa TfidfVectorizer para convertir texto en vectores TF-IDF.
from sentence_transformers import SentenceTransformer # Importa SentenceTransformer para obtener embeddings de oraciones.
from transformers import pipeline     # Importa pipeline de Hugging Face Transformers para tareas de PLN preconfiguradas.
import pandas as pd                   # Importa pandas para manipulación y análisis de datos en DataFrames.
from datetime import datetime         # Importa datetime para trabajar con fechas y horas.
import re                             # Importa el módulo re para trabajar con expresiones regulares.
from typing import List, Dict, Tuple  # Importa tipos de datos para anotaciones de tipo.
import warnings                       # Importa warnings para gestionar advertencias.
warnings.filterwarnings('ignore')     # Ignora las advertencias.

## 1.1_Descargar recursos de NLTK

In [None]:

nltk.download('stopwords', quiet=True)
nltk.download('punkt', quiet=True)

True

## 1.2_Cargar modelo de spaCy para español

In [None]:
nlp = spacy.load('es_core_news_lg')

## 1.3_Modelo para embeddings semánticos

---
Este modelo se elige para generar **embeddings semánticos** de las oraciones. Los embeddings son representaciones numéricas densas de texto que capturan el significado contextual de las palabras y frases.

**Ventajas de usar 'paraphrase-multilingual-MiniLM-L12-v2':**

*   **Multilingüe:** Es capaz de generar embeddings para texto en varios idiomas, lo cual es crucial para el procesamiento de lenguaje natural en español, como se indica en el título del notebook.
*   **Buen rendimiento en tareas de similitud:** Está optimizado para tareas de detección de similitud de paráfrasis, lo que significa que los embeddings generados son efectivos para medir cuán semánticamente similares son dos fragmentos de texto.
*   **Eficiencia:** A pesar de ser multilingual, es un modelo relativamente "mini", lo que lo hace más rápido y menos intensivo en recursos computacionales que modelos más grandes, sin sacrificar demasiada precisión para muchas tareas.
*   **Versatilidad:** Los embeddings generados se pueden utilizar para una variedad de tareas de PLN, como búsqueda semántica, clustering de documentos, clasificación de texto y más.


In [None]:

model_embeddings = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

# 2_EJERCICIOS BÁSICOS DE PLN SOBRE TEXTOS INDIVIDUALES

---
Texto de ejemplo: Fragmento de "Cien Años de Soledad" de Gabriel García Márquez




In [None]:
texto_ejemplo = """ a continuación se presenta un fragmento
del libro del escritor colombiano Gabriel García Márquez, nacido en Aracataca del departamento del Magdalena en colombia:
Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía
había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo.
Macondo era entonces una aldea de veinte casas de barro y cañabrava construidas a la
orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas,
blancas y enormes como huevos prehistóricos. El mundo era tan reciente, que muchas cosas
carecían de nombre, y para mencionarlas había que señalarlas con el dedo. Todos los años,
por el mes de marzo, una familia de gitanos desarrapados plantaba su carpa cerca de la
aldea, y con un grande alboroto de pitos y timbales daban a conocer los nuevos inventos.
José Arcadio Buendía fundó Macondo en 1820 junto a su esposa Úrsula Iguarán.
"""

## 2.1_EXTRACCIÓN DE ENTIDADES (Personas/Lugares/Fechas/Leyes)

In [None]:
def extraer_entidades(texto: str) -> Dict[str, List[str]]:
    """
    Extrae entidades nombradas del texto usando spaCy.
    Args: texto: Texto a analizar
    Returns: Diccionario con entidades clasificadas por tipo
    """
    doc = nlp(texto)

    entidades = {
        'personas': [],
        'lugares': [],
        'organizaciones': [],
        'fechas': [],
        'leyes': [],
        'otros': []
    }

    for ent in doc.ents:
        if ent.label_ == 'PER':
            entidades['personas'].append(ent.text)
        elif ent.label_ == 'LOC':
            entidades['lugares'].append(ent.text)
        elif ent.label_ == 'ORG':
            entidades['organizaciones'].append(ent.text)
        elif ent.label_ == 'DATE':
            entidades['fechas'].append(ent.text)
        elif ent.label_ == 'LAW' or 'ley' in ent.text.lower():
            entidades['leyes'].append(ent.text)
        else:
            entidades['otros'].append(f"{ent.text} ({ent.label_})")

    # Eliminar duplicados manteniendo orden
    for key in entidades:
        entidades[key] = list(dict.fromkeys(entidades[key]))

    return entidades

In [None]:
print("1.1 EXTRACCIÓN DE ENTIDADES")
print("=" * 80)
entidades = extraer_entidades(texto_ejemplo)
for tipo, items in entidades.items():
    if items:
        print(f"\n{tipo.upper()}:")
        for item in items:
            print(f"  • {item}")

1.1 EXTRACCIÓN DE ENTIDADES

PERSONAS:
  • Gabriel García Márquez
  • Aureliano Buendía
  • José Arcadio Buendía
  • Úrsula Iguarán

LUGARES:
  • Aracataca
  • departamento del Magdalena
  • colombia
  • Macondo

OTROS:
  • El mundo era tan reciente (MISC)
  • Todos los años (MISC)


## 2.2_EXTRACCIÓN DE TEMAS (Topic Modeling)

In [None]:
def extraer_temas(texto: str, top_n: int = 10) -> List[Tuple[str, float]]:
    """ Extrae los temas/palabras clave más importantes del texto.
    Args:
        texto: Texto a analizar
        top_n: Número de temas a extraer
    Returns:
        Lista de tuplas (palabra, relevancia)
    """
    doc = nlp(texto)

    # Filtrar stopwords y tokens no relevantes
    stop_words = set(stopwords.words('spanish'))
    palabras_relevantes = []

    for token in doc:
        if (not token.is_stop and
            not token.is_punct and
            not token.is_space and
            len(token.text) > 3 and
            token.pos_ in ['NOUN', 'PROPN', 'ADJ', 'VERB']):
            palabras_relevantes.append(token.lemma_.lower())

    # Contar frecuencias
    contador = Counter(palabras_relevantes)
    temas = contador.most_common(top_n)

    return temas

In [None]:
print("\n" + "=" * 80)
print("1.2 EXTRACCIÓN DE TEMAS")
print("=" * 80)
temas = extraer_temas(texto_ejemplo)
print("\nTemas principales del texto:")
for tema, freq in temas:
    print(f"  • {tema}: {freq} menciones")


1.2 EXTRACCIÓN DE TEMAS

Temas principales del texto:
  • año: 2 menciones
  • buendía: 2 menciones
  • macondo: 2 menciones
  • aldea: 2 menciones
  • continuación: 1 menciones
  • presentar: 1 menciones
  • fragmento: 1 menciones
  • libro: 1 menciones
  • escritor: 1 menciones
  • colombiano: 1 menciones


## 2.3_GENERACIÓN DE RESUMEN

---
1.  **doc = nlp(texto):** Procesa el texto de entrada utilizando el modelo de spaCy cargado previamente (nlp). Esto crea un objeto doc que contiene información estructurada sobre el texto, como oraciones, tokens, lemas, etc.
2.  **oraciones = [sent.text.strip() for sent in doc.sents if len(sent.text.strip()) > 20]:** Divide el doc en oraciones (doc.sents) y crea una lista llamada oraciones. Solo incluye las oraciones que tienen más de 20 caracteres después de eliminar los espacios en blanco al principio y al final (strip()), para evitar oraciones muy cortas o vacías.
3.  **if len(oraciones) <= num_oraciones:** Verifica si el número total de oraciones es menor o igual al número de oraciones que se desean en el resumen (num_oraciones). Si es así, significa que no hay suficientes oraciones para resumir, por lo que simplemente une todas las oraciones y las devuelve.
4.  **vectorizer = TfidfVectorizer(stop_words=list(stopwords.words('spanish'))):** Crea un objeto TfidfVectorizer. Este objeto se utilizará para calcular la importancia de cada palabra en cada oración, teniendo en cuenta las palabras vacías en español.
5.  **tfidf_matrix = vectorizer.fit_transform(oraciones):** Ajusta el TfidfVectorizer a la lista de oraciones y transforma las oraciones en una matriz TF-IDF. Cada fila representa una oración y cada columna representa una palabra. Los valores indican la importancia de cada palabra en cada oración.
6.  **6. puntuaciones = np.array(tfidf_matrix.sum(axis=1)).flatten():** Suma las puntuaciones TF-IDF para cada oración a lo largo del eje de las columnas (axis=1). Esto da una puntuación total para cada oración, indicando su importancia general en el texto. .flatten() convierte el resultado en un array unidimensional.
7. **indices_importantes = puntuaciones.argsort()[-num_oraciones:][::-1]:** Obtiene los índices de las oraciones con las puntuaciones más altas. argsort() devuelve los índices que ordenarían el array de puntuaciones. [-num_oraciones:] selecciona los últimos num_oraciones índices (los de mayor puntuación). [::-1] invierte el orden para tener los índices de mayor a menor puntuación.
8.  **indices_importantes = sorted(indices_importantes):** Ordena los índices de las oraciones importantes de menor a mayor para que el resumen mantenga el orden original de las oraciones en el texto.
9.  **resumen = ' '.join([oraciones[i] for i in indices_importantes]):** Construye el resumen uniendo las oraciones correspondientes a los indices_importantes.


In [None]:
def generar_resumen(texto: str, num_oraciones: int = 3) -> str:
    """
    Genera un resumen extractivo del texto usando TF-IDF.

    Args:
        texto: Texto a resumir
        num_oraciones: Número de oraciones en el resumen

    Returns:
        Resumen del texto
    """
    doc = nlp(texto)
    oraciones = [sent.text.strip() for sent in doc.sents if len(sent.text.strip()) > 20]

    if len(oraciones) <= num_oraciones:
        return ' '.join(oraciones)

    # Calcular importancia usando TF-IDF
    vectorizer = TfidfVectorizer(stop_words=list(stopwords.words('spanish')))
    tfidf_matrix = vectorizer.fit_transform(oraciones)

    # Sumar puntuaciones TF-IDF por oración
    puntuaciones = np.array(tfidf_matrix.sum(axis=1)).flatten()

    # Obtener índices de las oraciones más importantes
    indices_importantes = puntuaciones.argsort()[-num_oraciones:][::-1]
    indices_importantes = sorted(indices_importantes)

    resumen = ' '.join([oraciones[i] for i in indices_importantes])
    return resumen

In [None]:
print("\n" + "=" * 80)
print("1.3 GENERACIÓN DE RESUMEN")
print("=" * 80)
resumen = generar_resumen(texto_ejemplo, num_oraciones=2)
print("\nResumen automático:")
print(f"\n{resumen}")


1.3 GENERACIÓN DE RESUMEN

Resumen automático:

a continuación se presenta un fragmento 
del libro del escritor colombiano Gabriel García Márquez, nacido en Aracataca del departamento del Magdalena en colombia:
Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía 
había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. Macondo era entonces una aldea de veinte casas de barro y cañabrava construidas a la 
orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, 
blancas y enormes como huevos prehistóricos.


# 3_EJERCICIOS CON MÚLTIPLES TEXTOS

In [None]:
# Textos de ejemplo para comparación
texto_1 = """
La inteligencia artificial y el aprendizaje automático están revolucionando
el sector financiero en Colombia. Los bancos utilizan algoritmos avanzados
para detectar fraudes y mejorar la experiencia del cliente. La Superfinanciera
regula estas nuevas tecnologías para garantizar la seguridad.
"""

texto_2 = """
El machine learning y las redes neuronales transforman las finanzas colombianas.
Las entidades bancarias implementan sistemas inteligentes para prevenir
operaciones fraudulentas y optimizar servicios. Los organismos reguladores
supervisan la implementación tecnológica.
"""

texto_3 = """
El café colombiano es reconocido mundialmente por su calidad. Los agricultores
de la región andina cultivan variedades arábicas que se exportan a todo el mundo.
El clima y la altitud son factores clave en el sabor único del café.
"""


## 3.1 ANÁLISIS DE SIMILITUD

---
1.  **TfidfVectorizer(stop_words=list(stopwords.words('spanish')))**: Crea un objeto TfidfVectorizer. Este objeto se encarga de convertir una colección de documentos de texto en una matriz de características TF-IDF (Term Frequency-Inverse Document Frequency). Se le pasa una lista de palabras vacías en español.
2.  **tfidf_matrix = vectorizer.fit_transform(textos):** Ajusta el vectorizador a la lista de textos proporcionada (textos) y transforma los textos en una matriz TF-IDF. Cada fila de la matriz representa un texto y cada columna representa una palabra (o término) del vocabulario. Los valores dentro de la matriz indican la importancia de cada palabra en cada texto.
3.  **similitud = cosine_similarity(tfidf_matrix)**: Calcula la similitud del coseno entre los vectores TF-IDF de los textos. La similitud del coseno mide el ángulo entre dos vectores; un valor cercano a 1 indica alta similitud, mientras que un valor cercano a 0 indica baja similitud. El resultado es una matriz donde cada celda (i, j) contiene la similitud del coseno entre el texto i y el texto j.
4.  **df = pd.DataFrame(...): **Crea un DataFrame de pandas a partir de la matriz de similitud. Esto organiza los resultados en un formato tabular con filas y columnas etiquetadas, lo que facilita su visualización e interpretación.

In [None]:
def calcular_similitud_coseno(textos: List[str]) -> pd.DataFrame:
    """
    Calcula la similitud del coseno entre múltiples textos usando TF-IDF.

    Args:textos: Lista de textos a comparar

    Returns:DataFrame con matriz de similitud
    """
    vectorizer = TfidfVectorizer(stop_words=list(stopwords.words('spanish')))
    tfidf_matrix = vectorizer.fit_transform(textos)
    similitud = cosine_similarity(tfidf_matrix)

    df = pd.DataFrame(
        similitud,
        columns=[f'Texto {i+1}' for i in range(len(textos))],
        index=[f'Texto {i+1}' for i in range(len(textos))]
    )

    return df

Este código se encarga de calcular la similitud semántica entre varios textos utilizando embeddings generados por un modelo de sentence-transformers y la similitud del coseno:
1.  **embeddings = model_embeddings.encode(textos):** Esta línea es el corazón de la función. Utiliza el modelo de sentence-transformers (model_embeddings) que cargamos previamente ('paraphrase-multilingual-MiniLM-L12-v2') para generar un embedding (una representación vectorial numérica) para cada texto en la lista textos. Estos embeddings capturan el significado semántico de cada oración o documento.
2.  **similitud = cosine_similarity(embeddings):** Calcula la similitud del coseno entre los vectores de embeddings generados en el paso anterior. La similitud del coseno mide el ángulo entre los vectores en un espacio multidimensional. Un valor cercano a 1 indica que los vectores apuntan en direcciones muy similares, lo que en el contexto de embeddings semánticos significa que los textos correspondientes son semánticamente muy parecidos. El resultado es una matriz donde cada celda (i, j) contiene la similitud del coseno entre el embedding del texto i y el embedding del texto j.
3. **df = pd.DataFrame(...):** Crea un DataFrame de pandas a partir de la matriz de similitud. Esto organiza los resultados en un formato de tabla con filas y columnas etiquetadas, lo que facilita su visualización y comprensión.

In [None]:
def calcular_similitud_semantica(textos: List[str]) -> pd.DataFrame:
    """
    Calcula similitud semántica usando embeddings de transformers.
    Método más avanzado que captura mejor el significado.

    Args: textos: Lista de textos a comparar

    Returns: DataFrame con matriz de similitud
    """
    embeddings = model_embeddings.encode(textos)
    similitud = cosine_similarity(embeddings)

    df = pd.DataFrame(
        similitud,
        columns=[f'Texto {i+1}' for i in range(len(textos))],
        index=[f'Texto {i+1}' for i in range(len(textos))]
    )

    return df

In [None]:
textos_comparar = [texto_1, texto_2, texto_3]

  *  Valores cercanos a 1.0 = Textos muy similares
  *  Valores cercanos a 0.0 = Textos diferentes

In [None]:
print(" SIMILITUD CON TF-IDF (Método tradicional):")
sim_tfidf = calcular_similitud_coseno(textos_comparar)
print(sim_tfidf.round(3))

 SIMILITUD CON TF-IDF (Método tradicional):
         Texto 1  Texto 2  Texto 3
Texto 1      1.0      0.0      0.0
Texto 2      0.0      1.0      0.0
Texto 3      0.0      0.0      1.0


In [None]:
print("SIMILITUD SEMÁNTICA (Embeddings - Método avanzado):")
sim_semantica = calcular_similitud_semantica(textos_comparar)
print(sim_semantica.round(3))

SIMILITUD SEMÁNTICA (Embeddings - Método avanzado):
         Texto 1  Texto 2  Texto 3
Texto 1     1.00    0.880    0.370
Texto 2     0.88    1.000    0.412
Texto 3     0.37    0.412    1.000


# 4_PROCESAMIENTO EN PARALELO DE DOCUMENTOS (mongoAtlas)

In [None]:
!pip install pymongo



## 4.1_Credenciales de mongo

In [None]:
#----credenciales para conectarme a mongoAtlas
MONGO_URI = "mongodb+srv://DbCentral:DbCentral2025@cluster0.vhltza7.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
MONGO_DB = "superfinanciera"

## 4.2_conectar a mongo

In [None]:
import pymongo
# Conectar a MongoDB Atlas
mongo_client = pymongo.MongoClient(MONGO_URI, serverSelectionTimeoutMS=5000)
mongo_db = mongo_client[MONGO_DB]
#verificación de la conexión
try:
    mongo_client.server_info()
    print("Conexión exitosa a MongoDB Atlas")
except pymongo.errors.ServerSelectionTimeoutError as e:
    print("Error de conexión a MongoDB Atlas:", e)

Conexión exitosa a MongoDB Atlas


In [None]:
#lista de colecciones de mongo
colecciones = mongo_db.list_collection_names()
print(colecciones)

['superfinanciera_json']


In [None]:
colecion_superfin = mongo_db['superfinanciera_json']  #coleccion con documentos
total_docs = colecion_superfin.count_documents({})
print(f"Total de documentos en la colección: {total_docs}")

Total de documentos en la colección: 245


## 4.3_FUNCIONES DE PROCESAMIENTO PARA DOCUMENTOS

In [None]:
class ProcesadorDocumentosSuperfinanciera:
    """
    Clase para procesar documentos de normatividad de Superfinanciera.
    """

    def __init__(self):
        self.nlp = nlp
        self.model_embeddings = model_embeddings
        self.cache_embeddings = {}

    def extraer_temas_documento(self, texto: str, top_n: int = 15) -> List[Tuple[str, float]]:
        """
        3.1.1 Extrae temas de un documento normativo.

        Args:
            texto: Texto del documento
            top_n: Número de temas a extraer

        Returns:
            Lista de tuplas (tema, relevancia)
        """
        return extraer_temas(texto, top_n)

    def generar_resumen_documento(self, texto: str, num_oraciones: int = 5) -> str:
        """
        3.1.2 Genera resumen de documento normativo.

        Args:
            texto: Texto del documento
            num_oraciones: Número de oraciones en el resumen

        Returns:
            Resumen del documento
        """
        return generar_resumen(texto, num_oraciones)

    def extraer_entidades_documento(self, texto: str) -> Dict[str, List[str]]:
        """
        3.2.3 Extrae entidades de documento normativo.
        Enfocado en leyes, organizaciones y fechas relevantes.

        Args:
            texto: Texto del documento

        Returns:
            Diccionario con entidades extraídas
        """
        entidades = extraer_entidades(texto)

        # Búsqueda adicional de referencias normativas
        patron_leyes = r'(Ley|Decreto|Resolución|Circular)\s+\d+\s+(de|del)?\s*\d{4}'
        leyes_adicionales = re.findall(patron_leyes, texto)
        leyes_adicionales = [' '.join(ley).strip() for ley in leyes_adicionales]

        entidades['leyes'].extend(leyes_adicionales)
        entidades['leyes'] = list(dict.fromkeys(entidades['leyes']))

        return entidades

    def calcular_correlacion_documento(self, texto_base: str, otros_textos: List[str],
                                      metodo: str = 'semantico') -> List[float]:
        """
        3.2.4 Calcula correlación de un documento con otros.

        Args:
            texto_base: Documento a comparar
            otros_textos: Lista de documentos para comparar
            metodo: 'tfidf' o 'semantico'

        Returns:
            Lista de puntuaciones de similitud
        """
        textos = [texto_base] + otros_textos

        if metodo == 'semantico':
            similitud_df = calcular_similitud_semantica(textos)
        else:
            similitud_df = calcular_similitud_coseno(textos)

        # Retornar similitud del texto base con los demás
        return similitud_df.iloc[0, 1:].tolist()

    def procesar_documento_completo(self, documento: Dict) -> Dict:
        """
        Procesa un documento completo extrayendo toda la información.

        Args:
            documento: Documento de MongoDB con estructura
                      {archivo, fecha, texto, metodo}

        Returns:
            Diccionario con análisis completo
        """
        try:
          texto = documento.get('texto', '')

          resultado = {
              'archivo': documento.get('archivo'),
              'fecha_insercion': documento.get('fecha'),
              'metodo_extraccion': documento.get('metodo'),
              'longitud_texto': len(texto),
              'temas': self.extraer_temas_documento(texto),
              'resumen': self.generar_resumen_documento(texto),
              'entidades': self.extraer_entidades_documento(texto),
              'timestamp_procesamiento': datetime.now().isoformat(),
              'procesado': True
          }

          return resultado
        except Exception as e:
          return {
              'error': str(e),
              'procesado': False,
              'fecha_procesamiento': datetime.now()
          }

# Instanciar procesador
procesador = ProcesadorDocumentosSuperfinanciera()

## 4.4_PROCESAMIENTO EN PARALELO CON MULTIPROCESSING

In [None]:
from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm

def procesar_documentos_paralelo(collection, limit: int = None,
                                 max_workers: int = 4) -> List[Dict]:
    """
    Procesa documentos de MongoDB en paralelo.

    Args:
        collection: Colección de MongoDB
        limit: Límite de documentos a procesar (None = todos)
        max_workers: Número de workers paralelos

    Returns:
        Lista de documentos procesados
    """
    # Obtener documentos
    query = {}
    documentos = list(collection.find(query).limit(limit) if limit else collection.find(query))

    print(f"\n Procesando {len(documentos)} documentos en paralelo...")

    resultados = []

    # Procesar en paralelo con barra de progreso
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        # Enviar tareas
        futures = {
            executor.submit(procesador.procesar_documento_completo, doc): doc
            for doc in documentos
        }

        # Recolectar resultados con barra de progreso
        for future in tqdm(as_completed(futures), total=len(documentos)):
            try:
                resultado = future.result()
                resultados.append(resultado)
            except Exception as e:
                print(f"ERROR procesando documento: {e}")

    return resultados

## 4.5_Ejecutar análisis

In [None]:
total_documentos=5
resultados = procesar_documentos_paralelo(colecion_superfin, limit=total_documentos, max_workers=4)

# PASO 3: Analizar resultados
print("\n" + "=" * 80)
print("RESULTADOS DEL PROCESAMIENTO")
print("=" * 80)

for i, resultado in enumerate(resultados[:total_documentos], 1):  # Mostrar primeros 3
    print("\n" + "_" * 80)
    print(f"\n DOCUMENTO {i}: {resultado['archivo']}, longitud: {resultado['longitud_texto']} caracteres")
    print(f"\n TEMAS PRINCIPALES:")
    for tema, freq in resultado['temas'][:5]:
        print(f"      • {tema}: {freq}")

    print(f"\n RESUMEN:")
    print(f"   {resultado['resumen'][:100]}... tamaño:{len(resultado['resumen'])}")

    print(f"\n ENTIDADES:")
    for tipo, entidades in resultado['entidades'].items():
        if entidades:
            print(f"      {tipo}: {', '.join(entidades[:3])}")

# PASO 4: Análisis de correlación entre documentos
if len(resultados) >= 3:
    print("\n" + "=" * 80)
    print("ANÁLISIS DE CORRELACIÓN ENTRE DOCUMENTOS")
    print("=" * 80)

    # Obtener textos de los documentos
    textos_docs = []
    for i in range(total_documentos):
        doc = list(colecion_superfin.find().limit(total_documentos))[i]
        textos_docs.append(doc.get('texto', ''))

    # Calcular similitud semántica
    sim_matrix = calcular_similitud_semantica(textos_docs)
    print("\n Matriz de similitud:")
    print(sim_matrix.round(3))




 Procesando 5 documentos en paralelo...


  0%|          | 0/5 [00:00<?, ?it/s]

ERROR procesando documento: [E088] Text of length 2999983 exceeds maximum of 1000000. The parser and NER models require roughly 1GB of temporary memory per 100,000 characters in the input. This means long texts may cause memory allocation errors. If you're not using the parser or NER, it's probably safe to increase the `nlp.max_length` limit. The limit is in number of characters, so you can check whether your inputs are too long by checking `len(text)`.


100%|██████████| 5/5 [00:13<00:00,  2.69s/it]



RESULTADOS DEL PROCESAMIENTO

________________________________________________________________________________

 DOCUMENTO 1: ce002_25.pdf, longitud: 1856 caracteres

 TEMAS PRINCIPALES:
      • febrero: 4
      • colombia: 4
      • pago: 4
      • circular: 3
      • externa: 3

 RESUMEN:
   legales  de 

las  Entidades  vigiladas  por 

la 

Referencia: 

Ampliación  del  plazo  para  el  ... tamaño:1448

 ENTIDADES:
      personas: Entidades, PSE-
Pagos, CESAR FERRARI Ph
      lugares: Cordialmente, Dirección, Bogotá D.C.
      organizaciones: Representantes 
Superintendencia Financiera de Colombia, Referencia, Superintendencia
      otros: Señores (MISC), Apreciados señores (MISC), Calle 7 No (MISC)

________________________________________________________________________________

 DOCUMENTO 2: ce013_24.pdf, longitud: 2715 caracteres

 TEMAS PRINCIPALES:
      • circular: 9
      • vehículo: 9
      • soat: 7
      • zona: 7
      • fronterizo: 7

 RESUMEN:
   Señores 
REPRESENTA

In [None]:
# Cerrar conexión
mongo_client.close()

In [None]:
def guardar_resultados_csv(resultados: List[Dict], filename: str = 'resultados_pln.csv'):
    """
    Guarda resultados del procesamiento en CSV.
    """
    df_resultados = pd.DataFrame(resultados)
    df_resultados.to_csv(filename, index=False)
    print(f"✅ Resultados guardados en {filename}")

def visualizar_entidades(texto: str):
    """
    Visualiza entidades en el texto (requiere displacy de spaCy).
    """
    from spacy import displacy
    doc = nlp(texto)
    displacy.render(doc, style='ent', jupyter=True)