# PLN (PROCESAMIENTO DE LENGUAJE NATURAL) "ESPAÑOL" - UTF-8

# 0_INSTALACIÓN

In [None]:
!pip install -q spacy                     # Para procesamiento de lenguaje natural avanzado, como tokenización, lematización y reconocimiento de entidades.
!pip install -q transformers              # Para trabajar con modelos de lenguaje de última generación como BERT, GPT, LLAMA etc.
!pip install -q sentence-transformers
!pip install -q nltk                      # tareas básicas de PLN, con una amplia gama de módulos.
!pip install -q pymongo
!pip install -q pandas numpy scikit-learn # manipulación de datos, cálculo numérico y machine learning.
!python -m spacy download es_core_news_lg # Modelo de PLN en español para spacy

# 1_INSTANCIAR LAS LIBRERIAS QUE NECESITAREMOS

In [None]:
import spacy
import nltk                                                   # Importa la biblioteca NLTK (Natural Language Toolkit) para tareas de PLN.
from nltk.corpus import stopwords                             # Importa la lista de palabras vacías (stopwords) de NLTK.
from collections import Counter                               # Importa Counter para contar la frecuencia de elementos.
import numpy as np                                            # Importa NumPy para operaciones numéricas y con arrays.
from sklearn.metrics.pairwise import cosine_similarity        # Importa cosine_similarity para calcular la similitud del coseno entre vectores.
from sklearn.feature_extraction.text import TfidfVectorizer   # Importa TfidfVectorizer para convertir texto en vectores TF-IDF.
from sentence_transformers import SentenceTransformer         # Importa SentenceTransformer para obtener embeddings de oraciones
from transformers import pipeline                             # Importa pipeline de Hugging Face Transformers para tareas de PLN preconfiguradas.
import pandas as pd                                           # Importa pandas para manipulación y análisis de datos en DataFrames.
from datetime import datetime                                 # Importa datetime para trabajar con fechas y horas.
import re                                                     # Importa el módulo re para trabajar con expresiones regulares.
from typing import List, Dict, Tuple                          # Importa tipos de datos para anotaciones de tipo.
import warnings                                               # Importa warnings para gestionar advertencias.
warnings.filterwarnings('ignore')                             # Ignora las advertencias.

## 1.1_Descargar recursos para trabajar con NLTK

In [None]:
nltk.download('stopwords', quiet=True)
nltk.download('punkt', quiet=True)

True

## 1.2_cargar modelo de spacy para español (UTF-8)

In [None]:
nlp = spacy.load('es_core_news_lg')

## 1.3_Modelo de Embedding sémanticos

In [None]:
model_embeddings = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

# 2_EJERCICIOS BÁSICOS DE PLN

In [None]:
texto_ejemplo= """A continuación se presenta un fragmento de libro "Cien años de soledad" del autor Gabriel Garcia Marquez nacido en Aracataca en el departamento del magdalena - Colombia:
Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía
había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo.
Macondo era entonces una aldea de veinte casas de barro y cañabrava construidas a la
orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas,
blancas y enormes como huevos prehistóricos. El mundo era tan reciente, que muchas cosas
carecían de nombre, y para mencionarlas había que señalarlas con el dedo. Todos los años,
por el mes de marzo, una familia de gitanos desarrapados plantaba su carpa cerca de la
aldea, y con un grande alboroto de pitos y timbales daban a conocer los nuevos inventos.
José Arcadio Buendía fundó Macondo en 1820 junto a su esposa Úrsula Iguarán.
"""

## 2.1_Extracción de entidades (personas/lugares/Fechas/Normatividades)

In [None]:
def extraer_entidades(texto: str) -> Dict[str, List[str]]:
    """
    Extrae entidades nombradas del texto usando spaCy.
    Args: texto: Texto a analizar
    Returns: Diccionario con entidades clasificadas por tipo
    """
    doc = nlp(texto)

    entidades = {
        'personas': [],
        'lugares': [],
        'organizaciones': [],
        'fechas': [],
        'leyes': [],
        'otros': []
    }

    for ent in doc.ents:
        if ent.label_ == 'PER':
            entidades['personas'].append(ent.text)
        elif ent.label_ == 'LOC':
            entidades['lugares'].append(ent.text)
        elif ent.label_ == 'ORG':
            entidades['organizaciones'].append(ent.text)
        elif ent.label_ == 'DATE':
            entidades['fechas'].append(ent.text)
        elif ent.label_ == 'LAW' or 'ley' in ent.text.lower():
            entidades['leyes'].append(ent.text)
        else:
            entidades['otros'].append(f"{ent.text} ({ent.label_})")

    # Eliminar duplicados manteniendo orden
    for key in entidades:
        entidades[key] = list(dict.fromkeys(entidades[key]))

    return entidades

In [None]:
entidades = extraer_entidades(texto_ejemplo)
print(entidades)
for tipo, items in entidades.items():
    if items:
        print(f"{tipo.capitalize()}:")
        for item in items:
            print(f"- {item}")

{'personas': ['Gabriel Garcia Marquez', 'Aureliano Buendía', 'José Arcadio Buendía', 'Úrsula Iguarán'], 'lugares': ['Aracataca', 'departamento del magdalena', 'Colombia', 'Macondo'], 'organizaciones': [], 'fechas': [], 'leyes': [], 'otros': ['Cien años de soledad (MISC)', 'El mundo era tan reciente (MISC)', 'Todos los años (MISC)']}
Personas:
- Gabriel Garcia Marquez
- Aureliano Buendía
- José Arcadio Buendía
- Úrsula Iguarán
Lugares:
- Aracataca
- departamento del magdalena
- Colombia
- Macondo
Otros:
- Cien años de soledad (MISC)
- El mundo era tan reciente (MISC)
- Todos los años (MISC)


## 2.2_Extracción de temas (topic modeling)

In [None]:
def extraer_temas(texto: str, top_n: int = 10) -> List[Tuple[str, float]]:
    """ Extrae los temas/palabras clave más importantes del texto.
    Args:
        texto: Texto a analizar
        top_n: Número de temas a extraer
    Returns:
        Lista de tuplas (palabra, relevancia)
    """
    doc = nlp(texto)

    # Filtrar stopwords y tokens no relevantes
    stop_words = set(stopwords.words('spanish'))
    palabras_relevantes = []

    for token in doc:
        if (not token.is_stop and
            not token.is_punct and
            not token.is_space and
            len(token.text) > 3 and
            token.pos_ in ['NOUN', 'PROPN', 'ADJ', 'VERB']):
            palabras_relevantes.append(token.lemma_.lower())

    # Contar frecuencias
    contador = Counter(palabras_relevantes)
    temas = contador.most_common(top_n)

    return temas

In [None]:
temas = extraer_temas(texto_ejemplo)
print(temas)
for tema, freq in temas:
  print(f"{tema}: {freq} menciones")

[('año', 3), ('buendía', 2), ('macondo', 2), ('aldea', 2), ('continuación', 1), ('presentar', 1), ('fragmento', 1), ('libro', 1), ('soledad', 1), ('autor', 1)]
año: 3 menciones
buendía: 2 menciones
macondo: 2 menciones
aldea: 2 menciones
continuación: 1 menciones
presentar: 1 menciones
fragmento: 1 menciones
libro: 1 menciones
soledad: 1 menciones
autor: 1 menciones


## 2.3_Generación de resumen

In [None]:
def generar_resumen(texto: str, num_oraciones: int = 3) -> str:
    """
    Genera un resumen extractivo del texto usando TF-IDF.

    Args:
        texto: Texto a resumir
        num_oraciones: Número de oraciones en el resumen

    Returns:
        Resumen del texto
    """
    doc = nlp(texto)
    oraciones = [sent.text.strip() for sent in doc.sents if len(sent.text.strip()) > 20]

    if len(oraciones) <= num_oraciones:
        return ' '.join(oraciones)

    # Calcular importancia usando TF-IDF
    vectorizer = TfidfVectorizer(stop_words=list(stopwords.words('spanish')))
    tfidf_matrix = vectorizer.fit_transform(oraciones)

    # Sumar puntuaciones TF-IDF por oración
    puntuaciones = np.array(tfidf_matrix.sum(axis=1)).flatten()

    # Obtener índices de las oraciones más importantes
    indices_importantes = puntuaciones.argsort()[-num_oraciones:][::-1]
    indices_importantes = sorted(indices_importantes)

    resumen = ' '.join([oraciones[i] for i in indices_importantes])
    return resumen

In [None]:
resumen = generar_resumen(texto_ejemplo,2)
print(resumen)

A continuación se presenta un fragmento de libro "Cien años de soledad" del autor Gabriel Garcia Marquez nacido en Aracataca en el departamento del magdalena - Colombia:
Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía 
había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. Macondo era entonces una aldea de veinte casas de barro y cañabrava construidas a la 
orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, 
blancas y enormes como huevos prehistóricos.


# 3_EJERCICIOS CON MÚLTIPLES TEXTOS

In [None]:
texto_1="""
La inteligencia artificial y el aprendizaje automático están revolucionando
el sector financiero en Colombia. Los bancos utilizan algoritmos avanzados
para detectar fraudes y mejorar la experiencia del cliente. La Superfinanciera
regula estas nuevas tecnologías para garantizar la seguridad.
"""
texto_2="""
El machine learning y las redes neuronales transforman las finanzas colombianas.
Las entidades bancarias implementan sistemas inteligentes para prevenir
operaciones fraudulentas y optimizar servicios. Los organismos reguladores
supervisan la implementación tecnológica.
"""
texto_3="""
El café colombiano es reconocido mundialmente por su calidad. Los agricultores
de la región andina cultivan variedades arábicas que se exportan a todo el mundo.
El clima y la altitud son factores clave en el sabor único del café.
"""

## 3.1_funciones

In [None]:
def calcular_similitud_coseno(textos: List[str]) -> pd.DataFrame:
    """
    Calcula la similitud del coseno entre múltiples textos usando TF-IDF.

    Args:textos: Lista de textos a comparar

    Returns:DataFrame con matriz de similitud
    """
    vectorizer = TfidfVectorizer(stop_words=list(stopwords.words('spanish')))
    tfidf_matrix = vectorizer.fit_transform(textos)
    similitud = cosine_similarity(tfidf_matrix)

    df = pd.DataFrame(
        similitud,
        columns=[f'Texto {i+1}' for i in range(len(textos))],
        index=[f'Texto {i+1}' for i in range(len(textos))]
    )

    return df

In [None]:
def calcular_similitud_semantica(textos: List[str]) -> pd.DataFrame:
    """
    Calcula similitud semántica usando embeddings de transformers.
    Método más avanzado que captura mejor el significado.

    Args: textos: Lista de textos a comparar

    Returns: DataFrame con matriz de similitud
    """
    embeddings = model_embeddings.encode(textos)
    similitud = cosine_similarity(embeddings)

    df = pd.DataFrame(
        similitud,
        columns=[f'Texto {i+1}' for i in range(len(textos))],
        index=[f'Texto {i+1}' for i in range(len(textos))]
    )

    return df

In [None]:
textos_a_comparar =[texto_1,texto_2,texto_3]

## 3.2_comparando funciones de correlación
*  valor comparado es cercado a 1 = similares
*  valor comparado es cercado a 0 = diferentes

In [None]:
similitud_coseno = calcular_similitud_coseno(textos_a_comparar)
print(similitud_coseno.round(3))

         Texto 1  Texto 2  Texto 3
Texto 1      1.0      0.0      0.0
Texto 2      0.0      1.0      0.0
Texto 3      0.0      0.0      1.0


In [None]:
simulitud_semantica= calcular_similitud_semantica(textos_a_comparar)
print(simulitud_semantica.round(3))


         Texto 1  Texto 2  Texto 3
Texto 1     1.00    0.880    0.370
Texto 2     0.88    1.000    0.412
Texto 3     0.37    0.412    1.000


# 4_Trabajando con MongoAtlas (procesamiento en paralelo)

In [None]:
#----credenciales para conectarme a mongoAtlas
MONGO_URI = "mongodb+srv://DbCentral:DbCentral2025@cluster0.vhltza7.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
MONGO_DB = "superfinanciera"

## 4.1_Conectar a MongoDb

In [None]:
import pymongo
# Conectar a MongoDB Atlas
mongo_client = pymongo.MongoClient(MONGO_URI, serverSelectionTimeoutMS=5000)
mongo_db = mongo_client[MONGO_DB]
#verificación de la conexión
try:
    mongo_client.server_info()
    print("Conexión exitosa a MongoDB Atlas")
except pymongo.errors.ServerSelectionTimeoutError as e:
    print("Error de conexión a MongoDB Atlas:", e)

Conexión exitosa a MongoDB Atlas


In [None]:
#lista de colecciones de mongo
colecciones = mongo_db.list_collection_names()
print(colecciones)

['superfinanciera_json']


In [None]:
colecion_superfin = mongo_db['superfinanciera_json']
total_documentos = colecion_superfin.count_documents({})
print(f"Total de documentos en la colección: {total_documentos}")

Total de documentos en la colección: 245


## 4.2 CLASE para instanciar funciones de procesamiento en paralelo

In [None]:
class ProcessadorDocumentosSuperFinanciera:
  def __init__(self):
        self.nlp = nlp
        self.model_embeddings = model_embeddings
        self.cache_embeddings = {}

  def extraer_entidades(self,texto: str) -> Dict[str, List[str]]:
    """
    Extrae entidades nombradas del texto usando spaCy.
    Args: texto: Texto a analizar
    Returns: Diccionario con entidades clasificadas por tipo
    """
    doc = nlp(texto)

    entidades = {
        'personas': [],
        'lugares': [],
        'organizaciones': [],
        'fechas': [],
        'leyes': [],
        'otros': []
    }

    for ent in doc.ents:
        if ent.label_ == 'PER':
            entidades['personas'].append(ent.text)
        elif ent.label_ == 'LOC':
            entidades['lugares'].append(ent.text)
        elif ent.label_ == 'ORG':
            entidades['organizaciones'].append(ent.text)
        elif ent.label_ == 'DATE':
            entidades['fechas'].append(ent.text)
        elif ent.label_ == 'LAW' or 'ley' in ent.text.lower():
            entidades['leyes'].append(ent.text)
        else:
            entidades['otros'].append(f"{ent.text} ({ent.label_})")

    # Eliminar duplicados manteniendo orden
    for key in entidades:
        entidades[key] = list(dict.fromkeys(entidades[key]))

    return entidades

  def extraer_temas(self,texto: str, top_n: int = 10) -> List[Tuple[str, float]]:
    """ Extrae los temas/palabras clave más importantes del texto.
    Args:
        texto: Texto a analizar
        top_n: Número de temas a extraer
    Returns:
        Lista de tuplas (palabra, relevancia)
    """
    doc = nlp(texto)

    # Filtrar stopwords y tokens no relevantes
    stop_words = set(stopwords.words('spanish'))
    palabras_relevantes = []

    for token in doc:
        if (not token.is_stop and
            not token.is_punct and
            not token.is_space and
            len(token.text) > 3 and
            token.pos_ in ['NOUN', 'PROPN', 'ADJ', 'VERB']):
            palabras_relevantes.append(token.lemma_.lower())

    # Contar frecuencias
    contador = Counter(palabras_relevantes)
    temas = contador.most_common(top_n)

    return temas
  def generar_resumen(self,texto: str, num_oraciones: int = 3) -> str:
    """
    Genera un resumen extractivo del texto usando TF-IDF.

    Args:
        texto: Texto a resumir
        num_oraciones: Número de oraciones en el resumen

    Returns:
        Resumen del texto
    """
    doc = nlp(texto)
    oraciones = [sent.text.strip() for sent in doc.sents if len(sent.text.strip()) > 20]

    if len(oraciones) <= num_oraciones:
        return ' '.join(oraciones)

    # Calcular importancia usando TF-IDF
    vectorizer = TfidfVectorizer(stop_words=list(stopwords.words('spanish')))
    tfidf_matrix = vectorizer.fit_transform(oraciones)

    # Sumar puntuaciones TF-IDF por oración
    puntuaciones = np.array(tfidf_matrix.sum(axis=1)).flatten()

    # Obtener índices de las oraciones más importantes
    indices_importantes = puntuaciones.argsort()[-num_oraciones:][::-1]
    indices_importantes = sorted(indices_importantes)

    resumen = ' '.join([oraciones[i] for i in indices_importantes])
    return resumen

  def calcular_similitud_semantica(self,textos: List[str]) -> pd.DataFrame:
    """
    Calcula similitud semántica usando embeddings de transformers.
    Método más avanzado que captura mejor el significado.

    Args: textos: Lista de textos a comparar

    Returns: DataFrame con matriz de similitud
    """
    embeddings = model_embeddings.encode(textos)
    similitud = cosine_similarity(embeddings)

    df = pd.DataFrame(
        similitud,
        columns=[f'Texto {i+1}' for i in range(len(textos))],
        index=[f'Texto {i+1}' for i in range(len(textos))]
    )

    return df
  def procesar_documento_completo(self, documento:Dict)->Dict:
    try:
      texto= documento.get('texto','')
      if (len(texto)>=1000000):
        texto=texto[:1000000]
      resultado={
          'archivo':documento.get('archivo',''),
          'texto':texto,
          'fecha':documento.get('fecha',''),
          'fecha_procesamiento':datetime.now(),
          'entidades':self.extraer_entidades(texto),
          'temas':self.extraer_temas(texto),
          'resumen':self.generar_resumen(texto),
          'procesado':True
      }
      return resultado
    except Exception as e:
      return {
          'error':str(e),
          'procesado':False
      }


## 4.3_analizar unico documento de mongo

In [None]:
documento = colecion_superfin.find_one()
print(documento)
processador= ProcessadorDocumentosSuperFinanciera()
documento_analizado = processador.procesar_documento_completo(documento)
print(documento_analizado)

{'_id': ObjectId('68f470255bc7a51dbeced2d0'), 'archivo': 'ance006_25.pdf', 'fecha': '2025-10-19 04:46:05', 'texto': 'Parte I \nInstrucciones  generales  aplicables  a las \nentidades vigiladas \n\nTítulo I \nAspectos  generales \n\nCapítulo I \nOrganización \n\n1. Constitución de entidades vigiladas \n\n1.1. Capitales mínimos \n\nAl momento de su constitución y durante su funcionamiento, y dependiendo de \nsu naturaleza jurídica particular, son aplicables a las entidades vigiladas los ca-\npitales mínimos establecidos en el artículo 80 del Estatuto Orgánico del Sistema \nFinanciero (EOSF), los definidos en otras disposiciones legales tales como la Ley \n100 de 1993, la Ley 510 de 1999, la Ley 1735 de 2014, la Ley 964 de 2005 y la \nLey 454 de 1998, entre otras que regulen, adicionen, sustituyan o modifiquen la \nmateria, así como los establecidos por  el Gobierno Nacional de acuerdo con la \nnormatividad aplicable. Los valores establecidos en virtud de cualquiera de las \ndisposiciones

## 4.4_Procesamiento en paralelo

In [None]:
from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm
def procesar_documentos_paralelo(collection, limit: int = None,
                                 max_workers: int = 4) -> List[Dict]:
  # Obtener documentos
  query = {}
  documentos = list(collection.find(query).limit(limit) if limit else collection.find(query))
  print(f"\n Procesando {len(documentos)} documentos en paralelo...")

  resultados = []
  # Procesar en paralelo con barra de progreso
  with ThreadPoolExecutor(max_workers=max_workers) as executor:
    # Enviar tareas
    procesador= ProcessadorDocumentosSuperFinanciera()
    futures = {
        executor.submit(procesador.procesar_documento_completo, doc): doc
        for doc in documentos
    }
    # Recolectar resultados con barra de progreso
    for future in tqdm(as_completed(futures), total=len(documentos)):
        try:
            resultado = future.result()
            resultados.append(resultado)
        except Exception as e:
            print(f"ERROR procesando documento: {e}")

  return resultados

### 4.4.1 Ejecutar el análisis

In [None]:
total_documentos= 5
resultados = procesar_documentos_paralelo(colecion_superfin, limit=total_documentos, max_workers=4)
for i, resultado in enumerate(resultados[:total_documentos],1):
    print("_" * 80)
    print(f"Resultado {i+1}:")
    print("TEMAS PRINCIPALES:")
    for tema,freq in resultado['temas'][:5]:
      print(f"{tema}: {freq} menciones")
    print("_" * 80)
    print(f"Resumen: {resultado['resumen'][:100]}...tamaño {len(resultado['resumen'])} de total {len(resultado['texto'])}")
    print("_" * 80)
    print("ENTIDADES:")
    for tipo, entidades in resultado['entidades'].items():
        if entidades:
            print(f"{tipo.capitalize()}:")
            for item in items:
                print(f"- {item}")
    print("_" * 80)
#----analsis de correlación entre los documentos
textos_docs=[]
for resultado in resultados:
  textos_docs.append(resultado['texto'])
similitud_semantica = calcular_similitud_semantica(textos_docs)
print("SIMILITUD SEMANTICA")
print(similitud_semantica.round(3))



 Procesando 5 documentos en paralelo...


100%|██████████| 5/5 [02:04<00:00, 24.87s/it]


[1;30;43mSe truncaron las últimas líneas 5000 del resultado de transmisión.[0m
midor financiero. 

6.2.42. Bloquear los saldos de las cuentas con anterioridad a la fecha en la que 
se efectúa el débito automático de una obligación, a fin de garantizar el pago de 
esta. 

6.2.43. No entregar  los pagarés  con sello de cancelado cuando  el consumidor 
financiero cancela totalmente la obligación garantizada por los mismos. 

6.2.44. Negarse a darle al consumidor financiero en su  calidad de  titular de la 
cuenta el número de identificación de sus productos o créditos, cuanto este pre-
tenda realizar consignaciones o pagos por  ventanilla relacionados con los mis-
mos. 

6.2.45. No informar al consumidor financiero las razones objetivas por las cuales 
se le niega la aprobación de un crédito. 

6.2.46. Bloquear  la adquisición  de nuevos productos por  el incumplimiento en 
las obligaciones derivadas de productos previamente adquiridos sin haberle in-
formado previamente al consumidor f