In [36]:
import re
import fitz 
import spacy
from spacy.matcher import Matcher
from transformers import LayoutLMForTokenClassification, LayoutLMTokenizer
import torch
import os

In [37]:
pdf_path =  r"C:\Users\Jorge\OneDrive\Documents\proyect\document\gaceta_2237.pdf"

try:
    doc = fitz.open(pdf_path)  # Abrir el PDF
    for page_num in range(len(doc)):  # Iterar sobre páginas
        text = doc[page_num].get_text("text")
        print(f"Página {page_num + 1}:\n{text}\n{'-'*80}")
except Exception as e:
    print("Error al procesar el PDF:", e)

Página 1:
P O N E N C I A S
INFORME DE PONENCIA PARA PRIMER DEBATE DEL PROYECTO DE LEY 
ORGÁNICA NÚMERO 041 DE 2024 CÁMARA
por medio del cual se fortalecen las Juntas Administradoras Locales en Colombia y se dictan otras 
disposiciones.
ACUMULADO CON EL PROYECTO DE LEY ORGÁNICA NÚMERO 264 DE 2024 
CÁMARA
por medio del cual se establecen medidas para el fortalecimiento de las Juntas Administradoras Locales en 
el país y se dictan otras disposiciones.
Bogotá D.C., diciembre de 2024. 
INFORME DE PONENCIA PARA PRIMER DEBATE DEL PROYECTO DE LEY 
ORGÁNICA NO. 041 DE 2024 CÁMARA “POR MEDIO DEL CUAL SE 
FORTALECEN LAS JUNTAS ADMINISTRADORAS LOCALES EN COLOMBIA 
Y SE DICTAN OTRAS DISPOSICIONES” ACUMULADO CON EL PROYECTO 
DE LEY ORGÁNICA No. 264 DE 2024 CÁMARA “POR MEDIO DEL CUAL SE 
ESTABLECEN MEDIDAS PARA EL FORTALECIMIENTO DE LAS JUNTAS 
ADMINISTRADORAS LOCALES EN EL PAÍS Y SE DICTAN OTRAS 
DISPOSICIONES” 
 
DOCTORA: 
ANA PAOLA GARCÍA SOTO  
PRESIDENTE. 
COMISIÓN PRIMERA CONSTITUCIONAL. 
CÁMA

In [38]:
labels = [
    "O",  # "O" significa "Outside" (fuera de cualquier entidad)
    "ISSN",
    "FECHA",
    "ENTIDAD",
    "AÑO_ROMANO",
    "NUMERO_PUBLICACION",
    "DIRECTOR_SENADO_NOMBRE",  
    "DIRECTOR_SENADO_CARGO",   
    "DIRECTOR_CAMARA_NOMBRE", 
    "DIRECTOR_CAMARA_CARGO",
    "TIPO_DOCUMENTO",
    "SUBTITULO",
    "SUBSUBTITULO"
]

# Crear un diccionario para mapear etiquetas a índices
label2id = {label: idx for idx, label in enumerate(labels)}
id2label = {idx: label for idx, label in enumerate(labels)}


In [39]:
try:
    nlp = spacy.load("es_core_news_sm")
except OSError:
    from spacy.cli import download
    download("es_core_news_sm")
    nlp = spacy.load("es_core_news_sm")

In [40]:
# Cargar el tokenizador y el modelo
tokenizer = LayoutLMTokenizer.from_pretrained('microsoft/layoutlm-base-uncased')
model = LayoutLMForTokenClassification.from_pretrained('microsoft/layoutlm-base-uncased', num_labels=len(labels))

Some weights of LayoutLMForTokenClassification were not initialized from the model checkpoint at microsoft/layoutlm-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## Procesar el Texto con LayoutLM

### Integration with spacy

In [41]:
def postprocess_with_spacy(text, predicted_labels):
    """
    Post-procesa el texto y las etiquetas predichas usando spaCy.
    """
    doc = nlp(text)
    entities = []
    for token, label in zip(doc, predicted_labels):
        if label != "O":  # Ignorar tokens que no pertenecen a ninguna entidad
            entities.append((token.text, label))
    return entities

### PROCESS THE PDF AND TEXT

In [42]:

def leer_pdf(ruta_pdf):
    """Lee un archivo PDF y devuelve su contenido en texto."""
    documento = fitz.open(ruta_pdf)
    texto = ""
    for pagina in documento:
        texto += pagina.get_text()
    return texto

def preprocesar_texto(texto):
    """Limpia el texto eliminando espacios extra y saltos de línea."""
    if not texto:
        return ""
    texto_limpio = re.sub(r"\s+", " ", texto).strip()
    texto_limpio = texto_limpio.replace('\n', ' ')
    return texto_limpio



In [43]:
def extract_with_layoutlm(text):
    """
    Extrae información estructurada del texto usando LayoutLM.
    """
    inputs = tokenizer(text, return_tensors="pt", add_special_tokens=True)
    outputs = model(**inputs)
    predictions = torch.argmax(outputs.logits, dim=2)
    predicted_labels = [id2label[idx] for idx in predictions[0].tolist()]
    return predicted_labels

## LABEL SUBTITLE

In [44]:
def extraer_subtitulo(texto):
    """
    Extrae el subtítulo del documento (texto en negrita).
    """
    patron_subtitulo = r"\*\*(.*?)\*\*"  # Busca texto entre ** **
    coincidencia = re.search(patron_subtitulo, texto)
    if coincidencia:
        return coincidencia.group(1).strip()
    return None

## LABEL SUBSUBTITLE

In [45]:
def extraer_subsubtitulo(texto):
    """
    Extrae el subsubtítulo del documento (texto en cursiva o entre comillas).
    """
    patron_subsubtitulo = r"_(.*?)_|\"(.*?)\""  # Busca texto entre _ _ o " "
    coincidencia = re.search(patron_subsubtitulo, texto)
    if coincidencia:
        # Devuelve el primer grupo no nulo (cursiva o comillas)
        return next(group for group in coincidencia.groups() if group).strip()
    return None

## TYPE DOCUMENT


In [46]:
def separar_documento(text):
    """
    Separa el texto en secciones basadas en patrones de tipos de documentos.
    """
    pattern_tipo_documento = r"(?i)(PONENCIA|ACTA|PROYECTO DE LEY|INFORME|RESOLUCIÓN|CONCEPTO|PROPOSICIÓN|CONSTANCIA|OBJECIONES|CONCEPTOS JURÍDICOS|LEYES SANCIONADAS|PRESENTACIÓN)(.*)"
    documentos = re.findall(pattern_tipo_documento, text)
    documentos = [{"tipo": doc[0].strip(), "texto": doc[1].strip()} for doc in documentos if doc[1].strip()]
    return documentos   

In [47]:
def extraer_info_seccion(seccion):
    """
    Extrae el título, subtítulo y subsubtítulo de una sección de texto.
    """
    info = {
        "tipo": seccion["tipo"],
        "subtitulo": extraer_subtitulo(seccion["texto"]),
        "subsubtitulo": extraer_subsubtitulo(seccion["texto"])
    }
    return info

## LEER DIRECTORES

In [48]:

def extraer_directores(texto):
    """Extrae los nombres de los directores y sus cargos desde el texto del PDF."""
    patron_directores = re.compile(
        r"DIRECTORES?:\s*\n*(?P<nombre_senado>[A-ZÁÉÍÓÚÑ\s]+)\s*SECRETARIO GENERAL DEL SENADO.*?"
        r"(?P<nombre_camara>[A-ZÁÉÍÓÚÑ\s]+)\s*SECRETARIO GENERAL DE LA CÁMARA", 
        re.DOTALL
    )

    match = patron_directores.search(texto)
    if match:
        director_senado = {
            "nombre": match.group("nombre_senado").strip(),
            "cargo": "Secretario General del Senado"
        }
        director_camara = {
            "nombre": match.group("nombre_camara").strip(),
            "cargo": "Secretario General de la Cámara"
        }
        
        directores = [director_senado, director_camara]

        return {
            "directores": directores,
            "senado": [director_senado],
            "camara": [director_camara]
        }
    else:
        print("❌ No se encontraron directores en el documento.")
        return None


## FUNCTION PRINCIPALLY

In [49]:
def extraer_info(info_pdf):
    metameta = {}
    
    try:
        # Leer el PDF
        texto_completo = leer_pdf(info_pdf)
        if not texto_completo:
            print(f"❌ Error: El archivo PDF '{info_pdf}' está vacío o no se pudo leer.")
            return None
        print(f"✅ PDF leído correctamente: {len(texto_completo)} caracteres extraídos.")

        # Preprocesar el texto
        texto_completo = preprocesar_texto(texto_completo)
        if not texto_completo:
            print(f"❌ Error: El texto preprocesado del PDF '{info_pdf}' está vacío.")
            return None
        print(f"✅ Texto preprocesado correctamente: {len(texto_completo)} caracteres después de limpieza.")

        # --- Dividir el texto en fragmentos de 512 tokens ---
        max_tokens = 512  # Límite de LayoutLM
        texto_dividido = [texto_completo[i : i + max_tokens] for i in range(0, len(texto_completo), max_tokens)]
        print(f"🔹 Se dividirá el texto en {len(texto_dividido)} fragmentos para LayoutLM.")

        predicted_labels = []
        for i, fragmento in enumerate(texto_dividido):
            try:
                fragment_labels = extract_with_layoutlm(fragmento)
                if fragment_labels:
                    predicted_labels.extend(fragment_labels)
                print(f"✅ Fragmento {i+1}/{len(texto_dividido)} procesado correctamente.")
            except Exception as e:
                print(f"❌ Error en la extracción con LayoutLM en el fragmento {i+1}: {e}")

        if not predicted_labels:
            print(f"❌ Error: No se pudieron predecir etiquetas para el PDF '{info_pdf}'.")
            return None

        # --- Post-procesamiento con spaCy ---
        entities = postprocess_with_spacy(texto_completo, predicted_labels)
        if not entities:
            print(f"❌ Error: No se pudieron extraer entidades del PDF '{info_pdf}'.")
            return None
        
        print(f"✅ Se extrajeron {len(entities)} entidades con spaCy.")

        # Procesar las entidades (igual que antes)
        directores = {"senado": {}, "camara": {}}
        for entity_text, entity_label in entities:
            if entity_label == "ISSN":
                metameta["issn"] = entity_text.replace(" ", "")
            elif entity_label == "FECHA":
                metameta["fecha"] = entity_text
            elif entity_label == "ENTIDAD":
                metameta["entidades"] = [entity_text]
            # elif entity_label == "DIRECTOR_SENADO_NOMBRE":
            #     directores["senado"]["nombre"] = entity_text
            # elif entity_label == "DIRECTOR_SENADO_CARGO":
            #     directores["senado"]["cargo"] = entity_text
            # elif entity_label == "DIRECTOR_CAMARA_NOMBRE":
            #     directores["camara"]["nombre"] = entity_text
            # elif entity_label == "DIRECTOR_CAMARA_CARGO":
            #     directores["camara"]["cargo"] = entity_text

        metameta["directores"] = directores

        # --- Separar el texto en secciones ---
        secciones = separar_documento(texto_completo)
        if not secciones:
            print(f"❌ Error: No se pudieron separar las secciones del PDF '{info_pdf}'.")
            return None

        print(f"✅ Documento separado en {len(secciones)} secciones.")

        # --- Procesar cada sección ---
        documentos = []
        for i, seccion in enumerate(secciones):
            info_seccion = extraer_info_seccion(seccion)
            documentos.append(info_seccion)
            print(f"✅ Se procesó la sección {i + 1} correctamente.")

        metameta["documentos"] = documentos

    except Exception as e:
        print(f"❌ Error inesperado al procesar el PDF '{info_pdf}': {e}")
        return None
            
    print(f"✅ Extracción completada correctamente.")
    return metameta


In [50]:

ruta_gaceta = r"C:\Users\Jorge\OneDrive\Documents\proyect\document\20160328_XXV_110_64_removed.pdf"

# Verificar si el archivo existe
if not os.path.exists(ruta_gaceta):
    print(f"Error: El archivo no existe en la ruta: {ruta_gaceta}")
else:
    print("El archivo existe. Procediendo a leer el PDF...")
    
    # Extraer información directamente desde la ruta correcta
    datos_extraidos = extraer_info(ruta_gaceta)

    if datos_extraidos:
        print(datos_extraidos)
    else:
        print("No se pudo extraer información del PDF.")
        

# Extraer información de directores
resultado = extraer_directores(ruta_gaceta)
print(resultado)

El archivo existe. Procediendo a leer el PDF...
✅ PDF leído correctamente: 4762 caracteres extraídos.
✅ Texto preprocesado correctamente: 4469 caracteres después de limpieza.
🔹 Se dividirá el texto en 9 fragmentos para LayoutLM.
✅ Fragmento 1/9 procesado correctamente.
✅ Fragmento 2/9 procesado correctamente.
✅ Fragmento 3/9 procesado correctamente.
✅ Fragmento 4/9 procesado correctamente.
✅ Fragmento 5/9 procesado correctamente.
✅ Fragmento 6/9 procesado correctamente.
✅ Fragmento 7/9 procesado correctamente.
✅ Fragmento 8/9 procesado correctamente.
✅ Fragmento 9/9 procesado correctamente.
✅ Se extrajeron 737 entidades con spaCy.
✅ Documento separado en 1 secciones.
✅ Se procesó la sección 1 correctamente.
✅ Extracción completada correctamente.
{'issn': 'Desintegracion', 'entidades': [';'], 'directores': {'senado': {}, 'camara': {}}, 'documentos': [{'tipo': 'PROYECTO DE LEY', 'subtitulo': None, 'subsubtitulo': ')!.!\x00$%\x00&)'}]}
❌ No se encontraron directores en el documento.
None
