In [None]:
import fitz  # PyMuPDF

def extract_xmp_metadata(pdf_path):
    """
    Extracts the XMP metadata manually from a PDF file by parsing its contents.

    Args:
        pdf_path (str): Path to the PDF file.

    Returns:
        str: The XMP metadata as a string (XML format), or None if not found.
    """
    try:
        # Open the PDF file
        document = fitz.open(pdf_path)
        
        # Iterate over all objects in the PDF to find the XMP metadata
        for xref in range(1, document.xref_length()):
            stream = document.xref_stream(xref)
            if stream and b'<x:xmpmeta' in stream:
                start = stream.index(b'<x:xmpmeta')
                end = stream.index(b'</x:xmpmeta>') + len(b'</x:xmpmeta>')
                xmp_metadata = stream[start:end].decode("utf-8")
                document.close()
                return xmp_metadata
        
        document.close()
        return None  # No XMP metadata found

    except Exception as e:
        print(f"Error extracting XMP metadata: {e}")
        return None


# Example usage
if __name__ == "__main__":
    pdf_file_path = "../assets/2024S-VBOG-053309.pdf"  # Replace with the path to your PDF file
    xmp_metadata = extract_xmp_metadata(pdf_file_path)
    
    if xmp_metadata:
        print("XMP Metadata:")
        print(xmp_metadata)
    else:
        print("No XMP metadata found or error occurred.")


In [None]:
import nltk
import spacy
from nltk.corpus import stopwords

# Descargar las stop words de NLTK si no las tienes
'''nltk.download('stopwords')'''

# Cargar el modelo de spaCy
nlp = spacy.load("es_core_news_sm")

# Obtener las stop words en español de NLTK
stop_words = set(stopwords.words('spanish'))

def procesar_texto(texto):
    """
    Realiza pre-procesamiento, tokenización, eliminación de stop words y lematización.

    Args:
        texto: El texto extraído del PDF.

    Returns:
        Una lista de tokens lematizados, sin stop words ni signos de puntuación.
    """
    doc = nlp(texto)
    tokens_lematizados = []
    for token in doc:
        # Filtrar stop words y signos de puntuación
        if token.text.lower() not in stop_words and not token.is_punct:
            tokens_lematizados.append(token.lemma_)
    return tokens_lematizados

# Ejemplo de uso:
texto_ejemplo = "El análisis de los documentos PDF, como los reportes financieros, es esencial. Los analistas necesitan extraer información clave."
tokens = procesar_texto(texto_ejemplo)
print(tokens)

In [None]:
def etiquetado_gramatical(texto):
    """
    Realiza el etiquetado gramatical del texto.

    Args:
        texto: El texto a procesar.

    Returns:
        Una lista de tuplas, donde cada tupla contiene el token y su etiqueta gramatical.
    """
    doc = nlp(texto)
    etiquetas = [(token.text, token.pos_) for token in doc]
    return etiquetas

# Ejemplo de uso:
texto_ejemplo = "El gato negro corre rápidamente."
etiquetas = etiquetado_gramatical(texto_ejemplo)
print(etiquetas)

In [None]:
def extraer_entidades(texto):
    """
    Extrae las entidades nombradas del texto.

    Args:
        texto: El texto a procesar.

    Returns:
        Una lista de tuplas, donde cada tupla contiene la entidad y su tipo.
    """
    doc = nlp(texto)
    entidades = [(ent.text, ent.label_) for ent in doc.ents]
    return entidades

# Ejemplo de uso:
texto_ejemplo = "Apple Inc. reportó ingresos récord en su sede de Cupertino en el último trimestre de 2023."
entidades = extraer_entidades(texto_ejemplo)
print(entidades)

In [None]:
from transformers import pipeline

def resumir_texto(texto, modelo="google/pegasus-xsum"):
    """
    Resume el texto usando el modelo Pegasus-XSum.
    """
    try:
        # Carga el pipeline de resumen
        resumidor = pipeline("summarization", model=modelo, tokenizer=modelo)
        
        # Realiza el resumen
        resultado = resumidor(texto, truncation=True, max_length=150, min_length=40)
        return resultado
    except Exception as e:
        print(f"Ocurrió un error al resumir el texto: {e}")
        return None

# Ejemplo de uso
texto = """
Apple Inc. es una empresa multinacional estadounidense de tecnología con sede en Cupertino, California.
Diseña, fabrica y comercializa electrónica de consumo, software informático y servicios en línea.
La compañía fue fundada por Steve Jobs, Steve Wozniak y Ronald Wayne en abril de 1976 para desarrollar y vender computadoras personales Apple I de Wozniak.
Fue incorporada como Apple Computer, Inc. en enero de 1977, y las ventas de sus computadoras, incluyendo el Apple II, crecieron rápidamente.
Apple salió a bolsa en 1980 con un éxito financiero instantáneo.
"""
resumen = resumir_texto(texto)

# Imprimir el resumen
if resumen:
    print("Resumen:")
    print(resumen[0]['summary_text'])


In [None]:
import os

# Especifica la carpeta que quieres listar
carpeta =  r"C:\Users\mmartinezo\OneDrive - Instituto Nacional de Vias - INVIAS\Mettings\Reuniones\Recordings"
# Lista los archivos en la carpeta
archivos = os.listdir(carpeta)

# Filtra solo los archivos (excluyendo subcarpetas)
archivos = [archivo for archivo in archivos if os.path.isfile(os.path.join(carpeta, archivo))]

# Imprime la lista de archivos
x=0
for archivo in archivos:
    x = x+1
    print(x)
    print(archivo)