In [1]:
#!pip install requests pypdf 

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\accar\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
import os
import re
import pandas as pd
import requests
from pypdf import PdfReader
from nltk.tokenize import sent_tokenize

from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# # ============================================================
# # 0) MODELO DE EMBEDDINGS
# # ============================================================
# modelo = SentenceTransformer("paraphrase-MiniLM-L6-v2")

# texto_referencia = """
# Este capítulo introduce el tema del trabajo, plantea el problema, 
# presenta los objetivos y describe brevemente la estructura del documento.
# """

# embedding_referencia = modelo.encode([texto_referencia])


# def es_introduccion_valida(texto_intro, umbral=0.45):
#     """Valida semánticamente si el texto parece una Introducción."""
#     if not texto_intro or len(texto_intro) < 150:
#         return False

#     emb = modelo.encode([texto_intro])
#     sim = cosine_similarity(embedding_referencia, emb)[0][0]

#     print(f"   → Similitud semántica: {sim:.3f}")

#     return sim >= umbral


In [5]:
# ============================================================
# 1) DESCARGAR PDF SOLO SI NO EXISTE
# ============================================================
#def descargar_pdf(url, carpeta="pdfs"):
def descargar_pdf(url, carpeta):
    os.makedirs(carpeta, exist_ok=True)

    nombre = url.split("/")[-1].split("?")[0]
    if not nombre.lower().endswith(".pdf"):
        nombre += ".pdf"

    path_pdf = os.path.join(carpeta, nombre)

    if os.path.exists(path_pdf):
        return path_pdf

    try:
        r = requests.get(url, timeout=20)
        r.raise_for_status()
        with open(path_pdf, "wb") as f:
            f.write(r.content)
        return path_pdf

    except Exception as e:
        print(f"Error descargando {url}: {e}")
        return None



# ============================================================
# 2) EXTRAER TEXTO DE CADA PÁGINA DEL PDF
# ============================================================
def extraer_paginas_pdf(path_pdf):
    try:
        reader = PdfReader(path_pdf)
        return [(page.extract_text() or "") for page in reader.pages]
    except Exception as e:
        print(f"Error leyendo PDF {path_pdf}: {e}")
        return []


In [6]:

# ============================================================
# 3) EXTRAER SECCIÓN "INTRODUCCIÓN" EVITANDO ÍNDICE Y PORTADA
# ============================================================

# Regex robusta para detectar encabezado de sección
PATRON_INICIO = r"""
    (?:^|\n)                                # inicio de línea
    (?:\d+\s*\.?\s*|[IVX]+\.\s*)*           # opcional: numeraciones
    (Introducci[oó]n)                       # palabra clave
    \s*\n                                   # salto de línea = encabezado real
"""

# Regex genérica que detecta el siguiente título
PATRON_FIN = r"""
    (?:^|\n)
    (?:\d+\s*\.?\s*|[IVX]+\.\s*)+           # algo como "2." o "III."
    [A-ZÁÉÍÓÚÑ][^\n]{2,80}\n                # título siguiente
"""


def extraer_introduccion_regex_paginas(paginas, min_pagina=2, max_pagina=12):
    """
    páginas: lista de textos por página
    min_pagina: evita portada e índice
    max_pagina: evita procesar PDFs enormes
    """

    if len(paginas) == 0:
        return ""

    # Limitamos el rango útil
    paginas_utiles = paginas[min_pagina:max_pagina]
    texto = "\n".join(paginas_utiles)

    # Buscar encabezado real
    inicio = re.search(PATRON_INICIO, texto, flags=re.IGNORECASE | re.VERBOSE)
    if not inicio:
        return ""

    inicio_idx = inicio.start()

    # Buscar fin
    fin = re.search(PATRON_FIN, texto[inicio_idx:], flags=re.IGNORECASE | re.VERBOSE)
    if fin:
        fin_idx = inicio_idx + fin.start()
    else:
        fin_idx = len(texto)

    intro = texto[inicio_idx:fin_idx].strip()

    # Limpieza opcional con NLTK (mejora la coherencia)
    try:
        oraciones = sent_tokenize(intro, language="spanish")
        intro_limpia = " ".join(oraciones)
        return intro_limpia
    except:
        return intro


In [7]:

# # ============================================================
# # 3) DETECCIÓN DE LA SECCIÓN INTRODUCCIÓN (Regex + heurísticas)
# # ============================================================

# PATRON_INICIO = r"""
#     (?:^|\n)
#     (?:\d+\s*\.?\s*|[IVX]+\.\s*)*
#     (Introducci[oó]n)
#     \s*\n
# """

# PATRON_FIN = r"""
#     (?:^|\n)
#     (?:\d+\s*\.?\s*|[IVX]+\.\s*)+
#     [A-ZÁÉÍÓÚÑ][^\n]{2,80}\n
# """

# def extraer_introduccion_regex_paginas(paginas, min_pagina=2, max_pagina=12):

#     paginas_utiles = paginas[min_pagina:max_pagina]
#     texto = "\n".join(paginas_utiles)

#     inicio = re.search(PATRON_INICIO, texto, flags=re.IGNORECASE | re.VERBOSE)
#     if not inicio:
#         return ""

#     inicio_idx = inicio.start()

#     fin = re.search(PATRON_FIN, texto[inicio_idx:], flags=re.IGNORECASE | re.VERBOSE)
#     if fin:
#         fin_idx = inicio_idx + fin.start()
#     else:
#         fin_idx = len(texto)

#     intro = texto[inicio_idx:fin_idx].strip()

#     try:
#         sent = sent_tokenize(intro, language="spanish")
#         intro_limpia = " ".join(sent)
#         return intro_limpia
#     except:
#         return intro



In [9]:
# ============================================================
# 4) PIPELINE COMPLETO: PDF + EXTRACCIÓN + VALIDACIÓN SEMÁNTICA
# ============================================================
import requests
import os
import numpy as np
import pandas as pd # Import pandas here for explicit use

def descargar_pdf(url, path_destino):
    try:
        r = requests.get(url, timeout=20)

        if r.status_code != 200:
            print(f"   → No se pudo descargar {url}: HTTP {r.status_code}")
            return False

        with open(path_destino, "wb") as f:
            f.write(r.content)

        # Validar encabezado PDF
        with open(path_destino, "rb") as f:
            if f.read(5) != b"%PDF-":
                print("   → Archivo descargado NO es PDF real (probable HTML).")
                os.remove(path_destino)
                return False

        return True

    except Exception as e:
        print(f"Error descargando {url}: {e}")
        return False

def procesar_archivo(csv_entrada, csv_salida, carpeta_pdf):
    df = pd.read_csv(csv_entrada, encoding='latin1', sep=";")

    if "pdf" not in df.columns:
        raise ValueError("El CSV debe contener una columna llamada 'pdf'.")

    # Create a copy to work on and avoid SettingWithCopyWarning
    df_processed = df.copy()
    
    # Initialize the 'introduccion' column for all rows
    df_processed["introduccion"] = ""

    # Crear carpeta si no existe
    os.makedirs(carpeta_pdf, exist_ok=True)

    for i, url in df_processed["pdf"].items():
        print(f"\nProcesando fila {i}:")
        print(f"URL original: {url}")
        print(f"Tipo de URL: {type(url)}")

        # Robustly check for NaN or empty string. pd.isna handles float('nan').
        if pd.isna(url) or (isinstance(url, str) and not url.strip()):
            print("   → URL no válida (NaN o vacía). Saltando.\n")
            df_processed.loc[i, "introduccion"] = "No existe pdf"
            continue  # Skip to the next iteration

        # Ensure URL is a string and clean it up
        url = str(url).strip()

        # Nombre del archivo PDF
        nombre_pdf_file = url.split("/")[-1].split("?")[0].strip()
        if not nombre_pdf_file.lower().endswith(".pdf"):
            nombre_pdf_file += ".pdf"
        
        path_pdf = os.path.join(carpeta_pdf, nombre_pdf_file)

        # If the PDF doesn't exist locally, download it
        if not os.path.exists(path_pdf):
            print(f"   → Descargando {url} a {path_pdf}...")
            exito = descargar_pdf(url, path_pdf)
        else:
            print(f"   → Archivo ya existe: {path_pdf}")
            exito = True  # It already exists

        if exito:
            df_processed.loc[i, "introduccion"] = "descargado"
            #Original commented out code for extraction and semantic validation
            try:
                # Extraer texto por páginas
                paginas = extraer_paginas_pdf(path_pdf)

                # Extraer sección introducción
                intro = extraer_introduccion_regex_paginas(paginas)

                # Validación semántica con embeddings
                if es_introduccion_valida(intro):
                    df_processed.loc[i, "introduccion"] = intro
                else:
                    print("   → Introducción NO válida.")
                    df_processed.loc[i, "introduccion"] = "Intro no válids"

            except Exception as e:
                print("Error leyendo PDF:", e)
                df_processed.loc[i, "introduccion"] = "No extrae Intro"
        else:
            print(f"   → NO se pudo descargar el PDF de {url}")
            df_processed.loc[i, "introduccion"] = "No descarga pdf"

    #df_processed.to_csv(csv_salida, index=False, encoding='latin1', sep=';')
    #print(f"\n>>> Archivo generado: {csv_salida}")
    return df_processed

NameError: name 'df_processed' is not defined

In [10]:

    # if len(url)>0:
    #     # Descarga
    #     pdf_path = descargar_pdf(url, carpeta_pdf)
    #     if not pdf_path:
    #         df.loc[i, "introduccion"] = ""
    #         continue

    #     # Extraer texto por páginas
    #     paginas = extraer_paginas_pdf(pdf_path)

    #     # Detectar sección candidata
    #     intro = extraer_introduccion_regex_paginas(paginas)

    #     # Validación semántica con embeddings
    #     if es_introduccion_valida(intro):
    #         df.loc[i, "introduccion"] = intro
    #     else:
    #         print("   → Introducción NO válida.")
    #         df.loc[i, "introduccion"] = ""
    # else:
    #     df.loc[i, "introduccion"] = ""
    #     print("NO existe pdf ")
    #     cant+=1

In [11]:


# ============================================================
# 5) EJECUTAR PIPELINE
# ============================================================

entrada="../datos/datos_carr_sel.csv"
salida = "../datos/datos_pdfs.csv"
carpeta_pdf ="../pdfs"
df_salida = procesar_archivo(entrada, salida, carpeta_pdf)
df_salida.to_csv(csv_salida, index=False, encoding='latin1', sep=';')


invalid pdf header: b'Usted'
EOF marker not found
invalid pdf header: b'Usted'
EOF marker not found
invalid pdf header: b'Usted'
EOF marker not found



Procesando fila 0:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/59607/497/49759607.pdf
Tipo de URL: <class 'str'>
   → Archivo ya existe: ../pdfs\49759607.pdf
Error leyendo PDF ../pdfs\49759607.pdf: Stream has ended unexpectedly
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 1:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/59611/498/49859611.pdf
Tipo de URL: <class 'str'>
   → Archivo ya existe: ../pdfs\49859611.pdf
Error leyendo PDF ../pdfs\49859611.pdf: Stream has ended unexpectedly
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 2:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/59624/500/50059624.pdf
Tipo de URL: <class 'str'>
   → Archivo ya existe: ../pdfs\50059624.pdf
Error leyendo PDF ../pdfs\50059624.pdf: Stream has ended unexpectedly
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 3:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/60139

Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEnc

Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 6:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/60621/727/72760621.pdf
Tipo de URL: <class 'str'>
   → Archivo ya existe: ../pdfs\72760621.pdf
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 7:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/60688/782/78260688.pdf
Tipo de URL: <class 'str'>
   → Archivo ya existe: ../pdfs\78260688.pdf
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 8:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/60744/797/79760744.pdf
Tipo de URL: <class 'str'>
   → Archivo ya existe: ../pdfs\79760744.pdf
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 9:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/60809/798/79860809.pdf
Tipo de URL: <class 'str'>
   → Archivo ya existe: ../pdfs\79860809.pdf
Error leyendo PDF: name 'es_introduccion_valida' is not 

Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEncoding not implemented yet
Advanced encoding /SymbolSetEnc

Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 80:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/65376/1601/160165376.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/65376/1601/160165376.pdf a ../pdfs\160165376.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 81:
URL original: nan
Tipo de URL: <class 'float'>
   → URL no válida (NaN o vacía). Saltando.


Procesando fila 82:
URL original: nan
Tipo de URL: <class 'float'>
   → URL no válida (NaN o vacía). Saltando.


Procesando fila 83:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/65459/1613/161365459.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/65459/1613/161365459.pdf a ../pdfs\161365459.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 84:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/65462/1614/161465462

Ignoring wrong pointing object 10 0 (offset 0)
Ignoring wrong pointing object 12 0 (offset 0)
Ignoring wrong pointing object 16 0 (offset 0)
Ignoring wrong pointing object 19 0 (offset 0)
Ignoring wrong pointing object 21 0 (offset 0)
Ignoring wrong pointing object 29 0 (offset 0)
Ignoring wrong pointing object 50 0 (offset 0)
Ignoring wrong pointing object 126 0 (offset 0)
Ignoring wrong pointing object 236 0 (offset 0)
Ignoring wrong pointing object 486 0 (offset 0)


Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 133:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/67252/1889/188967252.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/67252/1889/188967252.pdf a ../pdfs\188967252.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 134:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/67254/1890/189067254.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/67254/1890/189067254.pdf a ../pdfs\189067254.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 135:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/67256/1891/189167256.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/67256/1891/189167256.pdf a ../pdfs\189167256.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fil

Multiple definitions in dictionary at byte 0x363fd3 for key /Im48
Multiple definitions in dictionary at byte 0x363fe0 for key /Im48


Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 270:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/70096/3029/302970096.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/70096/3029/302970096.pdf a ../pdfs\302970096.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 271:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/70171/3033/303370171.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/70171/3033/303370171.pdf a ../pdfs\303370171.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fila 272:
URL original: https://bibliotecas.ucasal.edu.ar/opac_css/70360/3042/304270360.pdf
Tipo de URL: <class 'str'>
   → Descargando https://bibliotecas.ucasal.edu.ar/opac_css/70360/3042/304270360.pdf a ../pdfs\304270360.pdf...
Error leyendo PDF: name 'es_introduccion_valida' is not defined

Procesando fil

PermissionError: [Errno 13] Permission denied: '../datos/datos_pdfs.csv'