In [2]:
import json
import re, os, argparse, pdfplumber
from pathlib import Path
from tqdm import tqdm
import logging
from PyPDF2 import PdfReader, PdfWriter

for name in ("pdfminer", "pdfminer.layout", "pdfminer.pdfpage"):
    logging.getLogger(name).setLevel(logging.ERROR)

In [None]:
PATH_GLOBAL = os.getcwd()
PATH = os.path.join(PATH_GLOBAL, "datasets")


# Prueba inicial con solo un mes (febrero 2024 - 10 fallos)
PATH_FALLOS = Path(os.path.join(PATH, "fallos"))
PATH_RECORTES = Path(os.path.join(PATH, "cropped_pdfs"))
PATH_TXT = Path(os.path.join(PATH, "fallos_txts"))
PATH_JSON = Path(os.path.join(PATH, "fallos_json"))

os.makedirs(PATH_RECORTES, exist_ok=True)
os.makedirs(PATH_TXT, exist_ok=True)
os.makedirs(PATH_JSON, exist_ok=True)

## Recorte de PDFs

In [9]:
HEADER_PT = 95      # quitar SOLO en p√°ginas impares (arriba)
FOOTER_PT = 50      # quitar SIEMPRE (abajo)

for pdf in PATH_FALLOS.rglob("*.pdf"):
    reader, writer = PdfReader(str(pdf)), PdfWriter()
    for idx, page in enumerate(reader.pages, start=1):
        box = page.cropbox                       # caja de recorte base
        # -- recorte inferior --
        box.lower_left  = (box.lower_left[0],  box.lower_left[1] + FOOTER_PT)
        # -- recorte superior en p√°ginas impares --
        if idx % 2 == 1:
            box.upper_right = (box.upper_right[0], box.upper_right[1] - HEADER_PT)

        # aplicar a todos los bounding-boxes que respetan los visores/lectores
        page.cropbox  = box
        page.trimbox  = box
        page.mediabox = box
        writer.add_page(page)

    # Mantener la estructura de subcarpetas en el output
    rel_path = pdf.relative_to(PATH_FALLOS)
    out_file = PATH_RECORTES / rel_path
    out_file.parent.mkdir(parents=True, exist_ok=True)  # Crear subcarpetas si no existen
    
    with out_file.open("wb") as f:
        writer.write(f)

    print("‚úî Cropped ‚Üí", out_file)

‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udesa\Materias\2025 - 1er Semestre\NLP\Proyecto Final\TP_NLP\datasets\cropped_pdfs\2024\02\8104.pdf
‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udesa\Materias\2025 - 1er Semestre\NLP\Proyecto Final\TP_NLP\datasets\cropped_pdfs\2024\02\8142.pdf
‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udesa\Materias\2025 - 1er Semestre\NLP\Proyecto Final\TP_NLP\datasets\cropped_pdfs\2024\02\8344.pdf
‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udesa\Materias\2025 - 1er Semestre\NLP\Proyecto Final\TP_NLP\datasets\cropped_pdfs\2024\02\8569.pdf
‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udesa\Materias\2025 - 1er Semestre\NLP\Proyecto Final\TP_NLP\datasets\cropped_pdfs\2024\02\8752.pdf
‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udesa\Materias\2025 - 1er Semestre\NLP\Proyecto Final\TP_NLP\datasets\cropped_pdfs\2024\02\8865.pdf
‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udesa\Materias\2025 - 1er Semestre\NLP\Proyecto Final\TP_NLP\datasets\cropped_pdfs\2024\02\8926.pdf
‚úî Cropped ‚Üí c:\Users\MSI\Desktop\Udes

# NORMALIZATION

In [10]:
PATTERNS = [
    r'^Superior Tribunal.*$',
    r'^Sala Civil y Comercial.*$',
    r'^\s*\d+\s*$',
    r'^Poder Judicial.*$',
    r'^Firmado digitalmente.*$',
    r'^P√°gina \s*\d+(\s*de\s*\d+)?',
    r'^\s*\d{4}-\d{2}-\d{2}T\d{2}:',
]
REGEX = re.compile('|'.join(PATTERNS), re.IGNORECASE)


def join_lines_to_paragraphs(text):
    lines = text.split('\n')
    paragraphs = []
    current_para = ""
    for line in lines:
        line = line.strip()
        if not line:
            # L√≠nea vac√≠a indica fin de p√°rrafo
            if current_para:
                paragraphs.append(current_para.strip())
                current_para = ""
        else:
            # Si la l√≠nea anterior no termina con punto pero la linea actual no es solamente mayuscula y termina con ':', unir
            if current_para and not current_para.endswith(('.', ':', '?', '!', ';')):
                if line.isupper() and line.endswith(':') and len(line) < 50:
                    # Si la l√≠nea es may√∫scula y termina con ':', no unir
                    paragraphs.append(current_para.strip())
                    current_para = line
                else:
                    current_para += " " + line
            else:
                if current_para:
                    paragraphs.append(current_para.strip())
                current_para = line
    if current_para:
        paragraphs.append(current_para.strip())
    return "\n\n".join(paragraphs)

def clean_page(text: str) -> str:
    return '\n'.join([ln for ln in (text or "").splitlines() if not REGEX.match(ln)]).strip()


## Normalization to .TXT:

In [11]:
def clean_pdf(pdf_path: Path) -> str:
    pages_clean = []
    with pdfplumber.open(str(pdf_path)) as pdf:
        for page in pdf.pages:
            page_text = clean_page(page.extract_text())
            page_text = join_lines_to_paragraphs(page_text)  # <--- aplicar aqu√≠
            pages_clean.append(page_text)
    return "\n\n".join(pages_clean)


def main(pdf_dir: str, out_dir: str):
    pdf_root = Path(pdf_dir).resolve()
    out_root = Path(out_dir).resolve()
    out_root.mkdir(parents=True, exist_ok=True)

    pdf_files = list(pdf_root.rglob("*.pdf"))
    if not pdf_files:
        print(f"No se encontraron PDFs en {pdf_dir}")
        return

    for path in tqdm(pdf_files, desc="Cleaning PDFs"):
        # ‚Äî‚Äî NUEVO: ruta relativa para reproducir subcarpetas ‚Äî‚Äî
        rel_path = path.relative_to(pdf_root).with_suffix(".txt")
        dst = out_root / rel_path
        dst.parent.mkdir(parents=True, exist_ok=True)  # crea la subcarpeta si falta
        # --------------------------------------------------------
        dst.write_text(clean_pdf(path), encoding="utf-8")

main(PATH_RECORTES, PATH_TXT)

Cleaning PDFs:   0%|          | 0/10 [00:00<?, ?it/s]

Cleaning PDFs: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10/10 [00:11<00:00,  1.18s/it]


## Normalization to JSON:

In [12]:
def extract_materia_preliminar(inicio_paragraphs):
    """
    Busca dentro de los p√°rrafos de INICIO el texto entre comillas,
    y extrae el texto que sigue justo despu√©s de 'S/' dentro de esa cadena.
    """
    import re

    for para in inicio_paragraphs:
        # Buscamos todas las cadenas entre comillas
        quoted_texts = re.findall(r'"([^"]+)"', para)
        for qt in quoted_texts:
            # Buscamos 'S/' y capturamos lo que viene despu√©s hasta el fin o hasta un guion, coma o fin de l√≠nea
            m = re.search(r'S/\s*([^\-\,]+)', qt, re.IGNORECASE)
            if m:
                materia = m.group(1).strip()
                return materia.upper()
    return None

def is_key_line(line: str) -> bool:
    # Es key si toda may√∫scula, termina con ':' y longitud < 50 (para evitar l√≠neas muy largas)
    return line.isupper() and line.endswith(':') and len(line) < 50

def split_into_sections(text: str) -> dict:
    """
    Convierte el texto en dict con keys y listas de p√°rrafos.
    La key 'INICIO' contiene todo lo previo a la primera key.
    """
    lines = text.split('\n\n')  # separar p√°rrafos
    sections = {}
    current_key = 'INICIO'
    sections[current_key] = []

    for para in lines:
        para_strip = para.strip()
        if is_key_line(para_strip):
            current_key = para_strip[:-1]  # sacamos ':'
            if current_key not in sections:
                sections[current_key] = []
        else:
            sections[current_key].append(para_strip)
    return sections



def clean_pdf_no_join(pdf_path: Path) -> str:
    """
    Extrae el texto limpio de todo el PDF, concatenando p√°ginas
    sin unir l√≠neas en p√°rrafos todav√≠a para evitar cortar p√°rrafos.
    """
    pages_text = []
    with pdfplumber.open(str(pdf_path)) as pdf:
        for page in pdf.pages:
            page_text = clean_page(page.extract_text())
            pages_text.append(page_text.strip())
    # Unir p√°ginas con salto de l√≠nea simple para no cortar p√°rrafos
    return "\n".join(pages_text)

def clean_pdf_to_sections_structured(pdf_path: Path) -> dict:
    full_text = clean_pdf_no_join(pdf_path)
    full_text = join_lines_to_paragraphs(full_text)
    sections = split_into_sections(full_text)
    materia = extract_materia_preliminar(sections.get('INICIO', []))
    
    return {
        "INFORMACION": {
            "MATERIA_PRELIMINAR": materia or "",
            "RESUMEN": ""
        },
        "CONTENIDO": sections
    }


def main(pdf_dir: str, out_dir: str):
    pdf_root = Path(pdf_dir).resolve()
    out_root = Path(out_dir).resolve()
    out_root.mkdir(parents=True, exist_ok=True)

    pdf_files = list(pdf_root.rglob("*.pdf"))
    if not pdf_files:
        print(f"No se encontraron PDFs en {pdf_dir}")
        return

    for path in tqdm(pdf_files, desc="PDF to JSON:"):
        rel_path = path.relative_to(pdf_root).with_suffix(".json")
        dst = out_root / rel_path
        dst.parent.mkdir(parents=True, exist_ok=True)
        
        sections_structured = clean_pdf_to_sections_structured(path)
        dst.write_text(json.dumps([sections_structured], ensure_ascii=False, indent=2), encoding="utf-8")


main(PATH_RECORTES, PATH_JSON)

PDF to JSON:: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 297/297 [01:11<00:00,  4.17it/s]


## JSON Analysis

In [9]:
def analyze_json_structures(json_dir: str):
    """
    Analiza la estructura de todos los JSONs extra√≠dos:
    - Cuenta total de archivos
    - Lista todas las keys encontradas
    - Cuenta frecuencia de cada key
    - Muestra estad√≠sticas de estructura
    """
    import json
    from collections import Counter, defaultdict
    from pathlib import Path
    
    json_root = Path(json_dir).resolve()
    json_files = list(json_root.rglob("*.json"))
    
    if not json_files:
        print(f"No se encontraron JSONs en {json_dir}")
        return
    
    print(f"üìä AN√ÅLISIS DE ESTRUCTURA - {len(json_files)} archivos JSON")
    print("=" * 60)
    
    # Contadores para an√°lisis
    contenido_keys = Counter()
    informacion_keys = Counter()
    total_sections_per_file = []
    files_with_materia = 0
    
    for json_path in json_files:
        try:
            with open(json_path, 'r', encoding='utf-8') as f:
                data = json.load(f)[0]  # Primer elemento de la lista
            
            # Analizar INFORMACION
            if 'INFORMACION' in data:
                for key in data['INFORMACION'].keys():
                    informacion_keys[key] += 1
                
                # Contar archivos con materia
                materia = data['INFORMACION'].get('MATERIA_PRELIMINAR', '')
                if materia and materia.strip():
                    files_with_materia += 1
            
            # Analizar CONTENIDO
            if 'CONTENIDO' in data:
                sections = data['CONTENIDO']
                total_sections_per_file.append(len(sections))
                
                for key in sections.keys():
                    contenido_keys[key] += 1
                    
        except Exception as e:
            print(f"‚ùå Error procesando {json_path}: {e}")
    
    # RESULTADOS
    print(f"üóÇÔ∏è  ARCHIVOS PROCESADOS: {len(json_files)}")
    print(f"üìã ARCHIVOS CON MATERIA: {files_with_materia}")
    print()
    
    print("üîß KEYS EN 'INFORMACION':")
    for key, count in informacion_keys.most_common():
        percentage = (count / len(json_files)) * 100
        print(f"  ‚Ä¢ {key}: {count} archivos ({percentage:.1f}%)")
    print()
    
    print("üìñ SECCIONES EN 'CONTENIDO' (Top 20):")
    for key, count in contenido_keys.most_common(20):
        percentage = (count / len(json_files)) * 100
        print(f"  ‚Ä¢ {key}: {count} archivos ({percentage:.1f}%)")
    
    if len(contenido_keys) > 20:
        print(f"  ... y {len(contenido_keys) - 20} secciones m√°s")
    print()
    
    # Estad√≠sticas de secciones por archivo
    if total_sections_per_file:
        avg_sections = sum(total_sections_per_file) / len(total_sections_per_file)
        min_sections = min(total_sections_per_file)
        max_sections = max(total_sections_per_file)
        
        print("üìä ESTAD√çSTICAS DE SECCIONES POR ARCHIVO:")
        print(f"  ‚Ä¢ Promedio: {avg_sections:.1f} secciones")
        print(f"  ‚Ä¢ M√≠nimo: {min_sections} secciones")
        print(f"  ‚Ä¢ M√°ximo: {max_sections} secciones")
        print()
    
    print(f"üìã TOTAL DE SECCIONES √öNICAS ENCONTRADAS: {len(contenido_keys)}")
    
    return {
        'total_files': len(json_files),
        'files_with_materia': files_with_materia,
        'contenido_keys': dict(contenido_keys),
        'informacion_keys': dict(informacion_keys),
        'sections_stats': {
            'avg': avg_sections if total_sections_per_file else 0,
            'min': min_sections if total_sections_per_file else 0,
            'max': max_sections if total_sections_per_file else 0
        }
    }

# Ejecutar an√°lisis
analysis_results = analyze_json_structures(PATH_JSON)

üìä AN√ÅLISIS DE ESTRUCTURA - 297 archivos JSON
üóÇÔ∏è  ARCHIVOS PROCESADOS: 297
üìã ARCHIVOS CON MATERIA: 273

üîß KEYS EN 'INFORMACION':
  ‚Ä¢ MATERIA_PRELIMINAR: 297 archivos (100.0%)
  ‚Ä¢ RESUMEN: 297 archivos (100.0%)

üìñ SECCIONES EN 'CONTENIDO' (Top 20):
  ‚Ä¢ INICIO: 297 archivos (100.0%)
  ‚Ä¢ RESUELVE: 294 archivos (99.0%)
  ‚Ä¢ Y VISTO: 145 archivos (48.8%)
  ‚Ä¢ ACUERDO: 134 archivos (45.1%)
  ‚Ä¢ CONSIDERANDO: 85 archivos (28.6%)
  ‚Ä¢ VISTO: 84 archivos (28.3%)
  ‚Ä¢ VISTO Y CONSIDERANDO: 66 archivos (22.2%)
  ‚Ä¢ FEDERICO TEPSICH DIJO: 42 archivos (14.1%)
  ‚Ä¢ VOCAL GISELA N. SCHUMACHER DIJO: 37 archivos (12.5%)
  ‚Ä¢ GISELA N. SCHUMACHER DIJO: 34 archivos (11.4%)
  ‚Ä¢ CARLOS FEDERICO TEPSICH DIJO: 34 archivos (11.4%)
  ‚Ä¢ HONORARIOS PROFESIONALES: 28 archivos (9.4%)
  ‚Ä¢ LEONARDO PORTELA DIJO: 26 archivos (8.8%)
  ‚Ä¢ N. SCHUMACHER DIJO: 16 archivos (5.4%)
  ‚Ä¢ SCHUMACHER DIJO: 14 archivos (4.7%)
  ‚Ä¢ DIJERON: 14 archivos (4.7%)
  ‚Ä¢ VOCAL GISELA SCHUMACHE