# Fase 1 - Extracción de Artículos desde PDFs Jurídicos
Esta Fase se lee documentos PDF legales desde la carpeta `data/`, los limpia, extrae los artículos y normaliza su contenido.

In [1]:
!pip install pymupdf -q
!pip install pandas -q

In [2]:
import os
import requests
import fitz  # PyMuPDF
import re
import unicodedata
from pathlib import Path
import pandas as pd

In [16]:
# Lista de archivos PDF en GitHub RAW (actualizada con normativas autonómicas)
archivos_pdf = {
    "LOPDGDD_2018": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/BOE-A-2018-16673.pdf",
    "LOPD_1999": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/BOE-A-1999-23750-consolidado.pdf",
    "RGPD": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/CELEX_32016R0679_ES_TXT.pdf",
    "Guia_AEPD": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/memoria-aepd-2024.pdf",
    "Ley_13500_Andalucia": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/13500.pdf",
    "Ley_9429_Catalunya": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/9429_CAT.pdf"
}

In [17]:
# Crear carpeta temporal para guardar PDFs
os.makedirs("temp_pdfs", exist_ok=True)

In [18]:
# Función para normalizar texto
def normalizar(texto):
    texto = unicodedata.normalize('NFKD', texto)
    texto = texto.encode('ASCII', 'ignore').decode('utf-8')
    return texto.lower()


In [21]:
# Función para extraer artículos desde un PDF
def extraer_articulos(pdf_path, nombre_documento):
    texto = ""
    doc = fitz.open(pdf_path)
    for pagina in doc:
        texto += pagina.get_text()
    texto_limpio = re.sub(r'\n+', '\n', texto)
    texto_limpio = re.sub(r'Página\s+\d+', '', texto_limpio).strip()
    articulos = re.split(r'(Artículo\s+\d+\.?\s*)', texto_limpio)
    bloques = ["".join(par).strip() for par in zip(articulos[1::2], articulos[2::2])]
    return [{"Documento": nombre_documento, "Artículo N": i + 1, "Contenido": normalizar(b)} for i, b in enumerate(bloques[:5])]


In [22]:
# Descargar y procesar cada PDF
resultados = []

for nombre, url in archivos_pdf.items():
    local_path = f"temp_pdfs/{nombre}.pdf"
    r = requests.get(url)
    with open(local_path, "wb") as f:
        f.write(r.content)
    resultados.extend(extraer_articulos(local_path, nombre))


In [25]:
# Mostrar resultados en un DataFrame
pd.set_option('display.max_rows', None)
df

Unnamed: 0,Documento,Artículo N,Contenido
0,LOPDGDD_2018,1,articulo 1. objeto de la ley.
1,LOPDGDD_2018,2,articulo 2. ambito de aplicacion de los titul...
2,LOPDGDD_2018,3,articulo 3. datos de las personas fallecidas....
3,LOPDGDD_2018,4,articulo 4. exactitud de los datos.
4,LOPDGDD_2018,5,articulo 5. deber de confidencialidad.
5,LOPD_1999,1,articulo 1. objeto. . . . . . . . . . . . . . ...
6,LOPD_1999,2,articulo 2. ambito de aplicacion. . . . . . . ...
7,LOPD_1999,3,articulo 3. definiciones. . . . . . . . . . . ...
8,LOPD_1999,4,articulo 4. calidad de los datos.. . . . . . ....
9,LOPD_1999,5,articulo 5. derecho de informacion en la recog...


In [27]:
df = pd.DataFrame(resultados)
df.to_json("articulos_extraidos.json", orient="records", indent=2, force_ascii=False)

# Fase 2 -Extracción de información semántica
Este notebook lee documentos PDF legales desde la carpeta data/, los limpia, extrae los artículos y normaliza su contenido

In [28]:
!pip install --upgrade openai -q
import json

In [None]:
from openai import OpenAI
client = OpenAI(api_key="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")

# Ver lista de modelos disponibles
modelos = client.models.list()

for m in modelos.data:
    print(m.id)


In [38]:
import openai
# Paso 1: Configurar la API Key de OpenAI
openai.api_key ="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"

# Paso 2: Crear carpeta de salida dentro de /Notebooks/
# os.makedirs("Notebooks/jsons_semanticos", exist_ok=True)

In [39]:
# Paso 3: Leer el archivo JSON desde GitHub (Fase 1)
url_json = "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/Notebooks/articulos_extraidos.json"
respuesta = requests.get(url_json)
articulos = respuesta.json()

In [40]:
# Paso 4: Función para generar prompt
def generar_prompt(texto):
    return f"""
Eres un experto en derecho normativo español. Devuelve un JSON con:
- número de artículo
- título (si tiene)
- tema principal
- referencias normativas (si existen)
- relaciones normativas (ej. modifica, deroga, aplica a...)

Texto del artículo:
\"\"\"{texto}\"\"\"
"""

In [41]:
# Paso 5: Procesar artículo por artículo y guardar
for articulo in articulos:
    contenido = articulo["Contenido"]
    documento = articulo["Documento"]
    numero = articulo["Artículo N"]

    prompt = generar_prompt(contenido)

    try:
        response = openai.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "Devuelve solo un JSON bien formado, sin explicaciones."},
                {"role": "user", "content": prompt}
            ],
            stream=False
        )

        texto_json = response.choices[0].message.content

        try:
            datos = json.loads(texto_json)
        except json.JSONDecodeError:
            datos = {
                "error": "No se pudo interpretar la respuesta como JSON",
                "respuesta_cruda": texto_json
            }

        nombre_archivo = f"{documento.lower()}_articulo_{numero}.json"
        ruta_salida = os.path.join("jsons_semanticos", nombre_archivo)

        with open(ruta_salida, "w", encoding="utf-8") as f:
            json.dump(datos, f, ensure_ascii=False, indent=2)

        print(f" Guardado: {ruta_salida}")

    except Exception as e:
        print(f"Error con {documento} Art. {numero}: {e}")

 Guardado: Notebooks/jsons_semanticos\lopdgdd_2018_articulo_1.json
 Guardado: Notebooks/jsons_semanticos\lopdgdd_2018_articulo_2.json
 Guardado: Notebooks/jsons_semanticos\lopdgdd_2018_articulo_3.json
 Guardado: Notebooks/jsons_semanticos\lopdgdd_2018_articulo_4.json
 Guardado: Notebooks/jsons_semanticos\lopdgdd_2018_articulo_5.json
 Guardado: Notebooks/jsons_semanticos\lopd_1999_articulo_1.json
 Guardado: Notebooks/jsons_semanticos\lopd_1999_articulo_2.json
 Guardado: Notebooks/jsons_semanticos\lopd_1999_articulo_3.json
 Guardado: Notebooks/jsons_semanticos\lopd_1999_articulo_4.json
 Guardado: Notebooks/jsons_semanticos\lopd_1999_articulo_5.json
 Guardado: Notebooks/jsons_semanticos\rgpd_articulo_1.json
 Guardado: Notebooks/jsons_semanticos\rgpd_articulo_2.json
 Guardado: Notebooks/jsons_semanticos\rgpd_articulo_3.json
 Guardado: Notebooks/jsons_semanticos\rgpd_articulo_4.json
 Guardado: Notebooks/jsons_semanticos\rgpd_articulo_5.json
 Guardado: Notebooks/jsons_semanticos\guia_aepd_ar

In [44]:
# Ruta donde están los archivos generados por GPT
carpeta = "Notebooks/jsons_semanticos"

# Lista para almacenar todos los artículos
todos_los_articulos = []

# Leer cada archivo .json y agregarlo a la lista
for nombre_archivo in os.listdir(carpeta):
    if nombre_archivo.endswith(".json"):
        ruta = os.path.join(carpeta, nombre_archivo)
        with open(ruta, "r", encoding="utf-8") as f:
            datos = json.load(f)
            # Opcional: podés incluir el nombre de archivo como referencia
            datos["archivo_fuente"] = nombre_archivo
            todos_los_articulos.append(datos)

# Guardar el archivo unificado
with open("articulos_semanticos_completo.json", "w", encoding="utf-8") as f:
    json.dump(todos_los_articulos, f, ensure_ascii=False, indent=2)

print("Archivo consolidado generado como: articulos_semanticos_completo.json")


Archivo consolidado generado como: articulos_semanticos_completo.json
