# Fase 1 - Extracción de Artículos desde PDFs Jurídicos
Esta Fase se lee documentos PDF legales desde la carpeta `data/`, los limpia, extrae los artículos y normaliza su contenido.

In [1]:
!pip install pymupdf -q
!pip install pandas -q

In [2]:
import os
import requests
import fitz  # PyMuPDF
import re
import unicodedata
from pathlib import Path
import pandas as pd

In [3]:
# Lista de archivos PDF en GitHub RAW (actualizada con normativas autonómicas)
archivos_pdf = {
    "LOPDGDD_2018": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/BOE-A-2018-16673.pdf",
    "LOPD_1999": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/BOE-A-1999-23750-consolidado.pdf",
    "RGPD": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/CELEX_32016R0679_ES_TXT.pdf",
    "Guia_AEPD": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/memoria-aepd-2024.pdf",
    "Ley_13500_Andalucia": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/13500.pdf",
    "Ley_9429_Catalunya": "https://raw.githubusercontent.com/JuanC-1976/TFM-R46-GrafosLegales/main/9429_CAT.pdf"
}

In [4]:
# Crear carpeta temporal para guardar PDFs
os.makedirs("temp_pdfs", exist_ok=True)

In [5]:
# Función para normalizar texto
def normalizar(texto):
    texto = unicodedata.normalize('NFKD', texto)
    texto = texto.encode('ASCII', 'ignore').decode('utf-8')
    return texto.lower()


In [6]:
# Función para extraer artículos desde un PDF
def extraer_articulos(pdf_path):
    texto = ""
    doc = fitz.open(pdf_path)
    for pagina in doc:
        texto += pagina.get_text()
    texto_limpio = re.sub(r'\n+', '\n', texto)
    texto_limpio = re.sub(r'Página\s+\d+', '', texto_limpio).strip()
    articulos = re.split(r'(Artículo\s+\d+\.?\s*)', texto_limpio)
    bloques = ["".join(par).strip() for par in zip(articulos[1::2], articulos[2::2])]
    return [normalizar(b) for b in bloques[:5]]  # Solo los primeros 5 artículos


In [7]:
# Descargar y procesar cada PDF
resultados = {}
for nombre, url in archivos_pdf.items():
    local_path = f"temp_pdfs/{nombre}.pdf"
    response = requests.get(url)
    with open(local_path, "wb") as f:
        f.write(response.content)
    resultados[nombre] = extraer_articulos(local_path)


In [8]:
# Mostrar resultados en un DataFrame
df = pd.DataFrame([
    {"Documento": nombre, "Artículo N": i + 1, "Contenido": art}
    for nombre, arts in resultados.items()
    for i, art in enumerate(arts)
])

df.head()


Unnamed: 0,Documento,Artículo N,Contenido
0,LOPDGDD_2018,1,articulo 1. objeto de la ley.
1,LOPDGDD_2018,2,articulo 2. ambito de aplicacion de los titul...
2,LOPDGDD_2018,3,articulo 3. datos de las personas fallecidas....
3,LOPDGDD_2018,4,articulo 4. exactitud de los datos.
4,LOPDGDD_2018,5,articulo 5. deber de confidencialidad.


# Fase 2 -Extracción de información semántica
Este notebook lee documentos PDF legales desde la carpeta data/, los limpia, extrae los artículos y normaliza su contenido

In [9]:
!pip install --upgrade openai -q

In [12]:
from openai import OpenAI
client = OpenAI(api_key="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")

# Ver lista de modelos disponibles
modelos = client.models.list()

for m in modelos.data:
    print(m.id)


text-embedding-ada-002
whisper-1
gpt-3.5-turbo
tts-1
gpt-3.5-turbo-16k
davinci-002
babbage-002
gpt-3.5-turbo-instruct
gpt-3.5-turbo-instruct-0914
dall-e-3
dall-e-2
gpt-3.5-turbo-1106
tts-1-hd
tts-1-1106
tts-1-hd-1106
text-embedding-3-small
text-embedding-3-large
gpt-3.5-turbo-0125
gpt-4o
gpt-4o-2024-05-13
gpt-4o-mini-2024-07-18
gpt-4o-mini
gpt-4o-2024-08-06
o1-preview-2024-09-12
o1-preview
o1-mini-2024-09-12
o1-mini
gpt-4o-audio-preview-2024-10-01
gpt-4o-audio-preview
omni-moderation-latest
omni-moderation-2024-09-26
gpt-4o-mini-audio-preview-2024-12-17
gpt-4o-mini-audio-preview
gpt-4o-2024-11-20
gpt-4.5-preview
gpt-4.5-preview-2025-02-27
gpt-4o-search-preview-2025-03-11
gpt-4o-search-preview
gpt-4o-mini-search-preview-2025-03-11
gpt-4o-mini-search-preview
gpt-4o-transcribe
gpt-4o-mini-transcribe
gpt-4o-mini-tts
gpt-4.1-2025-04-14
gpt-4.1
gpt-4.1-mini-2025-04-14
gpt-4.1-mini
gpt-4.1-nano-2025-04-14
gpt-4.1-nano
gpt-image-1


In [14]:
import openai
openai.api_key =""
response = openai.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Eres un modelo legal experto en normativa española"},
        {"role": "user", "content": "Extrae en JSON el número y título de este artículo: 'Artículo 3. Finalidad. Esta ley tiene por objeto proteger los datos personales...'"}
    ],
    stream=False
)

print(response.choices[0].message.content)

Aquí tienes el número y el título del artículo en formato JSON:

```json
{
  "número": 3,
  "título": "Finalidad"
}
```
