<a href="https://colab.research.google.com/github/adria-batlle/AsistenteGDPR/blob/main/Ingesta_y_RAG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Instalar librerías necesarias
!pip install sentence-transformers faiss-cpu pypdf2 requests beautifulsoup4 langchain-text-splitters

# Imports principales
import requests
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
import faiss
import pickle
import re
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import PyPDF2
from io import BytesIO

Collecting faiss-cpu
  Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.1 kB)
Collecting pypdf2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (31.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.4/31.4 MB[0m [31m25.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m18.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pypdf2, faiss-cpu
Successfully installed faiss-cpu-1.12.0 pypdf2-3.0.1


In [2]:
# Opción A: Descargar GDPR desde EUR-Lex (HTML - más limpio)
def descargar_gdpr_html():
    url = "https://eur-lex.europa.eu/legal-content/ES/TXT/HTML/?uri=CELEX:32016R0679"

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }

    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'

    if response.status_code == 200:
        return response.text
    else:
        print(f"Error al descargar: {response.status_code}")
        return None

# Descargar y parsear
html_content = descargar_gdpr_html()

texto_gdpr = "" # Initialize texto_gdpr
if html_content:
    soup = BeautifulSoup(html_content, 'html.parser')

    # Extraer solo el contenido principal (sin menús, headers, etc.)
    main_content = soup.find('div', {'id': 'document1'}) or soup.find('div', class_='eli-main-content')
    main_content=soup

    if main_content:
        texto_gdpr = main_content.get_text(separator='\n', strip=True)
        print(f"✅ GDPR descargado: {len(texto_gdpr)} caracteres")
        print("Primeros 500 caracteres:")
        print(texto_gdpr[:500])
    else:
        print("❌ No se pudo extraer el contenido principal")

✅ GDPR descargado: 382409 caracteres
Primeros 500 caracteres:
L_2016119ES.01000101.xml
4.5.2016
ES
Diario Oficial de la Unión Europea
L 119/1
REGLAMENTO (UE) 2016/679 DEL PARLAMENTO EUROPEO Y DEL CONSEJO
de 27 de abril de 2016
relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (Reglamento general de protección de datos)
(Texto pertinente a efectos del EEE)
EL PARLAMENTO EUROPEO Y EL CONSEJO DE LA UNIÓN EUROPEA,
Visto el T


In [3]:
def limpiar_texto_gdpr(texto):
    """
    Limpia el texto del GDPR eliminando elementos innecesarios
    """
    # Eliminar múltiples espacios y saltos de línea
    texto = re.sub(r'\n+', '\n', texto)
    texto = re.sub(r' +', ' ', texto)

    # Eliminar referencias a documentos externos muy específicas
    texto = re.sub(r'DO L \d+.*?\d{4}', '', texto)

    # Limpiar caracteres especiales problemáticos
    texto = texto.replace('\xa0', ' ')  # Non-breaking space
    texto = texto.replace('\u200b', '')  # Zero-width space

    return texto.strip()

# Aplicar limpieza
if texto_gdpr: # Check if texto_gdpr is not empty
    texto_gdpr_limpio = limpiar_texto_gdpr(texto_gdpr)
    print(f"✅ Texto limpiado: {len(texto_gdpr_limpio)} caracteres")
else:
    texto_gdpr_limpio = ""
    print("❌ No hay texto para limpiar.")

✅ Texto limpiado: 382409 caracteres


In [4]:
def extraer_articulos_gdpr(texto):
    """
    Extrae artículos del GDPR usando patrones regex
    """
    chunks = []

    # Patrón para detectar artículos: "Artículo X" seguido del contenido
    patron_articulo = r'Artículo\s+(\d+)\s*\n(.*?)(?=Artículo\s+\d+|\Z)'

    matches = re.finditer(patron_articulo, texto, re.DOTALL | re.IGNORECASE)

    for match in matches:
        numero_articulo = match.group(1)
        contenido_articulo = match.group(2).strip()

        # Solo incluir artículos con contenido sustancial
        if len(contenido_articulo) > 50:
            chunk = {
                'id': f"articulo_{numero_articulo}",
                'tipo': 'articulo',
                'numero': numero_articulo,
                'titulo': f"Artículo {numero_articulo}",
                'contenido': contenido_articulo,
                'texto_completo': f"Artículo {numero_articulo}\n{contenido_articulo}"
            }
            chunks.append(chunk)

    return chunks

# También extraer considerandos (preámbulo importante)
def extraer_considerandos_gdpr(texto):
    """
    Extrae considerandos del GDPR
    """
    chunks = []

    # Patrón para considerandos: "(X)" seguido del contenido
    patron_considerando = r'\((\d+)\)\s+(.*?)(?=\(\d+\)|\n\n|Artículo|\Z)'

    matches = re.finditer(patron_considerando, texto, re.DOTALL)

    for match in matches:
        numero = match.group(1)
        contenido = match.group(2).strip()

        if len(contenido) > 100:  # Solo considerandos sustanciales
            chunk = {
                'id': f"considerando_{numero}",
                'tipo': 'considerando',
                'numero': numero,
                'titulo': f"Considerando {numero}",
                'contenido': contenido,
                'texto_completo': f"Considerando {numero}: {contenido}"
            }
            chunks.append(chunk)

    return chunks

# Ejecutar chunking
articulos = extraer_articulos_gdpr(texto_gdpr_limpio)
considerandos = extraer_considerandos_gdpr(texto_gdpr_limpio)

# Combinar todos los chunks
todos_chunks = articulos + considerandos

print(f"✅ Extraídos {len(articulos)} artículos y {len(considerandos)} considerandos")
print(f"📊 Total chunks: {len(todos_chunks)}")

# Mostrar ejemplo
if todos_chunks:
    print("\n🔍 Ejemplo de chunk:")
    print(f"ID: {todos_chunks[0]['id']}")
    print(f"Título: {todos_chunks[0]['titulo']}")
    print(f"Contenido (primeros 200 chars): {todos_chunks[0]['contenido'][:200]}...")

✅ Extraídos 99 artículos y 174 considerandos
📊 Total chunks: 273

🔍 Ejemplo de chunk:
ID: articulo_1
Título: Artículo 1
Contenido (primeros 200 chars): Objeto
1.   El presente Reglamento establece las normas relativas a la protección de las personas físicas en lo que respecta al tratamiento de los datos personales y las normas relativas a la libre ci...


In [5]:
# Cargar modelo de embeddings (recomendado para español)
modelo_embeddings = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

def generar_embeddings_chunks(chunks, modelo):
    """
    Genera embeddings para todos los chunks
    """
    textos = [chunk['texto_completo'] for chunk in chunks]

    print(f"🔄 Generando embeddings para {len(textos)} chunks...")

    # Generar embeddings en lotes para eficiencia
    embeddings = modelo.encode(textos,
                              batch_size=32,
                              show_progress_bar=True,
                              convert_to_numpy=True)

    # Añadir embeddings a cada chunk
    for i, chunk in enumerate(chunks):
        chunk['embedding'] = embeddings[i]

    print(f"✅ Embeddings generados: {embeddings.shape}")
    return chunks, embeddings

# Generar embeddings
chunks_con_embeddings, matriz_embeddings = generar_embeddings_chunks(todos_chunks, modelo_embeddings)

print(f"📐 Dimensión de embeddings: {matriz_embeddings.shape[1]}")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

🔄 Generando embeddings para 273 chunks...


Batches:   0%|          | 0/9 [00:00<?, ?it/s]

✅ Embeddings generados: (273, 384)
📐 Dimensión de embeddings: 384


In [6]:
# Crear índice FAISS para búsqueda rápida
def crear_indice_faiss(embeddings):
    """
    Crea un índice FAISS para búsqueda de similitud
    """
    dimension = embeddings.shape[1]

    # Crear índice (L2 distance - euclidiana)
    indice = faiss.IndexFlatL2(dimension)

    # Añadir vectores al índice
    indice.add(embeddings.astype('float32'))

    print(f"✅ Índice FAISS creado con {indice.ntotal} vectores")
    return indice

# Crear índice
indice_faiss = crear_indice_faiss(matriz_embeddings)

# Función de búsqueda semántica
def buscar_chunks_relevantes(pregunta, indice, chunks, modelo, k=5):
    """
    Busca los k chunks más relevantes para una pregunta
    """
    # Convertir pregunta a embedding
    embedding_pregunta = modelo.encode([pregunta])

    # Buscar en FAISS
    distancias, indices = indice.search(embedding_pregunta.astype('float32'), k)

    # Recuperar chunks relevantes
    chunks_relevantes = []
    for i, idx in enumerate(indices[0]):
        chunk = chunks[idx].copy()
        chunk['score'] = float(distancias[0][i])
        chunks_relevantes.append(chunk)

    return chunks_relevantes

✅ Índice FAISS creado con 273 vectores


In [7]:
# Función de testing
def test_busqueda_gdpr(pregunta):
    """
    Prueba la búsqueda semántica en la base GDPR
    """
    print(f"🔍 Pregunta: {pregunta}")
    print("-" * 50)

    resultados = buscar_chunks_relevantes(
        pregunta,
        indice_faiss,
        chunks_con_embeddings,
        modelo_embeddings,
        k=3
    )

    for i, chunk in enumerate(resultados):
        print(f"\n📄 Resultado {i+1} (Score: {chunk['score']:.3f})")
        print(f"🏷️ {chunk['titulo']}")
        print(f"📝 {chunk['contenido'][:300]}...")
        print("-" * 30)

# Pruebas de validación
preguntas_test = [
    "¿Qué obligaciones tiene un banco sobre consentimiento explícito?",
    "¿Cuándo puede un banco transferir datos personales a terceros países?",
    "¿Qué derechos tiene un cliente para acceder a sus datos personales?",
    "¿Cuáles son las multas por incumplimiento del GDPR?"
]

for pregunta in preguntas_test:
    test_busqueda_gdpr(pregunta)
    print("\n" + "="*60 + "\n")

🔍 Pregunta: ¿Qué obligaciones tiene un banco sobre consentimiento explícito?
--------------------------------------------------

📄 Resultado 1 (Score: 12.528)
🏷️ Artículo 7
📝 Condiciones para el consentimiento
1.   Cuando el tratamiento se base en el consentimiento del interesado, el responsable deberá ser capaz de demostrar que aquel consintió el tratamiento de sus datos personales.
2.   Si el consentimiento del interesado se da en el contexto de una declaración escrita...
------------------------------

📄 Resultado 2 (Score: 13.395)
🏷️ Considerando 43
📝 Para garantizar que el consentimiento se haya dado libremente, este no debe constituir un fundamento jurídico válido para el tratamiento de datos de carácter personal en un caso concreto en el que exista un desequilibro claro entre el interesado y el responsable del tratamiento, en particular cuando...
------------------------------

📄 Resultado 3 (Score: 13.742)
🏷️ Considerando 32
📝 El consentimiento debe darse mediante un acto afirm

In [8]:
# Guardar todo para usar en el siguiente módulo
def guardar_base_gdpr(chunks, indice, modelo_name):
    """
    Guarda la base documental procesada
    """
    # Guardar chunks (sin embeddings para ahorrar espacio)
    chunks_sin_embeddings = []
    for chunk in chunks:
        chunk_limpio = chunk.copy()
        if 'embedding' in chunk_limpio:
            del chunk_limpio['embedding']
        chunks_sin_embeddings.append(chunk_limpio)

    # Guardar en pickle
    with open('gdpr_chunks.pkl', 'wb') as f:
        pickle.dump(chunks_sin_embeddings, f)

    # Guardar índice FAISS
    faiss.write_index(indice, 'gdpr_faiss.index')

    # Guardar metadatos
    metadata = {
        'total_chunks': len(chunks),
        'modelo_embeddings': modelo_name,
        'dimension': matriz_embeddings.shape[1]
    }

    with open('gdpr_metadata.pkl', 'wb') as f:
        pickle.dump(metadata, f)

    print("✅ Base documental GDPR guardada:")
    print(f"   - gdpr_chunks.pkl ({len(chunks)} chunks)")
    print(f"   - gdpr_faiss.index (índice vectorial)")
    print(f"   - gdpr_metadata.pkl (metadatos)")

# Guardar todo
guardar_base_gdpr(chunks_con_embeddings, indice_faiss, 'paraphrase-multilingual-MiniLM-L12-v2')

✅ Base documental GDPR guardada:
   - gdpr_chunks.pkl (273 chunks)
   - gdpr_faiss.index (índice vectorial)
   - gdpr_metadata.pkl (metadatos)


In [9]:
def cargar_base_gdpr():
    """
    Carga la base documental GDPR previamente procesada
    """
    # Cargar chunks
    with open('gdpr_chunks.pkl', 'rb') as f:
        chunks = pickle.load(f)

    # Cargar índice FAISS
    indice = faiss.read_index('gdpr_faiss.index')

    # Cargar metadatos
    with open('gdpr_metadata.pkl', 'rb') as f:
        metadata = pickle.load(f)

    # Recargar modelo de embeddings
    modelo = SentenceTransformer(metadata['modelo_embeddings'])

    print(f"✅ Base GDPR cargada: {metadata['total_chunks']} chunks")

    return chunks, indice, modelo, metadata

# Para usar en futuras sesiones:
chunks, indice, modelo, metadata = cargar_base_gdpr()

✅ Base GDPR cargada: 273 chunks


In [11]:
!pip install google-generativeai

import google.generativeai as genai

# Configurar API Key de Gemini
genai.configure(api_key="AIzaSyBpR8u9wFkx4rEtSnSfPa7L32mbvVflfsM")

print("🔑 Gemini configurado correctamente")

🔑 Gemini configurado correctamente


In [13]:
def responder_con_rag_gemini(pregunta, indice, chunks, modelo_embeddings, k=4):
    """
    Pipeline RAG con Gemini:
    1. Recuperar chunks relevantes de GDPR
    2. Construir un prompt con las fuentes
    3. Generar respuesta con Gemini
    """

    # --- RETRIEVE: Buscar en vector DB
    embedding_pregunta = modelo_embeddings.encode([pregunta])
    distancias, indices = indice.search(embedding_pregunta.astype('float32'), k)

    # Seleccionar chunks más relevantes
    fuentes = [chunks[i].copy() | {"score": float(distancias[0][j])} for j,i in enumerate(indices[0])]

    # --- Construir contexto para Gemini
    contexto_fuentes = "\n\n".join(
        [f"{f['titulo']}:\n{f['contenido']}" for f in fuentes]
    )

    prompt = f"""
Eres un asistente experto en el Reglamento General de Protección de Datos (GDPR).
Responde SOLO basándote en el contexto proporcionado y cita de qué artículo o considerando sale la info.

❓ Pregunta: {pregunta}

📚 Contexto relevante del GDPR:
{contexto_fuentes}

👉 Responde de forma clara y profesional:
"""

    # --- LLM: Gemini responde
    model = genai.GenerativeModel("gemini-1.5-flash")
    response = model.generate_content(prompt)

    return response.text, fuentes

In [14]:
preguntas_demo = [
    "¿Qué obligaciones tiene un banco sobre el consentimiento explícito?",
    "¿Qué multas prevé el GDPR por incumplimiento?",
    "¿Qué derechos tiene un cliente para acceder a sus datos personales?",
    "¿Puede un banco transferir datos a un país fuera de la UE?"
]

for p in preguntas_demo:
    print("\n❓", p)
    respuesta, fuentes = responder_con_rag_gemini(p, indice_faiss, chunks, modelo_embeddings)
    print("\n🤖", respuesta)
    print("\n📚 Fuentes:")
    for f in fuentes:
        print(" -", f['titulo'])


❓ ¿Qué obligaciones tiene un banco sobre el consentimiento explícito?

🤖 Basándome únicamente en el contexto proporcionado, las obligaciones de un banco respecto al consentimiento explícito, según el GDPR, son las siguientes:

* **Demostrar el consentimiento:** El banco debe ser capaz de demostrar que el cliente consintió el tratamiento de sus datos personales (Art. 7.1, Cons. 42).  Esto requiere un registro claro y verificable del consentimiento.

* **Consentimiento libre e informado:** El consentimiento debe ser dado libremente, específicamente, informado e inequívocamente (Cons. 32, Cons. 43).  El banco debe asegurarse de que no existe un desequilibrio de poder que impida un consentimiento libre, especialmente si el banco actúa como una entidad poderosa (Cons. 43).  La información proporcionada debe incluir, al menos, la identidad del banco y los fines del tratamiento de los datos (Cons. 42).

* **Consentimiento separado para diferentes finalidades:** Si el tratamiento de datos tie

In [15]:
def chatbot_gdpr_gemini():
    print("💬 Chatbot GDPR (escribe 'salir' para terminar)\n")

    while True:
        pregunta = input("Tú: ")
        if pregunta.lower() in ["salir", "exit", "quit"]:
            break

        respuesta, fuentes = responder_con_rag_gemini(pregunta, indice_faiss, chunks, modelo_embeddings)

        print("\n🤖:", respuesta)
        print("\n📚 Fuentes principales:")
        for f in fuentes[:2]:
            print(" •", f["titulo"])
        print("-"*60)

chatbot_gdpr_gemini()

💬 Chatbot GDPR (escribe 'salir' para terminar)

Tú: estoy haciendo un flujo de pagos para un ecommerce, es legal pedir la religión para procesar el pago?

🤖: No, no es legal pedir la religión para procesar un pago en un ecommerce según el contexto proporcionado.  El considerando 71 menciona que el tratamiento de datos personales que pueda dar lugar a efectos discriminatorios por motivos de religión está prohibido, salvo excepciones muy específicas no aplicables a este caso.  No se menciona ninguna base legal que permita solicitar dicha información para el procesamiento de un pago.


📚 Fuentes principales:
 • Considerando 71
 • Considerando 47
------------------------------------------------------------
Tú: quit
