In [1]:
### IMPORTS
import os
import pandas as pd
import requests
from tqdm import tqdm
import glob
import json
from pathlib import Path
from pdfminer.high_level import extract_text

In [2]:
# -------------------------------
# Parámetros configurables
# -------------------------------
tipos_deseados = ['circular', 'resolución']  # <- Puedes usar uno o ambos: 'circular', 'resolución'
ruta_archivos = "data_ag1"  # <- Carpeta donde están los CSV
ruta_descargas = "data_ag1/pdfs_normativas_nuevas"  # <- Carpeta donde se guardarán los PDFs
data_dir = "data_Ag1" #<- # Ruta base de archivos CSV

## 1. Descarga PDFs Normativos Nuevos
**Supuesto** : Se asume que el scrapper irá dejando los circulares_nuevas.csv y resoluciones_nuevas.csv de las resoluciones y circulares en carpeta indicada más abajo

In [3]:
# -------------------------------
# Preparación
# -------------------------------
os.makedirs(ruta_descargas, exist_ok=True)
extensiones = {
    'circular': 'circulares_{}.csv',
    'resolución': 'resoluciones_{}.csv'
}

# -------------------------------
# Cargar archivos según tipo (sin filtrar por año)
# -------------------------------
df_total = []

for tipo in tipos_deseados:
    for archivo in os.listdir(ruta_archivos):
        if archivo.startswith(extensiones[tipo].split('_')[0]):
            nombre_archivo = os.path.join(ruta_archivos, archivo)
            if os.path.exists(nombre_archivo):
                df = pd.read_csv(nombre_archivo)
                df['tipo_documento'] = tipo
                df_total.append(df)
            else:
                print(f"⚠️ Archivo no encontrado: {nombre_archivo}")

# Unir todo
df = pd.concat(df_total, ignore_index=True)

# -------------------------------
# Descargar PDFs con nombre desde columna 'name'
# -------------------------------
print(f"Total de archivos a descargar: {len(df)}")

for _, row in tqdm(df.iterrows(), total=len(df), desc="Descargando PDFs"):
    url = row['url']
    if pd.isna(url) or not isinstance(url, str) or not url.startswith("http"):
        continue

    # Construir nombre de archivo desde 'name', limpiando caracteres no válidos
    nombre_limpio = row['name']
    nombre_limpio = "".join(c if c.isalnum() or c in " _-()" else "_" for c in nombre_limpio)
    nombre_archivo = nombre_limpio.strip() + ".pdf"
    ruta_local = os.path.join(ruta_descargas, nombre_archivo)

    if not os.path.exists(ruta_local):
        try:
            r = requests.get(url, timeout=10)
            if r.status_code == 200:
                with open(ruta_local, 'wb') as f:
                    f.write(r.content)
            else:
                print(f"⚠️ Error {r.status_code} al descargar {url}")
        except Exception as e:
            print(f"❌ Excepción con {url}: {e}")
    else:
        print(f"✓ Ya descargado: {nombre_archivo}")

Total de archivos a descargar: 7


Descargando PDFs: 100%|██████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 43.60it/s]

✓ Ya descargado: Circular N_ 42 del 15 de Mayo del 2025.pdf
✓ Ya descargado: Circular N_ 38 del 30 de Abril del 2025.pdf
✓ Ya descargado: Circular N_ 25 del 03 de Abril del 2025.pdf
✓ Ya descargado: Resolución Exenta SII N_ 83 del 03 de Julio del 2025.pdf
✓ Ya descargado: Resolución Exenta SII N_ 81 del 30 de Junio del 2025.pdf
✓ Ya descargado: Resolución Exenta SII N_ 79 del 26 de Junio del 2025.pdf





## 2. Preprocesamiento Normativas Nuevas

### 2.1 Combinar Metada Normativas (Circulares + Resoluciones)
Combina la metadata de las resoluciones con circulares (si es que hay) en un mismo archivo .csv

In [4]:
output_file = os.path.join(data_dir, "normativas_nuevas_combinadas.csv")

# Cargar archivos CSV de resoluciones y circulares
res_files = glob.glob(os.path.join(data_dir, "resoluciones_*.csv"))
circ_files = glob.glob(os.path.join(data_dir, "circulares_*.csv"))

def cargar_csv(archivo, tipo):
    df = pd.read_csv(archivo)
    df['tipo_documento'] = tipo
    df['archivo_origen'] = os.path.basename(archivo)
    return df

# Unir todos los DataFrames
dfs = []

for archivo in res_files:
    dfs.append(cargar_csv(archivo, "Resolución"))

for archivo in circ_files:
    dfs.append(cargar_csv(archivo, "Circular"))

df_unificado = pd.concat(dfs, ignore_index=True)

# Guardar el resultado
df_unificado.to_csv(output_file, index=False, encoding='utf-8-sig')
print(f"✅ Archivos combinados y guardados en: {output_file}")


✅ Archivos combinados y guardados en: data_Ag1\normativas_nuevas_combinadas.csv


### 2.2 Extracción Automatizada de Texto desde PDFs con Asociación de Metadatos para Normativas**

Extrae contenido textual de normativas legales en PDF y lo vincula con su metadata

In [5]:
# -------- CONFIGURACIÓN --------
CSV_PATH = "data_ag1/normativas_nuevas_combinadas.csv"
PDF_DIR = Path("data_ag1/pdfs_normativas_nuevas/")  # Carpeta donde están los PDFs
OUTPUT_CSV = "data_ag1/normativas_nuevas_completas.csv"

# -------- CARGA DE METADATOS --------
df_meta = pd.read_csv(CSV_PATH)

# Crear índice por nombre limpio (sin extensión)
df_meta["name_file"] = df_meta["name"].apply(
    lambda x: "".join(c if c.isalnum() or c in " _-()" else "_" for c in str(x)).strip()
)
df_meta = df_meta.set_index("name_file")

# -------- FUNCIÓN PARA EXTRAER TEXTO DE UN PDF --------
def extraer_texto_pdf(pdf_path):
    try:
        texto = extract_text(pdf_path)
        return texto.strip()
    except Exception as e:
        print(f"❌ Error al procesar {pdf_path}: {e}")
        return None

# -------- PROCESAMIENTO CON BARRA DE PROGRESO --------
registros = []
archivos_pdf = list(PDF_DIR.glob("*.pdf"))

for archivo in tqdm(archivos_pdf, desc="Procesando PDFs"):
    nombre_archivo = archivo.stem  # sin .pdf

    texto = extraer_texto_pdf(archivo)
    if not texto:
        continue

    if nombre_archivo in df_meta.index:
        fila = df_meta.loc[nombre_archivo]
        registros.append({
            "name": fila["name"],
            "description": fila["description"],
            "fuente": fila["fuente"],
            "url": fila["url"],
            "tipo_documento": fila.get("tipo_documento", ""),  # Incluye tipo_documento si existe
            "cuerpo": texto
        })
    else:
        registros.append({
            "name": nombre_archivo,
            "description": "",
            "fuente": "",
            "url": "",
            "tipo_documento": "",
            "cuerpo": texto
        })

# -------- EXPORTACIÓN A CSV --------
df_final = pd.DataFrame(registros)
df_final.to_csv(OUTPUT_CSV, index=False, encoding='utf-8-sig')
print(f"\n✅ Archivo generado: {OUTPUT_CSV} con {len(df_final)} documentos.")

Procesando PDFs: 100%|███████████████████████████████████████████████████████████████████| 7/7 [00:16<00:00,  2.34s/it]


✅ Archivo generado: data_ag1/normativas_nuevas_completas.csv con 7 documentos.





### 2.3 Limpieza y reducción de ruido textual en normativas SII
Este proceso transforma los documentos legales en texto más claro y enfocado, eliminando encabezados, firmas y secciones repetitivas. Además, aplica reglas básicas de limpieza como eliminación de URLs, símbolos y espacios extra. Se conserva el sentido legal y se mejora la calidad semántica para tareas posteriores como clasificación o embeddings.

In [6]:
import pandas as pd
import re
from tqdm import tqdm
tqdm.pandas()

# -------- Cargar archivo original con PDFs procesados --------
df = pd.read_csv("data_ag1/normativas_nuevas_completas.csv")

# -------- Asegurar nombres consistentes --------
df.columns = df.columns.str.strip().str.lower()

# -------- Validación de columnas necesarias --------
esperadas = ['cuerpo', 'tipo_documento']
for col in esperadas:
    if col not in df.columns:
        raise ValueError(f"Falta columna requerida: '{col}'")

# -------- Función de limpieza avanzada --------
def limpieza_avanzada(texto):
    texto = texto.lower()

    # Eliminar encabezados y pies de página comunes
    patrones_a_eliminar = [
        r'servicio de impuestos internos',
        r'santiago, \d{1,2} de [a-z]+ del \d{4}',
        r'resolución exenta sii n[°º] \d+.*',
        r'circular n[°º] \d+.*',
        r'subdirección de .*',
        r'departamento de .*',
        r'director(a)? del servicio.*',
        r'firmado electrónicamente por.*',
        r'este documento ha sido firmado.*',
        r'distribúyase.*',
        r'este documento es copia fiel.*',
        r'esta resolución reemplaza.*',
        r'esta circular modifica.*',
        r'página \d+ de \d+',
        r'https?://\S+',
    ]
    for patron in patrones_a_eliminar:
        texto = re.sub(patron, '', texto)

    # Normalizar espacios y eliminar símbolos
    texto = re.sub(r'[^\w\sáéíóúüñ]', '', texto)
    texto = re.sub(r'\n+', '\n', texto)
    texto = re.sub(r'\s+', ' ', texto).strip()

    return texto

# -------- Función para extraer desde parte relevante --------
def recortar_a_parte_relevante(texto):
    texto = texto.lower()
    patrones_inicio = [
        r'\bconsiderando\b',
        r'\binstrucciones\b',
        r'\bresuelvo\b',
        r'\binstrucción general\b',
        r'\binstrucción específica\b',
    ]
    for patron in patrones_inicio:
        match = re.search(patron, texto)
        if match:
            return texto[match.start():]
    return texto  # Si no encuentra, deja todo el cuerpo

# -------- Aplicar funciones --------
df['cuerpo'] = df['cuerpo'].progress_apply(limpieza_avanzada)
df['cuerpo'] = df['cuerpo'].progress_apply(recortar_a_parte_relevante)

# -------- Guardar el resultado --------
output_path = "data_ag1/normativas_nuevas_limpias.csv"
df.to_csv(output_path, index=False, encoding='utf-8-sig')
print(f"✅ Archivo limpio guardado como: {output_path}")

100%|███████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 178.28it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 1496.59it/s]

✅ Archivo limpio guardado como: data_ag1/normativas_nuevas_limpias.csv





## 3. Clasificador de Agente Vigilante
Clasificación de las normativas nuevas en Relevante o No Relevante. Además asigna su respectiva explicación respecto de por qué se asignó tal relevancia

In [61]:
import os
import pandas as pd
import tiktoken
from langchain.vectorstores import Redis
from langchain.embeddings import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.prompts import ChatPromptTemplate
from langchain.chains import LLMChain

In [62]:
# ---------- PARÁMETROS DE CONEXIÓN ----------
redis_host = "127.0.0.1"
redis_port = "6379"
redis_db = 0
redis_password = ""
redis_username = "default"
redis_index = "normativas_sii"
gpt_key = "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"  # ← Reemplaza por tu clave real
redis_url = f"redis://{redis_username}:{redis_password}@{redis_host}:{redis_port}/{redis_db}"

In [63]:
# ---------- CONTROL DE TOKENS ----------
MAX_TOKENS = 30000
SAFE_TOKENS = 20000
tokenizer = tiktoken.encoding_for_model("text-embedding-3-large")

def truncar_a_tokens(texto: str, max_tokens: int = SAFE_TOKENS) -> str:
    tokens = tokenizer.encode(texto)
    return tokenizer.decode(tokens[:max_tokens])

def contar_tokens(texto: str) -> int:
    return len(tokenizer.encode(texto))

In [64]:
# ---------- PARÁMETROS DE CLASIFICACIÓN ----------
INDEX_NAME = redis_index
K = 5  # Número de documentos similares desde Redis
INPUT_FILE = "data_ag1/normativas_nuevas_limpias.csv"
OUTPUT_FILE = "data_ag1/normativas_nuevas_clasificadas.csv"

In [65]:
# ---------- CARGA DE NORMATIVAS NUEVAS ----------
#df_nuevas = pd.read_csv(INPUT_FILE,nrows=25)
df_nuevas = pd.read_csv(INPUT_FILE)
df_nuevas = df_nuevas.fillna("")

In [66]:
# ---------- EMBEDDINGS Y VECTORSTORE ----------
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-large",
    openai_api_key=gpt_key
)

vectorstore = Redis(
    redis_url=redis_url,
    index_name=INDEX_NAME,
    embedding=embeddings,
)

In [72]:
template = """Eres un asistente legal experto en normativas tributarias chilenas, especializado en sistemas de cumplimiento normativo automatizado para una fintech.

Tu tarea es determinar si una nueva normativa es **Relevante** o **No Relevante** para este sistema, en base al contexto proporcionado.

Clasifica como **Relevante** si la normativa se relaciona directamente con alguno de los siguientes temas:  
- boleta
- comprobante electrónico
- registro de compra
- registro de venta
- cumplimiento tributario
- inicio de actividades
- medios de pago electrónicos
- POS, P.O.S o puntos de venta
- operadores y administradores
- comercio electrónico
- Artículo 68
- Artículo 100 bis
- psp
- proveedores de servicios para procesamiento de pagos
- no presencial
- pagos electrónicos
- Ley 20.393

También puedes considerar coincidencias sustantivas con normativas similares ya catalogadas como relevantes en el contexto.

**Además**, clasifica como **Relevante** cualquier normativa que **modifique, complemente o haga referencia al Artículo 68 del Código Tributario**, por su impacto directo en los sistemas de cumplimiento tributario automatizado.

**No clasifiques como Relevante normativas que solamente:**
- regulan convenios o acuerdos institucionales,  
- establecen procedimientos internos del SII,  
- fijan nóminas, listados o autorizaciones individuales,  
a menos que modifiquen directamente procesos generales que afecten el cumplimiento automatizado de la fintech.

Si la normativa no trata explícitamente alguno de los temas definidos o no representa un cambio general, clasifica como **No Relevante**.

---

📄 **Contexto de normativas similares clasificadas previamente:**  
{context}

---

📘 **Nueva normativa:**  
{normativa}

---

Responde estrictamente en el siguiente formato (sin agregar texto adicional):

Relevancia: [Relevante|No Relevante]  
Explicación: [explicación clara y específica que justifique la decisión según el tema coincidente, o 'No cumple reglas de negocio' si corresponde]
"""





#prompt = ChatPromptTemplate(
 #   input_variables=["context", "normativa"],
  #  template=template,

prompt = ChatPromptTemplate.from_template(template)

llm = ChatOpenAI(model="gpt-4o", temperature=0, openai_api_key=gpt_key)
chain = LLMChain(llm=llm, prompt=prompt)

In [73]:
from tqdm import tqdm
import time

# ---------- CLASIFICACIÓN  ----------
resultados = []

def truncar_a_tokens(texto: str, max_tokens: int) -> str:
    tokens = tokenizer.encode(texto)
    return texto if len(tokens) <= max_tokens else tokenizer.decode(tokens[:max_tokens])

def parsear_respuesta(respuesta: str):
    relevancia = "No Relevante"
    explicacion = "No se pudo interpretar respuesta"
    for line in respuesta.split("\n"):
        if line.lower().startswith("relevancia:"):
            relevancia = line.split(":", 1)[1].strip()
        elif line.lower().startswith("explicación:"):
            explicacion = line.split(":", 1)[1].strip()
    return relevancia, explicacion

for _, row in tqdm(df_nuevas.iterrows(), total=len(df_nuevas), desc="🔍 Clasificando normativas"):
    texto_original = str(row["cuerpo"])
    metadatos = {
        "name": row["name"],
        "description": row["description"],
        "fuente": row["fuente"],
        "url": row["url"],
        "tipo_documento": row.get("tipo_documento", "")
    }

    relevancia = "No Relevante"
    explicacion = "Clasificación fallback por error o exceso de tokens."

    for factor in [1.0, 0.8, 0.6, 0.4, 0.2]:
        try:
             #texto_truncado = truncar_a_tokens(texto_original, int(SAFE_TOKENS * factor))

            from langchain.text_splitter import RecursiveCharacterTextSplitter

            max_tokens = int(SAFE_TOKENS * factor)

            # Si cabe completo, usar tal cual
            if len(tokenizer.encode(texto_original)) <= max_tokens:
                texto_truncado = texto_original
            else:
                splitter = RecursiveCharacterTextSplitter(chunk_size=3000, chunk_overlap=200)
                chunks = splitter.split_text(texto_original)
                
                texto_truncado = ""
                tokens_acumulados = 0
                for chunk in chunks:
                    chunk_tokens = tokenizer.encode(chunk)
                    if tokens_acumulados + len(chunk_tokens) > max_tokens:
                        break
                    texto_truncado += chunk + "\n"
                    tokens_acumulados += len(chunk_tokens)

            
            docs_similares = vectorstore.similarity_search(texto_truncado, k=K)
            contexto = "\n\n".join([doc.page_content for doc in docs_similares])
            contexto_truncado = truncar_a_tokens(contexto, int(SAFE_TOKENS * (1.0 - factor)))

            normativa = f"Nombre: {metadatos['name']}\nDescripción: {metadatos['description']}\nFuente: {metadatos['fuente']}\nTexto:\n{texto_truncado}"

            respuesta = chain.run(context=contexto_truncado, normativa=normativa)
            relevancia, explicacion = parsear_respuesta(respuesta)
            break  # Éxito, salir del bucle

        except Exception as e:
            print(f"⚠️ Fallo con factor {factor}: {e}")
            time.sleep(2)

    resultados.append({
        "name": metadatos["name"],
        "description": metadatos["description"],
        "fuente": metadatos["fuente"],
        "url": metadatos["url"],
        "tipo_documento": metadatos["tipo_documento"],
        "cuerpo": texto_original,
        "relevancia": relevancia,
        "explicacion": explicacion,
    })


🔍 Clasificando normativas: 100%|████████████████████████████████████████████████████████| 7/7 [00:22<00:00,  3.26s/it]


In [76]:
# ---------- GUARDAR RESULTADOS ----------
df_resultado = pd.DataFrame(resultados)
df_resultado.to_csv(OUTPUT_FILE, index=False, encoding="utf-8-sig")
print(f"✅ Clasificación de normativas nuevas completada: {OUTPUT_FILE}")

✅ Clasificación de normativas nuevas completada: data_ag1/normativas_nuevas_clasificadas.csv


In [77]:
df_nuevas_clasificadas = pd.read_csv("data_ag1/normativas_nuevas_clasificadas.csv")
df_nuevas_clasificadas

Unnamed: 0,name,description,fuente,url,tipo_documento,cuerpo,relevancia,explicacion
0,Circular N° 25 del 03 de Abril del 2025,Instruye sobre el revalúo de bienes raíces ubi...,Fuente: Subdirección de Avaluaciones,https://www.sii.cl/normativa_legislacion/circu...,Circular,considerando la modificación del referido artí...,No Relevante,No cumple reglas de negocio. La normativa se c...
1,Circular N° 38 del 30 de Abril del 2025,Imparte instrucciones sobre la obtención de ro...,Fuente: Subdirección de Asistencia al Contribu...,https://www.sii.cl/normativa_legislacion/circu...,Circular,considerando estas modificaciones y la necesid...,Relevante,La normativa es relevante porque modifica y co...
2,Circular N° 42 del 15 de Mayo del 2025,Informa tabla de cálculos de reajustes y multa...,Fuente: Subdirección de Fiscalización,https://www.sii.cl/normativa_legislacion/circu...,Circular,departamento emisor circular nº42 ge00324967 s...,No Relevante,No cumple reglas de negocio. La normativa se c...
3,Resolución Exenta SII N° 59 del 06 de Mayo del...,Establece procedimiento para efectuar denuncia...,Fuente: Subdirección Jurídica.,https://www.sii.cl/normativa_legislacion/resol...,Resolución,considerando 1 que el n1 de la letra a del art...,No Relevante,No cumple reglas de negocio. La normativa se c...
4,Resolución Exenta SII N° 79 del 26 de Junio de...,Instruye sobre la forma en que los órganos de ...,Fuente: Subdirección de Asistencia al Contribu...,https://www.sii.cl/normativa_legislacion/resol...,Resolución,considerando 1 que conforme lo dispuesto en lo...,Relevante,La normativa modifica y complementa el Artícul...
5,Resolución Exenta SII N° 81 del 30 de Junio de...,Modifica fecha de entrada en vigencia de la Re...,Fuente: Subdirección de Fiscalización.,https://www.sii.cl/normativa_legislacion/resol...,Resolución,considerando 1º que la letra a del del artícul...,No Relevante,No cumple reglas de negocio. La normativa se c...
6,Resolución Exenta SII N° 83 del 03 de Julio de...,Autoriza como receptor electrónico de document...,Fuente: Subdirección de Asistencia al Contribu...,https://www.sii.cl/normativa_legislacion/resol...,Resolución,considerando 1 que la resolución exenta n 63 d...,No Relevante,No cumple reglas de negocio. La normativa se c...


## 4. Indexador de embeddings en Redis
Por cada normativa nueva clasificada genera un índice en Redis para ser validada la clasificación con intervención humana. Una vez validada o corregida pasa a ser parte de la KB de normativas.

### 4.1 Prepara documentos
Divide documentos en Chunks

In [78]:
import pandas as pd
from typing import List, Union
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
import tiktoken

# Tokenizador para OpenAI embeddings
tokenizer = tiktoken.encoding_for_model("text-embedding-3-large")
MAX_TOKENS = 30000
SAFE_TOKENS = 25000  # margen de seguridad

def contar_tokens(texto: str) -> int:
    return len(tokenizer.encode(texto))

from collections import Counter

def resumen_chunks_por_documento(documentos):
    conteo = Counter(doc.metadata.get("name", "Sin nombre") for doc in documentos)
    print(f"Total de chunks generados: {len(documentos)}")
    print("Resumen por documento:")
    for nombre, cantidad in conteo.items():
        print(f"- {nombre}: {cantidad} chunk(s)")

def preparar_documentos(path_csv: str,
                        n: int = None,
                        anios: Union[int, List[int]] = None,
                        chunk_size: int = None,
                        chunk_overlap: int = None) -> List[Document]:
    
    df = pd.read_csv(path_csv).dropna(subset=["cuerpo"])

    # Filtro por año
    if anios:
        if isinstance(anios, int):
            anios = [anios]
        df = df[df["name"].astype(str).str.contains("|".join([str(anio) for anio in anios]))]

    if n:
        df = df.head(n)

    documentos = []
    splitter = None

    if chunk_size and chunk_overlap:
        splitter = RecursiveCharacterTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            separators=["\n\n", "\n", ".", " "]
        )

    for _, row in df.iterrows():
        metadatos = {
            "name": row.get("name", ""),
            "description": row.get("description", ""),
            "fuente": row.get("fuente", ""),
            "url": row.get("url", ""),
            "tipo_documento": row.get("tipo_documento", ""),
            "relevancia": row.get("relevancia", ""),
            "explicacion": row.get("explicacion", "")
        }

        cuerpo = str(row["cuerpo"]).strip()
        total_tokens = contar_tokens(cuerpo)

        if total_tokens <= SAFE_TOKENS:
            documentos.append(Document(page_content=cuerpo, metadata=metadatos))
        elif splitter:
            partes = splitter.split_text(cuerpo)
            for parte in partes:
                if contar_tokens(parte) <= SAFE_TOKENS:
                    documentos.append(Document(page_content=parte, metadata=metadatos))
                else:
                    print(f"⚠️ Chunk excede el máximo seguro de tokens, se omitió parcialmente.")
        else:
            print(f"⚠️ Documento omitido por superar límite de tokens y no hay splitter definido.")

    return documentos

In [79]:
# Mostrar muestra de documentos cargados
documentos = preparar_documentos(
    path_csv="data_ag1/normativas_nuevas_clasificadas.csv",
    n=None,
    anios= None,
    chunk_size=1000,
    chunk_overlap=200
)

In [80]:
resumen_chunks_por_documento(documentos)

Total de chunks generados: 7
Resumen por documento:
- Circular N° 25 del 03 de Abril del 2025: 1 chunk(s)
- Circular N° 38 del 30 de Abril del 2025: 1 chunk(s)
- Circular N° 42 del 15 de Mayo del 2025: 1 chunk(s)
- Resolución Exenta SII N° 59 del 06 de Mayo del 2025: 1 chunk(s)
- Resolución Exenta SII N° 79 del 26 de Junio del 2025: 1 chunk(s)
- Resolución Exenta SII N° 81 del 30 de Junio del 2025: 1 chunk(s)
- Resolución Exenta SII N° 83 del 03 de Julio del 2025: 1 chunk(s)


### 4.2 Indexación en Redis
Registra normativas y sus embeddings en Redis. Cuando una normativa nueva es indexada quedará con el campo "validado = 0" , que significa que aún no has sido validada por un humano. Mediante alguna GUI, el usuario podrá indicar que ya está validada o corregida su relevancia y explicación, pasando así a un valor "validado=1".

In [81]:
def indexar_en_redis(documentos, redis_url, redis_index, gpt_key, eliminar_anteriores=False):
    from langchain_community.vectorstores.redis import Redis
    from langchain_community.embeddings import OpenAIEmbeddings
    from langchain.schema import Document
    import redis as redis_client
    import traceback
    import pandas as pd

    embeddings = OpenAIEmbeddings(
    model="text-embedding-3-large",  # Dimensión fija de 6144
    openai_api_key=gpt_key
)

    if eliminar_anteriores:
        try:
            r = redis_client.from_url(redis_url)
            r.ft(redis_index).dropindex(delete_documents=True)
            print(f"🧹 Índice '{redis_index}' eliminado correctamente.")
        except Exception as e:
            print(f"⚠️ No se pudo eliminar el índice '{redis_index}' (puede que no exista): {e}")

    index_schema = {
        "name": "TEXT",
        "description": "TEXT",
        "fuente": "TEXT",
        "url": "TEXT",
        "tipo_documento": "TEXT",
        "relevancia": "TEXT",
        "explicacion": "TEXT",
        "validado": "NUMERIC"
    }

    print(f"🚀 Iniciando indexación de {len(documentos)} documentos (con control de tokens)...")

    errores = []
    indexados = []
    lote_actual = []
    tokens_lote = 0

    for i, doc in enumerate(documentos):
        texto = doc.page_content
        tokens_doc = contar_tokens(texto)

        if tokens_doc > SAFE_TOKENS:
            errores.append({
                "indice": i + 1,
                "name": doc.metadata.get('name', f'doc_{i}'),
                "tokens": tokens_doc,
                "error": "Supera SAFE_TOKENS individualmente"
            })
            continue

        # 👇 Añadir campo "validado"
        doc.metadata["validado"] = 0
        
        if tokens_lote + tokens_doc > SAFE_TOKENS:
            # Indexar lote actual
            try:
                Redis.from_documents(
                    lote_actual,
                    embedding=embeddings,
                    redis_url=redis_url,
                    index_name=redis_index,
                    index_schema=index_schema
                )
                indexados.extend(lote_actual)
                print(f"✅ Lote de {len(lote_actual)} documentos indexado.")
            except Exception as e:
                print(f"❌ Error al indexar lote: {str(e)}")
                for j, d in enumerate(lote_actual):
                    errores.append({
                        "indice": i - len(lote_actual) + j + 1,
                        "name": d.metadata.get('name', f'doc_{j}'),
                        "tokens": contar_tokens(d.page_content),
                        "error": f"Error en lote: {str(e)}"
                    })
            # Resetear lote
            lote_actual = []
            tokens_lote = 0

        lote_actual.append(doc)
        tokens_lote += tokens_doc

    # Indexar último lote si quedó algo pendiente
    if lote_actual:
        try:
            Redis.from_documents(
                lote_actual,
                embedding=embeddings,
                redis_url=redis_url,
                index_name=redis_index,
                index_schema=index_schema
            )
            indexados.extend(lote_actual)
            print(f"✅ Último lote de {len(lote_actual)} documentos indexado.")
        except Exception as e:
            print(f"❌ Error en último lote: {str(e)}")
            for j, d in enumerate(lote_actual):
                errores.append({
                    "indice": len(indexados) + j + 1,
                    "name": d.metadata.get('name', f'doc_{j}'),
                    "tokens": contar_tokens(d.page_content),
                    "error": f"Error en lote final: {str(e)}"
                })

    print(f"📦 Total indexados: {len(indexados)} / {len(documentos)}")

    if errores:
        df_err = pd.DataFrame(errores)
        df_err.to_csv("errores_indexacion.csv", index=False, encoding="utf-8-sig")
        print("📄 Errores registrados en 'errores_indexacion.csv'")

    return len(indexados)

In [82]:
indexar_en_redis(documentos, redis_url, redis_index, gpt_key, eliminar_anteriores=False)

`index_schema` does not match generated metadata schema.
If you meant to manually override the schema, please ignore this message.
index_schema: {'name': 'TEXT', 'description': 'TEXT', 'fuente': 'TEXT', 'url': 'TEXT', 'tipo_documento': 'TEXT', 'relevancia': 'TEXT', 'explicacion': 'TEXT', 'validado': 'NUMERIC'}
generated_schema: {'text': [{'name': 'name'}, {'name': 'description'}, {'name': 'fuente'}, {'name': 'url'}, {'name': 'tipo_documento'}, {'name': 'relevancia'}, {'name': 'explicacion'}], 'numeric': [{'name': 'validado'}], 'tag': []}



🚀 Iniciando indexación de 7 documentos (con control de tokens)...
✅ Último lote de 7 documentos indexado.
📦 Total indexados: 7 / 7


7