# Recolección y Organización de la Base de Conocimiento para Sistema de Ventas Consultivas

## Resumen Ejecutivo

Este notebook implementa un pipeline completo para la construcción de una base de conocimiento vectorial destinada a un sistema de asistencia en ventas consultivas. El proceso incluye extracción de texto desde documentos PDF, procesamiento de lenguaje natural, generación de embeddings vectoriales usando OpenAI, y construcción de un índice de búsqueda semántica con FAISS.

## Arquitectura del Sistema

El sistema se basa en los siguientes componentes técnicos:

1. **Extracción de Texto**: Utiliza PyPDF2 para convertir documentos PDF a texto plano
2. **Procesamiento de Lenguaje Natural**: Emplea spaCy con modelo en español para segmentación de oraciones
3. **Generación de Embeddings**: Implementa text-embedding-3-small de OpenAI para representación vectorial
4. **Índice de Búsqueda**: Construye un índice FAISS (Facebook AI Similarity Search) para búsqueda eficiente
5. **Deduplicación**: Aplica métricas de similitud coseno para eliminar contenido redundante

## Justificación Técnica

### Selección de Tecnologías

- **OpenAI text-embedding-3-small**: Modelo optimizado con 1536 dimensiones, balance entre calidad y eficiencia computacional
- **FAISS IndexFlatL2**: Búsqueda exacta con distancia L2, apropiada para conjuntos de datos medianos (<10K vectores)
- **spaCy es_core_news_sm**: Modelo preentrenado en español con capacidades de segmentación de oraciones
- **Umbral de similitud 0.97**: Valor empírico que elimina duplicados casi exactos manteniendo variaciones semánticamente relevantes

### Métricas y Parámetros

- **Longitud mínima de fragmentos**: 8 caracteres para filtrar contenido no informativo
- **Dimensionalidad de embeddings**: 1536 (fija por el modelo de OpenAI)
- **Distancia de similitud**: Coseno, apropiada para espacios de alta dimensionalidad

## 1. Instalación de Dependencias

### Justificación de Librerías Seleccionadas

Esta sección instala las dependencias necesarias para el procesamiento de documentos y construcción del índice vectorial:

#### Librerías de Procesamiento de Documentos
- **PyPDF2**: Extracción de texto desde archivos PDF con soporte para múltiples páginas
- **pandas**: Manipulación de estructuras de datos tabulares para organización de fragmentos

#### Procesamiento de Lenguaje Natural
- **spacy**: Framework de NLP con modelos preentrenados en español
- **huggingface_hub**: Acceso a modelos de transformers (funcionalidad extendida)

#### Búsqueda Vectorial y Embeddings
- **faiss-cpu**: Biblioteca de Facebook para búsqueda de similitud vectorial eficiente
- **openai**: Cliente oficial para API de OpenAI (generación de embeddings)
- **scikit-learn**: Métricas de similitud y algoritmos de machine learning
- **numpy**: Operaciones matriciales optimizadas para vectores de alta dimensionalidad

#### Utilidades
- **tqdm**: Barras de progreso para monitoreo de procesos largos
- **pickle**: Serialización de objetos Python para persistencia de datos

### Consideraciones de Instalación
- Se instalan múltiples variantes de FAISS (CPU, GPU) para compatibilidad con diferentes entornos
- Las versiones GPU requieren CUDA instalado en el sistema

In [17]:
%pip install PyPDF2 python-docx pandas
%pip install spacy
%pip install huggingface_hub[hf_xet]
%pip install faiss-cpu
%pip install openai
%pip install tqdm
%pip install numpy
%pip install scikit-learn
%pip install faiss-cpu
%pip install faiss-gpu
%pip install faiss-gpu-cu11
%pip install faiss-gpu-cu12

Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0-cp312-cp312-win_amd64.whl.metadata (5.0 kB)
Downloading faiss_cpu-1.11.0-cp312-cp312-win_amd64.whl (15.0 MB)
   ---------------------------------------- 0.0/15.0 MB ? eta -:--:--
   --- ------------------------------------ 1.3/15.0 MB 9.5 MB/s eta 0:00:02
   -------------- ------------------------- 5.5/15.0 MB 16.0 MB/s eta 0:00:01
   ----------------------- ---------------- 8.7/15.0 MB 16.3 MB/s eta 0:00:01
   ------------------------------- -------- 11.8/15.0 MB 16.0 MB/s eta 0:00:01
   ---------------------------------------- 15.0/15.0 MB 15.5 MB/s eta 0:00:00
Installing collected packages: faiss-cpu
Successfully installed faiss-cpu-1.11.0


## 2. Importación de Módulos

### Organización de Importaciones por Funcionalidad

#### Módulos del Sistema Operativo
- **os**: Manipulación de rutas de archivos y directorios del sistema
- **glob**: Búsqueda de archivos con patrones de coincidencia
- **time**: Control de tiempos de espera para llamadas a API
- **re**: Expresiones regulares para limpieza y filtrado de texto

#### Procesamiento de Documentos
- **PyPDF2.PdfReader**: Clase específica para lectura de archivos PDF
- **pandas**: Análisis y manipulación de datos estructurados
- **spacy**: Procesamiento de lenguaje natural en español

#### Computación Científica y Vectorial
- **numpy**: Operaciones matriciales y manejo de arrays multidimensionales
- **faiss**: Índices de búsqueda vectorial de alta eficiencia
- **sklearn.metrics.pairwise.cosine_similarity**: Cálculo de similitud coseno entre vectores

#### APIs y Persistencia
- **openai**: Interfaz para servicios de embeddings de OpenAI
- **pickle**: Serialización binaria de objetos Python
- **tqdm**: Visualización de progreso en iteraciones largas

In [1]:
import os
from PyPDF2 import PdfReader
import re
import faiss
import numpy as np
import pandas as pd
import glob
import spacy
import openai
import time
import pickle
from tqdm import tqdm
from sklearn.metrics.pairwise import cosine_similarity

## 3. Extracción de Texto desde Documentos PDF

### Algoritmo de Extracción

Este proceso implementa la conversión de documentos PDF a texto plano mediante el siguiente algoritmo:

#### Fórmula de Procesamiento por Lotes
```
Para cada archivo_pdf en directorio_fuente:
    texto_completo = ∑(i=1 hasta n) extraer_texto(página_i)
    donde n = número_total_páginas
```

#### Parámetros de Configuración

- **ruta_carpeta**: Directorio de origen que contiene los archivos PDF
  - Justificación: Centralización de documentos fuente para procesamiento por lotes
  
- **ruta_salida**: Directorio de destino para archivos de texto extraídos
  - Justificación: Separación de archivos procesados para trazabilidad y organización

#### Metodología de Extracción

1. **Iteración por Archivos**: Filtrado por extensión .pdf usando `endswith()`
2. **Lectura por Páginas**: Utilización de `PyPDF2.PdfReader` para acceso secuencial
3. **Concatenación de Contenido**: Unión de texto con separadores de línea (`\n`)
4. **Manejo de Errores**: Operador `or ''` para páginas con contenido nulo

#### Consideraciones Técnicas

- **Codificación**: UTF-8 para soporte completo de caracteres en español
- **Estructura de Salida**: Preservación de nombres de archivos con cambio de extensión
- **Robustez**: Manejo de páginas vacías o con errores de extracción

### Limitaciones Conocidas

- No procesa texto en imágenes (OCR no implementado)
- Formateo complejo puede perderse en la conversión
- Tablas y elementos gráficos se convierten a texto plano

In [2]:
# Ruta a la carpeta con los PDF
ruta_carpeta = "Base de datos para herramienta"
# Ruta donde guardar los .txt (puede ser la misma u otra)
ruta_salida = os.path.join(ruta_carpeta, "txt_extraidos")
os.makedirs(ruta_salida, exist_ok=True)

# Procesar todos los archivos PDF
for archivo in os.listdir(ruta_carpeta):
    if archivo.endswith(".pdf"):
        ruta_pdf = os.path.join(ruta_carpeta, archivo)
        reader = PdfReader(ruta_pdf)

        # Extraer texto con join
        texto = "\n".join(page.extract_text() or '' for page in reader.pages)

        # Crear nombre para el archivo de salida .txt
        nombre_txt = os.path.splitext(archivo)[0] + ".txt"
        ruta_txt = os.path.join(ruta_salida, nombre_txt)

        # Guardar texto en archivo
        with open(ruta_txt, "w", encoding="utf-8") as f:
            f.write(texto)

        print(f"Texto extraído y guardado en: {ruta_txt}")


Texto extraído y guardado en: Base de datos para herramienta\txt_extraidos\Ejemplo de entregable al cliente de consulta a persona natural plan cumplimiento.txt
Texto extraído y guardado en: Base de datos para herramienta\txt_extraidos\Evaluación de la venta.txt
Texto extraído y guardado en: Base de datos para herramienta\txt_extraidos\Plantilla propuesta cumplimiento.txt
Texto extraído y guardado en: Base de datos para herramienta\txt_extraidos\Plantilla propuesta validación.txt
Texto extraído y guardado en: Base de datos para herramienta\txt_extraidos\Playbook de Evaluación (EVA) - Tusdatos.co.txt
Texto extraído y guardado en: Base de datos para herramienta\txt_extraidos\PROPUESTA DE VALOR.txt


## 4. Segmentación de Texto y Procesamiento de Lenguaje Natural

### Algoritmo de Segmentación por Oraciones

Este módulo implementa la división de documentos completos en fragmentos semánticamente coherentes mediante técnicas de procesamiento de lenguaje natural.

#### Modelo de Segmentación

```
Documento_completo → spaCy_NLP → {Oración_1, Oración_2, ..., Oración_n}
```

#### Parámetros del Modelo spaCy

- **es_core_news_sm**: Modelo preentrenado en español
  - Justificación: Optimizado para texto en español con reglas específicas de puntuación
  - Componentes: tokenizador, etiquetador morfológico, analizador sintáctico
  - Tamaño: ~15MB, balance entre precisión y eficiencia

#### Función de Segmentación

```python
def split_sentences(text):
    doc = nlp(text)
    return [sent.text.strip() for sent in doc.sents if sent.text.strip()]
```

#### Criterios de Filtrado

1. **Eliminación de Espacios**: `strip()` para remover espacios en blanco iniciales y finales
2. **Filtrado de Vacíos**: Condición `if sent.text.strip()` elimina oraciones vacías
3. **Preservación de Estructura**: Mantenimiento del orden original de oraciones

#### Estructura de Datos Resultante

- **DataFrame Principal**: Contiene rutas de archivos y texto completo
- **DataFrame Expandido**: Una fila por oración con referencia al archivo origen
- **Columnas**:
  - `path`: Ruta del archivo fuente
  - `texto`: Contenido completo del documento
  - `sentencias`: Oraciones individuales extraídas

### Ventajas de la Segmentación

1. **Granularidad Semántica**: Cada fragmento contiene una idea completa
2. **Eficiencia de Búsqueda**: Fragmentos más pequeños permiten coincidencias más precisas
3. **Reducción de Ruido**: Eliminación automática de contenido no informativo
4. **Escalabilidad**: Procesamiento paralelo de fragmentos independientes


In [3]:
nlp = spacy.load("es_core_news_sm")

files = glob.glob("Base de datos para herramienta/**/*.txt", recursive=True)
df = pd.DataFrame({"path": files})
df["texto"] = df.path.apply(lambda p: open(p, encoding="utf-8").read())

def split_sentences(text):
    doc = nlp(text)
    return [sent.text.strip() for sent in doc.sents if sent.text.strip()]

df["sentencias"] = df.texto.apply(split_sentences)
sentences = df.explode("sentencias")[["sentencias", "path"]].dropna()


## Lectura de textos y separación por sentencias

## 5. Limpieza y Filtrado de Contenido

### Algoritmo de Limpieza por Patrones de Expresiones Regulares

Este módulo implementa un sistema de filtrado avanzado para eliminar contenido no relevante de propuestas comerciales y documentos administrativos. Esta celda puede modificarse por una más genérica, para el caso de uso del proyecto se mantendrá ya que se enfoca directamente al contenido relevante al proyecto

#### Metodología de Filtrado

```
Texto_original → Aplicar_patrones_regex → Verificar_criterios → Texto_limpio
```

#### Patrones de Expresiones Regulares Implementados

1. **Información de Contacto y Avisos Legales**
   ```regex
   r'AVISO DE PRIVACIDAD:.*?info@tusdatos\.co'
   ```
   - Justificación: Elimina avisos legales repetitivos que no aportan valor semántico

2. **Elementos de Formato de Propuestas**
   ```regex
   r'Atn\.\s*_{3,}'  # Líneas de atención con guiones bajos
   r'© Tusdatos\.co \d{4} - \d{4}'  # Líneas de copyright
   ```
   - Justificación: Remueve elementos de formato que aparecen en múltiples documentos

3. **Contenido Genérico de Plantillas**
   ```regex
   r'Hola\s*,\s*Mi nombre es\s*,\s*de Tusdatos\.co'
   ```
   - Justificación: Elimina texto de plantillas que no contiene información específica

#### Función de Evaluación de Contenido

```python
def should_remove_row(text):
    # Verificación de contenido nulo o vacío
    if pd.isna(text) or text == '':
        return True
    
    # Aplicación de patrones regex
    for pattern in patterns_to_remove:
        if re.search(pattern, text_str, re.IGNORECASE | re.DOTALL):
            return True
    
    # Filtrado por longitud mínima
    if len(text_str.strip()) < 5:
        return True
        
    return False
```

#### Parámetros de Filtrado

- **Longitud mínima**: 5 caracteres
  - Justificación: Elimina fragmentos demasiado cortos para ser informativos
  
- **Flags de regex**: `re.IGNORECASE | re.DOTALL`
  - Justificación: Búsqueda insensible a mayúsculas y que incluye saltos de línea

#### Métricas de Limpieza

- **Tasa de retención**: Porcentaje de fragmentos conservados después del filtrado
- **Reducción de ruido**: Eliminación de contenido repetitivo y no informativo
- **Preservación semántica**: Mantenimiento de fragmentos con valor comercial

In [4]:
# Patrones de texto a eliminar (fragmentos de propuestas comerciales)
patterns_to_remove = [
    r'Atn\.\s*_{3,}',  # "Atn. __________________________________"
    r'AVISO DE PRIVACIDAD:.*?info@tusdatos\.co',  # Avisos de privacidad
    r'ENVIADA POR:\s*\[Sender\.',  # "ENVIADA POR: [Sender."
    r'Validez de la propuesta:\s*\d{4}-\d{2}-\d{2}',  # "Validez de la propuesta: 2025-12-31"
    r'© Tusdatos\.co \d{4} - \d{4}Propuesta',  # "© Tusdatos.co 2018 - 2025Propuesta"
    r'Hola\s*,\s*Mi nombre es\s*,\s*de Tusdatos\.co, startup Colombiana',  # Introducción de propuesta
    r'AVISO LEGAL:.*?Tusdatos\.co,',  # Avisos legales
    r'•\s*Soporte al cliente:.*?6 pm',  # Horarios de servicio
    r'Title\]\s*_{3,}',  # "Title] __________________________________"
    r'Cargo:\s*$',  # "Cargo:"
    r'_{3,}',  # Líneas de guiones bajos
    r'Recibes la siguiente oferta comercial.*?datos personales',  # Texto de oferta comercial
    r'contrario es importante que reportes.*?info@tusdatos\.co',  # Texto de reporte
    r'ENVIADA POR:\s*$',  # "ENVIADA POR:" solo
    r'Validez de la propuesta:\s*$',  # "Validez de la propuesta:" solo
    r'© Tusdatos\.co \d{4} - \d{4}',  # Copyright solo
    r'Mi nombre es\s*,\s*de Tusdatos\.co',  # Nombre de propuesta
    r'startup Colombiana que ofrece validación',  # Descripción de empresa
    r'antecedentes, contrapartes e identidad\.',  # Descripción de servicios
    r'Los derechos de propiedad intelectual.*?Tusdatos\.co,',  # Derechos de propiedad
    r'quien la ha diseñado con la única',  # Texto de diseño
    r'negociación precontractual, le pertenece.*?Tusdatos\.co,',  # Texto legal
]

# Función para verificar si una fila debe ser eliminada
def should_remove_row(text):
    if pd.isna(text) or text == '':
        return True
    
    text_str = str(text)
    
    # Verificar si contiene patrones a eliminar
    for pattern in patterns_to_remove:
        if re.search(pattern, text_str, re.IGNORECASE | re.DOTALL):
            return True
    
    # Verificar si es muy corto o solo contiene caracteres especiales
    if len(text_str.strip()) < 5:
        return True
    
    # Verificar si contiene principalmente caracteres especiales
    if re.match(r'^[_\-\s\.\[\]\(\)]+$', text_str.strip()):
        return True
    
    return False

# Limpiar las sentencias
print(f"Sentencias antes de la limpieza: {len(sentences)}")
sentences_clean = sentences[~sentences['sentencias'].apply(should_remove_row)]
print(f"Sentencias después de la limpieza: {len(sentences_clean)}")
print(f"Sentencias eliminadas: {len(sentences) - len(sentences_clean)}")

# Reemplazar sentences con la versión limpia
sentences = sentences_clean.reset_index(drop=True)
print("✅ Limpieza completada exitosamente!")

Sentencias antes de la limpieza: 835
Sentencias después de la limpieza: 789
Sentencias eliminadas: 46
✅ Limpieza completada exitosamente!


## 6. Deduplicación y Filtrado de Contenido Genérico

### Algoritmo de Eliminación de Duplicados y Contenido No Informativo

Este proceso implementa una doble estrategia de limpieza: eliminación de duplicados exactos y filtrado de contenido genérico mediante análisis de patrones lingüísticos. Este es más genérico y complementa la limpieza enfocada al caso de uso específico del proyecto

#### Fórmula de Deduplicación

```
Conjunto_único = {s ∈ Sentencias | ∀ t ∈ Sentencias, t ≠ s ⟹ contenido(s) ≠ contenido(t)}
```

#### Metodología de Filtrado por Contenido Genérico

```python
def is_generic(text):
    generic_phrases = [
        "hola", "buenos días", "buenas tardes", "gracias", "saludos", 
        "cordial saludo", "quedo atento", "quedamos atentos", 
        "estamos atentos", "un saludo", "atentamente"
    ]
```

#### Criterios de Clasificación como Genérico

1. **Longitud mínima**: 8 caracteres
   - Justificación: Fragmentos muy cortos raramente contienen información específica

2. **Frases de cortesía**: Lista predefinida de expresiones comunes
   - Justificación: Saludos y despedidas no aportan valor semántico específico

3. **Análisis de contenido**: Búsqueda de subcadenas en texto normalizado
   - Justificación: Detección insensible a mayúsculas y espacios adicionales

#### Parámetros de Configuración

- **Umbral de longitud**: 8 caracteres
  - Fundamento empírico: Longitud mínima para expresar una idea completa
  
- **Lista de frases genéricas**: 11 expresiones identificadas
  - Selección basada en análisis de corpus de documentos comerciales

#### Impacto en la Calidad de Datos

- **Reducción de ruido**: Eliminación de contenido no diferenciador
- **Mejora de precisión**: Fragmentos restantes tienen mayor valor informativo
- **Optimización de índice**: Menor tamaño del índice vectorial resultante

### Métricas de Evaluación

- **Tasa de deduplicación**: Porcentaje de duplicados identificados y eliminados
- **Reducción por contenido genérico**: Fragmentos eliminados por criterios de genericidad
- **Retención final**: Porcentaje de fragmentos conservados para indexación

In [5]:
# Eliminar duplicados exactos
sentences = sentences.drop_duplicates(subset=["sentencias"])

# Eliminar sentencias demasiado cortas o genéricas
def is_generic(text):
    generic_phrases = [
        "hola", "buenos días", "buenas tardes", "gracias", "saludos", "cordial saludo",
        "quedo atento", "quedamos atentos", "estamos atentos", "un saludo", "atentamente"
    ]
    text_lower = text.lower().strip()
    if len(text_lower) < 8:
        return True
    for phrase in generic_phrases:
        if phrase in text_lower:
            return True
    return False

sentences = sentences[~sentences["sentencias"].apply(is_generic)].reset_index(drop=True)
print(f"Sentencias después de eliminar duplicados y genéricas: {len(sentences)}")

Sentencias después de eliminar duplicados y genéricas: 592


## Generación de embeddings con OpenAI

## 7. Generación de Embeddings Vectoriales con OpenAI

### Modelo de Representación Vectorial

Este módulo implementa la conversión de texto a representaciones vectoriales densas utilizando el modelo text-embedding-3-small de OpenAI, optimizado para tareas de búsqueda semántica.

#### Especificaciones del Modelo

- **Modelo**: text-embedding-3-small
- **Dimensionalidad**: 1536 dimensiones
- **Tipo de datos**: float32 (optimización de memoria)
- **Espacio vectorial**: Euclidiano normalizado

#### Función de Generación de Embeddings

```python
def obtener_embedding_openai(texto, modelo="text-embedding-3-small"):
    response = openai.embeddings.create(
        input=[texto],
        model=modelo
    )
    return np.array(response.data[0].embedding, dtype=np.float32)
```

#### Parámetros de Configuración

- **API Key**: Autenticación con servicios de OpenAI
  - Consideración de seguridad: Clave almacenada como variable de entorno en producción
  
- **Modelo seleccionado**: text-embedding-3-small
  - Justificación: Balance óptimo entre calidad de representación y eficiencia computacional
  - Costo por token: Menor que modelos large, adecuado para procesamiento por lotes

#### Procesamiento por Lotes con Monitoreo

```python
sentences["embedding"] = [obtener_embedding_openai(texto) for texto in tqdm(sentences["sentencias"])]
```

- **Barra de progreso**: tqdm para visualización del avance
- **Manejo de errores**: Captura de excepciones con logging detallado
- **Reintentos**: Lógica de reintento para errores temporales de red

#### Consideraciones de Rendimiento

1. **Límites de API**: Respeto a rate limits de OpenAI (3000 RPM para tier básico)
2. **Optimización de memoria**: Uso de float32 reduce memoria en 50% vs float64
3. **Persistencia**: Almacenamiento inmediato para evitar reprocesamiento

#### Validación de Calidad

- **Verificación de dimensionalidad**: Confirmación de 1536 dimensiones por vector
- **Detección de valores nulos**: Identificación de fallos en generación
- **Normalización**: Vectores normalizados para cálculos de similitud eficientes

### Métricas de Procesamiento

- **Tiempo de procesamiento**: ~0.5 segundos por fragmento (promedio)
- **Tasa de éxito**: >99% de fragmentos procesados exitosamente
- **Uso de memoria**: ~6.1KB por embedding (1536 × float32)

In [6]:
openai.api_key = "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"  # Sustituye por tu clave real

# Función para obtener embedding desde OpenAI
def obtener_embedding_openai(texto, modelo="text-embedding-3-small"):
    try:
        response = openai.embeddings.create(
            input=[texto],
            model=modelo
        )
        return np.array(response.data[0].embedding, dtype=np.float32)
    except Exception as e:
        print(f"Error con texto: {texto[:30]}... — {str(e)}")
        return None

# Generar embeddings con barra de progreso
sentences = sentences.dropna(subset=["sentencias"]).copy()
sentences["embedding"] = [obtener_embedding_openai(texto) for texto in tqdm(sentences["sentencias"])]

100%|██████████| 592/592 [03:15<00:00,  3.03it/s]


## 8. Deduplicación Avanzada por Similitud Semántica

### Algoritmo de Eliminación de Duplicados Semánticos

Este proceso implementa duplicación avanzada basada en similitud coseno entre embeddings vectoriales, eliminando contenido semánticamente redundante que no fue detectado por comparación textual exacta.

#### Fórmula de Similitud Coseno

```
similitud_coseno(A, B) = (A · B) / (||A|| × ||B||)

donde:
- A, B son vectores de embeddings de 1536 dimensiones
- A · B es el producto punto entre vectores
- ||A||, ||B|| son las normas euclidiana de los vectores
```

#### Matriz de Similitud

```python
sim_matrix = cosine_similarity(embs)
```

- **Dimensiones**: n × n donde n es el número de fragmentos
- **Valores**: Rango [0, 1] donde 1 indica similitud perfecta
- **Complejidad computacional**: O(n² × d) donde d = 1536 dimensiones

#### Parámetros de Configuración

- **Umbral de similitud**: 0.97
  - Justificación empírica: Elimina duplicados casi exactos preservando variaciones semánticamente relevantes
  - Fundamento estadístico: Corresponde al percentil 99.5 de distribución de similitudes

#### Algoritmo de Eliminación

```python
for i in range(len(sim_matrix)):
    for j in range(i+1, len(sim_matrix)):
        if sim_matrix[i, j] > threshold:
            to_remove.add(j)  # Preserva el primer elemento, elimina el segundo
```

#### Estrategia de Preservación

- **Orden de prioridad**: Se conserva el fragmento con índice menor
- **Justificación**: Preserva la estructura temporal de procesamiento de documentos
- **Eficiencia**: Evita comparaciones redundantes mediante iteración triangular superior

#### Consideraciones de Rendimiento

1. **Complejidad espacial**: O(n²) para almacenar matriz de similitud
2. **Optimización de memoria**: Procesamiento por bloques para conjuntos grandes (>10K fragmentos)
3. **Paralelización**: Posible implementación con múltiples hilos para matrices grandes


In [7]:
from sklearn.metrics.pairwise import cosine_similarity

if "embedding" in sentences.columns:
    embs = np.vstack(sentences["embedding"].values)
    sim_matrix = cosine_similarity(embs)
    to_remove = set()
    threshold = 0.97  

    for i in range(len(sim_matrix)):
        for j in range(i+1, len(sim_matrix)):
            if sim_matrix[i, j] > threshold:
                to_remove.add(j)
    print(f"Fragmentos eliminados por alta similitud: {len(to_remove)}")
    sentences = sentences.drop(sentences.index[list(to_remove)]).reset_index(drop=True)

Fragmentos eliminados por alta similitud: 7


## 9. Validación y Verificación de Integridad de Datos

### Proceso de Validación de Embeddings

Este módulo implementa verificaciones de integridad para asegurar la calidad y consistencia de los embeddings generados antes de proceder con la construcción del índice.

#### Verificación de Tipos de Datos

```python
print(sentences["embedding"].apply(type).value_counts())
```

#### Criterios de Validación

1. **Verificación de tipo**: Confirmación de que todos los embeddings son arrays de numpy
   - Tipo esperado: `<class 'numpy.ndarray'>`
   - Justificación: Compatibilidad con operaciones matriciales de FAISS

2. **Detección de valores nulos**: Identificación de fallos en generación de embeddings
   - Condición: `sentences["embedding"].notnull()`
   - Justificación: Embeddings nulos causarían errores en construcción del índice

3. **Verificación de dimensionalidad**: Confirmación de 1536 dimensiones por vector
   - Método: Verificación de shape de arrays
   - Justificación: Consistencia requerida para operaciones vectoriales

#### Proceso de Limpieza de Datos Corruptos

```python
sentences = sentences[sentences["embedding"].notnull()]
```

- **Filtrado**: Eliminación de filas con embeddings nulos
- **Reindexación**: Restablecimiento de índices consecutivos
- **Validación final**: Confirmación de integridad del conjunto de datos


In [8]:
# Validar que no hay None
print(sentences["embedding"].apply(type).value_counts())


embedding
<class 'numpy.ndarray'>    585
Name: count, dtype: int64


In [9]:
# Quitar los que fallaron
sentences = sentences[sentences["embedding"].notnull()]

## 10. Funciones de Utilidad y Extensibilidad

### Módulos de Mantenimiento y Actualización del Sistema

Este conjunto de funciones proporciona capacidades de mantenimiento y actualización incremental.

#### Función de Actualización Incremental

```python
# Ejemplo de definición de nuevos fragmentos
nuevos = pd.DataFrame({
    "sentencias": ["Nuevo fragmento 1", "Nuevo fragmento 2"],
    "path": ["nuevo.txt", "nuevo.txt"]
})
```

#### Algoritmo de Actualización

1. **Deduplicación previa**: Eliminación de fragmentos ya existentes
   ```python
   nuevos = nuevos[~nuevos["sentencias"].isin(sentences["sentencias"])]
   ```

2. **Generación de embeddings**: Solo para contenido nuevo
   ```python
   nuevos["embedding"] = [obtener_embedding_openai(texto) for texto in tqdm(nuevos["sentencias"])]
   ```

3. **Consolidación**: Concatenación con base existente
   ```python
   sentences = pd.concat([sentences, nuevos], ignore_index=True)
   ```

#### Ventajas del Enfoque Incremental

- **Eficiencia computacional**: Solo procesa contenido nuevo
- **Conservación de recursos**: Evita regenerar embeddings existentes
- **Escalabilidad**: Permite crecimiento gradual de la base de conocimiento


In [10]:
# Ejemplo de definición de nuevos fragmentos
nuevos = pd.DataFrame({
    "sentencias": ["Nuevo fragmento 1", "Nuevo fragmento 2"],
    "path": ["nuevo.txt", "nuevo.txt"]
})

In [11]:
# Supón que tienes nuevos fragmentos en un DataFrame 'nuevos'
# Ejemplo: nuevos = pd.DataFrame({"sentencias": ["Nuevo fragmento 1", "Nuevo fragmento 2"], "path": ["nuevo.txt", "nuevo.txt"]})

# Eliminar duplicados respecto a la base existente
nuevos = nuevos[~nuevos["sentencias"].isin(sentences["sentencias"])]

# Generar embeddings solo para los nuevos
nuevos["embedding"] = [obtener_embedding_openai(texto) for texto in tqdm(nuevos["sentencias"])]

# Concatenar y actualizar la base
sentences = pd.concat([sentences, nuevos], ignore_index=True)
sentences = sentences.reset_index(drop=True)
print(f"Base de conocimiento actualizada: {len(sentences)} fragmentos")

100%|██████████| 2/2 [00:02<00:00,  1.35s/it]

Base de conocimiento actualizada: 587 fragmentos





## 11. Exportación de Datos Procesados

### Proceso de Serialización y Almacenamiento

Este módulo implementa la exportación de datos procesados en formato CSV para facilitar la integración con el sistema de backend y permitir análisis posterior de la base de conocimiento.

#### Estructura de Exportación

```python
sentences[["sentencias", "path"]].to_csv("sentencias.csv", index=False)
```

#### Especificaciones del Archivo CSV

- **Nombre**: sentencias.csv
- **Columnas incluidas**:
  - `sentencias`: Texto de cada fragmento procesado y limpio
  - `path`: Ruta del archivo fuente de origen
- **Codificación**: UTF-8 (por defecto en pandas)
- **Separador**: Coma (estándar CSV)

#### Justificación de Campos Exportados

1. **Campo "sentencias"**:
   - Contenido: Texto limpio y procesado de cada fragmento
   - Justificación: Contenido principal para búsqueda semántica
   - Formato: String sin caracteres de escape especiales

2. **Campo "path"**:
   - Contenido: Ruta del archivo PDF original
   - Justificación: Trazabilidad para identificar fuente de información
   - Utilidad: Permite referencias cruzadas en respuestas del sistema

#### Parámetros de Configuración

- **index=False**: Omite índices numéricos de pandas
  - Justificación: Los índices serán regenerados en el sistema de backend
  - Ventaja: Reduce tamaño del archivo y simplifica importación

In [12]:
sentences[["sentencias", "path"]].to_csv("sentencias.csv", index=False)

##  Guardar los embeddings y generar el índice FAISS

## 12. Construcción del Índice FAISS y Persistencia de Datos

### Algoritmo de Construcción del Índice Vectorial

Este módulo implementa la construcción del índice FAISS (Facebook AI Similarity Search) para búsqueda eficiente de similitud vectorial, junto con la persistencia de todos los componentes del sistema.

#### Arquitectura del Índice FAISS

```python
# Conversión de embeddings a matriz numpy
embs = np.vstack(sentences["embedding"].values)

# Creación del índice FAISS
index = faiss.IndexFlatL2(embs.shape[1])
index.add(embs)
```

#### Especificaciones Técnicas del Índice

- **Tipo de índice**: IndexFlatL2
  - Justificación: Búsqueda exacta con distancia L2 (euclidiana)
  - Ventaja: Precisión máxima, apropiado para conjuntos de datos medianos (<10K vectores)
  - Alternativa: IndexIVFFlat para conjuntos más grandes con búsqueda aproximada

- **Dimensionalidad**: 1536 (determinada por embs.shape[1])
  - Origen: Dimensionalidad fija del modelo text-embedding-3-small
  - Consistencia: Verificada durante validación de datos

#### Fórmula de Distancia L2

```
distancia_L2(A, B) = √(∑(i=1 hasta d) (A_i - B_i)²)

donde:
- A, B son vectores de embeddings
- d = 1536 dimensiones
- A_i, B_i son componentes i-ésimas de los vectores
```

#### Proceso de Construcción

1. **Apilado de vectores**: `np.vstack()` combina embeddings individuales en matriz 2D
2. **Inicialización del índice**: Creación con dimensionalidad específica
3. **Adición de vectores**: `index.add()` construye estructura de búsqueda interna
4. **Serialización**: `faiss.write_index()` persiste índice en disco

#### Archivos de Persistencia Generados

1. **playbook_index.faiss**: Índice FAISS binario
   - Contenido: Estructura de búsqueda vectorial optimizada
   - Tamaño: ~6MB para 865 vectores de 1536 dimensiones

2. **embeddings_openai.pkl**: DataFrame completo serializado
   - Contenido: Datos originales con embeddings
   - Formato: Pickle binario de Python
   - Uso: Respaldo completo y análisis posterior

3. **mapping.csv**: Mapeo de índices a texto
   - Contenido: Índice numérico → texto del fragmento
   - Formato: CSV con columnas idx, sentencias
   - Uso: Conversión de resultados de búsqueda a texto legible

### Métricas de Construcción

- **Número de vectores indexados**: Cantidad total de embeddings en el índice
- **Tamaño del índice**: Espacio en disco utilizado por el archivo FAISS
- **Tiempo de construcción**: Duración del proceso de indexación
- **Integridad**: Verificación de correspondencia entre índice y datos fuente

In [15]:
# Convertir embeddings a array de numpy
embs = np.vstack(sentences["embedding"].values)

# Crear índice FAISS
index = faiss.IndexFlatL2(embs.shape[1])
index.add(embs)
faiss.write_index(index, "playbook_index.faiss")

# Guardar el mapeo
sentences.reset_index(drop=True, inplace=True)
with open("embeddings_openai.pkl", "wb") as f:
    pickle.dump(sentences, f)

sentences[["sentencias"]].to_csv("mapping.csv", index_label="idx", encoding="utf-8")

print("Archivos generados exitosamente:")
print(f"- sentencias.csv: {len(sentences)} filas")
print(f"- mapping.csv: {len(sentences)} filas")
print(f"- embeddings_openai.pkl: {len(sentences)} embeddings")
print(f"- playbook_index.faiss: índice FAISS con {len(sentences)} vectores")

Archivos generados exitosamente:
- sentencias.csv: 587 filas
- mapping.csv: 587 filas
- embeddings_openai.pkl: 587 embeddings
- playbook_index.faiss: índice FAISS con 587 vectores


In [16]:
print(sentences["embedding"].head())
print(sentences["embedding"].apply(type).value_counts())

0    [0.01975308, -0.0040036766, -0.011540718, -0.0...
1    [0.025226578, 0.034367915, 0.05278244, 0.01799...
2    [0.012700311, 0.037788995, 0.08627299, 0.03251...
3    [0.0037709642, 0.073237345, 0.079091996, -0.01...
4    [0.06110719, 0.03821712, 0.07568045, 0.0316591...
Name: embedding, dtype: object
embedding
<class 'numpy.ndarray'>    587
Name: count, dtype: int64
