# üîç Recuperaci√≥n de Documentos - Cat√°logo de Productos de Motos

En este notebook vamos a explorar y demostrar las capacidades de recuperaci√≥n de documentos usando **vectores h√≠bridos** (densos + dispersos) combinados con **filtros avanzados** sobre nuestro cat√°logo de productos de motos.

#### üéØ Objetivos

1. **Explorar la colecci√≥n indexada** - Conocer los valores √∫nicos para filtros
2. **B√∫squedas b√°sicas** - Consultas simples por texto
3. **Filtros individuales** - Marca, categor√≠a, precio, etc.
4. **Filtros combinados** - M√∫ltiples criterios simult√°neos
5. **B√∫squedas h√≠bridas avanzadas** - Vectores + filtros complejos

#### üìä Colecci√≥n: `repuesto_motos_mundibot`
- **Documentos indexados**: ~10,000 productos
- **Vectores densos**: OpenAI text-embedding-3-small (1536D)
- **Vectores dispersos**: SPLADE (Sparse Learned And Interpretable)
- **Filtros disponibles**: Marca, modelo, categor√≠a, precio, dimensiones, etc.


## 1. Configuraci√≥n inicial

In [None]:
import pandas as pd
import logging
from typing import List, Dict, Any
from src.core.domains.products import ProductSearchService, PRODUCTS_SCHEMA
from src.core.retriever import create_collection_config, HybridRetriever
from src.core.retriever.collection_manager import CollectionManager
from src.core.settings import settings
from qdrant_client import models

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

In [None]:
# --- Funci√≥n para mostrar resultados de manera clara ---
def mostrar_resultados(response, titulo: str):
    """
    Mostrar resultados de b√∫squeda de forma organizada.
    
    Args:
        response: SearchResponse del retriever
        titulo: T√≠tulo descriptivo para la b√∫squeda
    """
    print(f"üìã {titulo}")
    print(f"   Resultados encontrados: {len(response.results)}")
    
    if hasattr(response, 'search_time_ms') and response.search_time_ms:
        print(f"   Tiempo de b√∫squeda: {response.search_time_ms:.1f}ms")
    
    print()
    
    if not response.results:
        print("   ‚ùå No se encontraron resultados")
        return
    
    for i, result in enumerate(response.results, 1):
        payload = result.payload
        titulo_producto = payload.get('titulo', 'Sin t√≠tulo')
        marca = payload.get('marca', 'Sin marca')
        precio = payload.get('precio', 0)
        categoria = payload.get('categoria', 'Sin categor√≠a')
        
        print(f"   {i}. {titulo_producto}")
        print(f"      Marca: {marca} | Categor√≠a: {categoria}")
        print(f"      Precio: ${precio:,.0f} COP | Score: {result.score:.3f}")
        
        # Mostrar marcas compatibles si existen
        marcas_lista = payload.get('marcas_lista', [])
        if marcas_lista:
            marcas_str = ', '.join(marcas_lista[:3])  # Mostrar solo las primeras 3
            if len(marcas_lista) > 3:
                marcas_str += f" (+{len(marcas_lista)-3} m√°s)"
            print(f"      Compatible con: {marcas_str}")
        
        print()

In [None]:
def mostrar_resultados_filtros(response, titulo: str, filtros_aplicados: dict = None):
    """
    Mostrar resultados con informaci√≥n sobre filtros aplicados.
    
    Args:
        response: SearchResponse del retriever
        titulo: T√≠tulo descriptivo para la b√∫squeda
        filtros_aplicados: Diccionario con los filtros que se aplicaron
    """
    print(f"üìã {titulo}")
    print(f"   Resultados encontrados: {len(response.results)}")
    
    if filtros_aplicados:
        print("   üîç Filtros aplicados:")
        for filtro, valor in filtros_aplicados.items():
            if valor is not None:
                print(f"      ‚Ä¢ {filtro}: {valor}")
    
    if hasattr(response, 'search_time_ms') and response.search_time_ms:
        print(f"   ‚è±Ô∏è Tiempo de b√∫squeda: {response.search_time_ms:.1f}ms")
    
    print()
    
    if not response.results:
        print("   ‚ùå No se encontraron resultados con estos filtros")
        return
    
    for i, result in enumerate(response.results, 1):
        payload = result.payload
        titulo_producto = payload.get('titulo', 'Sin t√≠tulo')
        marca = payload.get('marca', 'Sin marca')
        precio = payload.get('precio', 0)
        categoria = payload.get('categoria', 'Sin categor√≠a')
        tipo_repuesto = payload.get('tipo_repuesto', 'N/A')
        
        print(f"   {i}. {titulo_producto}")
        print(f"      Marca: {marca} | Categor√≠a: {categoria} | Tipo: {tipo_repuesto}")
        print(f"      Precio: ${precio:,.0f} COP | Score: {result.score:.3f}")
        
        # Mostrar marcas compatibles
        marcas_lista = payload.get('marcas_lista', [])
        if marcas_lista:
            marcas_str = ', '.join(marcas_lista[:3])
            if len(marcas_lista) > 3:
                marcas_str += f" (+{len(marcas_lista)-3} m√°s)"
            print(f"      Compatible con: {marcas_str}")
        
        print()

#### **OPCI√ìN 1**: Usando ProductSearchService

In [None]:
print("üîß Configuraci√≥n con ProductSearchService:")

# Inicializaci√≥n simple - solo necesitas el nombre de la colecci√≥n
product_service = ProductSearchService("repuesto_motos_mundibot")

print(f"   Colecci√≥n: {product_service.collection_name}")
print(f"   Vector denso: {product_service.config.dense_vector_name}")
print(f"   Vector disperso: {product_service.config.sparse_vector_name}")
print(f"   Modelo OpenAI: {product_service.config.openai_model}")

# Verificar estado de la colecci√≥n
collection_manager = CollectionManager(product_service.config)
if collection_manager.collection_exists():
    total_docs = collection_manager.count_points(exact=True)
    print(f"   Documentos en colecci√≥n: {total_docs:,}")
    print("‚úÖ Colecci√≥n lista para b√∫squedas con ProductSearchService!")
else:
    print("‚ùå Error: La colecci√≥n no existe. Ejecuta primero el notebook de indexaci√≥n.")
    raise ValueError("Collection not found")

#### **OPCI√ìN 2**: Usando HybridRetriever gen√©rico

In [None]:
# --- OPCI√ìN 2: Usando HybridRetriever gen√©rico ---

# Configuraci√≥n gen√©rica usando la nueva funci√≥n
generic_config = create_collection_config(
    collection_name="repuesto_motos_mundibot",
    payload_indices=PRODUCTS_SCHEMA,
    # qdrant_url se toma autom√°ticamente de settings
    # Todos los dem√°s par√°metros tienen defaults inteligentes
)

# Inicializar retriever gen√©rico
retriever = HybridRetriever(generic_config)

print(f"   Colecci√≥n: {generic_config.collection_name}")
print(f"   Qdrant URL: {generic_config.qdrant_url}")
print(f"   Configuraci√≥n autom√°tica desde settings: ‚úÖ")

# Verificar estado
collection_manager_generic = CollectionManager(generic_config)
if collection_manager_generic.collection_exists():
    total_docs = collection_manager_generic.count_points(exact=True)
    print(f"   Documentos en colecci√≥n: {total_docs:,}")
    print("‚úÖ Colecci√≥n lista para b√∫squedas gen√©ricas!")

# --- Mostrar configuraci√≥n centralizada ---
print("\nüìã Configuraci√≥n centralizada desde settings:")
print(f"   Qdrant: {settings.qdrant_host}:{settings.qdrant_port}")
print(f"   Modelo embedding: {settings.embedding_model}")
print(f"   Dimensiones: {settings.embedding_dimensions}")
print(f"   Modelo sparse: {settings.sparse_model}")
print(f"   Batch size: {settings.default_batch_size}")
print(f"   API key configurada: {'‚úÖ' if settings.openai_api_key else '‚ùå'}")

print("\nüéâ Sistema listo! Usa:")
print("   ‚Ä¢ product_service.search_products() para b√∫squedas espec√≠ficas de productos")
print("   ‚Ä¢ retriever.search() para b√∫squedas gen√©ricas avanzadas")

##  2. Exploracion de la Coleccion

Antes de realizar b√∫squedas, vamos a explorar qu√© valores √∫nicos tenemos disponibles para cada campo de filtro. Esto nos ayudar√° a entender el cat√°logo y crear filtros efectivos

In [None]:
# --- Exploraci√≥n de Valores √önicos con Nueva Arquitectura ---
print("Explorando valores √∫nicos en la colecci√≥n...\n")

def get_unique_values(field_name: str, limit: int = 50) -> List[Any]:
    """
    Obtener valores √∫nicos de un campo usando la nueva arquitectura.
    
    Args:
        field_name: Nombre del campo a explorar
        limit: M√°ximo n√∫mero de valores √∫nicos a retornar
    """
    try:
        # Usar el collection_manager ya inicializado
        results = collection_manager.client.scroll(
            collection_name=product_service.collection_name,
            limit=1000,  # Muestra representativa
            with_payload=True,
            with_vectors=False
        )
        
        # Extraer valores √∫nicos del campo
        values = set()
        for point in results[0]:  # results es (points, next_page_offset)
            if hasattr(point, 'payload') and point.payload:
                value = point.payload.get(field_name)
                if value is not None:
                    # Si es una lista, agregar cada elemento
                    if isinstance(value, list):
                        values.update(value)
                    else:
                        values.add(value)
        
        # Convertir a lista ordenada y limitar
        unique_values = sorted(list(values))[:limit]
        return unique_values
        
    except Exception as e:
        logger.error(f"Error obteniendo valores para {field_name}: {e}")
        return []

# Campos principales para explorar (nombres exactos de la colecci√≥n)
campos_explorar = {
    'marcas_lista': 'Marcas de motos compatibles',
    'marca_original': 'Marcas originales de productos', 
    'categoria': 'Categor√≠as de repuestos',
    'subcategoria': 'Subcategor√≠as espec√≠ficas',
    'tipo_repuesto': 'Tipos de repuesto (ORIGINAL/GENERICO)',
    'modelos_lista': 'Modelos de motos compatibles',
    'es_llanta': 'Indicador de llantas (True/False)'
}

print("üìã Valores √∫nicos por campo:\n")
valores_unicos = {}

for campo, descripcion in campos_explorar.items():
    print(f"‚Ä¢ {descripcion} (campo: {campo}):")
    valores = get_unique_values(campo)
    valores_unicos[campo] = valores
    
    if valores:
        print(f"  Total √∫nicos: {len(valores)}")
        # Mostrar primeros 10 valores
        for i, valor in enumerate(valores[:10]):
            print(f"  {i+1:2d}. {valor}")
        if len(valores) > 10:
            print(f"  ... y {len(valores)-10} valores m√°s")
    else:
        print("  ‚ùå No se encontraron valores")
    print()

In [None]:
valores = get_unique_values("categoria")
print(valores)

In [None]:
# --- Exploraci√≥n de Rangos de Precios ---
print("üí∞ An√°lisis de precios:\n")

def get_price_stats() -> Dict[str, float]:
    """Obtener estad√≠sticas completas de precios."""
    try:
        results = collection_manager.client.scroll(
            collection_name=product_service.collection_name,
            limit=2000,  # Muestra grande para estad√≠sticas confiables
            with_payload=True,
            with_vectors=False
        )
        
        # Extraer precios v√°lidos
        precios = []
        for point in results[0]:
            if hasattr(point, 'payload') and point.payload:
                precio = point.payload.get('precio')
                if precio is not None and isinstance(precio, (int, float)) and precio > 0:
                    precios.append(precio)
        
        if precios:
            precios.sort()
            n = len(precios)
            return {
                'min': min(precios),
                'max': max(precios),
                'promedio': sum(precios) / n,
                'mediana': precios[n//2],
                'q1': precios[n//4],
                'q3': precios[3*n//4],
                'count': n
            }
        return {}
            
    except Exception as e:
        logger.error(f"Error obteniendo estad√≠sticas de precios: {e}")
        return {}

# Obtener y mostrar estad√≠sticas de precios
stats_precios = get_price_stats()

if stats_precios:
    print("üìä Estad√≠sticas de Precios (COP):")
    print(f"   Precio m√≠nimo: ${stats_precios['min']:,.0f}")
    print(f"   Precio m√°ximo: ${stats_precios['max']:,.0f}")
    print(f"   Precio promedio: ${stats_precios['promedio']:,.0f}")
    print(f"   Precio mediano: ${stats_precios['mediana']:,.0f}")
    print(f"   Q1 (25%): ${stats_precios['q1']:,.0f}")
    print(f"   Q3 (75%): ${stats_precios['q3']:,.0f}")
    print(f"   Productos con precio: {stats_precios['count']:,}")
    
    print(f"\nüí° Rangos sugeridos para filtros:")
    print(f"   Econ√≥mico: $0 - ${stats_precios['q1']:,.0f}")
    print(f"   Medio: ${stats_precios['q1']:,.0f} - ${stats_precios['q3']:,.0f}")
    print(f"   Premium: ${stats_precios['q3']:,.0f} - ${stats_precios['max']:,.0f}")
    
    # Guardar stats para uso posterior
    globals()['price_ranges'] = {
        'economico_max': stats_precios['q1'],
        'medio_min': stats_precios['q1'],
        'medio_max': stats_precios['q3'],
        'premium_min': stats_precios['q3']
    }
else:
    print("‚ùå No se pudieron obtener estad√≠sticas de precios")

print(f"\n‚úÖ Exploraci√≥n completada!")
print(f"üìù Usa estos valores para crear filtros efectivos en las b√∫squedas")

## 2. B√∫squedas B√°sicas con Vectores H√≠bridos

Ahora que conocemos la estructura de datos, vamos a realizar b√∫squedas usando vectores h√≠bridos (densos + dispersos) sin filtros para ver la capacidad sem√°ntica del sistema.

In [None]:
# --- B√∫squedas B√°sicas con ProductSearchService ---
print("Realizando b√∫squedas b√°sicas con ProductSearchService:\n")

# Ejemplo 1: B√∫squeda de comandos/controles
query1 = "comando derecho moto pulsar"
print(f"Ejecutando: await product_service.search_products('{query1}', limit=5)")
response1 = await product_service.search_products(query1, limit=5)
mostrar_resultados(response1, f"B√∫squeda: '{query1}'")

### Comparaci√≥n de Tipos de B√∫squeda

In [None]:
# --- Comparaci√≥n de Tipos de B√∫squeda ---
print("\nüî¨ Comparando tipos de b√∫squeda para el mismo query:\n")

query_test = "pastillas de freno yamaha"

# B√∫squeda h√≠brida (recomendada)
print(f"Ejecutando h√≠brida: await product_service.search_products('{query_test}', search_type='hybrid')")
response_hybrid = await product_service.search_products(query_test, search_type="hybrid", limit=3)
mostrar_resultados(response_hybrid, "B√∫squeda H√≠brida (Dense + Sparse)")

# B√∫squeda solo densa
print(f"Ejecutando densa: await product_service.search_products('{query_test}', search_type='dense')")
response_dense = await product_service.search_products(query_test, search_type="dense", limit=3)
mostrar_resultados(response_dense, "B√∫squeda Solo Densa (Sem√°ntica)")

# B√∫squeda solo sparse
print(f"Ejecutando sparse: await product_service.search_products('{query_test}', search_type='sparse')")
response_sparse = await product_service.search_products(query_test, search_type="sparse", limit=3)
mostrar_resultados(response_sparse, "B√∫squeda Solo Sparse (Palabras clave)")

##  3. Exploraci√≥n de B√∫squedas con Filtros

En esta secci√≥n exploraremos c√≥mo combinar filtros espec√≠ficos con diferentes tipos de b√∫squeda vectorial. Esto nos permite obtener resultados m√°s precisos y relevantes para casos de uso espec√≠ficos.

#### Tipos de B√∫squeda con Filtros:
- **Solo Filtros** (`filter_only`): B√∫squeda basada √∫nicamente en filtros, sin vectores
- **Filtros + Dense** (`dense`): B√∫squeda sem√°ntica + filtros espec√≠ficos  
- **Filtros + Sparse** (`sparse`): B√∫squeda por palabras clave + filtros espec√≠ficos
- **Filtros + Hybrid** (`hybrid`): B√∫squeda sem√°ntica + palabras clave + filtros (recomendado)

In [None]:
# --- 1. B√öSQUEDA SOLO CON FILTROS (SIN VECTORES) ---
print("üîç 1. B√öSQUEDA SOLO CON FILTROS (filter_only):")
print("   Busca productos usando √∫nicamente filtros, sin an√°lisis de texto\n")

# Ejemplo: Solo repuestos YAMAHA de categor√≠a ELECTRICO
filtros_yamaha_electrico = {
    'marcas_lista': ['YAMAHA'], 
    'tipo_repuesto': 'ORIGINAL'
}

response_filter_only = await product_service.search_products(
    query="",  # Query vac√≠o para filter_only
    search_type="filter_only",
    marcas_lista=filtros_yamaha_electrico['marcas_lista'],
    tipo_repuesto=filtros_yamaha_electrico['tipo_repuesto'],
    limit=5
)

mostrar_resultados_filtros(
    response_filter_only, 
    "Solo Filtros: Repuestos YAMAHA El√©ctricos Originales",
    filtros_yamaha_electrico
)

In [None]:
# --- 2. B√öSQUEDA DENSE + FILTROS ---
print("üîç 2. B√öSQUEDA SEM√ÅNTICA + FILTROS (dense):")
print("   Combina b√∫squeda sem√°ntica con filtros espec√≠ficos\n")

query_bateria = "bater√≠a recargable 12 voltios"
filtros_bateria = {
    'marcas_lista': ['YAMAHA', 'HONDA', 'SUZUKI'],
    'precio_max': 40000.0
}

response_dense_filter = await product_service.search_products(
    query=query_bateria,
    search_type="dense",
    marcas_lista=filtros_bateria['marcas_lista'],
    precio_max=filtros_bateria['precio_max'],
    limit=5
)

mostrar_resultados_filtros(
    response_dense_filter,
    f"Dense + Filtros: '{query_bateria}' con filtros",
    filtros_bateria
)

In [None]:
# --- 3. B√öSQUEDA SPARSE + FILTROS ---
print("üîç 3. B√öSQUEDA PALABRAS CLAVE + FILTROS (sparse):")
print("   Combina b√∫squeda por palabras clave exactas con filtros\n")

query_pastillas = "bater√≠a recargable 12 voltios"
filtros_frenos = {
    'marcas_lista': ['YAMAHA'],
    'categoria': ['ELECTRICO / ENCENDIDO'],
}

response_sparse_filter = await product_service.search_products(
    query=query_pastillas,
    search_type="sparse", 
    marcas_lista=filtros_frenos['marcas_lista'],
    categoria=filtros_frenos['categoria'],
    limit=5
)

mostrar_resultados_filtros(
    response_sparse_filter,
    f"Sparse + Filtros: '{query_pastillas}' con filtros",
    filtros_frenos
)

In [None]:
# --- 4. B√öSQUEDA H√çBRIDA + FILTROS (RECOMENDADA) ---
print("üîç 4. B√öSQUEDA H√çBRIDA + FILTROS (hybrid) - RECOMENDADA:")
print("   Combina sem√°ntica + palabras clave + filtros para m√°xima precisi√≥n\n")

query_aceite = "aceite motor sint√©tico"
filtros_aceite = {
    'categoria': ['MOTOR INTERNO'],
    'tipo_repuesto': 'ORIGINAL',
    'precio_min': 30000.0,
    'precio_max': 150000.0
}

response_hybrid_filter = await product_service.search_products(
    query=query_aceite,
    search_type="hybrid",
    # categoria=filtros_aceite['categoria'],
    tipo_repuesto=filtros_aceite['tipo_repuesto'],
    precio_min=filtros_aceite['precio_min'],
    precio_max=filtros_aceite['precio_max'],
    limit=5
)

mostrar_resultados_filtros(
    response_hybrid_filter,
    f"Hybrid + Filtros: '{query_aceite}' con filtros",
    filtros_aceite
)
