# Hybrid & Vector Search - Ungraph

Este notebook demuestra c√≥mo usar b√∫squeda vectorial y b√∫squeda h√≠brida en Ungraph.

## Objetivos

1. **B√∫squeda vectorial pura** - B√∫squeda por similitud sem√°ntica usando embeddings
2. **B√∫squeda h√≠brida** - Combinaci√≥n de texto y vectorial para mejores resultados
3. **Ajuste de pesos** - C√≥mo ajustar la importancia de texto vs vectorial
4. **Comparaci√≥n de m√©todos** - Cu√°ndo usar cada tipo de b√∫squeda
5. **Ejemplos pr√°cticos** - Casos de uso reales

## Tipos de B√∫squeda

- **Text Search**: B√∫squeda por palabras clave (full-text)
- **Vector Search**: B√∫squeda por similitud sem√°ntica (embeddings)
- **Hybrid Search**: Combinaci√≥n de ambas para mejores resultados

**Referencias:**
- [Gu√≠a de B√∫squeda](../../docs/guides/search.md)
- [API P√∫blica](../../docs/api/public-api.md)


In [None]:
def add_src_to_path(path_folder: str):
    ''' 
    Helper function for adding the "path_folder" directory to the path.
    '''
    import sys
    from pathlib import Path

    base_path = Path().resolve()
    for parent in [base_path] + list(base_path.parents):
        candidate = parent / path_folder
        if candidate.exists():
            parent_dir = candidate.parent
            if str(parent_dir) not in sys.path:
                sys.path.insert(0, str(parent_dir))
            if str(candidate) not in sys.path:
                sys.path.append(str(candidate))
            return

# Agregar carpetas necesarias al path
add_src_to_path(path_folder="src")
add_src_to_path(path_folder="src/utils")
add_src_to_path(path_folder="src/data")


In [None]:
# Importar librer√≠as necesarias
import sys
from pathlib import Path
from typing import List

# Importar ungraph
try:
    import ungraph
    print("‚úÖ Ungraph importado como paquete instalado")
except ImportError:
    import src
    ungraph = src
    print("‚úÖ Ungraph importado desde src/ (modo desarrollo)")

# Importar servicios espec√≠ficos
from infrastructure.services.neo4j_search_service import Neo4jSearchService
from infrastructure.services.huggingface_embedding_service import HuggingFaceEmbeddingService

print(f"üì¶ Ungraph version: {ungraph.__version__}")


## Parte 1: Configuraci√≥n y Datos de Prueba

Primero necesitamos tener datos en el grafo. Si no tienes datos, puedes usar el notebook de ingesta b√°sica primero.


In [None]:
# Verificar que tenemos datos en el grafo
from src.utils.graph_operations import graph_session

driver = graph_session()
try:
    with driver.session() as session:
        result = session.run("MATCH (c:Chunk) RETURN count(c) as count")
        count = result.single()["count"]
        print(f"üìä Chunks en el grafo: {count}")
        
        if count == 0:
            print("‚ö†Ô∏è  No hay chunks en el grafo. Por favor ingiere documentos primero.")
            print("   Puedes usar el notebook '0. Basic Ingestion.ipynb' para ingerir datos.")
        else:
            print("‚úÖ Datos disponibles para b√∫squeda")
finally:
    driver.close()


## Parte 2: B√∫squeda Vectorial Pura

La b√∫squeda vectorial usa embeddings para encontrar contenido sem√°nticamente similar, sin depender de palabras clave exactas.


In [None]:
# 1. Crear servicio de embeddings
embedding_service = HuggingFaceEmbeddingService()

# 2. Generar embedding de la query
query_text = "inteligencia artificial y machine learning"
print(f"üîç Query: '{query_text}'")
print("üìä Generando embedding...")

query_embedding = embedding_service.generate_embedding(query_text)
print(f"‚úÖ Embedding generado: {len(query_embedding.vector)} dimensiones")
print(f"   Modelo: {query_embedding.encoder_info}")


In [None]:
# 3. Realizar b√∫squeda vectorial
search_service = Neo4jSearchService()

print("üîç Realizando b√∫squeda vectorial...")
vector_results = search_service.vector_search(
    query_embedding=query_embedding,
    limit=5
)

print(f"\n‚úÖ Encontrados {len(vector_results)} resultados:\n")
for i, result in enumerate(vector_results, 1):
    print(f"Resultado {i}:")
    print(f"  Score: {result.score:.4f}")
    print(f"  Chunk ID: {result.chunk_id}")
    print(f"  Contenido: {result.content[:200]}...")
    if result.previous_chunk_content:
        print(f"  Contexto anterior: {result.previous_chunk_content[:100]}...")
    if result.next_chunk_content:
        print(f"  Contexto siguiente: {result.next_chunk_content[:100]}...")
    print()

search_service.close()


## Parte 3: B√∫squeda H√≠brida

La b√∫squeda h√≠brida combina b√∫squeda por texto (full-text) y b√∫squeda vectorial para obtener mejores resultados.


In [None]:
# B√∫squeda h√≠brida usando la funci√≥n de alto nivel
query_text = "deep learning y redes neuronales"

print(f"üîç Query: '{query_text}'")
print("üîç Realizando b√∫squeda h√≠brida (pesos por defecto: 30% texto, 70% vectorial)...\n")

hybrid_results = ungraph.hybrid_search(
    query_text=query_text,
    limit=5,
    weights=(0.3, 0.7)  # 30% texto, 70% vectorial
)

print(f"‚úÖ Encontrados {len(hybrid_results)} resultados:\n")
for i, result in enumerate(hybrid_results, 1):
    print(f"Resultado {i}:")
    print(f"  Score combinado: {result.score:.4f}")
    print(f"  Chunk ID: {result.chunk_id}")
    print(f"  Contenido: {result.content[:200]}...")
    print()


## Parte 4: Ajuste de Pesos en B√∫squeda H√≠brida

Los pesos determinan qu√© tan importante es cada tipo de b√∫squeda. Puedes ajustarlos seg√∫n tus necesidades.


In [None]:
# Comparar diferentes combinaciones de pesos
query_text = "computaci√≥n cu√°ntica"

weight_configs = [
    (0.7, 0.3, "M√°s peso a texto (palabras clave exactas)"),
    (0.5, 0.5, "Balanceado"),
    (0.3, 0.7, "M√°s peso a vectorial (conceptos sem√°nticos) - DEFAULT"),
    (0.2, 0.8, "Muy enfocado en sem√°ntica"),
]

print(f"üîç Query: '{query_text}'\n")
print("=" * 80)

for text_weight, vector_weight, description in weight_configs:
    print(f"\nüìä Configuraci√≥n: {description}")
    print(f"   Pesos: {text_weight*100:.0f}% texto, {vector_weight*100:.0f}% vectorial")
    
    results = ungraph.hybrid_search(
        query_text=query_text,
        limit=3,
        weights=(text_weight, vector_weight)
    )
    
    print(f"   Top 3 resultados:")
    for i, result in enumerate(results, 1):
        print(f"     {i}. Score: {result.score:.4f} | {result.content[:80]}...")


## Parte 5: Comparaci√≥n de M√©todos

Comparemos los tres tipos de b√∫squeda con la misma query.


In [None]:
# Comparar los tres m√©todos
query_text = "machine learning applications"

print(f"üîç Query: '{query_text}'\n")
print("=" * 80)

# 1. B√∫squeda por texto
print("\n1Ô∏è‚É£ B√öSQUEDA POR TEXTO (Full-text)")
print("-" * 80)
text_results = ungraph.search(query_text, limit=3)
for i, result in enumerate(text_results, 1):
    print(f"  {i}. Score: {result.score:.4f} | {result.content[:80]}...")

# 2. B√∫squeda vectorial
print("\n2Ô∏è‚É£ B√öSQUEDA VECTORIAL (Sem√°ntica)")
print("-" * 80)
embedding_service = HuggingFaceEmbeddingService()
query_embedding = embedding_service.generate_embedding(query_text)
search_service = Neo4jSearchService()
vector_results = search_service.vector_search(query_embedding, limit=3)
for i, result in enumerate(vector_results, 1):
    print(f"  {i}. Score: {result.score:.4f} | {result.content[:80]}...")
search_service.close()

# 3. B√∫squeda h√≠brida
print("\n3Ô∏è‚É£ B√öSQUEDA H√çBRIDA (Texto + Vectorial)")
print("-" * 80)
hybrid_results = ungraph.hybrid_search(query_text, limit=3, weights=(0.3, 0.7))
for i, result in enumerate(hybrid_results, 1):
    print(f"  {i}. Score: {result.score:.4f} | {result.content[:80]}...")


## Parte 6: Cu√°ndo Usar Cada Tipo de B√∫squeda

### B√∫squeda por Texto
- ‚úÖ **Cu√°ndo usar**: B√∫squedas por palabras clave exactas, t√©rminos t√©cnicos espec√≠ficos
- ‚úÖ **Ventajas**: Muy r√°pida, buena para t√©rminos exactos
- ‚ùå **Limitaciones**: No captura sin√≥nimos o conceptos relacionados

### B√∫squeda Vectorial
- ‚úÖ **Cu√°ndo usar**: Conceptos abstractos, b√∫squedas sem√°nticas, sin√≥nimos
- ‚úÖ **Ventajas**: Entiende significado, encuentra contenido relacionado
- ‚ùå **Limitaciones**: Puede ser m√°s lenta, requiere embeddings

### B√∫squeda H√≠brida
- ‚úÖ **Cu√°ndo usar**: La mayor√≠a de casos de uso, mejor precisi√≥n general
- ‚úÖ **Ventajas**: Combina lo mejor de ambos mundos
- ‚ùå **Limitaciones**: M√°s compleja, requiere ambos √≠ndices

## Mejores Pr√°cticas

1. **Empezar con h√≠brida**: Generalmente da mejores resultados
2. **Ajustar pesos seg√∫n necesidad**: 
   - M√°s texto (0.7, 0.3) para palabras clave exactas
   - M√°s vectorial (0.2, 0.8) para conceptos abstractos
3. **Usar l√≠mites razonables**: `limit=5-10` suele ser suficiente
4. **Reconstruir contexto**: Usa chunks adyacentes para mejor comprensi√≥n

## Referencias

- [Gu√≠a de B√∫squeda](../../docs/guides/search.md)
- [API P√∫blica](../../docs/api/public-api.md)
- [Patrones de B√∫squeda GraphRAG](../../docs/api/search-patterns.md)
