# Azure AI Search: B√∫squeda con Tags y Filtros

Este notebook demuestra c√≥mo implementar un sistema de b√∫squeda que combina:
1. **B√∫squeda Vectorial (Sem√°ntica)**
2. **Metadatos Estructurados (Tags)**
3. **Filtrado h√≠brido**

### Requisitos
- Archivo `.env` configurado con:
  - `AZURE_SEARCH_ENDPOINT`
  - `AZURE_SEARCH_KEY`
  - `GITHUB_TOKEN` (o API Key de OpenAI)

## 1. Configuraci√≥n e Inicializaci√≥n
Cargamos las variables de entorno e inicializamos los clientes de Azure y OpenAI.

In [8]:
import json
import os
import pathlib
from typing import List, Dict, Any

import openai
from azure.core.credentials import AzureKeyCredential
from azure.search.documents import SearchClient
from azure.search.documents.indexes import SearchIndexClient
from azure.search.documents.models import VectorizedQuery
from azure.search.documents.indexes.models import (
    SearchIndex,
    SearchField,
    SearchFieldDataType,
    SimpleField,
    SearchableField,
    VectorSearch,
    VectorSearchProfile,
    HnswAlgorithmConfiguration,
)
from dotenv import load_dotenv

# Cargar variables de entorno
load_dotenv(override=True)

# Configuraci√≥n
AZURE_SEARCH_ENDPOINT = os.getenv("AZURE_SEARCH_ENDPOINT")
AZURE_SEARCH_KEY = os.getenv("AZURE_SEARCH_KEY")
INDEX_NAME = "documents-with-tags"

# Cliente de OpenAI
openai_client = openai.OpenAI(
    base_url="https://models.github.ai/inference",
    api_key=os.environ["GITHUB_TOKEN"]
)

# Clientes de Azure AI Search
credential = AzureKeyCredential(AZURE_SEARCH_KEY)
index_client = SearchIndexClient(endpoint=AZURE_SEARCH_ENDPOINT, credential=credential)
search_client = SearchClient(endpoint=AZURE_SEARCH_ENDPOINT, index_name=INDEX_NAME, credential=credential)

print("‚úÖ Clientes configurados correctamente")

‚úÖ Clientes configurados correctamente


## 2. Crear el √çndice en Azure AI Search
Definimos el esquema del √≠ndice. Nota c√≥mo usamos `filterable=True` y `facetable=True` en los campos `category`, `source` y `tags` para permitir el filtrado.

In [9]:
def create_search_index():
    print(f"\nüîß Creando √≠ndice '{INDEX_NAME}'...")

    # Definir los campos del √≠ndice
    fields = [
        SimpleField(name="id", type=SearchFieldDataType.String, key=True, sortable=True, filterable=True),
        SearchableField(name="content", type=SearchFieldDataType.String, searchable=True),
        
        # Campos para filtrado
        SimpleField(name="category", type=SearchFieldDataType.String, filterable=True, facetable=True),
        SimpleField(name="source", type=SearchFieldDataType.String, filterable=True, facetable=True),
        # Colecci√≥n de tags
        SimpleField(name="tags", type=SearchFieldDataType.Collection(SearchFieldDataType.String), filterable=True, facetable=True),
        
        # Campo vectorial
        SearchField(
            name="contentVector",
            type=SearchFieldDataType.Collection(SearchFieldDataType.Single),
            searchable=True,
            vector_search_dimensions=1536,
            vector_search_profile_name="myHnswProfile",
        ),
    ]

    # Configurar b√∫squeda vectorial
    vector_search = VectorSearch(
        profiles=[VectorSearchProfile(name="myHnswProfile", algorithm_configuration_name="myHnsw")],
        algorithms=[HnswAlgorithmConfiguration(name="myHnsw")],
    )

    # Crear el √≠ndice
    index = SearchIndex(name=INDEX_NAME, fields=fields, vector_search=vector_search)

    # Eliminar √≠ndice si ya existe para empezar de cero
    try:
        index_client.delete_index(INDEX_NAME)
        print(f"  ‚úì √çndice anterior eliminado")
    except Exception:
        pass

    # Crear nuevo √≠ndice
    index_client.create_index(index)
    print(f"  ‚úì √çndice '{INDEX_NAME}' creado exitosamente")

# Ejecutar la creaci√≥n
create_search_index()


üîß Creando √≠ndice 'documents-with-tags'...


  ‚úì √çndice anterior eliminado
  ‚úì √çndice 'documents-with-tags' creado exitosamente


## 3. Generaci√≥n de Embeddings e Ingesta de Datos
Definimos los documentos de ejemplo directamente aqu√≠ para facilitar la ejecuci√≥n, generamos sus embeddings y los subimos.

In [11]:
def generate_embedding(text: str) -> List[float]:
    """Genera embedding para un texto usando OpenAI"""
    response = openai_client.embeddings.create(
        model="text-embedding-3-small",
        input=text
    )
    return response.data[0].embedding

def index_documents():
    print(f"\nüìù Procesando e indexando documentos...")

    # Datos de ejemplo mockeados para el notebook
    # Obtener la ruta del archivo JSON relativa al directorio actual del notebook
    data_path = pathlib.Path("data/documents_with_metadata.json")
    raw_documents = json.load(open(data_path, "r", encoding="utf-8"))

    docs_to_index = []
    for doc in raw_documents:
        print(f"  Generando embedding para doc {doc['id']} ({doc['category']})...")
        embedding = generate_embedding(doc["content"])
        
        doc_with_embedding = doc.copy()
        doc_with_embedding["contentVector"] = embedding
        docs_to_index.append(doc_with_embedding)

    # Subir documentos
    search_client.upload_documents(documents=docs_to_index)
    print(f"  ‚úì {len(docs_to_index)} documentos indexados")

# Ejecutar indexaci√≥n
index_documents()



üìù Procesando e indexando documentos...
  Generando embedding para doc tech001 (tecnologia)...
  Generando embedding para doc tech002 (tecnologia)...
  Generando embedding para doc tech002 (tecnologia)...
  Generando embedding para doc tech003 (tecnologia)...
  Generando embedding para doc tech003 (tecnologia)...
  Generando embedding para doc tech004 (tecnologia)...
  Generando embedding para doc tech004 (tecnologia)...
  Generando embedding para doc cloud001 (cloud)...
  Generando embedding para doc cloud001 (cloud)...
  Generando embedding para doc cloud002 (cloud)...
  Generando embedding para doc cloud002 (cloud)...
  Generando embedding para doc cloud003 (cloud)...
  Generando embedding para doc cloud003 (cloud)...
  Generando embedding para doc ai001 (ai)...
  Generando embedding para doc ai001 (ai)...
  Generando embedding para doc ai002 (ai)...
  Generando embedding para doc ai002 (ai)...
  Generando embedding para doc ai003 (ai)...
  Generando embedding para doc ai003 (ai)

## 4. Funciones de B√∫squeda
Definimos dos funciones: una para b√∫squeda solo por filtros (Metadata) y otra para b√∫squeda h√≠brida (Sem√°ntica + Metadata).

In [12]:
def search_by_tag(category: str = None, source: str = None, tags: List[str] = None):
    """B√∫squeda filtrada por tags usando filtros OData"""
    filters = []
    if category: filters.append(f"category eq '{category}'")
    if source: filters.append(f"source eq '{source}'")
    if tags:
        # Sintaxis OData para colecciones: tags/any(t: t eq 'valor')
        tag_filters = [f"tags/any(t: t eq '{tag}')" for tag in tags]
        filters.append(f"({' or '.join(tag_filters)})")

    filter_expression = " and ".join(filters) if filters else None
    print(f"\nüîç Filtro aplicado: {filter_expression}")

    results = search_client.search(
        search_text="*", filter=filter_expression, select=["id", "content", "category", "tags"], top=3
    )

    for r in results:
        print(f"  - [{r['category']}] {r['content']} (Tags: {r['tags']})")

def hybrid_search(query: str, category: str = None, tags: List[str] = None):
    """B√∫squeda h√≠brida: Vectores + Filtros"""
    query_vector = generate_embedding(query)
    
    filters = []
    if category: filters.append(f"category eq '{category}'")
    if tags:
        tag_filters = [f"tags/any(t: t eq '{tag}')" for tag in tags]
        filters.append(f"({' or '.join(tag_filters)})")
    filter_expression = " and ".join(filters) if filters else None

    print(f"\nüß† B√∫squeda H√≠brida: '{query}' | Filtros: {filter_expression}")

    vector_query = VectorizedQuery(vector=query_vector, k_nearest_neighbors=5, fields="contentVector")
    
    results = search_client.search(
        search_text=query,
        vector_queries=[vector_query],
        filter=filter_expression,
        select=["id", "content", "category", "tags"],
        top=3
    )

    for r in results:
        score = r.get('@search.score', 0)
        print(f"  - (Score: {score:.2f}) [{r['category']}] {r['content']}")

## 5. Pruebas y Ejemplos
Ejecuta las celdas siguientes para probar diferentes escenarios.

In [13]:
# Ejemplo 1: Filtrar solo por categor√≠a 'salud'
search_by_tag(category="salud")


üîç Filtro aplicado: category eq 'salud'
  - [salud] Una dieta mediterr√°nea se caracteriza por un alto consumo de aceite de oliva, legumbres, cereales integrales, frutas y verduras. Se asocia con menor riesgo de enfermedades card√≠acas y mayor longevidad. (Tags: ['nutricion', 'dieta', 'salud', 'corazon'])
  - [salud] La meditaci√≥n mindfulness es una pr√°ctica mental que se centra en estar presente en el momento actual. Se ha demostrado que reduce el estr√©s, mejora la concentraci√≥n y promueve el bienestar emocional. (Tags: ['meditacion', 'mindfulness', 'salud-mental', 'bienestar'])
  - [salud] La diabetes tipo 2 es una enfermedad cr√≥nica que afecta la forma en que el cuerpo metaboliza el az√∫car. Con la diabetes tipo 2, el cuerpo no produce suficiente insulina o se resiste a la insulina. (Tags: ['diabetes', 'enfermedad', 'metabolismo'])


In [14]:
# Ejemplo 2: Filtrar documentos que tengan el tag 'ia'
search_by_tag(tags=["ia"])


üîç Filtro aplicado: (tags/any(t: t eq 'ia'))
  - [ai] Fine-tuning es el proceso de ajustar un modelo preentrenado con datos espec√≠ficos de un dominio o tarea. Permite adaptar modelos generales a necesidades espec√≠ficas mejorando su rendimiento en tareas particulares. (Tags: ['fine-tuning', 'ml', 'entrenamiento', 'ia'])
  - [ai] RAG (Retrieval Augmented Generation) es una t√©cnica que combina la recuperaci√≥n de informaci√≥n con la generaci√≥n de lenguaje natural. Permite a los modelos de lenguaje acceder a informaci√≥n externa para generar respuestas m√°s precisas y actualizadas. (Tags: ['rag', 'ia', 'llm', 'busqueda'])
  - [ai] Los Large Language Models (LLMs) son modelos de inteligencia artificial entrenados con enormes cantidades de texto. Pueden realizar tareas como generaci√≥n de texto, traducci√≥n, resumen, respuesta a preguntas y programaci√≥n. (Tags: ['llm', 'ia', 'nlp', 'transformer'])


In [15]:
# Ejemplo 3: B√∫squeda H√≠brida
# Buscamos sobre 'programaci√≥n' PERO solo dentro de la categor√≠a 'tecnologia'
hybrid_search("aprender lenguajes de c√≥digo", category="tecnologia")


üß† B√∫squeda H√≠brida: 'aprender lenguajes de c√≥digo' | Filtros: category eq 'tecnologia'
  - (Score: 0.03) [tecnologia] Python es un lenguaje de programaci√≥n interpretado de alto nivel y prop√≥sito general. Su filosof√≠a de dise√±o enfatiza la legibilidad del c√≥digo con el uso de indentaci√≥n significativa. Python es din√°micamente tipado y cuenta con recolecci√≥n de basura autom√°tica.
  - (Score: 0.03) [tecnologia] JavaScript es un lenguaje de programaci√≥n ligero, interpretado, orientado a objetos con funciones de primera clase. Es conocido como el lenguaje de scripting para p√°ginas web, pero tambi√©n se usa en muchos entornos fuera del navegador como Node.js.
  - (Score: 0.03) [tecnologia] Kubernetes es un sistema de c√≥digo abierto para automatizar el despliegue, escalado y gesti√≥n de aplicaciones en contenedores. Fue originalmente dise√±ado por Google y ahora es mantenido por la Cloud Native Computing Foundation.


In [16]:
# Ejemplo 4: B√∫squeda H√≠brida con Tags espec√≠ficos
# Buscamos sobre inteligencia artificial, restringido a documentos con tag 'rag'
hybrid_search("b√∫squeda de informaci√≥n", tags=["rag"])


üß† B√∫squeda H√≠brida: 'b√∫squeda de informaci√≥n' | Filtros: (tags/any(t: t eq 'rag'))
  - (Score: 0.03) [ai] RAG (Retrieval Augmented Generation) es una t√©cnica que combina la recuperaci√≥n de informaci√≥n con la generaci√≥n de lenguaje natural. Permite a los modelos de lenguaje acceder a informaci√≥n externa para generar respuestas m√°s precisas y actualizadas.


In [17]:
# Ejemplo 5: Demostraci√≥n de filtro excluyente
# Buscamos algo de finanzas pero filtramos por categor√≠a 'salud' -> No deber√≠a dar resultados relevantes
hybrid_search("estrategias de inversi√≥n", category="salud")


üß† B√∫squeda H√≠brida: 'estrategias de inversi√≥n' | Filtros: category eq 'salud'
  - (Score: 0.03) [salud] Una dieta mediterr√°nea se caracteriza por un alto consumo de aceite de oliva, legumbres, cereales integrales, frutas y verduras. Se asocia con menor riesgo de enfermedades card√≠acas y mayor longevidad.
  - (Score: 0.02) [salud] El ejercicio cardiovascular es cualquier actividad que aumenta el ritmo card√≠aco y la respiraci√≥n. Incluye caminar, correr, nadar y andar en bicicleta. Mejora la salud del coraz√≥n y ayuda a controlar el peso.
  - (Score: 0.02) [salud] La meditaci√≥n mindfulness es una pr√°ctica mental que se centra en estar presente en el momento actual. Se ha demostrado que reduce el estr√©s, mejora la concentraci√≥n y promueve el bienestar emocional.
