<a href="https://colab.research.google.com/github/krixik-ai/krixik-docs/blob/main/docs/system/search_methods/semantic_search_method.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import os
import sys
import json
import importlib
from pathlib import Path

# preparaci√≥n de demo - incuye instanciaci√≥n de secretos, instalaci√≥n de requerimientos, y definici√≥n de rutas
if os.getenv("COLAB_RELEASE_TAG"):
    # si est√°s usando este notebook en Google Colab, ingresa tus secretos ac√°
    MY_API_KEY = "TU_API_KEY_VA_AQUI"
    MY_API_URL = "TU_API_URL_VA_AQUI"

    # si est√°s usando este notebook en Google Colab, instala requerimientos y descarga los subdirectorios requeridos
    # instala el cliente Python de Krixik
    !pip install krixik

    # instala github-clone, que permite clonaci√≥n f√°cil de los subdirectorios del repositorio de documentaci√≥n https://github.com/krixik-ai/krixik-docs
    !pip install github-clone

    # clona los conjuntos de datos
    if not Path("data").is_dir():
        !ghclone https://github.com/krixik-ai/krixik-docs/tree/es-main/data
    else:
        print("ya se clonaron los conjuntos de datos de documentaci√≥n!")

    # define la variable 'data_dir' para tus rutas
    data_dir = "./data/"

    # crea directorio de salidas
    from pathlib import Path

    Path(data_dir + "/salidas").mkdir(parents=True, exist_ok=True)

    # descarga utilidades
    if not Path("utilities").is_dir():
        !ghclone https://github.com/krixik-ai/krixik-docs/tree/es-main/utilities
    else:
        print("ya has clonado las utilidades de documentaci√≥n!")
else:
    # si est√°s usando una descarga local de la documentaci√≥n, define las rutas relativas a la estructura local de la documentaci√≥n
    # importa utilidades
    sys.path.append("../../../")

    # define la variable 'data_dir' para tus rutas
    data_dir = "../../../data/"

    # si est√°s usando este notebook localmente desde el repositorio de documentaci√≥n Krixik, carga tus secretos de un archivo .env ubicado en la base del repositorio de documentaci√≥n
    from dotenv import load_dotenv

    load_dotenv("../../../.env")

    MY_API_KEY = os.getenv("MY_API_KEY")
    MY_API_URL = os.getenv("MY_API_URL")


# carga 'reset'
reset = importlib.import_module("utilities.reset")
reset_pipeline = reset.reset_pipeline


# importa Krixik e inicializa sesi√≥n con tus secretos personales
from krixik import krixik

krixik.init(api_key=MY_API_KEY, api_url=MY_API_URL)

SUCCESS: You are now authenticated.


## El M√©todo `semantic_search` (B√∫squeda Sem√°ntica)
[üá∫üá∏ English version of this document](https://krixik-docs.readthedocs.io/latest/system/search_methods/semantic_search_method/)

El m√©todo `semantic_search` de Krixik habilita b√∫squeda sem√°ntica sobre documentos procesados a trav√©s de ciertos *pipelines*. Mucho se ha escrito sobre la b√∫squeda sem√°ntica, pero en breve, en vez de buscar palabras clave en un documento, este m√©todo busca texto que es similar en _significado_ al *string* que se ha enviado. Esto es diferente a lo que ofrece el [`keyword_search`](metodo_keyword_search_busqueda_por_palabras_clave.md).

Dado que el m√©todo `semantic_search` hace [`encaje l√©xico`](../../modulos/modulos_ia/modulo_text-embedder_encaje_lexico.md) con el *string* enviado (*the query*) y tambi√©n hace la b√∫squeda, solo se puede usar con *pipelines* que contienen un m√≥dulo [`text embedder` (encaje l√©xico)](../../modulos/modulos_ia/modulo_text-embedder_encaje_lexico.md) y un m√≥dulo [`vector-db` (base de datos vectorial)](../../modulos/modulos_de_bases_de_datos/modulo_vector-db_base_de_datos_vectorial.md) en secuencia inmediata.

Esta introducci√≥n al m√©todo `semantic_search` est√° dividida en las siguientes secciones:

- [Argumentos del M√©todo `semantic_search`](#argumentos-del-metodo-semantic_search)
- [Ejemplo de Montaje de Pipeline y Procesamiento de Archivo](#ejemplo-de-montaje-de-pipeline-y-procesamiento-de-archivo)
- [Ejemplos de B√∫squeda Sem√°ntica](#ejemplos-de-busqueda-semantica)
- [L√≠mite de Tama√±o de Salidas](#limite-de-tamano-de-salidas)

### Argumentos del Metodo `semantic_search`

El m√©todo `semantic_search` toma un argumento requerido y al menos uno de varios argumentos opcionales. El argumento requerido es:

- `query` (str) - Un *string* cuyo significado ser√° el objeto de b√∫squeda en el documento se√±alado. Las coincidencias m√°s cercanas (es decir, los fragmentos que m√°s se acercan al query en su significado) ser√°n devueltas.

Los argumentos opcionales son los mismos argumentos que el m√©todo [`list`](../sistema_de_archivos/metodo_list_lista.md) recibe‚Äîtanto los de metadata como las marcas de tiempo‚Äîas√≠ que [det√°llalos aqu√≠](../sistema_de_archivos/metodo_list_lista.md#argumentos-del-metodo-list-lista) si es necesario. Al igual que con el m√©todo [`list`](../sistema_de_archivos/metodo_list_lista.md), puedes hacer b√∫squeda sem√°ntica sobre varios archivos a la vez porque todos los argumentos de metadata se env√≠an al m√©todo `semantic_search` en formato de lista. Todos los elementos de los argumentos opcionales son iguales que para el m√©todo [`list`](../sistema_de_archivos/metodo_list_lista.md), incluyendo el operador comod√≠n * y la ra√≠z global.

Si no est√° presente ninguno de estos argumentos opcionales, el m√©todo `semantic_search` no funcionar√° porque no hay d√≥nde buscar.

Al igual que el m√©todo [`list`](../sistema_de_archivos/metodo_list_lista.md), el m√©todo `semantic_search` acepta los argumentos opcionales `max_files` y `sort_order`, aunque su funci√≥n cambia un poco:

- `max_files` especifica en hasta cu√°ntos archivos se debe buscar. Su valor predeterminado no existe; no habr√≠a un m√°ximo.

- `sort_order` ac√° toma tres valores posibles: 'ascending', 'descending', y 'global'. Los primeros dos ordenan los resultados por el archivo en el que est√°n (los archivos se ordenan por su marca de tiempo de creaci√≥n), y 'global' combina todos los archivos y devuelve los mejores resultados de entre la totalidad de archivos. Su valor predeterminado es 'descending'.

El m√©todo `semantic_search` recibe un argumento opcional que es √∫nico a este m√©todo:

- `k` (int) - Especifica hasta cu√°ntos resultados se deben devolver por archivo consultado. Su valor predeterminado es 5.

### Ejemplo de Montaje de Pipeline y Procesamiento de Archivo

Para los ejemplos de este documento usar√°s un *pipeline* que consiste de tres m√≥dulos: un m√≥dulo [`parser`](../../modulos/modulos_de_funciones_de_apoyo/modulo_parser_fragmentacion.md), un m√≥dulo [`text-embedder`](../../modulos/modulos_ia/modulo_text-embedder_encaje_lexico.md) y un m√≥dulo [`vector-db`](../../modulos/modulos_de_bases_de_datos/modulo_vector-db_base_de_datos_vectorial.md). Este es el [*pipeline* b√°sico de b√∫squeda sem√°ntica](../../ejemplos/ejemplos_pipelines_de_busqueda/multi_busqueda_semantica_basica.md). Usa el m√©todo [`create_pipeline`](../creacion_de_pipelines/creacion_de_pipelines.md) para crearlo:

In [2]:
# crea el pipeline b√°sico de b√∫squeda sem√°ntica
pipeline = krixik.create_pipeline(name="metodo_semantic_search_1", module_chain=["parser", "text-embedder", "vector-db"])

Una vez creado el *pipeline*, puedes [`procesar`](../parametros_y_procesar_archivos_a_traves_de_pipelines/metodo_process_procesar.md) algunos archivos de texto a trav√©s de √©l para tener sobre qu√© buscar:

In [3]:
# agrega cuatro archivos al pipeline que acabas de crear
salida_1 = pipeline.process(
    local_file_path=data_dir + "input/frankenstein_muy_corto.txt",  # la ruta de archivo inicial en la que yace el archivo de entrada
    local_save_directory=data_dir + "output",  # el directorio local en el que se guardar√° el archivo de salida
    expire_time=60 * 30,  # data de este proceso se eliminar√° del sistema Krixik en 30 minutos
    wait_for_process=True,  # espera que el proceso termine antes de devolver control del IDE al usuario
    verbose=False,  # no mostrar actualizaciones de proceso al ejecutar el c√≥digo
    symbolic_directory_path="/novelas/gotica",
    file_name="Frankenstein.txt",
)

salida_2 = pipeline.process(
    local_file_path=data_dir + "input/orgullo_y_prejuicio_muy_corto.txt",  # la ruta de archivo inicial en la que yace el archivo de entrada
    local_save_directory=data_dir + "output",  # el directorio local en el que se guardar√° el archivo de salida
    expire_time=60 * 30,  # data de este proceso se eliminar√° del sistema Krixik en 30 minutos
    wait_for_process=True,  # espera que el proceso termine antes de devolver control del IDE al usuario
    verbose=False,  # no mostrar actualizaciones de proceso al ejecutar el c√≥digo
    symbolic_directory_path="/novelas/romance",
    file_name="Pride and Prejudice.txt",
)

salida_3 = pipeline.process(
    local_file_path=data_dir + "input/moby_dick_muy_corto.txt",  # la ruta de archivo inicial en la que yace el archivo de entrada
    local_save_directory=data_dir + "output",  # el directorio local en el que se guardar√° el archivo de salida
    expire_time=60 * 30,  # data de este proceso se eliminar√° del sistema Krixik en 30 minutos
    wait_for_process=True,  # espera que el proceso termine antes de devolver control del IDE al usuario
    verbose=False,  # no mostrar actualizaciones de proceso al ejecutar el c√≥digo
    symbolic_directory_path="/novelas/aventura",
    file_name="Moby Dick.txt",
)

salida_4 = pipeline.process(
    local_file_path=data_dir + "input/mujercitas_muy_corto.txt",  # la ruta de archivo inicial en la que yace el archivo de entrada
    local_save_directory=data_dir + "output",  # el directorio local en el que se guardar√° el archivo de salida
    expire_time=60 * 30,  # data de este proceso se eliminar√° del sistema Krixik en 30 minutos
    wait_for_process=True,  # espera que el proceso termine antes de devolver control del IDE al usuario
    verbose=False,  # no mostrar actualizaciones de proceso al ejecutar el c√≥digo
    symbolic_directory_path="/novelas/bildungsroman",
    file_name="Little Women.txt",
)

Examina la salida de uno de estos:

In [4]:
# n√≠tidamente reproduce la salida de este proceso
print(json.dumps(salida_2, indent=2))

{
  "status_code": 200,
  "pipeline": "semantic_search_method_1_parser_text-embedder_vector-db",
  "request_id": "4197e750-0560-43b9-b7e3-0ea5c8f15151",
  "file_id": "a94765c2-0250-4b3d-98af-20fc167640e8",
  "message": "SUCCESS - output fetched for file_id a94765c2-0250-4b3d-98af-20fc167640e8.Output saved to location(s) listed in process_output_files.",
  "process_output": null,
  "process_output_files": [
    "../../../data/output/a94765c2-0250-4b3d-98af-20fc167640e8.faiss"
  ]
}


El valor de `process_output` es `null` porque el objeto devuelto es una base de datos, as√≠ que no se puede reproducir aqu√≠. Puedes encontrar ese archivo de base de datos en la ubicaci√≥n local indicada en `process_output_files`.

### Ejemplos de Busqueda Semantica

Ahora que has procesado archivos por el *pipeline* puedes usar el m√©todo `semantic_search` sobre √©l.

Con el siguiente c√≥digo puedes buscar sem√°nticamente sobre uno de los archivos:

In [5]:
# haz semantic_search sobre un archivo
semantic_output = pipeline.semantic_search(query="It was cold night.", file_names=["Little Women.txt"])

# n√≠tidamente reproduce la salida de este proceso
print(json.dumps(semantic_output, indent=2))

{
  "status_code": 200,
  "request_id": "c1b9116f-0eaa-489d-a8f4-86ca7238e744",
  "message": "Successfully queried 1 user file.",
  "items": [
    {
      "file_id": "853f498f-4b1c-439b-bbd4-ccc47c44d254",
      "file_metadata": {
        "file_name": "little women.txt",
        "symbolic_directory_path": "/novels/bildungsroman",
        "file_tags": [],
        "num_vectors": 43,
        "created_at": "2024-06-05 16:19:43",
        "last_updated": "2024-06-05 16:19:43"
      },
      "search_results": [
        {
          "snippet": "The four young faces on which the firelight shone brightened at the\ncheerful words, but darkened again as Jo said sadly,--\n\n\"We haven't got father, and shall not have him for a long time.\"",
          "line_numbers": [
            19,
            20,
            21,
            22,
            23
          ],
          "distance": 0.351
        },
        {
          "snippet": "Nobody spoke for a minute; then Meg said in an altered tone,--\n\n\"You

Adem√°s de devolver los fragmentos cuyo significado m√°s se acercan al string enviado (*the query*), el m√©todo `semantic_search` tambi√©n devuelve la distancia calculada entre vectores (que puede entenderse como la "distancia entre significados") de resultado y *query*. Mientras m√°s corta es esta distancia, m√°s se acerca el significado de este fragmento al del *query*. El m√©todo `semantic_search` devuelve los fragmentos con la distancia de vector m√°s corta al *query*, ordenado de manera ascendiente dentro de cada archivo.

Cuando el argumento `sort_order` tiene el valor 'global', los resultados de todos los archivos se combinan y el m√©todo devuelve los fragmentos con la distancia m√°s corta al *query*, ordenados de manera ascendiente, sin importar en qu√© archivo est√©n. Int√©ntalo haci√©ndo una b√∫squeda sem√°ntica sobre varios archivos con el [operador comod√≠n](../sistema_de_archivos/metodo_list_lista.md#argumentos-con-el-operador-comodin):

In [6]:
# haz b√∫squeda sem√°ntica sobre varios archivos
semantic_output_2 = pipeline.semantic_search(query="It was cold night.", symbolic_directory_paths=["/novelas*"], sort_order="global", k=4)

# nicely print the output of this search
print(json.dumps(semantic_output_2, indent=2))

{
  "status_code": 200,
  "request_id": "ba1b7b85-8e36-49e5-8734-68c80d19e433",
  "message": "Successfully queried 4 user files.",
  "items": [
    {
      "snippet": "I am already far north of London, and as I walk in the streets of\nPetersburgh, I feel a cold northern breeze play upon my cheeks, which\nbraces my nerves and fills me with delight.",
      "distance": 0.33,
      "line_numbers": [
        14,
        15,
        16,
        17
      ],
      "file_metadata": {
        "file_id": "f4720361-f94f-4f48-a4bf-0177dd91ba18",
        "file_name": "frankenstein.txt",
        "symbolic_directory_path": "/novels/gothic",
        "file_tags": [],
        "num_lines": 0,
        "created_at": "2024-06-05 16:17:58",
        "last_updated": "2024-06-05 16:17:58"
      }
    },
    {
      "snippet": "This breeze, which has travelled from the regions towards\nwhich I am advancing, gives me a foretaste of those icy climes.",
      "distance": 0.336,
      "line_numbers": [
        18,
 

Puedes ver que los resultados de todos los archivos se han combinado, y que el fragmento en el primer lugar tiene la distancia m√°s corta entre *query* y fragmento de todos los archivos incluidos.

### Limite de Tamano de Salidas

El l√≠mite actual sobre salidas generadas por el m√©todo `semantic_search` es 5MB.

In [7]:
# elimina todos los datos procesados pertenecientes a este pipeline
reset_pipeline(pipeline)