## Práctica 8 (segunda parte): búsquedas vectoriales en MongoDB Atlas

No hace falta saber Python para hacer la práctica, solo entender una sintaxis parecida a la de JavaScript y otros lenguajes. En primer lugar importamos algunos paquetes.

In [None]:
import json  # para leer y escribir JSON

from pymongo import MongoClient  # cliente oficial de Mongo para Python
from rich import print_json      # para escribir con formato en la consola
from sentence_transformers import SentenceTransformer  # para sentence embeddings

Definimos también una función (da igual su implementación) que formatea los documentos de un cursor y que usaremos más adelante.

In [None]:
def muestra_cursor(cursor):
	"""Muestra los documentos de un cursor de Mongo"""

	for doc in cursor:
		print_json(json.dumps(doc), indent=4, default=str)

Ahora nos conectamos a un clúster de MongoDB Atlas con el usuario `bertoldo` y contraseña `gominolas`. El objeto `db` será la base de datos `sample_mflix` de dicho clúster.

In [None]:
db = MongoClient('mongodb+srv://bertoldo:gominolas@playground.wcktm.mongodb.net/').sample_mflix

Su colección es la misma que está en la pestaña *Datos* del campus, pero con una clave extra `embedding`.

In [None]:
db.movies.find_one({}, {'embedding': False})

El campo `embedding` es un array de números en coma flotante de 384 posiciones que se ha generado a partir de la clave `fullplot` utilizando el modelo de lenguaje [`all-MiniLM-L6-v2`](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2). Es el mismo que cargamos con la siguiente instrucción a través de la biblioteca [`sentence-transformers`](https://sbert.net/).

In [None]:
modelo = SentenceTransformer('all-MiniLM-L6-v2')

El método `encode` de la clase `SentenceTransfomer` recibe una cadena y produce su [*sentence embedding*](https://en.wikipedia.org/wiki/Sentence_embedding), es decir, una representación como vector de números que codifica información semántica. Prueba con una frase cualquiera:

In [None]:
modelo.encode('<escribe una frase>')

Rodea la expresión de la celda anterior por `len(...)`, vuelve a evaluarla y comprueba que el resultado sale 384.

Vamos a utilizar estos vectores para hacer una búsqueda semántica por argumento en la base de datos de películas. Tu tarea consiste en completar el diccionario de la etapa [`$vectorSearch`](https://www.mongodb.com/docs/atlas/atlas-vector-search/vector-search-stage) con los campos obligatorios que faltan. El campo con el *sentence embedding* se llama `embedding` (como ya se ha dicho) y su índice se denomina `plotIndex`.

In [None]:
def busca_argumento(frase: str, candidates=150, limit=10):
	"""Busca las películas cuyo argumento encaje mejor con la frase dada"""

	return db.movies.aggregate([
		{'$vectorSearch': {
			"exact": False,
            "filter": {},
            "index": "plotIndex",
            "path": "embedding",
			'queryVector': modelo.encode(frase).tolist(),
			'numCandidates': candidates,
			'limit': limit
		}},
		{'$project': {
			'_id': 0,
			'plot': 1,
			'title': 1,
			'year':1,
			'score': { '$meta': 'vectorSearchScore' },
		}},
	])

Ahora probemos a buscar con algunas frases:

In [None]:
muestra_cursor(busca_argumento('Professor jelly Hide', limit=3))

In [None]:
muestra_cursor(busca_argumento('<escribo otra aquí>', limit=3))

## Práctica 8 (segunda parte): búsquedas vectoriales en MongoDB Atlas

No hace falta saber Python para hacer la práctica, solo entender una sintaxis parecida a la de JavaScript y otros lenguajes. En primer lugar importamos algunos paquetes.

In [None]:
import json  # para leer y escribir JSON

from pymongo import MongoClient  # cliente oficial de Mongo para Python
from rich import print_json      # para escribir con formato en la consola
from sentence_transformers import SentenceTransformer  # para sentence embeddings

Definimos también una función (da igual su implementación) que formatea los documentos de un cursor y que usaremos más adelante.

In [None]:
def muestra_cursor(cursor):
	"""Muestra los documentos de un cursor de Mongo"""

	for doc in cursor:
		print_json(json.dumps(doc), indent=4, default=str)

Ahora nos conectamos a un clúster de MongoDB Atlas con el usuario `bertoldo` y contraseña `gominolas`. El objeto `db` será la base de datos `sample_mflix` de dicho clúster.

In [None]:
db = MongoClient('mongodb+srv://bertoldo:gominolas@playground.wcktm.mongodb.net/').sample_mflix

Su colección es la misma que está en la pestaña *Datos* del campus, pero con una clave extra `embedding`.

In [None]:
db.movies.find_one({}, {'embedding': False})

El campo `embedding` es un array de números en coma flotante de 384 posiciones que se ha generado a partir de la clave `fullplot` utilizando el modelo de lenguaje [`all-MiniLM-L6-v2`](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2). Es el mismo que cargamos con la siguiente instrucción a través de la biblioteca [`sentence-transformers`](https://sbert.net/).

In [None]:
modelo = SentenceTransformer('all-MiniLM-L6-v2')

El método `encode` de la clase `SentenceTransfomer` recibe una cadena y produce su [*sentence embedding*](https://en.wikipedia.org/wiki/Sentence_embedding), es decir, una representación como vector de números que codifica información semántica. Prueba con una frase cualquiera:

In [None]:
modelo.encode('<escribe una frase>')

Rodea la expresión de la celda anterior por `len(...)`, vuelve a evaluarla y comprueba que el resultado sale 384.

Vamos a utilizar estos vectores para hacer una búsqueda semántica por argumento en la base de datos de películas. Tu tarea consiste en completar el diccionario de la etapa [`$vectorSearch`](https://www.mongodb.com/docs/atlas/atlas-vector-search/vector-search-stage) con los campos obligatorios que faltan. El campo con el *sentence embedding* se llama `embedding` (como ya se ha dicho) y su índice se denomina `plotIndex`.

In [None]:
def busca_argumento(frase: str, candidates=150, limit=10):
	"""Busca las películas cuyo argumento encaje mejor con la frase dada"""

	return db.movies.aggregate([
		{'$vectorSearch': {
			# faltan argumentos, mirar documentación
            "exact": False,
            "filter": {},
            "index": "plotIndex",
            "path": "embedding",
			'queryVector': modelo.encode(frase).tolist(),
			'numCandidates': candidates,
			'limit': limit
		}},
		{'$project': {
			'_id': 0,
			'plot': 1,
			'title': 1,
			'year':1,
			'score': { '$meta': 'vectorSearchScore' },
		}},
	])

Ahora probemos a buscar con algunas frases:

In [None]:
muestra_cursor(busca_argumento('Professor jelly Hide', limit=3))

In [None]:
muestra_cursor(busca_argumento('<escribo otra aquí>', limit=3))