# Como obtener solo los vectores

In [None]:
!pip install -U sentence-transformers --quiet

In [None]:
import pandas as pd
from sentence_transformers import SentenceTransformer, util

In [None]:
model = SentenceTransformer('all-MiniLM-L6-v2')

In [None]:
#Textos a vectorizar
sentences = [
    'Italy',
    'Spain',
    'Germany',
    'France'
]

In [None]:
#Las frases son vectorizadas llamando a model.encode()
output = model.encode(sentences)

In [None]:
embeddings = pd.DataFrame(output)

In [None]:
embeddings

## El viejo y conocido KNN vuelve a ser util

Si utilizamos como medida de distancia entre vectores el angulo entre ellos a traves de la metrica de similitud de coseno podemos ver cuales de nuestros vectores son mas similares y con ello podemos utilizar el algoritmo de vecinos cercanos para hacer, por ejemplo, una busqueda de las cinco frases mas parecidas a una que nosotros elijamos.

In [None]:
query = "Madrid"
query_embedding = model.encode(query)

In [None]:
for i in range(len(embeddings)):
    cos_sim = util.cos_sim(query_embedding, embeddings.iloc[i,:])
    print(f"Similitud del coseno {i}:", cos_sim)

### Ejercicio 1:

Descarga un chat de whatsapp y utiliza los vectores y la similitud para buscar textos en dicho chat. Por ejemplo, supongamos que queremos buscar una receta de cocina de pasta y tenemos el siguiente chat:
- Persona A: "Hola como estas?"
- Persona B: "Buen dia!"
- Persona B: "Muy bien y tu?"
- Persona A: "Bien, con un poco de calor"
- Persona A: "Queria hacerte una consulta a ti que eres experto en la cocina"
- Persona B: "Si dime que quieres saber"
- Persona A: "Quisiera saber cual es tu receta para hacer tallarines"
- Persona B: "Si por supuesto!"
- Persona B: "Es super simple: 1 huevo y 100 gramos de harina por persona"
- Persona B: "Si que es facil verdad?"
- Persona A: "Si! Muchas gracias!!"





In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 1: Paso 1 {display-mode:"form"}

# Cargar un modelo en espanol
model = SentenceTransformer('dccuchile/bert-base-spanish-wwm-cased')

In [None]:
#@title Solucion Ejercicio 1: Paso 2 {display-mode:"form"}

# Textos a vectorizar
chats = [
"Hola como estas?",
"Buen dia!",
"Muy bien y tu?",
"Bien, con un poco de calor",
"Queria hacerte una consulta a ti que eres experto en la cocina",
"Si dime que quieres saber",
"Quisiera saber cual es tu receta para hacer tallarines",
"Si por supuesto!",
"Es super simple: 1 huevo y 100 gramos de harina por persona",
"Si que es facil verdad?",
"Si! Muchas gracias!!"
]

In [None]:
#@title Solucion Ejercicio 1: Paso 3 {display-mode:"form"}

# Convertir los textos a vectores
vectores = model.encode(chats)
vectores

In [None]:
#@title Solucion Ejercicio 1: Paso 4 {display-mode:"form"}

# Convertir el texto a buscar en vector
vector_a_buscar = model.encode("receta de pasta")

In [None]:
#@title Solucion Ejercicio 1: Paso 5 {display-mode:"form"}

# Calcular que vector del chat es mas similar al vector a buscar
for i in range(len(vectores)):
    cos_sim = util.cos_sim(vector_a_buscar, vectores[i,:])
    print(f"Similitud del coseno {i}:", cos_sim)

## Dibujar los vectores

Hay tecnicas para graficar vectores que tienen mas de 3 dimensiones, por ejemplo PCA, t-sne y umap

In [None]:
!pip install umap-learn -U -q

import umap
import numpy as np
from tqdm import tqdm

umap_transform = umap.UMAP(random_state=0, transform_seed=0).fit(embeddings)

projected_dataset_embeddings = umap_transform.transform(embeddings)

query = "Madrid"
query_embedding = model.encode(query)
projected_query_embedding = umap_transform.transform([query_embedding])

import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.scatter(projected_dataset_embeddings[:, 0], projected_dataset_embeddings[:, 1], s=10)
for i, txt in enumerate(projected_dataset_embeddings):
    ax.annotate(sentences[i], (projected_dataset_embeddings[i,0], projected_dataset_embeddings[i,1]))
ax.scatter(projected_query_embedding[:, 0], projected_query_embedding[:, 1], c='red')
ax.annotate("Madrid", (projected_query_embedding[:, 0], projected_query_embedding[:, 1]))
ax.set_title('Vectores')
ax.axis('off');

## Vectores de OpenAI

- https://platform.openai.com/docs/guides/embeddings/use-cases

## Busquedas avanzadas (RAG)

Esta es la base de lo que se conoce como Retrieval Augmented Generation y que veremos en las siguientes unidades con la libreria LangChain y bases de datos vectoriales

### Referencias:
- Sbert: https://www.sbert.net/
- Imagenes y texto con CLIP: 
    - https://www.sbert.net/examples/applications/image-search/README.html
    - https://github.com/UKPLab/sentence-transformers/blob/master/examples/applications/image-search/Image_Search.ipynb

# Fin: [Volver al contenido del curso](https://www.freecodingtour.com/cursos/espanol/deeplearning/deeplearning.html)