In [None]:
from langchain_ollama import OllamaEmbeddings
import numpy as np

In [None]:
def get_distance_l2(point_a, point_b):
    return np.sqrt(np.sum((point_a - point_b)**2))

In [None]:
embeddings_generator = OllamaEmbeddings(
    model='mxbai-embed-large:latest'
)

In [None]:
documents = {
    "Gatos": "Los gatos son animales domésticos conocidos por su independencia, agilidad y habilidades de caza. Son compañeros ideales para quienes buscan una mascota que requiera cuidados moderados. Además, su naturaleza reservada y elegante los convierte en animales apreciados en muchos hogares.",
    "Perros": "Los perros son animales leales y sociables que han acompañado a los humanos durante siglos. Son conocidos por su capacidad de aprendizaje y afecto incondicional. Además de ser mascotas fieles, pueden desempeñar funciones importantes como perros de servicio, de terapia o de trabajo en diversas áreas, como seguridad y rescate.",
    "Ollama": "Ollama es una herramienta que permite ejecutar modelos de lenguaje de manera local, como Llama 3. Agrupa en un solo paquete los pesos del modelo, la configuración y los datos necesarios, optimizando así el uso de los recursos del sistema, incluida la GPU. Esto facilita el desarrollo de aplicaciones de inteligencia artificial en entornos controlados.",
    "Python": "Python es un lenguaje de programación versátil y ampliamente utilizado en desarrollo web, ciencia de datos, inteligencia artificial y automatización. Su sintaxis sencilla y la vasta cantidad de bibliotecas disponibles, como TensorFlow y Pandas, lo convierten en una opción ideal tanto para principiantes como para desarrolladores experimentados.",
    "React": "React es una biblioteca de JavaScript desarrollada por Meta (antes Facebook) para la construcción de interfaces de usuario interactivas y eficientes. Su enfoque basado en componentes reutilizables permite a los desarrolladores crear aplicaciones web escalables y fáciles de mantener"
}

In [None]:
len(embeddings_generator.embed_documents([documents['Gatos']])[0])

In [None]:
embeddings = embeddings_generator.embed_documents(list(documents.values()))

In [None]:
texto_gatos = np.array(embeddings[0])
texto_perros = np.array(embeddings[1])

get_distance_l2(texto_gatos, texto_perros)

In [None]:
texto_python = np.array(embeddings[3])

get_distance_l2(texto_gatos, texto_python)

In [None]:
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA


In [None]:
pca = PCA(n_components=2)
pca_embeddings = pca.fit_transform(embeddings)

In [None]:
plt.figure(figsize=(10, 7))
plt.scatter(pca_embeddings[:, 0], pca_embeddings[:,1])

for i, label in enumerate(documents.keys()):
    plt.text(pca_embeddings[i, 0], pca_embeddings[i, 1], label, fontsize=9)

plt.show()

In [None]:
preguntas = {
    "mascotas": "Hablame sobre mascotas",
    "programacion": "Hablame de herramientas de programacion"
}

In [None]:
preguntas_embeddings = embeddings_generator.embed_documents(list(preguntas.values()))

In [None]:
pca_embeddings = np.concatenate([pca_embeddings, pca.fit_transform(preguntas_embeddings)], axis=0)

plt.figure(figsize=(10, 7))
plt.scatter(pca_embeddings[:, 0], pca_embeddings[:,1])

for i, label in enumerate(list(documents.keys()) + list(preguntas.keys())):
    plt.text(pca_embeddings[i, 0], pca_embeddings[i, 1], label, fontsize=9)

plt.show()