# Embeddings

* Conexion al modelo de embeddings
* Primeros embeddings
* Similaridad
* Bases de datos vectorial
* Ejercicios de practica

### Importamos las librerias y cargamos la api key

In [4]:
import os
import json
import chromadb
import cohere
from dotenv import load_dotenv


load_dotenv()  # Load .env file

api_key = os.getenv("COHERE_API_KEY")
#print(api_key)  # Verify the key is loaded

### Utilizar los modelos

 Hacemos un recorrido por la documentacion

 https://docs.cohere.com/docs/the-cohere-platform

In [7]:
# Establecer la conexion a cohere y hacer su primer consulta con el modelo de embeddings.
# Usen la api version v2

co = cohere.ClientV2()
response = co.embed(
    texts=["hola"],
    model="embed-multilingual-v3.0",
    input_type="search_document",
    embedding_types=["float"],
)


#print(response)


In [8]:

# desafio, obtener solo el contenido en vector
print(response.embeddings.float_[0])

[0.00687027, 0.03390503, 0.015007019, 0.0018463135, 0.0010251999, 0.025619507, -0.009239197, -0.042388916, -0.020324707, 0.006248474, 0.020431519, 0.009063721, 0.017730713, 0.023513794, 0.006866455, 0.012313843, 0.022155762, 0.025115967, 0.04525757, -0.004737854, -0.003484726, 0.0054893494, 0.01914978, -0.02798462, -0.014335632, 0.016983032, 0.02961731, -0.009819031, 0.03756714, 0.013320923, -0.012969971, -0.010498047, 0.076049805, 0.05996704, -0.026229858, 0.02960205, -0.024932861, -0.023025513, 0.013191223, 0.045288086, -0.032348633, 0.015625, -0.0022201538, 0.054016113, -0.01210022, -0.021606445, 0.03466797, 0.027282715, 0.0054016113, 0.07495117, -0.006122589, -0.0234375, 0.01953125, 0.03414917, 0.008903503, -0.014183044, 0.023895264, 0.010299683, 0.022338867, 0.019607544, -0.002822876, -0.027160645, -0.04623413, 0.001420021, 0.041931152, 0.039215088, 0.022903442, -0.0028533936, 0.011711121, 0.007537842, -0.0055160522, -0.011138916, 0.037353516, 0.0031776428, -0.02168274, -0.0097885

In [9]:
print(len(response.embeddings.float_[0]))

1024


In [9]:
# pasando varios textos al mismo tiempo

response = co.embed(
    texts=["hola", "que onda chavo", "Aca mas texto"],
    model="embed-multilingual-v3.0",
    input_type="search_document",
    embedding_types=["float"],
)

print(len(response.embeddings.float_))

3


### Similaridad

Encontrar la frase mas similar usando embeddings

In [10]:
# Definimos una funcion helper para obtener embeddings

def get_embeddings(textos):
    
    response = co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )

    return response.embeddings.float_

In [11]:
from sklearn.metrics.pairwise import cosine_similarity

In [12]:
# Frase base
frase_base = ["El clima hoy es muy soleado y cálido."]

# Frases a matchear
frases = [
    "Hoy es un día lluvioso.",
    "El sol brilla y hace calor.",
    "Mañana podría llover.",
    "El invierno se siente frío.",
    "Hace mucho viento afuera."
]


# Generar embeddings para todas las frases
embeddings_base = get_embeddings(frase_base)
embeddings_frases = get_embeddings(frases)



In [None]:
# cosine similarity

In [13]:

# Calcular similitud coseno entre la frase base y cada frase a matchear
similaridades = []  # Lista para almacenar los resultados de similitud

for emb in embeddings_frases:
    # Calcular similitud coseno entre la frase base y la frase actual
    sim_coseno = cosine_similarity(embeddings_base, [emb])
    
    # Acceder al valor de la similitud (un solo valor en la matriz 1x1)
    similaridades.append(sim_coseno[0][0])

# Encontrar la frase más similar
indice_max = similaridades.index(max(similaridades))
frase_mas_similar = frases[indice_max]

# Imprimir resultados
print(f"Frase base: \"{frase_base}\"")
for i, frase in enumerate(frases):
    print(f"Frase {i+1}: \"{frase}\" - Similitud: {similaridades[i]:.4f}")

print(f"\nLa frase más similar es: \"{frase_mas_similar}\"")

Frase base: "['El clima hoy es muy soleado y cálido.']"
Frase 1: "Hoy es un día lluvioso." - Similitud: 0.7393
Frase 2: "El sol brilla y hace calor." - Similitud: 0.8756
Frase 3: "Mañana podría llover." - Similitud: 0.6385
Frase 4: "El invierno se siente frío." - Similitud: 0.5747
Frase 5: "Hace mucho viento afuera." - Similitud: 0.6578

La frase más similar es: "El sol brilla y hace calor."


In [None]:
# dot product

In [14]:
# ahora usando producto punto


import numpy as np

similaridades = []

for emb in embeddings_frases:
    # Calcular el producto punto entre el embedding de la frase base y el de la frase actual
    producto_punto = np.dot(embeddings_base[0], emb)
    
    # Agregar el producto punto a la lista de similaridades
    similaridades.append(producto_punto)

# Encontrar la frase más similar
indice_max = similaridades.index(max(similaridades))
frase_mas_similar = frases[indice_max]

# Imprimir resultados
print(f"Frase base: \"{frase_base}\"")
for i, frase in enumerate(frases):
    print(f"Frase {i+1}: \"{frase}\" - Producto punto: {similaridades[i]:.4f}")

print(f"\nLa frase más similar es: \"{frase_mas_similar}\"")

Frase base: "['El clima hoy es muy soleado y cálido.']"
Frase 1: "Hoy es un día lluvioso." - Producto punto: 0.7396
Frase 2: "El sol brilla y hace calor." - Producto punto: 0.8757
Frase 3: "Mañana podría llover." - Producto punto: 0.6385
Frase 4: "El invierno se siente frío." - Producto punto: 0.5750
Frase 5: "Hace mucho viento afuera." - Producto punto: 0.6580

La frase más similar es: "El sol brilla y hace calor."


## Base de datos vectorial

https://docs.trychroma.com/getting-started

In [15]:
import chromadb
chroma_client = chromadb.Client()


# si quieren que la base se guarde en la pc
#client = chromadb.PersistentClient(path="/path/to/save/to")

In [16]:
# Levantar la base
collection = chroma_client.create_collection(name="my_collection")


In [17]:
# Cargar la data en la base

collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"
        
    ],
    ids=["id1", "id2", "id3"]
)



In [20]:
# Consultar sobre la base

results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
    n_results=1 # how many results to return
)
print(results)



{'ids': [['id1']], 'embeddings': None, 'documents': [['This is a document about pineapple']], 'uris': None, 'data': None, 'metadatas': [[None]], 'distances': [[1.0404009819030762]], 'included': [<IncludeEnum.distances: 'distances'>, <IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


In [21]:
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id1"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about pineapple"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null
    ]
  ],
  "distances": [
    [
      1.0404009819030762
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


In [22]:
chroma_client.delete_collection(name="my_collection")

In [None]:
# uses the model all-MiniLM-L6-v2 by default for embeddings

**Otra opcion es cargar los embeddings directamente a la base**

In [23]:
def get_embeddings(textos):
    
    response = co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )

    return response.embeddings.float_

In [24]:
documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"    
    ]

In [25]:
cohere_embeddings =  get_embeddings(documents)

In [27]:
# Levantar la base
collection = chroma_client.create_collection(name="my_collection")

# Cargar la data en la base

collection.add(
    documents=documents,
    ids=["id1", "id2", "id3"],
    embeddings=cohere_embeddings
)

In [28]:
# OJO AL PIOJO!!

results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
    n_results=2 # how many results to return
)
print(results)

InvalidDimensionException: Embedding dimension 384 does not match collection dimensionality 1024

In [29]:
cohere_embedding_query = get_embeddings(['This is a query document about animals'])

results = collection.query(
    query_embeddings=cohere_embedding_query,
    n_results=2 # how many results to return
)
print(results)

{'ids': [['id3', 'id1']], 'embeddings': None, 'documents': [['This is a document about dogs', 'This is a document about pineapple']], 'uris': None, 'data': None, 'metadatas': [[None, None]], 'distances': [[0.29931527376174927, 0.7999714612960815]], 'included': [<IncludeEnum.distances: 'distances'>, <IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


In [30]:
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id3",
      "id1"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about dogs",
      "This is a document about pineapple"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null,
      null
    ]
  ],
  "distances": [
    [
      0.29931527376174927,
      0.7999714612960815
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


Otra opcion de cargar la base con modelos de embeddings agenos a chroma

https://docs.trychroma.com/guides

![image.png](attachment:ffce0440-145f-43db-b8b1-565adf1f02e3.png)



In [45]:
#client.delete_collection(name="mi_coleccion")

In [33]:
from chromadb import Documents, EmbeddingFunction, Embeddings

In [34]:
# Define la función para obtener embeddings de Cohere
def get_embeddings(textos):
    response = co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_  # Cohere devuelve embeddings como una lista de listas


# Crea la clase personalizada de EmbeddingFunction para ChromaDB
class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        # Llama a la función de Cohere para obtener las embeddings
        return get_embeddings(input)  # input es una lista de textos

In [35]:
# Crea una instancia del cliente de ChromaDB
client = chromadb.Client()

# Crea una colección usando la función de embeddings personalizada
collection = client.create_collection(name="mi_coleccion",
                                      embedding_function=MyEmbeddingFunction(),
                                       metadata={"hnsw:space": "ip"}
                                     )

# Cargar la data en la base

collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"
        
    ],
    ids=["id1", "id2", "id3"]
)

# Consultar sobre la base

results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
    n_results=2 # how many results to return
)
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id1",
      "id3"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about pineapple",
      "This is a document about dogs"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null,
      null
    ]
  ],
  "distances": [
    [
      0.33927154541015625,
      0.3964487910270691
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


## Ejercicios

Utilizar la base de datos vectorial para resolver los siguientes ejercicios.

Probar en ambos casos como funcionan los embeddings por defecto de chroma y los embeddings de cohere.

1 - 
Un negocio tiene productos mal etiquetados por el encargado de turno, a cada producto debe ponerle el nombre que le da el fabricante y no el que le puso el encargado de turno.

Para ello desarrollar un programa que para cada producto de la lista [productos_mal_etiquetados] encuentre su producto asociado del maestro [productos_fabricante]

In [None]:
# Productos a etiquetar
productos_mal_etiquetados = [
    "Arroz Grano Largo 5kg",
    "Leche Entera 1 L",
    "Harina de Trigo",
    "Grasa vegetal 500 cc",
    "Aceite 0.5 L",
    "Litro fruta citrico",
    "Arroz Largo 5 kilogramos",
    "Derivado de la vaca",
    "Harina 0000",
    "Naranja exprimida por litro"
]

# Productos base (con unidades correctas)
productos_fabricante = [
    "Arroz Grano Largo 5 kg",
    "Leche Entera 1 Litro",
    "Harina de Trigo 1 Kg",
    "Aceite de Oliva 500 ml",
    "Jugo de Naranja 1 L"
]

2 - 
Una persona quiere consultar sobre comics de ciertas tematicas, elaborar un buscador que permita al fan buscar el comic mas adecuado para su consulta.

In [49]:
# Temáticas de cómics consultadas
consultas_del_fan = [
    "Historias de dioses y héroes en mundos cibernéticos futuristas.",
    "Batallas entre planetas ",
    "Aventuras en mundos rodeados de agua"
]

# Lista de cómics con sus descripciones
comics = [
    {"titulo": "Zeus 3000", "descripcion": "En un futuro dominado por IA, Zeus regresa como un androide para restaurar el orden. La guerra contra Hades, un virus descontrolado, desata un conflicto épico entre dioses cibernéticos. Los humanos luchan por sobrevivir entre mitos digitales y realidades virtuales."},
    
    {"titulo": "La Última Semilla","descripcion": "Tras un colapso ambiental, la Tierra está dominada por selvas inteligentes. Asha, la última botánica, debe proteger la 'semilla del renacer'. Robots cosechadores y fuerzas corporativas buscan destruirla, mientras ella lucha por restaurar la vida humana en un planeta vengativo."},
    
    {"titulo": "Neón en la Lluvia", "descripcion": "Un detective cibernético en Nueva Neo-Tokio investiga asesinatos en serie donde las víctimas aparecen sin recuerdos. Las pistas lo llevan a un club de neón donde los secretos más oscuros se ocultan entre luces artificiales. Cada caso revela un mundo corrupto de IA y humanos perdidos."},
    
    {"titulo": "Batallas Estelares: Resistencia",  "descripcion": "En un sistema planetario controlado por un imperio galáctico, un grupo de rebeldes lucha por la libertad. Aventuras interplanetarias, batallas espaciales y alianzas inesperadas marcan el destino de las civilizaciones oprimidas."},
    
    {"titulo": "Los Guardianes del Tiempo", "descripcion": "Un grupo de viajeros temporales, encargados de proteger la línea temporal, descubre una conspiración para cambiar la historia. En cada era, enfrentan desafíos históricos, desde el antiguo Egipto hasta el futuro lejano, mientras luchan por mantener la realidad intacta."},
    
    {"titulo": "Ciudad Sin Ley", "descripcion": "En un pueblo fronterizo, la ley ha desaparecido. Un forastero llega buscando justicia para su familia, enfrentándose a un grupo de bandidos despiadados. Entre duelos y traiciones, debe restaurar el orden o perder todo."},
    
    {"titulo": "Misterios del Abismo", "descripcion": "En un futuro donde el océano es el único refugio, exploradores submarinos buscan una ciudad perdida bajo el mar. Misterios ancestrales y criaturas abisales amenazan su misión mientras intentan desvelar secretos que podrían salvar a la humanidad."},
    
    {"titulo": "Crónicas del Dragón Cibernético", "descripcion": "Un dragón legendario ha renacido como código puro en un mundo virtual. Los héroes deben sumergirse en la realidad aumentada para enfrentar al dragón y evitar que destruya la infraestructura tecnológica que sostiene la civilización moderna."}
]


3-  
Buscar algun otro metodo de creacion de collection de chroma que me permita verificar si la coleccion ya existe (se recupera) o no (se crea).


https://docs.trychroma.com/guides