In [5]:
#Importación de librerias y uso de Api key de Cohere
import os
import json
import chromadb
import cohere
from dotenv import load_dotenv


load_dotenv()  # Load .env file

COHERE_API_KEY = os.getenv("API_KEY")
#print(COHERE_API_KEY)  # Verify the key is loaded

In [6]:
#Establecer conexión a Cohere y primer consulta con modelo de embedding (Versión v2)

co= cohere.ClientV2(api_key= COHERE_API_KEY)
response = co.embed(
    texts=["hola"],
    model="embed-multilingual-v3.0",
    input_type="search_document",
    embedding_types=["float"],
)

#print(response)



In [3]:
#Primer vector de embedding generado por el modelo de Cohere.
print(response.embeddings.float_[0])

[0.00687027, 0.03390503, 0.015007019, 0.0018463135, 0.0010251999, 0.025619507, -0.009239197, -0.042388916, -0.020324707, 0.006248474, 0.020431519, 0.009063721, 0.017730713, 0.023513794, 0.006866455, 0.012313843, 0.022155762, 0.025115967, 0.04525757, -0.004737854, -0.003484726, 0.0054893494, 0.01914978, -0.02798462, -0.014335632, 0.016983032, 0.02961731, -0.009819031, 0.03756714, 0.013320923, -0.012969971, -0.010498047, 0.076049805, 0.05996704, -0.026229858, 0.02960205, -0.024932861, -0.023025513, 0.013191223, 0.045288086, -0.032348633, 0.015625, -0.0022201538, 0.054016113, -0.01210022, -0.021606445, 0.03466797, 0.027282715, 0.0054016113, 0.07495117, -0.006122589, -0.0234375, 0.01953125, 0.03414917, 0.008903503, -0.014183044, 0.023895264, 0.010299683, 0.022338867, 0.019607544, -0.002822876, -0.027160645, -0.04623413, 0.001420021, 0.041931152, 0.039215088, 0.022903442, -0.0028533936, 0.011711121, 0.007537842, -0.0055160522, -0.011138916, 0.037353516, 0.0031776428, -0.02168274, -0.0097885

In [4]:
# Cantidad de elementos(dimensiones) en el vector de embedding generado para el texto
#Este modelo de cohere genera un vector de una cantidad fija de dimensiones para cada texto, 
#el tamaño depende del diseño del modelo en particular. La longitud del vector determina la capacidad
#del modelo de capturar más detalles semánticos. Todos los textos procesados por el mismo modelo 
#Tendran embedding de la misma longitud, por lo que se los podrá comparar directamente.

print(len(response.embeddings.float_[0]))

1024


In [5]:
# Es posible ingresarle al modelo diferentes textos al mismo tiempo

response = co.embed(
    texts=["Hola que tal?", "Mañana es martes", "Aca mas texto"],
    model="embed-multilingual-v3.0",
    input_type="search_document",
    embedding_types=["float"],
)

print(len(response.embeddings.float_))
#Obtendré la cantidad de vectores

3


In [19]:
#Similaridad : encontrar la frase más similar usando embeddings
#Definición de una función helper para obtener embeddings

def get_embeddings(textos):
    
    response= co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_

In [28]:
from sklearn.metrics.pairwise import cosine_similarity
#Este método utiliza la métrica de similitud de coseno. Esto implica normalizar
#los vectores antes de calcular su relación. La ventaja de la similitud del coseno es que
#es independiente de la magnitud de los vectores. Sólo considera la orientación, lo cual 
# es ideal si los embeddings no están normalizados. 

In [33]:
# Frase base
frase_base = ["El clima hoy es muy soleado y cálido."]

# Frases a matchear
frases = [
    "Hoy es un día lluvioso.",
    "El sol brilla y hace calor.",
    "Mañana podría llover.",
    "El invierno se siente frío.",
    "Hace mucho viento afuera."
]

# Generar embeddings para la frase base y el resto de las frases
embeddings_base = get_embeddings(frase_base)
embeddings_frases = get_embeddings(frases)



In [34]:
# Calcular similitud coseno entre la frase base y cada frase a matchear
# Lista para almacenar los resultados de similitud
similaridades = [] 

for emb in embeddings_frases:
    # Calcular similitud coseno entre la frase base y la frase actual
    sim_coseno = cosine_similarity(embeddings_base, [emb])
    
    # Acceder al valor de la similitud (un solo valor en la matriz 1x1)
    similaridades.append(sim_coseno[0][0])

    # Encontrar la frase más similar
indice_max = similaridades.index(max(similaridades))
frase_mas_similar = frases[indice_max]

# Imprimir resultados
print(f"Frase base: \"{frase_base}\"")
for i, frase in enumerate(frases):
    print(f"Frase {i+1}: \"{frase}\" - Similitud: {similaridades[i]:.4f}")
    
print(f"\nLa frase más similar es: \"{frase_mas_similar}\"")


Frase base: "['El clima hoy es muy soleado y cálido.']"
Frase 1: "Hoy es un día lluvioso." - Similitud: 0.7393
Frase 2: "El sol brilla y hace calor." - Similitud: 0.8756
Frase 3: "Mañana podría llover." - Similitud: 0.6385
Frase 4: "El invierno se siente frío." - Similitud: 0.5747
Frase 5: "Hace mucho viento afuera." - Similitud: 0.6578

La frase más similar es: "El sol brilla y hace calor."


In [None]:
# Dot product

# Usa el 'producto punto' que es una operación matemática que mide cuanto 
#están alineados dos vectores, pero sin normalización. Esto depende de la magnitud de los
#vectores , por ejemplo un vector más largo tendrá un producto punto mayor
#incluso si su dirección es menos similar al otro vector. 

In [35]:
import numpy as np

In [36]:

import numpy as np

similaridades = []

for emb in embeddings_frases:
    # Calcular el producto punto entre el embedding de la frase base y el de la frase actual
    producto_punto = np.dot(embeddings_base[0], emb)
    
    # Agregar el producto punto a la lista de similaridades
    similaridades.append(producto_punto)

# Encontrar la frase más similar
indice_max = similaridades.index(max(similaridades))
frase_mas_similar = frases[indice_max]

# Imprimir resultados
print(f"Frase base: \"{frase_base}\"")
for i, frase in enumerate(frases):
    print(f"Frase {i+1}: \"{frase}\" - Producto punto: {similaridades[i]:.4f}")

print(f"\nLa frase más similar es: \"{frase_mas_similar}\"")

Frase base: "['El clima hoy es muy soleado y cálido.']"
Frase 1: "Hoy es un día lluvioso." - Producto punto: 0.7396
Frase 2: "El sol brilla y hace calor." - Producto punto: 0.8757
Frase 3: "Mañana podría llover." - Producto punto: 0.6385
Frase 4: "El invierno se siente frío." - Producto punto: 0.5750
Frase 5: "Hace mucho viento afuera." - Producto punto: 0.6580

La frase más similar es: "El sol brilla y hace calor."


In [37]:
#Importación de la base vectorial chroma
import chromadb

chroma_client = chromadb.Client()

In [39]:
#Levantar la base de datos

collection= chroma_client.create_collection(name= "my_collection")

In [40]:
# Cargar data en la base de datos

collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"

    ],
    ids=["id1", "id2", "id3"]
)


C:\Users\Usuario\.cache\chroma\onnx_models\all-MiniLM-L6-v2\onnx.tar.gz: 100%|███| 79.3M/79.3M [00:24<00:00, 3.46MiB/s]


In [42]:
# Consultas sobre la base

results= collection.query(
    query_texts = ["This is a query document about Hawai"],
    n_results = 1 #Cuantos resultados quiero que retonre
)

print(results)

{'ids': [['id1']], 'embeddings': None, 'documents': [['This is a document about pineapple']], 'uris': None, 'data': None, 'metadatas': [[None]], 'distances': [[1.0524318218231201]], 'included': [<IncludeEnum.distances: 'distances'>, <IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


In [43]:
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id1"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about pineapple"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null
    ]
  ],
  "distances": [
    [
      1.0524318218231201
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


In [55]:
chroma_client.delete_collection(name="my_collection")

In [56]:
# Otra opcion es cargar los embeddings directamente a la base

In [57]:
def get_embeddings(textos):
    
    response= co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_

In [58]:
documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"
    ]

In [59]:
cohere_embeddings =  get_embeddings(documents)


In [60]:
# Levantar la base
collection = chroma_client.create_collection(name="my_collection")

# Cargar la data en la base

collection.add(
    documents=documents,
    ids=["id1", "id2", "id3"],
    embeddings=cohere_embeddings
)

In [62]:
# OJO AL PIOJO!!

#Sin lo siguiente, el código de error porque el tamaño de los vectores de los modelos
#es diferente: #InvalidDimensionException: Embedding dimension 384 does not match 
#collection dimensionality 1024- #Output is truncated. View as a scrollable element or open in a text editor. 


cohere_embedding_query = get_embeddings(['This is a query document about animals'])

results = collection.query(
    query_embeddings= cohere_embedding_query, # Chroma will embed this for you
    n_results=2 # how many results to return
)
print(results)

{'ids': [['id3', 'id1']], 'embeddings': None, 'documents': [['This is a document about dogs', 'This is a document about pineapple']], 'uris': None, 'data': None, 'metadatas': [[None, None]], 'distances': [[0.29931527376174927, 0.7999714612960815]], 'included': [<IncludeEnum.distances: 'distances'>, <IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


In [63]:
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id3",
      "id1"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about dogs",
      "This is a document about pineapple"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null,
      null
    ]
  ],
  "distances": [
    [
      0.29931527376174927,
      0.7999714612960815
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


In [None]:
#Another option..
#Cargar la base de datos con modelos de embeddings ajenos a chroma

In [66]:
from chromadb import Documents, EmbeddingFunction, Embeddings

In [67]:
#Definición de la función para obtener embeddings de Cohere

In [68]:
def get_embeddings(textos):
    response = co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_  # Cohere devuelve embeddings como una lista de listas

    
# Crear la clase personalizada de EmbeddingFunction para ChromaDB
class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        # Llama a la función de Cohere para obtener las embeddings
        return get_embeddings(input)  # input es una lista de textos

In [69]:
#Crear una instancia del cliente de ChromaDB 

client= chromadb.Client()

collection = client.create_collection(name="mi_coleccion",
                                      embedding_function=MyEmbeddingFunction(),
                                       metadata={"hnsw:space": "ip"}
                                     )

# Cargar la data en la base

collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"

    ],
    ids=["id1", "id2", "id3"]
)

# Consultar sobre la base

results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
    n_results=2 # how many results to return
)
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id1",
      "id3"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about pineapple",
      "This is a document about dogs"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null,
      null
    ]
  ],
  "distances": [
    [
      0.33927154541015625,
      0.3964487910270691
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}
