In [1]:
#Importamos las librerias y cargamos la api key
import os
import json
import chromadb
import cohere
from dotenv import load_dotenv


load_dotenv()  # Load .env file

api_key = os.getenv("COHERE_API_KEY")
#print(api_key)  # Verify the key is loaded

r3eUg1U6gFJAeIuUddWn8QAFRXpwEYmEP71eXwZO


In [8]:
# Utilizamos los modelos

# Establecer la conexion a cohere y hacer su primer consulta con el modelo de embeddings.
# Usen la api version v2

co = cohere.ClientV2()
response = co.embed(
    texts=["Club atlético Talleres"],
    model="embed-multilingual-v3.0",
    input_type="search_document",
    embedding_types=["float"],
)


#print(response)

In [9]:
# desafio, obtener solo el contenido en vector
print(response.embeddings.float_[0])

[0.04360962, 0.033416748, -0.013397217, 0.022109985, 0.004348755, 0.047912598, 0.003162384, -0.044433594, 0.015106201, -0.01576233, -0.037750244, 0.015670776, -0.011779785, -0.0074691772, -0.019515991, -0.005718231, -0.0015039444, 0.026504517, 0.034210205, 0.026824951, 0.023544312, -2.938509e-05, -0.021224976, -0.028121948, 0.036895752, 0.029891968, 0.068481445, -0.02444458, 0.035980225, 0.0010471344, -0.034210205, -0.033996582, 0.086364746, 0.010910034, -0.0061035156, 0.0021839142, -0.031921387, -0.06274414, -0.014373779, 0.07080078, -0.017593384, 0.0010757446, -0.027770996, 0.031921387, -0.02508545, -0.0060539246, 0.017990112, 0.029724121, 0.077697754, 0.021774292, 0.015106201, -0.020568848, 0.0006632805, 0.0025463104, 0.005558014, -0.0054092407, 0.018569946, 3.8325787e-05, 0.020111084, 0.03149414, 0.0027103424, -0.028915405, -0.036346436, 0.006755829, -0.003326416, 0.030059814, 0.019104004, 0.014572144, 0.015914917, 0.009757996, 0.011108398, 0.021774292, 0.036193848, -0.008323669, -

In [10]:
# Averiguamos el tamaño del vector
print(len(response.embeddings.float_[0]))

1024


In [11]:
# pasando varios textos al mismo tiempo

response = co.embed(
    texts=["hola", "que onda chavo", "Aca mas texto"],  # hay 3 textos por lo tanto tenemos 3 vectores de 1024 elementos cada uno
    model="embed-multilingual-v3.0",
    input_type="search_document",
    embedding_types=["float"],
)

print(len(response.embeddings.float_))

3


In [13]:
#Similaridad : encontrar la frase más similar usando embeddings
#Definición de una función helper para obtener embeddings

def get_embeddings(textos):
    
    response= co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_

In [15]:
# probamos la funcion 'get_embeddings'

textos = ['hola', 'que tal', 'gato', 'perro']
prueba_embedding = get_embeddings(textos)
#print(len(prueba_embedding)) # cantidad de vectores
#print(prueba_embedding) # aca me muestra todos los numeros de los 4 vectores

4


In [22]:
from sklearn.metrics.pairwise import cosine_similarity

#Este método utiliza la métrica de similitud de coseno. Esto implica normalizar
#los vectores antes de calcular su relación. La ventaja de la similitud del coseno es que
#es independiente de la magnitud de los vectores. Sólo considera la orientación, lo cual 
# es ideal si los embeddings no están normalizados.

!pip install scikit-learn









In [23]:
# Frase base
frase_base = ["El clima hoy es muy soleado y cálido."]

# Frases a matchear
frases = [
    "Hoy es un día lluvioso.",
    "El sol brilla y hace calor.",
    "Mañana podría llover.",
    "El invierno se siente frío.",
    "Hace mucho viento afuera."
]


# Generar embeddings para todas las frases
embeddings_base = get_embeddings(frase_base) #aca guardo el vector de la frase base
embeddings_frases = get_embeddings(frases)  # aca guardo todos los vectores del listado de frases

In [27]:
# Calcular similitud coseno entre la frase base y cada frase a matchear
# Lista para almacenar los resultados de similitud
similaridades = [] 

for emb in embeddings_frases:
    # Calcular similitud coseno entre la frase base y la frase actual
    sim_coseno = cosine_similarity(embeddings_base, [emb])
    
    # Acceder al valor de la similitud (un solo valor en la matriz 1x1)
    similaridades.append(sim_coseno[0][0])

    # Encontrar la frase más similar
indice_max = similaridades.index(max(similaridades))
frase_mas_similar = frases[indice_max]

# Imprimir resultados
print(f"Frase base: \"{frase_base}\"")
for i, frase in enumerate(frases):
    print(f"Frase {i+1}: \"{frase}\" - Similitud: {similaridades[i]:.4f}")
    
print(f"\nLa frase más similar es: \"{frase_mas_similar}\"")


Frase base: "['El clima hoy es muy soleado y cálido.']"
Frase 1: "Hoy es un día lluvioso." - Similitud: 0.7390
Frase 2: "El sol brilla y hace calor." - Similitud: 0.8747
Frase 3: "Mañana podría llover." - Similitud: 0.6385
Frase 4: "El invierno se siente frío." - Similitud: 0.5750
Frase 5: "Hace mucho viento afuera." - Similitud: 0.6574

La frase más similar es: "El sol brilla y hace calor."


In [28]:

# Ahora lo resolvemos utilizando producto punto


import numpy as np

similaridades = []

for emb in embeddings_frases:
    # Calcular el producto punto entre el embedding de la frase base y el de la frase actual
    producto_punto = np.dot(embeddings_base[0], emb)
    
    # Agregar el producto punto a la lista de similaridades
    similaridades.append(producto_punto)

# Encontrar la frase más similar
indice_max = similaridades.index(max(similaridades))
frase_mas_similar = frases[indice_max]

# Imprimir resultados
print(f"Frase base: \"{frase_base}\"")
for i, frase in enumerate(frases):
    print(f"Frase {i+1}: \"{frase}\" - Producto punto: {similaridades[i]:.4f}")

print(f"\nLa frase más similar es: \"{frase_mas_similar}\"")


Frase base: "['El clima hoy es muy soleado y cálido.']"
Frase 1: "Hoy es un día lluvioso." - Producto punto: 0.7391
Frase 2: "El sol brilla y hace calor." - Producto punto: 0.8747
Frase 3: "Mañana podría llover." - Producto punto: 0.6384
Frase 4: "El invierno se siente frío." - Producto punto: 0.5752
Frase 5: "Hace mucho viento afuera." - Producto punto: 0.6574

La frase más similar es: "El sol brilla y hace calor."


In [29]:
# Base de datos vectorial
#Importación de la base vectorial chroma
import chromadb

chroma_client = chromadb.Client()

# si quieren que la base se guarde en la pc
#client = chromadb.PersistentClient(path="/path/to/save/to")

In [38]:
#Levantar la base de datos

collection= chroma_client.create_collection(name= "my_collection")  #es un contenedor que puede almacenar muchos vectores. 

In [39]:
# Cargar data en la base de datos

collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"

    ],
    ids=["id1", "id2", "id3"]
)


In [40]:
# Consultar sobre la base

results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
    n_results=1 # how many results to return
)
print(results)


{'ids': [['id1']], 'embeddings': None, 'documents': [['This is a document about pineapple']], 'uris': None, 'data': None, 'metadatas': [[None]], 'distances': [[1.0404009819030762]], 'included': [<IncludeEnum.distances: 'distances'>, <IncludeEnum.documents: 'documents'>, <IncludeEnum.metadatas: 'metadatas'>]}


In [41]:
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id1"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about pineapple"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null
    ]
  ],
  "distances": [
    [
      1.0404009819030762
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


In [96]:
chroma_client.delete_collection(name="my_collection")

In [97]:
# Otra opcion es cargar los embeddings directamente a la base

In [98]:
def get_embeddings(textos):
    
    response= co.embed(
        texts=textos,
        model="embed-english-v3.",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_

In [99]:
documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"    
    ]

In [100]:
cohere_embeddings =  get_embeddings(documents)

NotFoundError: status_code: 404, body: {'message': "model 'embed-english-v3.' not found, make sure the correct model ID was used and that you have access to the model."}

In [None]:
# Levantar la base
collection = chroma_client.create_collection(name="my_collection")

# Cargar la data en la base

collection.add(
    documents=documents,
    ids=["id1", "id2", "id3"],
    embeddings=cohere_embeddings
)

In [101]:
# OJO AL PIOJO!! 
# las dimensiones con las que trabaja el modelo de la funcion 'embedding' debe ser igual a la dimension de la coleccion que vamos a crear
# el modelo embed-multilingual-v3.0 solo trabaja hasta la 384 dimension, por eso cambié de modelo por otro que soporte 1024 dimensiones.

results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
    n_results=2 # how many results to return
)
print(results)

InvalidCollectionException: Collection c9d50094-f017-4542-802c-c24afe8cd109 does not exist.

In [102]:
cohere_embedding_query = get_embeddings(['This is a query document about animals'])

results = collection.query(
    query_embeddings=cohere_embedding_query,
    n_results=2 # how many results to return
)
print(results)

NotFoundError: status_code: 404, body: {'message': "model 'embed-english-v3.' not found, make sure the correct model ID was used and that you have access to the model."}

In [103]:
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id1"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about pineapple"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null
    ]
  ],
  "distances": [
    [
      1.0404009819030762
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


In [104]:
#Another option..
#Cargar la base de datos con modelos de embeddings ajenos a chroma


In [105]:
#client.delete_collection(name="mi_coleccion")

In [106]:
from chromadb import Documents, EmbeddingFunction, Embeddings

In [107]:
# Define la función para obtener embeddings de Cohere
def get_embeddings(textos):
    response = co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_  # Cohere devuelve embeddings como una lista de listas


# Crea la clase personalizada de EmbeddingFunction para ChromaDB
class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        # Llama a la función de Cohere para obtener las embeddings
        return get_embeddings(input)  # input es una lista de textos

In [108]:
# Crea una instancia del cliente de ChromaDB
client = chromadb.Client()

# Crea una colección usando la función de embeddings personalizada
collection = client.create_collection(name="mi_coleccion",
                                      embedding_function=MyEmbeddingFunction(),
                                       metadata={"hnsw:space": "ip"}
                                     )

# Cargar la data en la base

collection.add(
    documents=[
        "This is a document about pineapple",
        "This is a document about oranges",
        "This is a document about dogs"
        
    ],
    ids=["id1", "id2", "id3"]
)

# Consultar sobre la base

results = collection.query(
    query_texts=["This is a query document about hawaii"], # Chroma will embed this for you
    n_results=2 # how many results to return
)
print(json.dumps(results, indent=2))

{
  "ids": [
    [
      "id1",
      "id3"
    ]
  ],
  "embeddings": null,
  "documents": [
    [
      "This is a document about pineapple",
      "This is a document about dogs"
    ]
  ],
  "uris": null,
  "data": null,
  "metadatas": [
    [
      null,
      null
    ]
  ],
  "distances": [
    [
      0.33927154541015625,
      0.3964487910270691
    ]
  ],
  "included": [
    "distances",
    "documents",
    "metadatas"
  ]
}


In [122]:
# EJERCICIOS DE TAREA - PLANTEO


# Hay que ejecutar desde la primera linea para que las librerias se puedan importar

In [123]:
client.delete_collection(name="mi_coleccion_de_productos")

In [124]:
# Define la función para obtener embeddings de Cohere
def get_embeddings(textos):
    response = co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_  # Cohere devuelve embeddings como una lista de listas


# Crea la clase personalizada de EmbeddingFunction para ChromaDB
class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        # Llama a la función de Cohere para obtener las embeddings
        return get_embeddings(input)  # input es una lista de textos


In [125]:
# Crea una instancia del cliente de ChromaDB
client = chromadb.Client()

# Crea una colección usando la función de embeddings personalizada
collection = client.create_collection(
    name="mi_coleccion_de_productos",  # Nombre único para la colección
    embedding_function=MyEmbeddingFunction(),  # Asocia los embeddings personalizados
    metadata={"hnsw:space": "ip"}
)


In [126]:
# Definir las listas de productos

# Lista de productos mal etiquetados
productos_mal_etiquetados = [
    "Arroz Grano Largo 5kg",
    "Leche Entera 1 L",
    "Harina de Trigo",
    "Grasa vegetal 500 cc",
    "Aceite 0.5 L",
    "Litro fruta citrico",
    "Arroz Largo 5 kilogramos",
    "Derivado de la vaca",
    "Harina 0000",
    "Naranja exprimida por litro"
]

# Lista de productos base (correctos)
productos_fabricante = [
    "Arroz Grano Largo 5 kg",
    "Leche Entera 1 Litro",
    "Harina de Trigo 1 Kg",
    "Aceite de Oliva 500 ml",
    "Jugo de Naranja 1 L"
]


In [127]:
# Cargar los datos de los productos del fabricante en la base
collection.add(
    documents=[
        "Arroz Grano Largo 5 kg",
        "Leche Entera 1 Litro",
        "Harina de Trigo 1 Kg",
        "Aceite de Oliva 500 ml",
        "Jugo de Naranja 1 L"
    ],
    ids=["prod1", "prod2", "prod3", "prod4", "prod5"]  # Identificadores únicos para cada producto
)


In [130]:
# Generar embeddings para los productos mal etiquetados
embeddings_mal_etiquetados = get_embeddings(productos_mal_etiquetados)

# Buscar coincidencias en la colección
for i, embedding in enumerate(embeddings_mal_etiquetados):
    # Realizar la búsqueda en la colección
    resultados = collection.query(
        query_embeddings=[embedding],
        n_results=1  # Buscar el documento más cercano
    )
    
    # Mostrar los productos mal etiquetados y sus distancias correspondientes
    producto_mal = productos_mal_etiquetados[i]
    producto_correcto = resultados['documents'][0]
    distancia = resultados['distances'][0]
    
    # Mostrar el resultado
    print(f"Producto mal etiquetado: {producto_mal}")
    print(f"Producto correcto encontrado: {producto_correcto}")
    print(f"Distancia entre el producto mal etiquetado y el correcto: {distancia}")
    print()


Producto mal etiquetado: Arroz Grano Largo 5kg
Producto correcto encontrado: ['Arroz Grano Largo 5 kg']
Distancia entre el producto mal etiquetado y el correcto: [0.004953503608703613]

Producto mal etiquetado: Leche Entera 1 L
Producto correcto encontrado: ['Leche Entera 1 Litro']
Distancia entre el producto mal etiquetado y el correcto: [0.033549487590789795]

Producto mal etiquetado: Harina de Trigo
Producto correcto encontrado: ['Harina de Trigo 1 Kg']
Distancia entre el producto mal etiquetado y el correcto: [0.10736173391342163]

Producto mal etiquetado: Grasa vegetal 500 cc
Producto correcto encontrado: ['Aceite de Oliva 500 ml']
Distancia entre el producto mal etiquetado y el correcto: [0.10430097579956055]

Producto mal etiquetado: Aceite 0.5 L
Producto correcto encontrado: ['Aceite de Oliva 500 ml']
Distancia entre el producto mal etiquetado y el correcto: [0.09746044874191284]

Producto mal etiquetado: Litro fruta citrico
Producto correcto encontrado: ['Leche Entera 1 Litro'

In [132]:
# Ejercicio 2

In [133]:

# Función para obtener embeddings de Cohere
def get_embeddings(textos):
    response = co.embed(
        texts=textos,
        model="embed-multilingual-v3.0",
        input_type="search_document",
        embedding_types=["float"],
    )
    return response.embeddings.float_  # Cohere devuelve embeddings como una lista de listas

# Crear la clase personalizada de EmbeddingFunction para ChromaDB
class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        return get_embeddings(input)

In [134]:
# Crea una instancia del cliente de ChromaDB
client = chromadb.Client()

# Crea una colección usando la función de embeddings personalizada
collection = client.create_collection(
    name="mi_coleccion_de_comics",  # Nombre único para la colección
    embedding_function=MyEmbeddingFunction(),  # Asocia los embeddings personalizados
    metadata={"hnsw:space": "ip"}
)


In [135]:
# Temáticas de cómics consultadas
consultas_del_fan = [
    "Historias de dioses y héroes en mundos cibernéticos futuristas.",
    "Batallas entre planetas ",
    "Aventuras en mundos rodeados de agua"
]

# Lista de cómics con sus descripciones
comics = [
    {"titulo": "Zeus 3000", "descripcion": "En un futuro dominado por IA, Zeus regresa como un androide para restaurar el orden. La guerra contra Hades, un virus descontrolado, desata un conflicto épico entre dioses cibernéticos. Los humanos luchan por sobrevivir entre mitos digitales y realidades virtuales."},
    {"titulo": "La Última Semilla","descripcion": "Tras un colapso ambiental, la Tierra está dominada por selvas inteligentes. Asha, la última botánica, debe proteger la 'semilla del renacer'. Robots cosechadores y fuerzas corporativas buscan destruirla, mientras ella lucha por restaurar la vida humana en un planeta vengativo."},
    {"titulo": "Neón en la Lluvia", "descripcion": "Un detective cibernético en Nueva Neo-Tokio investiga asesinatos en serie donde las víctimas aparecen sin recuerdos. Las pistas lo llevan a un club de neón donde los secretos más oscuros se ocultan entre luces artificiales. Cada caso revela un mundo corrupto de IA y humanos perdidos."},
    {"titulo": "Batallas Estelares: Resistencia",  "descripcion": "En un sistema planetario controlado por un imperio galáctico, un grupo de rebeldes lucha por la libertad. Aventuras interplanetarias, batallas espaciales y alianzas inesperadas marcan el destino de las civilizaciones oprimidas."},
    {"titulo": "Los Guardianes del Tiempo", "descripcion": "Un grupo de viajeros temporales, encargados de proteger la línea temporal, descubre una conspiración para cambiar la historia. En cada era, enfrentan desafíos históricos, desde el antiguo Egipto hasta el futuro lejano, mientras luchan por mantener la realidad intacta."},
    {"titulo": "Ciudad Sin Ley", "descripcion": "En un pueblo fronterizo, la ley ha desaparecido. Un forastero llega buscando justicia para su familia, enfrentándose a un grupo de bandidos despiadados. Entre duelos y traiciones, debe restaurar el orden o perder todo."},
    {"titulo": "Misterios del Abismo", "descripcion": "En un futuro donde el océano es el único refugio, exploradores submarinos buscan una ciudad perdida bajo el mar. Misterios ancestrales y criaturas abisales amenazan su misión mientras intentan desvelar secretos que podrían salvar a la humanidad."},
    {"titulo": "Crónicas del Dragón Cibernético", "descripcion": "Un dragón legendario ha renacido como código puro en un mundo virtual. Los héroes deben sumergirse en la realidad aumentada para enfrentar al dragón y evitar que destruya la infraestructura tecnológica que sostiene la civilización moderna."}
]


In [136]:
# Cargar los cómics en la base de datos con sus descripciones
documents = [comic['descripcion'] for comic in comics]
ids = [comic['titulo'] for comic in comics]

# Agregar los cómics a la colección
collection.add(
    documents=documents,
    ids=ids
)


In [137]:
# Generar embeddings para las consultas del fan
embeddings_consultas = get_embeddings(consultas_del_fan)

# Buscar coincidencias en la colección
for i, embedding in enumerate(embeddings_consultas):
    # Realizar la búsqueda en la colección
    resultados = collection.query(
        query_embeddings=[embedding],
        n_results=1  # Buscar el cómic más cercano
    )
    
    # Mostrar el resultado de la búsqueda
    consulta = consultas_del_fan[i]
    comic_encontrado = resultados['documents'][0]
    distancia = resultados['distances'][0]
    
    # Mostrar el resultado
    print(f"Consulta del fan: {consulta}")
    print(f"Cómic más adecuado encontrado: {comic_encontrado}")
    print(f"Distancia entre la consulta y el cómic: {distancia}")
    print()


Consulta del fan: Historias de dioses y héroes en mundos cibernéticos futuristas.
Cómic más adecuado encontrado: ['En un sistema planetario controlado por un imperio galáctico, un grupo de rebeldes lucha por la libertad. Aventuras interplanetarias, batallas espaciales y alianzas inesperadas marcan el destino de las civilizaciones oprimidas.']
Distancia entre la consulta y el cómic: [0.26782214641571045]

Consulta del fan: Batallas entre planetas 
Cómic más adecuado encontrado: ['En un sistema planetario controlado por un imperio galáctico, un grupo de rebeldes lucha por la libertad. Aventuras interplanetarias, batallas espaciales y alianzas inesperadas marcan el destino de las civilizaciones oprimidas.']
Distancia entre la consulta y el cómic: [0.3109714984893799]

Consulta del fan: Aventuras en mundos rodeados de agua
Cómic más adecuado encontrado: ['En un futuro donde el océano es el único refugio, exploradores submarinos buscan una ciudad perdida bajo el mar. Misterios ancestrales y

In [None]:
# EJERCICIO 3

In [None]:
#método get_or_create_collection en ChromaDB. 
#Este método permite verificar si la colección ya existe, y si no existe, la crea automáticamente. 
#Esto te permite evitar el error de crear una colección con el mismo nombre y te asegura que, si ya existe, se recupere en lugar de crearla nuevamente.

In [138]:
# Crea una instancia del cliente de ChromaDB
client = chromadb.Client()

# Usamos get_or_create_collection para verificar si la colección existe o crearla
collection_name = "mi_coleccion_de_comics"

# Recuperar o crear la colección
collection = client.get_or_create_collection(
    name=collection_name,  # Nombre único para la colección
    embedding_function=MyEmbeddingFunction(),  # Asocia los embeddings personalizados
    metadata={"hnsw:space": "ip"}
)

# Verificar si la colección fue creada o ya existía
if collection:
    print(f"Se ha recuperado o creado la colección: {collection_name}")
else:
    print(f"No se pudo recuperar ni crear la colección: {collection_name}")


Se ha recuperado o creado la colección: mi_coleccion_de_comics
