In [1]:
from dotenv import load_dotenv
import os

load_dotenv()

openai_api_key=os.getenv('OPENAI_API_KEY', 'YourAPIKey')

# Coustom Embeddings

## OpenAI

In [None]:
!pip install chromadb openai 

## Configuracion del Embeddings

### Datos

In [2]:
student_info = """
Alexandra Thompson, estudiante de segundo curso de informática de 19 años con un promedio de 3,7,
es miembro de los clubes de programación y ajedrez, y en su tiempo libre disfruta de la pizza, la natación y el senderismo.
en su tiempo libre con la esperanza de trabajar en una empresa de tecnología después de graduarse en la Universidad de Washington.
"""

club_info = """
El club universitario de ajedrez ofrece a los estudiantes la oportunidad de reunirse y disfrutar jugando
el clásico juego de estrategia del ajedrez. Los miembros de todos los niveles son bienvenidos, desde principiantes que aprenden las reglas hasta jugadores de torneos experimentados.
desde principiantes que aprenden las reglas hasta jugadores experimentados en torneos. El club suele reunirse varias veces por semana para jugar partidas informales,
participar en torneos, analizar partidas de ajedrez famosas y mejorar las habilidades de los miembros.
"""

university_info = """
La Universidad de Washington, fundada en 1861 en Seattle, es una universidad pública de investigación
con más de 45.000 estudiantes repartidos en tres campus en Seattle, Tacoma y Bothell.
Es el buque insignia de las seis universidades públicas del estado de Washington,
UW abarca más de 500 edificios y 20 millones de pies cuadrados de espacio,
incluyendo uno de los mayores sistemas bibliotecarios del mundo.
"""

## Establecemos text-embedding-ada-002 como default

In [None]:
from chromadb.utils import embedding_functions
openai_ef = embedding_functions.OpenAIEmbeddingFunction(
                api_key=openai_api_key,
                model_name="text-embedding-ada-002"
            )
students_embeddings = openai_ef([student_info, club_info, university_info])
print(students_embeddings)

## creamos nuestra coustom embedding

En este caso usaremos [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)

In [None]:
!pip install transformers

In [10]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

from chromadb import Documents, EmbeddingFunction, Embeddings

class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, texts: Documents) -> Embeddings:
        
        embeddings = []
        for text in texts:
            embeddings.append(model.encode(text))

        return embeddings
    
my_ef = MyEmbeddingFunction()
embeddings = my_ef([student_info, club_info, university_info])

print(embeddings)

[array([-2.52863485e-02, -5.41979854e-04, -9.47024766e-03,  1.72079203e-03,
       -7.92744756e-02,  2.72143818e-02,  1.45097962e-02,  1.66710690e-02,
        2.36787051e-02, -3.62636335e-03,  1.52681014e-02, -3.78083475e-02,
       -6.73092976e-02,  6.31288951e-03,  3.02444417e-02, -7.27413744e-02,
        3.81042389e-03, -2.43711788e-02,  2.63526980e-02, -1.24814428e-01,
       -2.19823103e-02, -1.40323505e-01, -8.51133168e-02,  8.10695291e-02,
       -8.82912707e-03,  7.93208368e-03,  1.29578002e-02, -2.87571154e-03,
       -9.32785496e-02, -4.59815636e-02, -5.14728166e-02,  4.09891494e-02,
        1.51179969e-01,  6.48041815e-02,  9.14628617e-03,  5.98611385e-02,
        8.66614729e-02, -1.00320794e-01, -7.82412011e-03,  6.67146742e-02,
       -8.07733387e-02,  1.91554858e-03,  2.19529215e-02,  1.62735991e-02,
       -7.99502209e-02, -8.80762488e-02, -1.06032483e-01, -2.08038259e-02,
       -7.41869062e-02,  2.69595496e-02, -1.13012455e-01, -5.74043393e-02,
        2.89159808e-02, 