## Embeddings en OpenAI

In [None]:
import os, getpass

In [None]:
os.environ["OPENAI_API_KEY"] = getpass.getpass("Ingresa tu API Key de OpenAI : ")

In [None]:
from openai import OpenAI
client = OpenAI()

In [None]:
def generate_embedding(text, model):
   text = text.replace("\n", " ")
   response = client.embeddings.create(
      input = text,
      model = model
   )
   return response.data[0].embedding

## Modelo de embedding : text-embedding-3-small

In [None]:
embedding = generate_embedding("Me gusta la comida china", "text-embedding-3-small")

In [None]:
len(embedding), embedding

## Modelo de embedding : text-embedding-3-large

In [None]:
embedding_large = generate_embedding("Me gusta la comida china", "text-embedding-3-large")

In [None]:
len(embedding_large), embedding_large

## Visualizando los embbedings del modelo text-embedding-3-small

In [None]:
import pandas as pd
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

words = ["dog", "cat", "beach", "apple", "banana", "museum", "stadium", "fish"]
df = pd.DataFrame({"city" : words})

# Genera embeddings para cada palabra utilizando la función 'generate_embedding'
# y almacenar estos embeddings en una nueva columna llamada 'words_embeddings'.
df["words_embeddings"] = [generate_embedding(word, "text-embedding-3-small") for word in words]

# Inicializa el algoritmo PCA para reducir la dimensionalidad a 3 componentes.
pca = PCA(n_components = 3)

# Aplica PCA a los embeddings de las palabras y almacenar el resultado en 't'.
t = pca.fit_transform(df['words_embeddings'].tolist())

# Inicializar una figura para la visualización con un tamaño específico.
fig = plt.figure(figsize = (10,20))
ax = fig.add_subplot(111, projection = "3d")

# Graficar los puntos en 3D usando los resultados de PCA.
ax.scatter(t[:,0], t[:,1], t[:,2])

# Anotar cada punto con el nombre de la palabra correspondiente.
for i, txt in enumerate(words):
    ax.text(t[i,0], t[i,1], t[i,2], txt)

plt.show()

## Visualizando los embbeding del modelo text-embedding-3-large

In [None]:
import pandas as pd
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

words = ["dog", "cat", "beach", "apple", "banana", "museum", "stadium", "fish"]
df = pd.DataFrame({"city" : words})

# Genera embeddings para cada palabra utilizando la función 'generate_embedding'
# y almacenar estos embeddings en una nueva columna llamada 'words_embeddings'.
df["words_embeddings"] = [generate_embedding(word, "text-embedding-3-large") for word in words]

# Inicializa el algoritmo PCA para reducir la dimensionalidad a 3 componentes.
pca = PCA(n_components = 3)

# Aplica PCA a los embeddings de las palabras y almacenar el resultado en 't'.
t = pca.fit_transform(df['words_embeddings'].tolist())

# Inicializar una figura para la visualización con un tamaño específico.
fig = plt.figure(figsize = (10,20))
ax = fig.add_subplot(111, projection = "3d")

# Graficar los puntos en 3D usando los resultados de PCA.
ax.scatter(t[:,0], t[:,1], t[:,2])

# Anotar cada punto con el nombre de la palabra correspondiente.
for i, txt in enumerate(words):
    ax.text(t[i,0], t[i,1], t[i,2], txt)

plt.show()