## CRUD con Embeddings

Instalar dependencias en caso de no haber ejecutado el archivo requirements.txt

In [None]:
%pip install sentence-transformers numpy pandas

Importar librerías necesarias

In [None]:
from sentence_transformers import SentenceTransformer
import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

Crear el modelo de embeddings

In [None]:
modelo = SentenceTransformer('all-MiniLM-L6-v2')


Inicializar el DataFrame donde se almacenarán los embeddings

In [4]:
embeddings_df = pd.DataFrame(columns=["id", "embedding", "texto"])

1. Crear un embedding y agregarlo al DataFrame

In [6]:
def agregar_embedding(texto):
    embedding = modelo.encode([texto])[0]
    nuevo_id = len(embeddings_df) + 1
    embeddings_df.loc[len(embeddings_df)] = [nuevo_id, embedding, texto]
    return nuevo_id, embedding

2. Leer un embedding (consultar todos los embeddings)

In [7]:
def obtener_embeddings():
    return embeddings_df

3. Consultar los embeddings más similares a una consulta

In [9]:
def consultar_similares(texto_consulta, top_k=5):
    embedding_consulta = modelo.encode([texto_consulta])[0]
    embeddings_array = np.array(embeddings_df['embedding'].tolist())
    sim = cosine_similarity([embedding_consulta], embeddings_array)
    indices_similares = sim[0].argsort()[-top_k:][::-1]
    
    resultados = []
    for idx in indices_similares:
        resultados.append(embeddings_df.iloc[idx])
    
    return resultados

4. Actualizar un embedding por ID

In [89]:
def actualizar_embedding(id, nuevo_texto):
    try:
        # Verificar el tipo de la columna 'embedding'
        if embeddings_df['embedding'].dtype != 'object':
            embeddings_df['embedding'] = embeddings_df['embedding'].astype(object)
        
        # Obtener el embedding antiguo
        embedding_antiguo = embeddings_df.loc[embeddings_df['id'] == id, 'embedding'].values[0]
        print("Tamaño del antiguo embedding:", len(embedding_antiguo))

        # Generar el nuevo embedding
        embedding_nuevo = modelo.encode([nuevo_texto])[0]
        print("Tamaño del nuevo embedding:", len(embedding_nuevo))

        # Validar tamaño y tipo del embedding
        if isinstance(embedding_nuevo, (list, np.ndarray)) and len(embedding_nuevo) == len(embedding_antiguo):
            # Actualizar la fila correspondiente en el DataFrame
            embeddings_df.loc[embeddings_df['id'] == id, 'embedding'] = embeddings_df.loc[embeddings_df['id'] == id, 'embedding'].apply(
                lambda _: embedding_nuevo.tolist() if isinstance(embedding_nuevo, np.ndarray) else embedding_nuevo
            )
            embeddings_df.loc[embeddings_df['id'] == id, 'texto'] = nuevo_texto
            print(f"Embedding actualizado correctamente para el ID {id}")
            return id, nuevo_texto
        else:
            raise ValueError("El tamaño del nuevo embedding no coincide con el tamaño esperado.")
    except Exception as e:
        print(f"Error al actualizar el embedding: {e}")
        return None, None



5. Eliminar un embedding por ID

In [11]:
def eliminar_embedding(id):
    embeddings_df.drop(embeddings_df[embeddings_df['id'] == id].index, inplace=True)
    return id

# Uso del CRUD

1. Crear embeddings

In [37]:
id1, embedding1 = agregar_embedding("Este es un texto de prueba.")
id2, embedding2 = agregar_embedding("Otro texto para generar un embedding.")
id3, embedding3 = agregar_embedding("Ejemplo de texto para el crud.")

2. Leer los embeddings

In [None]:
print("Embeddings en la base de datos:")
print(obtener_embeddings())

3. Consultar los embeddings más similares a un nuevo texto

In [None]:
resultados = consultar_similares("texto de ejemplo")
print("\nEmbeddings más similares a la consulta:")
for resultado in resultados:
    print(resultado)

4. Actualizar un embedding

In [None]:
# ID del embedding a actualizar y nuevo texto
id_actualizar = 2
nuevo_texto = "Un texto generado para comprobar el funcionamiento del embedding."

# Llamar a la función para actualizar el embedding
id_actualizado, texto_actualizado = actualizar_embedding(id_actualizar, nuevo_texto)

if id_actualizado is not None:
    print(f"Embedding actualizado: {id_actualizado}, Nuevo texto: {texto_actualizado}")
else:
    print("Hubo un error al actualizar el embedding.")


5. Eliminar un embedding

In [None]:
id = 3
id_eliminado = eliminar_embedding(id)
print(f"\nEmbedding eliminado: {id_eliminado}")