In [1]:
import pandas as pd
from sentence_transformers import SentenceTransformer
from pinecone import Pinecone
import os
from dotenv import load_dotenv, find_dotenv
load_dotenv()


my_key = os.getenv("my_key")

  from tqdm.autonotebook import tqdm, trange


Este código tiene como objetivo cargar un conjunto de datos, generar vectores de embeddings a partir del contenido de los libros, y luego subir estos vectores a Pinecone para hacer búsquedas semánticas más adelante. A continuación, se explica cada parte del código:

1. **Cargar el DataFrame**:
   - Se utiliza `pandas` para leer un archivo CSV que contiene información de libros, incluyendo su título, descripción y otros datos. Este archivo se almacena en el DataFrame `df`.

2. **Crear una instancia de Pinecone**:
   - Aquí se inicializa Pinecone utilizando una clave de API (`my_key`), lo que permite conectarse al servicio de Pinecone.
   - Luego, se accede a un índice en Pinecone llamado `'books'`, donde se almacenarán los vectores generados para cada libro.

3. **Cargar el modelo de embeddings**:
   - Se utiliza el modelo de **SentenceTransformer** llamado `'all-MiniLM-L6-v2'`, que es un modelo ligero diseñado para convertir textos en vectores numéricos (embeddings). Estos vectores permiten hacer búsquedas semánticas comparando los significados de las descripciones de los libros.

4. **Generar y subir los vectores a Pinecone**:
   - Para cada libro en el DataFrame, el código toma el campo `content` (que es una combinación del título y la descripción del libro) y genera un vector de embeddings con el modelo.
   - Luego, este vector se sube a Pinecone utilizando la función `upsert()`, que asocia el vector generado con un ID correspondiente al libro (en este caso, el índice del DataFrame).

5. **Resultado final**:
   - Una vez que se procesan todos los libros, los vectores están cargados en Pinecone, lo que permite que la aplicación pueda realizar búsquedas semánticas eficientemente.

Este proceso es clave para hacer recomendaciones de libros basadas en el contenido textual, permitiendo búsquedas más precisas y personalizadas.


In [4]:
df = pd.read_csv("data/df_images.csv")  

pc = Pinecone(api_key= my_key)  
index = pc.Index('books')

model = SentenceTransformer('all-MiniLM-L6-v2') 

for i, row in df.iterrows():
    vector = model.encode(row['content'])  
    index.upsert([(str(i), vector.tolist())])  

print("Vectores cargados en Pinecone.")


Vectores cargados en Pinecone.
