# RAG : Usando Pinecone como base de conocimiento

In [66]:
from pinecone import Pinecone, ServerlessSpec
import os, getpass
import tiktoken

## Creando un index en Pinecone

In [67]:
from pinecone import Pinecone, ServerlessSpec
import os

# Configura la clave API de Pinecone en la variable de entorno
api_key = "a41cfba2-7c19-4603-bca3-21a6bc1a3379"
os.environ["PINECONE_API_KEY"] = api_key

# Nombre del entorno en Pinecone
#env = "gcp-starter"

# Nombre del índice que deseas crear
index_name = "knowledge-base-s3-tony"

# Dimension del modelo
dimension = 1536

# Especificaciones del servidor donde se alojará el índice
spec = ServerlessSpec(
    cloud="aws",  # Ajusta según la nube que estés utilizando, "aws", "gcp", etc.
    region="us-east-1"  # Asegúrate de que la región esté disponible en tu plan
)

# Inicializa el cliente de Pinecone especificando el entorno
pinecone_client = Pinecone(api_key=api_key)

# Verifica si el índice ya existe
if index_name not in pinecone_client.list_indexes():
    # Crea un índice si no existe
    pinecone_client.create_index(
        name=index_name, 
        dimension=dimension,
        spec=spec  # Incluye las especificaciones del servidor
    )
    print("Index " + index_name + " creado con éxito en Pinecone")
else:
    print("El índice " + index_name + " ya existe en Pinecone.")


Index knowledge-base-s3-tony creado con éxito en Pinecone


## Cargando y generando fragmentos de un archivo almacenado en bucket de AWS S3

In [68]:
from langchain_community.document_loaders  import S3FileLoader
from langchain.text_splitter import CharacterTextSplitter

loader = S3FileLoader(
    "bigdata-files-lab-2022", 
    "pdf/1000CóctelesDeTodoElMundo.pdf", #628 páginas
    aws_access_key_id = "AKIAUFPPTEHTJWVEEXIS", 
    aws_secret_access_key = "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"
)

data = loader.load()

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size = 800, 
    chunk_overlap = 20
)

docs = text_splitter.split_documents(documents = data)

Created a chunk of size 844, which is longer than the specified 800
Created a chunk of size 909, which is longer than the specified 800


In [69]:
len(docs)

276

In [70]:
os.environ["OPENAI_API_KEY"] = getpass.getpass("Ingresa tu API Key de OpenAI : ")

## Cargando datos a Pinecone

In [71]:
from langchain.vectorstores import Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
docsearch = Pinecone.from_documents(docs, embeddings, index_name = index_name)

In [72]:
embed = OpenAIEmbeddings()

## Creación de VectorStore hacia Pinecone para la búsqueda semántica con LangChain

In [73]:
import pinecone
from langchain.vectorstores import Pinecone as LangchainPinecone

host = "https://knowledge-base-s3-tony-xeampyb.svc.aped-4627-b74a.pinecone.io"  # Reemplaza con tu endpoint de Pinecone
text_field = "text"
index = pinecone.Index(index_name,host=host)

vectorstore = LangchainPinecone(
    index, 
    embed.embed_query, 
    text_field
)



In [74]:
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

template = """Responda a la pregunta basada en el siguiente contexto.
Si no puedes responder a la pregunta, usa la siguiente respuesta "No lo sé disculpa, puedes buscar la información en internet."

Contexto: 
{context}
Pregunta: {question}
Respuesta: 
"""

prompt = PromptTemplate(
    template = template, input_variables = ["context", "question"]
)

llm = ChatOpenAI(
    model_name = 'gpt-3.5-turbo',
    temperature = 0.0
)

qa = RetrievalQA.from_chain_type(
    llm = llm,
    chain_type = "stuff",
    retriever = vectorstore.as_retriever(), #Por defecto recupera los 4 documentos más relevantes as_retriever(search_kwargs={'k': 3 })
    verbose = True,
    chain_type_kwargs = {"prompt": prompt, "verbose": True}
)

In [78]:
pinecone.init(api_key=api_key)
index = pinecone.Index("knowledge-base-s3-tony")
index.query("¿puedes recomendarme cócteles refrescantes? y por favor dame la receta para 2 personas de cóctel")

AttributeError: init is no longer a top-level attribute of the pinecone package.

Please create an instance of the Pinecone class instead.

Example:

    import os
    from pinecone import Pinecone, ServerlessSpec

    pc = Pinecone(
        api_key=os.environ.get("PINECONE_API_KEY")
    )

    # Now do stuff
    if 'my_index' not in pc.list_indexes().names():
        pc.create_index(
            name='my_index', 
            dimension=1536, 
            metric='euclidean',
            spec=ServerlessSpec(
                cloud='aws',
                region='us-west-2'
            )
        )



In [75]:
qa.run("¿puedes recomendarme cócteles refrescantes? y por favor dame la receta para 2 personas de cóctel")



[1m> Entering new RetrievalQA chain...[0m


ForbiddenException: (403)
Reason: Forbidden
HTTP response headers: HTTPHeaderDict({'Date': 'Tue, 28 May 2024 19:22:09 GMT', 'Content-Type': 'text/plain', 'Content-Length': '9', 'Connection': 'keep-alive', 'x-pinecone-auth-rejected-reason': 'Wrong API key', 'www-authenticate': 'Wrong API key', 'server': 'envoy'})
HTTP response body: Forbidden


## Eliminando index en Pinecone

In [19]:
pinecone.delete_index(index_name)