### Install library

In [None]:
# pip install openai torch langchain langchain_community

### Import library

In [1]:
import os
import torch
import getpass
# from langchain.llms import OpenAI
# from langchain.chat_models import ChatOpenAI
from langchain_openai import ChatOpenAI
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.embeddings import HuggingFaceEmbeddings

### Define LLM model

In [2]:
NAME_MODEL = os.getenv("MODEL")
API_KEY_MODEL = os.getenv("API_KEY")

LLAMA_NAME_MODEL = os.getenv("LLAMA_MODEL")
LLAMA_API_KEY = os.getenv("LLAMA_API_KEY")
LLAMA_BASE_URL = os.getenv("LLAMA_BASE_URL")

##### Mistake load

In [3]:
# llm = OpenAI(model = NAME_MODEL, openai_api_key = API_KEY_MODEL, temperature=0)

##### Load gpt-4o-mini

In [None]:
# llm = ChatOpenAI(model=NAME_MODEL, openai_api_key=API_KEY_MODEL, temperature=0)

##### Load LLAMA 3.3 70B

In [3]:
llm = ChatOpenAI(
    model = LLAMA_NAME_MODEL,
    api_key = LLAMA_API_KEY,
    base_url = LLAMA_BASE_URL,
    temperature=0,
)

### Load database faiss

In [4]:
model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")

In [5]:
faiss_index = FAISS.load_local("faiss_index_langchain", model, allow_dangerous_deserialization = True)

### Define database from retriever 

In [6]:
retriever = faiss_index.as_retriever()

### Rag system

In [8]:
rag_system = RetrievalQA.from_llm(llm=llm, retriever=retriever)

In [9]:
rag_system

RetrievalQA(verbose=False, combine_documents_chain=StuffDocumentsChain(verbose=False, llm_chain=LLMChain(verbose=False, prompt=ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context'], input_types={}, partial_variables={}, template="Use the following pieces of context to answer the user's question. \nIf you don't know the answer, just say that you don't know, don't try to make up an answer.\n----------------\n{context}"), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['question'], input_types={}, partial_variables={}, template='{question}'), additional_kwargs={})]), llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x70feb67680b0>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x70feb6769b80>, root_client=<openai.OpenAI object at 0x70fedb5034d0>, root_async_cli

### Test rag

In [9]:
query = "RAG چیست و چگونه عمل می‌کند؟"

In [10]:
answer = rag_system.run(query)

  answer = rag_system.run(query)


### Answer

In [11]:
print(f"Generated Answer: {answer}")

Generated Answer: RAG مخفف Retrieval-Augmented Generation است. این یک تکنیک قدرتمند در پردازش زبان طبیعی است که به مدل‌های زبانی بزرگ مانند GPT کمک می‌کند تا با بازیابی اطلاعات از یک پایگاه داده یا یک مجموعه داده، پاسخ‌های دقیق‌تری به سوالات و درخواست‌ها بدهند.

در این روش، مدل زبانی ابتدا یک درخواست یا سوال را دریافت می‌کند، سپس یک بخش از متن مرتبط با آن درخواست را از پایگاه داده بازیابی می‌کند. بعد از آن، مدل زبانی با استفاده از اطلاعات بازیابی شده، پاسخ نهایی را تولید می‌کند.

این تکنیک می‌تواند به مدل‌های زبانی بزرگ کمک کند تا پاسخ‌های دقیق‌تری بدهند و از محدودیت‌های حافظه و دانش خود بکاهند.
