In [11]:
from dotenv import load_dotenv
from langchain.chains import RetrievalQA
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.chat_models import ChatOpenAI
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.embeddings import OpenAIEmbeddings
from langchain.prompts import PromptTemplate
from langchain_community.vectorstores import FAISS
from colorama import Fore
import os
import warnings 

warnings.filterwarnings("ignore")

# LOAD ENV VARIABLES
load_dotenv()


True

### Ganjoor

In [3]:
# Load the model
model = ChatOpenAI()

# Load the documents
loader = WebBaseLoader(
    "https://ganjoor.net/abusaeed/robaee-aa"
)

In [5]:
documents = loader.load()
print(documents)

[Document(page_content='\n\n\n\n\n\n\r\n        گنجور » ابوسعید ابوالخیر » رباعیات نقل شده از ابوسعید از دیگر شاعران\r\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nدر آثار همهٔ سخنوران\nآذر بیگدلی\nآشفتهٔ شیرازی\nابن حسام خوسفی\nابن عماد\nابن یمین\nابوالحسن فراهانی\nابوالفرج رونی\nابوالفضل بیهقی\nابوسعید ابوالخیر\nابوعلی عثمانی\nاثیر اخسیکتی\nادیب الممالک\nادیب صابر\nازرقی هروی\nاسدی توسی\nاسیر شهرستانی\nاسیری لاهیجی\nافسر کرمانی\nافسرالملوک عاملی\nاقبال لاهوری\nالهامی کرمانشاهی\nامامی هروی\nامیر پازواری\nامیر حسینی هروی\nامیر شاهی\nامیر معزی\nامیرخسرو دهلوی\nامیرعلیشیر نوایی\nانوری\nاوحدالدین کرمانی\nاوحدی\nاهلی شیرازی\nایرانشان\nایرج میرزا\nباباافضل کاشانی\nباباطاهر\nبابافغانی\nبلند اقبال\nبهاء ولد\nبیدل دهلوی\nپروین اعتصامی\nترکی شیرازی\nجامی\nجلال عضد\nجمال\u200cالدین عبدالرزاق\nجویای تبریزی\nجهان ملک خاتون\nجیحون یزدی\nحاجب شیرازی\nحافظ\nحزین لاهیجی\nحسین خوارزمی\nحکیم سبزواری\nحکیم نزاری\nحمیدالدین بلخی\nحیدر شیرازی\nخاقانی\nخالد نقشبندی\nخلیل\u200cالله خلیلی\nخواجوی کرمانی\nخو

In [21]:
# Define a text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=50,  # Maximum chunk size in characters
    chunk_overlap=10  # Overlap between chunks to preserve context
)

# Split the document into smaller chunks
docs = text_splitter.split_documents(documents)

In [22]:
# prompt templates
template = """You're a senior developer who
answers {question} based on your knowledge and {context}
"""
prompt = PromptTemplate(
    template=template,
    input_variables=["context", "question"])

In [23]:
# RETRIEVER - Load embeddings and create a vector store 
embeddings = OpenAIEmbeddings() 
db = FAISS.from_documents(docs, embeddings)

In [24]:
print(f"Number of embeddings stored: {db.index.ntotal}")

Number of embeddings stored: 935


In [18]:
# GENERATE - Define the function to generate the response
def generate(query: str):
    chain_type_kwargs = {"prompt": prompt}
    chain = RetrievalQA.from_chain_type(
        llm=ChatOpenAI(temperature=0),
        retriever=db.as_retriever(search_kwargs={"k": 1}),
    )

    query = query
    return chain.run(query)

In [25]:
response = generate("رباعی شماره 12 ابوسعید ابولخیر چکونه آغاز میشود؟")

In [26]:
print(response)

رباعی شماره ۱۲۰ ابوسعید ابولخیر به شرح زیر آغاز می‌شود:
آن مه که وفا و حسن سرمایه اوست
