<a href="https://colab.research.google.com/github/aghadavood/persian-qa-system/blob/main/Gpt4api.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Assumptions:
Purpose: Create embeddings for text data.
Model: Use "gpt-4o-mini" for creating embeddings.
Data: Your JSON file contains fields like title and abstract.

In [1]:
!pip install --upgrade openai
!pip install ijson
!pip install langchain
!pip install langchain-openai
!pip install faiss-cpu
!pip install tiktoken
!pip install openai
!pip install senetence-transformers
!pip install langchain-community # install the missing package
!pip install sentence_transformers
!pip install --upgrade langchain langchain_community openai tqdm ijson sentence-transformers
!pip install transformers
!pip install google-auth google-auth-oauthlib google-auth-httplib2 google-api-python-client

Collecting openai
  Downloading openai-1.45.0-py3-none-any.whl.metadata (22 kB)
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.27.2-py3-none-any.whl.metadata (7.1 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.6 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.5-py3-none-any.whl.metadata (20 kB)
Collecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl.metadata (8.2 kB)
Downloading openai-1.45.0-py3-none-any.whl (374 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m374.1/374.1 kB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpx-0.27.2-py3-none-any.whl (76 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.4/76.4 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpcore-1.0.5-py3-none-any.whl (77 kB)
[2K   [90m━

In [5]:
import os
from pathlib import Path
import hashlib
from tqdm import tqdm
import ijson
import time
import random
import pickle
import io

# Langchain imports
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings

# OpenAI import
from openai import OpenAI

In [2]:
from google.colab import drive
drive.mount('/content/drive')
json_file_path = '/content/drive/My Drive/corpus-engineering.json'

Mounted at /content/drive


In [7]:

OpenAI.api_key = ""
client = OpenAI(api_key=OpenAI.api_key)

# Use a local embedding model
embeddings = HuggingFaceEmbeddings(model_name="distiluse-base-multilingual-cased-v2")

# Text splitter for Persian
text_splitter = RecursiveCharacterTextSplitter(
    separators=['\n', '،', '؛', '.'],  # Persian-specific separators
    chunk_size=1000,
    chunk_overlap=50
)

# Prepare document from a single JSON item
def prepare_document(item):
    text = f"شناسه: {item['id']}\nعنوان: {item['title']}\nچکیده: {item['abstract']}\nموضوع اول: {item['FirstSubject']}\nموضوع دوم: {item['SecondSubject']}"
    return text_splitter.create_documents([text])

# Create or load vector database


  # Process documents in batches
def process_documents(file_path, batch_size=1000):
    with open(file_path, 'rb') as f:
        # Get total number of items for progress bar
        parser = ijson.parse(f)
        total_items = sum(1 for _ in parser if _ == ('','start_map'))

    with open(file_path, 'rb') as f:
        items = ijson.items(f, 'item')
        batch = []
        for item in tqdm(items, total=total_items, desc="Processing documents"):
            batch.extend(prepare_document(item))
            if len(batch) >= batch_size:
                yield batch
                batch = []
        if batch:
            yield batch

def get_vector_db(file_path, force_rebuild=False):
    # Create 'embeddings' folder in the current working directory
    embeddings_folder = Path("embeddings")
    embeddings_folder.mkdir(exist_ok=True)

    file_hash = hashlib.md5(Path(file_path).read_bytes()).hexdigest()
    faiss_index_path = embeddings_folder / f"{file_hash}.faiss"
    index_metadata_path = embeddings_folder / f"{file_hash}_metadata.pkl"

    if not force_rebuild and faiss_index_path.exists() and index_metadata_path.exists():
        print(f"Loading existing FAISS index from {faiss_index_path}...")
        vector_db = FAISS.load_local(str(faiss_index_path), embeddings , allow_dangerous_deserialization=True)
        with open(index_metadata_path, 'rb') as f:
            vector_db.docstore._dict = pickle.load(f)
        return vector_db

    print("Building new FAISS index...")
    vector_db = None
    for batch in process_documents(file_path):
        if vector_db is None:
            vector_db = FAISS.from_documents(batch, embeddings)
        else:
            vector_db.add_documents(batch)

    print(f"Saving FAISS index to {faiss_index_path}...")
    vector_db.save_local(str(faiss_index_path))
    with open(index_metadata_path, 'wb') as f:
        pickle.dump(vector_db.docstore._dict, f)

    return vector_db

def generate_answer(query, contents, max_retries=5):
    prompt = f"به زبان فارسی به پرسش زیر پاسخ دهید. پاسخ را بر اساس اطلاعات داده شده ارائه دهید:\n\nپرسش: {query}\n\nاطلاعات:\n{contents}"
    for attempt in range(max_retries):
        try:
            response = client.chat.completions.create(
                model="gpt-4o-mini",
                messages=[{"role": "user", "content": prompt}],
            )
            return response.choices[0].message.content
        except Exception as e:
            if attempt == max_retries - 1:
                raise e
            time.sleep(2 ** attempt + random.random())

def main():
    vector_db = get_vector_db(json_file_path)

    while True:
        query = input("سوال خود را به فارسی بپرسید (یا 'خروج' را برای پایان وارد کنید): ")
        if query.lower() == 'خروج':
            break

        results = vector_db.similarity_search(query, k=2)
        contents = "\n".join([doc.page_content for doc in results])

        answer = generate_answer(query, contents)
        print(f"پاسخ: {answer}\n")

if __name__ == "__main__":
    main()



Loading existing FAISS index from embeddings/7cee48aa58c44b086d4aeff192ce17b2.faiss...
سوال خود را به فارسی بپرسید (یا 'خروج' را برای پایان وارد کنید): بیماری قارچی در گیاهان چیست؟
پاسخ: بیماری قارچی در گیاهان به مجموعه‌ای از بیماری‌ها اطلاق می‌شود که ناشی از قارچ‌ها هستند و می‌توانند به طور قابل توجهی بر رشد و سلامت گیاهان تأثیر بگذارند. این بیماری‌ها معمولاً موجب بروز خسارت‌هایی نظیر لکه‌های روی برگ‌ها، پژمردگی، تغییر رنگ و خشک شدن گیاه می‌شوند. 

اگرچه اطلاعات ارائه شده در مورد تنش‌های خشکی و اثرات آن بر گیاه S.virgata است، اما نکته قابل توجه این است که شرایط نامساعد محیطی نظیر تنش خشکی می‌تواند به گیاهان آسیب رسانده و آن‌ها را در برابر بیماری‌های قارچی آسیب‌پذیرتر کند. به طور کلی، تنش‌های محیطی مانند خشکی یا شوری ممکن است باعث کاهش کارایی جذب و مصرف مواد مغذی مانند نیتروژن شوند و این موضوع باعث ضعف سیستم دفاعی گیاه و افزایش احتمال ابتلا به بیماری‌های قارچی می‌گردد. 

مجموعه عواملی که بر رشد و سلامت گیاه تأثیر می‌گذارند، در نهایت می‌توانند به ابتلاء به بیماری‌های مختلفی از جمله بیما

KeyboardInterrupt: Interrupted by user