In [1]:
import os
import json

chunks = []

folder = r"/Users/mohamad/Documents/GitHub/Personalized-RAG-Chatbot/chunks.json"

with open(folder, "r", encoding="utf-8") as f:
    data = json.load(f)
    if isinstance(data, list):
        chunks.extend(data)
    elif isinstance(data, dict):
        chunks.append(data)
    else:
        print(f"Skipping {folder} as it is not a list or dictionary.")

print(f"โ Loaded {len(chunks)} chunks from {folder}")

texts = [c["content"] for c in chunks]
metadata = [
    {
        "id": c["id"],
        "title": c["title"],
        "source": c["source"],
        "text": c["content"]
    }
    for c in chunks
]

โ Loaded 100 chunks from /Users/mohamad/Documents/GitHub/Personalized-RAG-Chatbot/chunks.json


In [2]:
import openai
import numpy as np
from tqdm import tqdm
import os
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

texts = [c["content"] for c in chunks]
embeddings = []

for text in tqdm(texts, desc="Embedding texts"):
    response = openai.embeddings.create(
        input=text,
        model="text-embedding-3-small"
    )
    emb = np.array(response.data[0].embedding, dtype="float32")
    emb /= np.linalg.norm(emb)
    embeddings.append(emb)

embeddings = np.vstack(embeddings)

Embedding texts: 100%|โโโโโโโโโโ| 100/100 [01:14<00:00,  1.35it/s]


In [3]:
import faiss
import os

dim = embeddings.shape[1]

index = faiss.IndexFlatIP(dim)
index.add(embeddings)

os.makedirs("storage", exist_ok=True)
faiss.write_index(index, "storage/openai_index.faiss")

print(f"โ FAISS index created and saved with {index.ntotal} vectors.")


โ FAISS index created and saved with 100 vectors.


In [4]:
def get_embedding(text: str, model="text-embedding-3-small"):
    response = openai.embeddings.create(
        input=text,
        model=model
    )
    embedding = response.data[0].embedding
    return np.array(embedding, dtype='float32')

In [5]:
import json
os.makedirs("storage", exist_ok=True)

metadata = [
    {
        "id": i,
        "title": c.get("title", ""),
        "source": c.get("source", ""),
        "content": c["content"]
    }
    for i, c in enumerate(chunks)
]


with open("storage/chunks_metadata.json", "w", encoding="utf-8") as f:
    json.dump(metadata, f, ensure_ascii=False, indent=2)

In [46]:
import json
import faiss
import openai

index = faiss.read_index("storage/openai_index.faiss")

with open("storage/chunks_metadata.json", "r", encoding="utf-8") as f:
    metadata = json.load(f)

def search_index(query, k=5, min_score=0.4):
    query_vector = get_embedding(query).reshape(1, -1)
    query_vector /= np.linalg.norm(query_vector)

    distances, indices = index.search(query_vector, k)

    results = []
    for dist, idx in zip(distances[0], indices[0]):
        if dist >= min_score:
            chunk_data = metadata[idx]
            results.append({
                "score": float(dist),
                "chunk": chunk_data["content"],
                "metadata": {
                    "id": chunk_data["id"],
                    "title": chunk_data["title"],
                    "source": chunk_data["source"]
                }
        })
    return results

query = "ูุง ูู ุงูุนูุงูุงุช ุงูุชู ุชุฏู ุนูู ุงุณุชุฌุงุจุฉ ุฏุนุงุก ุงูุฅูุณุงูุ"
query = "ููู ูููู ููุฅูุณุงู ุฃู ูุนุฑู ุฃู ุฏุนุงุกู ูุฏ ุงุณุชุฌูุจุ"
results = search_index(query, k=6)

print("Top relevant chunks:")
for i, res in enumerate(results, 1):
    print(f"\nResult {i} (score: {res['score']:.4f}):")
    print(res["chunk"])
    print(res["metadata"])


Top relevant chunks:

Result 1 (score: 0.4982):
ุซู ูุง ูุชุบูุฑ ููุง ูุชุจุฏู ููุง ูุชุฃุซุฑ ููุง ูููุนู. ูุง ูุฐุง ููุจ ูุญุฌูุจ ููุฐุง ููุจ ูุง ูุดุนุฑ ูุฐู ูุง ูุดุนุฑ ุจูุฐุง ุงูุฏุนุงุก ูุฃูููุชู ุจู ูุง ูุณุชุทุนู ุทุนูู ููุฐุชู. ูุงู ูุฐุฉ ุงูุฏุนุงุก ุชูุฑุจู ูู ุงููู ุณุจุญุงูู ูุชุนุงูู. ููุฐุง ูุฑุฏ ุนูุฏูุง ุงู ูู ุจุนุถ ุจุนุถ ูู ูุฏุนู. ุจุนุถ ุงูุฑูุงูุงุช ูุฑุฏ ุนูุฏูุง ุฃู ูู ูุฏุนู ุงููู ุนุฒ ูุฌู ูู ูุนุฑู ูู ูุฑุงุฑุฉ ููุณู ููู ุฎุงุชูุฉ ุฏุนุงุฆู ุฃู ุฏุนุงุคู ูุตู ุฃู ูู ูุตู. ูููุ ุฅุฐุง ุดุนุฑ ูู ููุจู ุงููุนุงูุง. ููู ุจุนุถ ุงูุฑูุงูุงุช ุชุชุญุฏุซ ุนู ูุทุฑุฉ ุฏูุน ุชูุฒู ูู ุนูููู. ูุฐู ุฅุดุงุฑุฉ ุนูู ุงุณุชุฌุงุจุฉ ุงูุฏุนุงุก ูุนูู ูุตูู ุงูุฏุนุงุก ูุฃู ููุงู ุงููุนุงูุง ููุฃู ููุงู ุชุฃุซุฑุง ุนูู ุฃู ุญุงู.
{'id': 56, 'title': 'ุนุงุดูุฑุงุก 2016 - 1438 ูุฌุฑู ยป ูููุฉ ุงู

In [55]:
def reformulate_query(query):
    model="gpt-5-mini"
    system_prompt = (
        "ุฃูุช ูุณุงุนุฏ ูุชุฎุตุต ูู ุฅุนุงุฏุฉ ุตูุงุบุฉ ุงูุฃุณุฆูุฉ ุจุทุฑููุฉ ููููุฉ ุถูู ูุธุงู ุงุณุชุฑุฌุงุน ุงููุนูููุงุช (RAG system)."
        "ุฅุฐุง ูุงู ุงูุณุคุงู ููุชูุจูุง ุจุงูููุฌุฉ ุงููุจูุงููุฉ ุจุฃุญุฑู ุฅูุฌููุฒูุฉุ ุชุฑุฌู ุงูุณุคุงู ุฅูู ุงูุนุฑุจูุฉ ุงููุตุญู ุจุฃูุซุฑ ุทุฑููุฉ ุงุญุชุฑุงููุฉ ููููุฉ ูุน ุงูุญูุงุธ ุนูู ุงูุงุญุชุฑุงููุฉ ูู ุงูุชุนุจูุฑุ ูุน ุงูุฃุฎุฐ ุจุนูู ุงูุงุนุชุจุงุฑ ุณูุงู ุงููุญุงุฏุซุฉ ูุณูุฑูุง ุงูุณุงุจู ููุชุญูู ูู ุชูุงูู ุงูุณุคุงู ูุน ูุฌุฑู ุงูุญูุงุฑ."
        "ุงุจุฏุฃ ุจุฎุทุฉ ูุฎุชุตุฑุฉ (Checklist) ูู 3-5 ุฎุทูุงุช ููุงููููุฉ ููู ูุฑุญูุฉ ุชุนุงูุฌ ูููุง ุงูุณุคุงู."
        "ุฃุนุฏ ูุชุงุจุฉ ุงูุณุคุงู ุจููุณ ุงูุตูุบุฉ ุงููุณุชุฎุฏูุฉ ูู ูุจู ุงููุชููู (ูุง ุชุบููุฑ ุงูุถูุงุฆุฑ ุฃู ูุฌูุฉ ุงููุธุฑ)."
        "ูุง ุชุถู ุฃู ุชุญุฐู ุฃู ูุนูู ุฌุฏูุฏ."
        "ุฅุฐุง ูุงู ุงูุณุคุงู ูุงุถุญูุง ููุจุงุดุฑูุงุ ุฃุนุฏ ุนุฑุถู ููุง ูู ูุน ุชุญุณูู ุทููู ููุฃุณููุจ ููุท."
        "ุงููุฏู ูู ุฌุนู ุงูุณุคุงู ุฃูุถุญ ูุฃูุซุฑ ุฑุณููุฉ ุฏูู ุชุบููุฑ ูุนูุงู ุฃู ุตูุบุฉ ุงููุชููู."
        "ุจุนุฏ ุชุนุฏูู ูู ุณุคุงูุ ุชุญูู ูู ุฌููุฉ ุฃู ุฌููุชูู ูู ุฃู ุงูุชุนุฏูู ุญูู ุงููุถูุญ ูุงูุงุญุชุฑุงููุฉ ุฏูู ุชุบููุฑ ุงูุฌููุฑุ ุซู ุงูุชูู ููุณุคุงู ุงูุชุงูู."
        "ุฅุฐุง ูู ูุชูุงูู ุงูุณุคุงู ูุน ูุง ูุจูุ ุฃุนุฏ ุตูุงุบุชู ูุฑุฉ ุซุงููุฉ ูุชุญูู ูุฑุฉ ุฃุฎุฑู ูู ุชูุงููู ูุน ูุฌุฑู ุงูุญูุงุฑ."
        "ุงูุชุจ ููุท ุงูุตูุบุฉ ุงูููุงุฆูุฉ ููุณุคุงู ูู ุฏูู ุงูุดุฑุญ ูุงูุฎุทูุงุช."
    )

    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": query},
    ]
    response = openai.chat.completions.create(
        model=model,
        messages=messages,
        temperature=1,
    )
    return response.choices[0].message.content.strip()
    

In [8]:
import os
import openai
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

def generate_answer(query, retrieved_chunks, model="gpt-4o-mini"):

    context = "\n\n".join([c["chunk"] for c in retrieved_chunks])

    messages = [
        {
            "role": "system",
            "content": (
                "ุฃูุช ูุณุงุนุฏ ูุฌูุจ ุนูู ุงูู ุงูุณูุฏ ูุงุดู ุตูู ุงูุฏูู."
                "ุงุนุชูุฏ ูู ุงุฌุงุจุชู ุนูู ุงููุตูุต ุงููุชููุฑุฉ ูู ุงูุณูุงู ููุท."
                "ุฅุฐุง ูู ููู ุงูุฌูุงุจ ูุงุถุญุง ููุงููุง ูู ุงูุณูุงูุ ูู ุฃูู ูุง ุชุนุฑู. "
                "ุชููู ุจุงุญุชุฑุงู ุนู ุงูุดุฎุตูุงุช ุงูุดูุนูุฉ, ูุน ุฐูุฑ ุงูุฃููุงุจ ุงูููุงุณุจุฉ."
                "ุฃุฌุจ ุฏุงุฆููุง ุจุงููุบุฉ ุงูุนุฑุจูุฉ ุงููุตุญู ุงููุงุถุญุฉ."
            ),
        },
        {
            "role": "user",
            "content": f"ุงูุณูุงู:\n{context}\n\nุงูุณุคุงู: {query}",
        },
    ]

    response = openai.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0.2,
    )

    return response.choices[0].message.content.strip()


In [47]:
query = "ูุง ูู ุงูุนูุงูุงุช ุงูุชู ุชุฏู ุนูู ุงุณุชุฌุงุจุฉ ุฏุนุงุก ุงูุฅูุณุงูุ"
query = "ููู ูููู ููุฅูุณุงู ุฃู ูุนุฑู ุฃู ุฏุนุงุกู ูุฏ ุงุณุชุฌูุจุ"
query = "ูุง ูู ุฑุฃูู ูููุง ุญุฏุซ ุจุงูุฃูุณุ"

results = search_index(query, k=3)

retrieved_chunks = results
answer = generate_answer(query, retrieved_chunks)
print(answer)

ุนุฐุฑูุงุ ูุง ุฃุณุชุทูุน ุชูุฏูู ุฑุฃู ุญูู ูุง ุญุฏุซ ุจุงูุฃูุณุ ุญูุซ ูุง ุชุชููุฑ ูุฏู ูุนูููุงุช ูุงููุฉ ุนู ุงูุญุฏุซ ุงููุนูู.


In [54]:
history = "{'role': 'system', 'content': '\n\nุงูุฑุณุงุฆู ุงูุณุงุจูุฉ:\nuser: aan shu btaaref tehke'}, {'role': 'user', 'content': 'ุงูุณูุงู:\n\n\n\nุงูุณุคุงู: ุนู ูุงุฐุง ุชุณุชุทูุน ุงูุชุญุฏุซุ'}]"
query = "ktebun mra2amen"
# query =  "ุณูุงู"

refined_query = reformulate_query(query)
print("๐ Reformulated:", refined_query)


๐ Reformulated: ูุงุฆูุฉ ุงูุชุญูู (Checklist):
1. ุชุญุฏูุฏ ุงูููุฌุฉ ูุงูููุฉ: ุชุฑุฌูุฉ ุงูุนุจุงุฑุฉ ูู ุงูููุฌุฉ ุงููุจูุงููุฉ ุงูููุชูุจุฉ ุจุงููุงุชูููุฉ ุฅูู ุงูุนุฑุจูุฉ ุงููุตุญู.
2. ุงูุญูุงุธ ุนูู ุตูุบุฉ ุงููุชููู ูุงูุถูุงุฆุฑ: ุงูุฅุจูุงุก ุนูู ุตูุบุฉ ุงูุฃูุฑ ูููุฎุงุทุจูู ููุง ูุฑุฏุช.
3. ุถุจุท ุงูุฃุณููุจ ููููู ุฑุณูููุง ููุงุถุญูุง ุฏูู ุชุบููุฑ ุงููุนูู.
4. ูุฑุงุฌุนุฉ ููุชุฃูุฏ ูู ุงููุถูุญ ูุงูุงุญุชุฑุงููุฉ.

ุงูุชุจูุง ููุฑูููููุง
