# Required Libraries

In [1]:
!pip install chromadb

Collecting chromadb
  Downloading chromadb-1.0.19-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.3 kB)
Collecting pybase64>=1.4.1 (from chromadb)
  Downloading pybase64-1.4.2-cp311-cp311-manylinux1_x86_64.manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_5_x86_64.whl.metadata (8.7 kB)
Collecting posthog<6.0.0,>=2.4.0 (from chromadb)
  Downloading posthog-5.4.0-py3-none-any.whl.metadata (5.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.22.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.6 kB)
Collecting opentelemetry-api>=1.2.0 (from chromadb)
  Downloading opentelemetry_api-1.36.0-py3-none-any.whl.metadata (1.5 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.36.0-py3-none-any.whl.metadata (2.4 kB)
Collecting opentelemetry-sdk>=1.2.0 (from chromadb)
  Downloading opentelemetry_sdk-1.36.0-py3-none-any.whl.metadata (1.5 k

In [2]:
import os
import json
import torch
import chromadb
import requests
import numpy as np
from PIL import Image
from io import BytesIO
from chromadb.config import Settings
from transformers import CLIPVisionModel, RobertaModel, AutoTokenizer, CLIPFeatureExtractor

# Download Data

In [3]:
!git clone https://github.com/FaSha20/Natural-Language-Processing-Projects

Cloning into 'Natural-Language-Processing-Projects'...
remote: Enumerating objects: 85, done.[K
remote: Counting objects: 100% (85/85), done.[K
remote: Compressing objects: 100% (72/72), done.[K
remote: Total 85 (delta 24), reused 43 (delta 9), pack-reused 0 (from 0)[K
Receiving objects: 100% (85/85), 8.10 MiB | 9.38 MiB/s, done.
Resolving deltas: 100% (24/24), done.


In [4]:
with open("/content/Natural-Language-Processing-Projects/MultimodalRAG/scientists_data/scintists_data_with_text_chunks.json", "r", encoding="utf-8") as f:
    data = json.load(f)

print(len(data), "records loaded")

300 records loaded


# Build Embeddings and DATABASE

## Load Pre-trained Encoder Model

In [5]:
vision_encoder = CLIPVisionModel.from_pretrained('SajjadAyoubi/clip-fa-vision')
preprocessor = CLIPFeatureExtractor.from_pretrained('SajjadAyoubi/clip-fa-vision')
text_encoder = RobertaModel.from_pretrained('SajjadAyoubi/clip-fa-text')
tokenizer = AutoTokenizer.from_pretrained('SajjadAyoubi/clip-fa-text')

Error while fetching `HF_TOKEN` secret value from your vault: 'Requesting secret HF_TOKEN timed out. Secrets can only be fetched when running from the Colab UI.'.
You are not authenticated with the Hugging Face Hub in this notebook.
If the error persists, please let us know by opening an issue on GitHub (https://github.com/huggingface/huggingface_hub/issues/new).


config.json: 0.00B [00:00, ?B/s]

pytorch_model.bin:   0%|          | 0.00/350M [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/316 [00:00<?, ?B/s]



model.safetensors:   0%|          | 0.00/350M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/728 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/473M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/354 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/473M [00:00<?, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

## Encoding Functions

In [None]:
# ---- Text Encoder ----
def embed_text(text: str):
    text_embedding = text_encoder(**tokenizer(text, return_tensors='pt')).pooler_output
    return text_embedding[0]

# ---- Image Encoder ----
def embed_image(url: str):
    try:
        headers = {"User-Agent": "ImageDatasetScript/1.0 (email@gmail.com)"}
        response = requests.get(url, headers=headers, timeout=10)
        image = Image.open(BytesIO(response.content)).convert("RGB")
        image_embedding = vision_encoder(**preprocessor(image, return_tensors='pt')).pooler_output
        return image_embedding[0]
    except Exception as e:
        return None

## Build the DATABASE

In [None]:
PERSIST_DIR = "/content/chroma_scientists_db"
os.makedirs(PERSIST_DIR, exist_ok=True)

client = chromadb.PersistentClient(path=PERSIST_DIR, settings=Settings(allow_reset=True))

text_db  = client.get_or_create_collection(name="scientists_text",  metadata={"hnsw:space": "cosine"})
image_db = client.get_or_create_collection(name="scientists_image", metadata={"hnsw:space": "cosine"})

In [None]:
def upsert_pair(idx, name, text, image_url, t_emb, i_emb):
    meta = {
        "pair_id": idx,
        "name": name,
        "text": text,
        "image_url": image_url if image_url is not None else "",
    }

    if t_emb is not None:
        text_db.add(
            ids=[f"text-{idx}"],
            embeddings=[t_emb.tolist()],
            metadatas=[meta],
        )

    if i_emb is not None:
        image_db.add(
            ids=[f"img-{idx}"],
            embeddings=[i_emb.tolist()],
            metadatas=[meta],
        )

In [9]:
for idx, person in enumerate(data):
    name = person.get("name")

    text = person.get("text_chunk", "").replace("\u200c", "")
    t_emb = embed_text(text)

    image_urls = list(person.get("image", {}).values())
    img_url = None
    for url in image_urls:
        if url:
            i_emb = embed_image(url)
            if i_emb is not None:
              img_url = url
              break

    upsert_pair(idx, name, text, img_url, t_emb, i_emb)

## Retrieval Functions

In [10]:
def search_by_text(query: str, k=3):
    q_emb = embed_text(query)
    res = text_db.query(query_embeddings=[q_emb.tolist()], n_results=k, include=["metadatas", "distances"])
    return res

def search_by_image(image_url: str, k=5):
    q_emb = embed_image(image_url)
    if q_emb is None:
        return None
    res = image_db.query(query_embeddings=[q_emb.tolist()], n_results=k, include=["metadatas", "distances"])
    return res

## Test an example

In [11]:
res = search_by_text("چه کسی شرح کتاب مابعدالطبیعه ارسطو را نوشت؟", k=7)
for meta, dist in zip(res["metadatas"][0], res["distances"][0]):
    print("name:", meta["name"], "score:", 1-dist)
    print("text:", meta["text"])
    print("image:", meta["image_url"], "\n")

name: بنیامین بن موسی نهاوندی score: 0.8839473724365234
text: بنیامین بن موسی نهاوندی، حکیم، فیلسوف، عالم دینی، پزشک و عالم یهودی برجسته، در حدود قرن دوم شمسی در نهاوند واقع در استان همدان چشم به جهان گشود. او که در دوران قرون وسطی می زیست، نقشی اساسی در تکمیل و توسعه مبانی فرقه قرائیم ایفا نمود، جنبشی که توسط عنان ابن داوود پایه گذاری شده بود.  از جمله آثار ارزشمند او می توان به شروحی بر عهد عتیق و نوشته هایی به زبان عبری اشاره کرد.  نهاوندی با تاکید بر اهمیت تفکر آزاد و تحقیق، استدلال می کرد که تحقیق یک وظیفه است و اشتباهات ناشی از آن گناه محسوب نمی شود.
image:  

name: محمد بن طاهر بن بهرام سجستانی سیستانی score: 0.8695303201675415
text: محمد بن طاهر بن بهرام سجستانی سیستانی، معروف به "منطقی"، در حدود سال ۲۹۱ هجری شمسی در سیستان چشم به جهان گشود. این فیلسوف و اندیشمند برجسته سده چهارم هجری، تحصیلات خود را در زمینه فلسفه و منطق در بغداد و نزد اساتیدی چون ابوبشر متی بن یونس و ابوزکریا یحی بن عدی گذراند. سجستانی، علاوه بر فعالیتهای علمی، از حمایت سیاسی حاکمان محلی و دیلمی نیز برخوردار 

In [12]:
query_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/Birjandimanuscript.jpg/220px-Birjandimanuscript.jpg"
res = search_by_image(query_url, k=5)
for meta, dist in zip(res["metadatas"][0], res["distances"][0]):
    print("name:", meta["name"], "score:", 1-dist)
    print("text:", meta["text"])
    print("image:", meta["image_url"], "\n")

name: نظام الدین عبدالعلی بیرجندی score: 1.0000001192092896
text: نظامالدین عبدالعلی بیرجندی، معروف به فاضل بیرجندی و محقق بیرجندی، دانشمند برجسته عصر صفوی بود. وی که در بیرجند واقع در خراسان جنوبی دیده به جهان گشود، در زمینههای ریاضیات و ستارهشناسی تبحر داشت. بیرجندی آثار متعددی از جمله "اسطرلاب"، "مختصر الهیئه" و "شرح التذکرة النصیریة فی الهیئة" را به رشته تحریر درآورد. او نزد اساتید بزرگی همچون غیاثالدین جمشید کاشانی و کمالالدین قنوی به تحصیل علوم مختلف پرداخت و سرانجام در سال ۹۳۴ هجری شمسی در بیرجند دار فانی را وداع گفت و در بجد به خاک سپرده شد.
image: https://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/Birjandimanuscript.jpg/220px-Birjandimanuscript.jpg 

name: علی بن عباس مجوسی اهوازی score: 0.8311042189598083
text: علی بن عباس مجوسی اهوازی، پزشک و روانشناس برجسته سده چهارم هجری (دهم میلادی)، در شهر اهواز در ایران متولد شد. او که با القابی همچون "ابن المجوس" و "مجوسی اهوازی" نیز شناخته میشد، اثر ارزشمندی به نام "کتاب ملکی" از خود به یادگار گذاشته است. وی در حدود سال ۳۸۳ هجر

# Generator

In [19]:
import io, textwrap
from transformers import AutoProcessor, LlavaForConditionalGeneration

dtype = torch.float16
processor = AutoProcessor.from_pretrained("llava-hf/llava-1.5-7b-hf")
llava = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-7b-hf", torch_dtype=dtype, device_map="auto")
llava.eval()

In [14]:
def load_image_from_url(url, timeout=10):
    headers = {"User-Agent": "MM-RAG/1.0 (email@example.com)"}
    resp = requests.get(url, headers=headers, timeout=timeout)
    resp.raise_for_status()
    return Image.open(io.BytesIO(resp.content)).convert("RGB")

def trim(s, n=300):
    s = " ".join(str(s).split())
    return (s[: n-1] + "…") if len(s) > n else s

def build_context_block(text_hits, image_hits, max_items=4):
    """
    text_hits / image_hits: lists of dicts with keys: name, text, image_url, distance
    Returns a compact Persian context string.
    """
    bullets = []
    # Prefer text facts first, then image captions/metadata (if any)
    for h in text_hits[:max_items]:
        bullets.append(f"- {h.get('name','?')}: {trim(h.get('text',''))} [src: متن] (d={h['distance']:.3f})")
    for h in image_hits[:max_items]:
        # we only add image entries that also have some text/metadata to avoid empty lines
        if h.get("text"):
            bullets.append(f"- {h.get('name','?')}: {trim(h.get('text',''))} [src: تصویر] (d={h['distance']:.3f})")
    header = "دانش بازیابی‌شده (خلاصه):"
    return header + "\n" + "\n".join(bullets) if bullets else ""


In [15]:
# You already have embed_text / embed_image; we'll assume they return 1D torch tensors on CPU.
# Reuse your functions here:
#   - embed_text(text: str) -> torch.Tensor
#   - embed_image(url: str) -> Optional[torch.Tensor]

def _postprocess_query_result(res):
    out = []
    if not res:
        return out
    md = res.get("metadatas", [[]])[0]
    ds = res.get("distances", [[]])[0]
    for m, d in zip(md, ds):
        m = dict(m) if m else {}
        m["distance"] = float(d)
        out.append(m)
    return out

def retrieve_for_text_query(query: str, k_text=5, k_image=5):
    q_emb = embed_text(query)
    t_res = text_db.query(query_embeddings=[q_emb.tolist()], n_results=k_text, include=["metadatas", "distances"])
    i_res = image_db.query(query_embeddings=[q_emb.tolist()], n_results=k_image, include=["metadatas", "distances"])
    text_hits  = _postprocess_query_result(t_res)
    image_hits = _postprocess_query_result(i_res)
    return text_hits, image_hits

def retrieve_for_image_query(image_url: str, k_text=5, k_image=5):
    q_emb = embed_image(image_url)
    if q_emb is None:
        return [], []
    t_res = text_db.query(query_embeddings=[q_emb.tolist()], n_results=k_text, include=["metadatas", "distances"])
    i_res = image_db.query(query_embeddings=[q_emb.tolist()], n_results=k_image, include=["metadatas", "distances"])
    text_hits  = _postprocess_query_result(t_res)
    image_hits = _postprocess_query_result(i_res)
    return text_hits, image_hits


In [21]:
def llava_rag_generate(
    question_text: str,
    text_hits,
    image_hits,
    force_image: bool = True,
    max_new_tokens: int = 256,
    temperature: float = 0.2,
    top_p: float = 0.9,
):
    """
    - Chooses the best retrieved image (lowest distance) if available.
    - Builds a Persian instruction that forces the model to ground its answer in retrieved context.
    """
    # Pick best image if any
    best_img = None
    best_img_url = None
    if image_hits:
        best = sorted(image_hits, key=lambda x: x["distance"])[0]
        if best.get("image_url"):
            try:
                best_img = load_image_from_url(best["image_url"])
                best_img_url = best["image_url"]
            except Exception:
                best_img = None

    # If no image retrieved but user wants image conditioning, leave images=None (LLaVA can still run text-only)
    context_block = build_context_block(text_hits, image_hits, max_items=4)

    # Persian instruction emphasizing grounded answers
    system_prompt = (
        "تو یک مدل چندوجهی هستی. با تکیه بر «دانش بازیابی‌شده» و اگر موجود بود «تصویر»، "
        "به پرسش زیر پاسخ بده. اگر پاسخ در داده‌های بازیابی‌شده نبود، صریحاً بگو «اطلاعات کافی ندارم»."
        " پاسخ را به فارسی، دقیق و کوتاه بده."
    )

    # Compose final prompt
    user_prompt = ""
    if context_block:
        user_prompt += context_block + "\n\n"
    user_prompt += f"پرسش: {question_text}\n"
    if best_img_url:
        user_prompt += f"(تصویر منتخب برای زمینه: {best_img_url})"

    # Processor takes care of special tokens; pass image if we have it
    if best_img is not None and force_image:
        text_with_placeholder = "<image>\n" + system_prompt + "\n" + user_prompt
        model_inputs = processor(images=best_img, text=text_with_placeholder, return_tensors="pt")
    else:
        model_inputs = processor(text=system_prompt + "\n" + user_prompt, return_tensors="pt")

    # Move to device / dtype
    for k, v in model_inputs.items():
        if isinstance(v, torch.Tensor):
            model_inputs[k] = v.to(llava.device, dtype=dtype if v.dtype.is_floating_point else None)

    with torch.inference_mode():
        out = llava.generate(
            **model_inputs,
            max_new_tokens=max_new_tokens,
            do_sample=True,
            temperature=temperature,
            top_p=top_p
        )
    text = processor.batch_decode(out, skip_special_tokens=True)[0]
    # Many LLaVA checkpoints echo the prompt; strip it naively
    answer = text.split(user_prompt)[-1].strip() if user_prompt in text else text.strip()
    return {
        "answer": answer,
        "used_image_url": best_img_url,
        "context": context_block,
        "question": question_text
    }


In [22]:
def rag_qa_from_text(query: str, k_text=5, k_image=5, force_image=True):
    t_hits, i_hits = retrieve_for_text_query(query, k_text=k_text, k_image=k_image)
    return llava_rag_generate(query, t_hits, i_hits, force_image=force_image)

def rag_qa_from_image(image_url: str, question_text: str, k_text=5, k_image=5, force_image=True):
    t_hits, i_hits = retrieve_for_image_query(image_url, k_text=k_text, k_image=k_image)
    return llava_rag_generate(question_text, t_hits, i_hits, force_image=force_image)


In [23]:
# 1) Text-only user question (will still attach best retrieved image if helpful)
resp = rag_qa_from_text("زندگی‌نامه کوتاه و دستاوردهای اصلی مریم میرزاخانی را بگو.")
print(resp["answer"])

# 2) Image + question (multimodal query)
img_q = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/d3/Albert_Einstein_Head.jpg/480px-Albert_Einstein_Head.jpg"
resp2 = rag_qa_from_image(img_q, "این شخص کیست و سه نکتهٔ کلیدی از دستاوردهایش چیست؟")
print(resp2["used_image_url"], "\n", resp2["answer"])


OutOfMemoryError: CUDA out of memory. Tried to allocate 78.00 MiB. GPU 0 has a total capacity of 14.74 GiB of which 32.12 MiB is free. Process 2255 has 14.71 GiB memory in use. Of the allocated memory 14.25 GiB is allocated by PyTorch, and 334.01 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)