## ⚙️ Setup and Installation

First, we need to install the necessary libraries.
- `chromadb`: Our database to store text as numbers.
- `google-generativeai`: To talk to the Gemini LLM.
- `sentence-transformers`: To convert text into embeddings (vectors).

In [8]:
!pip install docling
!pip install langchain
!pip install langchain-text-splitters
!pip install langchain-core
!pip install unstructured
!pip install llama_index
!pip install -qU langchain-text-splitters
!pip install sentence-transformers
!pip install faiss-cpu
!pip install openai
!pip install chromadb




Collecting docling
  Downloading docling-2.69.0-py3-none-any.whl.metadata (11 kB)
Collecting docling-core<3.0.0,>=2.50.1 (from docling-core[chunking]<3.0.0,>=2.50.1->docling)
  Downloading docling_core-2.60.0-py3-none-any.whl.metadata (7.7 kB)
Collecting docling-parse<5.0.0,>=4.7.0 (from docling)
  Downloading docling_parse-4.7.3-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (10 kB)
Collecting docling-ibm-models<4,>=3.9.1 (from docling)
  Downloading docling_ibm_models-3.10.3-py3-none-any.whl.metadata (7.3 kB)
Collecting filetype<2.0.0,>=1.2.0 (from docling)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting pypdfium2!=4.30.1,<6.0.0,>=4.30.0 (from docling)
  Downloading pypdfium2-5.3.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (67 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.8/67.8 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
Collecting rapidocr<4.0.0,>=3.3 (from docling)
  Downloading 

Collecting faiss-cpu
  Downloading faiss_cpu-1.13.2-cp310-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (7.6 kB)
Downloading faiss_cpu-1.13.2-cp310-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (23.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.8/23.8 MB[0m [31m55.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.13.2


KeyboardInterrupt: 

## 🔐 Configuration

We need to set up our access to Google's Gemini models.

**Instructions:**
1. Go to [Openrouter](https://openrouter.ai/keys).
2. Create an API Key.
3. Paste it below.

In [1]:
import os
os.environ["OPENROUTER_API_KEY"] = "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"


In [None]:
from huggingface_hub import login

login("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")


## 📂 Step 1: Extract and clean  Data (using docling lib)

In [2]:
from pathlib import Path
import re
from docling.document_converter import DocumentConverter


def extract_pdf_to_markdown(pdf_path: str) -> str | None:
    pdf_file = Path(pdf_path)

    if not pdf_file.exists() or not pdf_file.is_file():
        print(f"File not found or not a file: {pdf_path}")
        return None

    print(f"Processing: {pdf_file.name}")

    try:
        converter = DocumentConverter()
        result = converter.convert(str(pdf_file))
        doc = result.document

        raw_md = doc.export_to_markdown(
            page_break_placeholder="\n\n---\n\n"
        )

        cleaned = re.sub(r'<!--.*?-->', '', raw_md, flags=re.DOTALL)
        cleaned = re.sub(r'</?image[^>]*>', '', cleaned, flags=re.IGNORECASE)
        cleaned = re.sub(r'\n{3,}', '\n\n', cleaned)
        cleaned = re.sub(r'\s*---\s*', '\n\n---\n\n', cleaned)
        cleaned = cleaned.strip()

        output_file = pdf_file.parent / f"{pdf_file.stem}_markdown.md"
        output_file.write_text(cleaned, encoding='utf-8')

        print(f"Saved to: {output_file}")
        print(f"Content length: {len(cleaned)} characters")

        return str(output_file)

    except Exception as e:
        print(f"Error: {str(e)}")
        return None




###To use fun

In [None]:
result = extract_pdf_to_markdown("/content/TNN lec-1.pdf")


## ✂️ Step 2: Chunking (Splitting)


In [3]:
from pathlib import Path
import json
import re
from typing import List

from langchain_text_splitters import MarkdownHeaderTextSplitter, RecursiveCharacterTextSplitter

class Document:
    def __init__(self, page_content: str, metadata: dict = None):
        self.page_content = page_content
        self.metadata = metadata or {}


def describe_tables_and_figures(text: str) -> str:
    md_table_pattern = re.compile(r"(\|.+\|\n\|[-:\s|]+\|\n(?:\|.*\|\n?)*)", re.MULTILINE)
    def md_table_to_text(match):
        table = match.group(1)
        rows = [r.strip() for r in table.splitlines() if r.strip()]
        header = rows[0] if rows else ""
        data_rows = rows[2:] if len(rows) > 2 else []
        return f"\n[جدول]: يحتوي على بيانات منظمة. العناوين: {header}. عدد الصفوف: {len(data_rows)}.\n"
    text = md_table_pattern.sub(md_table_to_text, text)
    text = re.sub(r"<table.*?>.*?</table>", "\n[جدول]: جدول HTML يحتوي على بيانات منظمة.\n", text, flags=re.DOTALL|re.IGNORECASE)
    text = re.sub(r"```mermaid.*?```", "\n[مخطط]: مخطط Mermaid يوضح علاقات أو تدفق عمليات.\n", text, flags=re.DOTALL)
    text = re.sub(r"!\[.*?\]\(.*?\)", "\n[شكل]: شكل أو مخطط بصري.\n", text)
    return text


def merge_empty_sections(docs: List[Document]) -> List[Document]:
    merged_docs = []
    buffer_doc = None
    for doc in docs:
        content = doc.page_content.strip()
        if not content:
            if buffer_doc is not None:
                buffer_doc.page_content += "\n" + content
            else:
                buffer_doc = doc
            continue
        if buffer_doc is not None:
            buffer_doc.page_content += "\n" + content
            merged_docs.append(buffer_doc)
            buffer_doc = None
        else:
            merged_docs.append(doc)
    if buffer_doc is not None:
        merged_docs.append(buffer_doc)
    return merged_docs


def split_md_files_to_json(
    md_files: List[str],
    output_dir: str,
    chunk_size: int = 900,
    chunk_overlap: int = 120
):
    output_path = Path(output_dir)
    output_path.mkdir(parents=True, exist_ok=True)

    header_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=[("#", "h1"), ("##", "h2"), ("###", "h3")])
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)

    for md_file in md_files:
        md_path = Path(md_file)
        raw_text = md_path.read_text(encoding="utf-8")
        pages = raw_text.split("\n---\n")
        all_chunks = []

        for page_num, page_text in enumerate(pages, start=1):
            clean_text = describe_tables_and_figures(page_text)
            header_docs = header_splitter.split_text(clean_text)
            header_docs = merge_empty_sections(header_docs)

            for doc in header_docs:
                header = doc.metadata.get("h3") or doc.metadata.get("h2") or doc.metadata.get("h1")
                chunks = text_splitter.split_text(doc.page_content)
                for chunk in chunks:
                    all_chunks.append({
                        "text": chunk.strip(),
                        "metadata": {
                            "source": md_path.name,
                            "page": page_num,
                            "header": header,
                        }
                    })

        out_file = output_path / f"{md_path.stem}.json"
        out_file.write_text(json.dumps(all_chunks, ensure_ascii=False, indent=2), encoding="utf-8")




### To use fun

In [None]:
from pathlib import Path


md_folder = Path("/content/")
md_files = list(md_folder.glob("*.md"))
md_files = [str(p) for p in md_files]
output_dir = "/content/FinalChunk"

split_md_files_to_json(md_files, output_dir)


## 🔢 Step 3: Embeddings (Vectorization)


In [None]:
from pathlib import Path
import json
import re
from sentence_transformers import SentenceTransformer
import numpy as np

def clean_text(text: str) -> str:
    text = re.sub(r'```.*?```', ' ', text, flags=re.DOTALL)
    text = re.sub(r'`([^`]+)`', r'\1', text)
    text = re.sub(r'#{1,6}\s+', '', text)
    text = re.sub(r'^\s*>\s*', '', text, flags=re.MULTILINE)
    text = re.sub(r'^\s*[\*\-\+]\s+', '', text, flags=re.MULTILINE)
    text = re.sub(r'\*\*([^\*]+)\*\*', r'\1', text)
    text = re.sub(r'\*([^\*]+)\*', r'\1', text)
    text = re.sub(r'__([^_]+)__', r'\1', text)
    text = re.sub(r'_([^_]+)_', r'\1', text)
    text = re.sub(r'\[([^\]]+)\]\([^\)]+\)', r'\1', text)
    text = re.sub(r'https?://[^\s]+', '', text)
    text = re.sub(r'<[^>]+>', '', text)
    text = re.sub(r'\|[\s\-\:]+\|', ' ', text)
    text = re.sub(r'\|', ' ', text)
    text = re.sub(r'([!?.]){3,}', r'\1', text)
    text = re.sub(r'\n{3,}', '\n\n', text)
    text = '\n'.join(line.strip() for line in text.split('\n'))
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

def generate_embeddings(input_path: str | Path, output_dir: str | Path, model_name: str = "sentence-transformers/distiluse-base-multilingual-cased-v2"):
    input_path = Path(input_path)
    output_dir = Path(output_dir)
    output_dir.mkdir(parents=True, exist_ok=True)

    model = SentenceTransformer(model_name)

    json_files = [input_path] if input_path.is_file() else list(input_path.glob("*.json"))

    for json_file in json_files:
        with open(json_file, encoding="utf-8") as f:
            chunks = json.load(f)

        results = []
        for i, chunk in enumerate(chunks, start=1):
            text = chunk.get("text") or chunk.get("text_content", "")
            text = clean_text(text)
            if not text:
                continue

            vector = model.encode(text, convert_to_numpy=True)
            vector = vector.astype(float).tolist()

            results.append({
                "id": f"{json_file.stem}_chunk_{i}",
                "vector": vector,
                "text_content": text,
                "metadata": chunk.get("metadata", {})
            })

        out_file = output_dir / f"{json_file.stem}_embeddings.json"
        with open(out_file, "w", encoding="utf-8") as f:
            json.dump(results, f, ensure_ascii=False, indent=2)

        print(f"{len(results)} embeddings saved in {out_file}")

    print("Embeddings generation completed")


### To use fun

In [None]:
generate_embeddings(
    input_path="/content/FinalChunk",
    output_dir="/content/FinalEmbeddings"
)


modules.json:   0%|          | 0.00/341 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/610 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/539M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/531 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/114 [00:00<?, ?B/s]

2_Dense/model.safetensors:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

152 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_7_clean_embeddings.json
98 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_6_clean_embeddings.json
59 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_10_clean_embeddings.json
59 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_4_clean_embeddings.json
71 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_5_clean_embeddings.json
101 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_8_clean_embeddings.json
13 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_1_clean_embeddings.json
28 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_3_clean_embeddings.json
21 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_2_clean_embeddings.json
71 embeddings saved in /content/FinalEmbeddings/Th_NLP_Lec_9_clean_embeddings.json
Embeddings generation completed


## 💾 Step 4: Indexing (Vector Database)

Now we need a place to store these vectors so we can search them quickly.
We will use **ChromaDB**. It is an open-source vector database.

In [None]:
import chromadb
from pathlib import Path
import json


def clean_metadata(metadata: dict) -> dict:
    return {k: ("/" if v is None else v) for k, v in metadata.items()}


def load_embeddings_to_chroma(
    embeddings_path: str | Path,
    chroma_db_path: str | Path = "./chromaDB",
    collection_name: str = "Final",
    reset_collection: bool = True,
    peek_examples: int = 5
):
    embeddings_path = Path(embeddings_path)

    client = chromadb.PersistentClient(path=str(chroma_db_path))

    if reset_collection:
        try:
            client.delete_collection(collection_name)
        except Exception:
            pass

    collection = client.get_or_create_collection(name=collection_name)

    all_chunks = []
    for json_file in embeddings_path.glob("*.json"):
        with open(json_file, "r", encoding="utf-8") as f:
            chunks = json.load(f)

        for chunk in chunks:
            chunk.setdefault("metadata", {})
            chunk["metadata"].setdefault("source", json_file.name)
            all_chunks.append(chunk)

    print(f"Found {len(all_chunks)} chunks")

    for chunk in all_chunks:
        collection.add(
            ids=[chunk["id"]],
            documents=[chunk["text_content"]],
            embeddings=[chunk["vector"]],
            metadatas=[clean_metadata(chunk["metadata"])]
        )

    print(f"Stored {collection.count()} vectors in Chroma")

    if peek_examples > 0:
        results = collection.peek(peek_examples)
        for i, cid in enumerate(results["ids"]):
            print(f"\nExample {i + 1}")
            print("ID:", cid)
            print("Text:", results["documents"][i][:300], "...")
            print("Source:", results["metadatas"][i].get("source"))
            print("Page:", results["metadatas"][i].get("page"))
            print("Header:", results["metadatas"][i].get("header"))

    return collection


### To use fun

In [None]:
collection = load_embeddings_to_chroma(
    embeddings_path="/content/FinalEmbeddings",
    chroma_db_path="./chromaDB",
    collection_name="Final",
    reset_collection=True
)

Found 673 chunks
Stored 673 vectors in Chroma

Example 1
ID: Th_NLP_Lec_3_clean_chunk_1
Text: مقدمة: في مجال معالجة اللغات الطبيعية، يتمثل المدخل في نص مكتوب أو كلام منطوق، بينما يتمحور الهدف الأساسي حول الوصول إلى تمثيل مفاهيمي يعكس الفكرة أو المعنى الذي قصده الشخص الذي أنشأ ذلك النص أو الكلام، وتتنوع مستويات معالجة اللغات الطبيعية، حيث تشمل عدة جوانب تهدف إلى فهم اللغة وتحليلها بشكل دقيق. ...
Source: Th_NLP_Lec_3_clean.md
Page: 1
Header: /

Example 2
ID: Th_NLP_Lec_3_clean_chunk_2
Text: نقطع النص لفقرات. نقطع الفقرة لجمل (حيث الجملة هي الوحدة الأصغر لفهم الحدث). نقطع الجملة لـ tokens. نفهم دلالة كل Token إما من الكلمة ذاتها أو من موقعها في الجملة. ...
Source: Th_NLP_Lec_3_clean.md
Page: 1
Header: عند قراءة نص، ما هي الطريقة التي يتبعها الإنسان في معرفة معناه؟

Example 3
ID: Th_NLP_Lec_3_clean_chunk_3
Text: لتحديد مفهوم "الكلمة" بدقة، من الضروري تعريف المصطلح بما يتناسب مع تباين اللغات وتباين مفاهيم الكلمة فيها. على سبيل المثال: هناك لغات تتكون فيها الكلمات من رموز، مثل اللغة الصينية.

In [None]:
import chromadb
import json

def export_chroma_to_json(db_path="./chromaDB", collection_name="Final", output_dir="./exported_json"):
    import os
    os.makedirs(output_dir, exist_ok=True)

    client = chromadb.PersistentClient(path=db_path)
    collection = client.get_collection(collection_name)

    # نسحب كل الوثائق من الكوليكشن
    all_docs = collection.get(include=["documents", "metadatas", "ids"])

    chunks_data = []
    sources_data = []

    for doc, meta, doc_id in zip(all_docs["documents"], all_docs["metadatas"], all_docs["ids"]):
        for i, text in enumerate(doc):
            chunk_entry = {
                "id": f"{doc_id}_chunk_{i+1}",
                "text_content": text,
                "metadata": meta[i] if i < len(meta) else {}
            }
            chunks_data.append(chunk_entry)

            # حفظ المصادر فقط
            source_entry = {
                "id": chunk_entry["id"],
                "source": meta[i].get("source") if i < len(meta) else None,
                "page": meta[i].get("page") if i < len(meta) else None
            }
            sources_data.append(source_entry)

    # حفظ JSON للـ chunks
    chunks_file = os.path.join(output_dir, "all_chunks.json")
    with open(chunks_file, "w", encoding="utf-8") as f:
        json.dump(chunks_data, f, ensure_ascii=False, indent=2)

    # حفظ JSON للمصادر
    sources_file = os.path.join(output_dir, "sources_and_pages.json")
    with open(sources_file, "w", encoding="utf-8") as f:
        json.dump(sources_data, f, ensure_ascii=False, indent=2)

    print(f"Saved {len(chunks_data)} chunks to {chunks_file}")
    print(f"Saved sources info to {sources_file}")


## 🔍 Step 5: Retrieval

In [None]:
import chromadb
from sentence_transformers import SentenceTransformer

def query_chroma(
    query: str,
    db_path: str = "./chromaDB",
    collection_name: str = "Final",
    model_name: str = "sentence-transformers/distiluse-base-multilingual-cased-v2",
    n_results: int = 10,
    where: dict | None = None
):
    client = chromadb.PersistentClient(path=db_path)
    collection = client.get_collection(collection_name)

    model = SentenceTransformer(model_name)
    query_vector = model.encode([query], convert_to_numpy=True)[0].astype(float).tolist()

    results = collection.query(
        query_embeddings=[query_vector],
        n_results=n_results,
        where=where
    )

    output = []
    for i, doc in enumerate(results["documents"][0]):
        output.append({
            "text": doc,
            "metadata": results["metadatas"][0][i],
            "distance": results["distances"][0][i]
        })

    return output


###To use fun

In [None]:
results = query_chroma(
    query="النماذج الموجهة لذوي الاحتياجات الخاصة",
    db_path="./chromaDB",
    collection_name="Final",
    n_results=10,
)
##to read result

for i, r in enumerate(results, start=1):
    print(f"\n--- result {i} ---")
    print("text:", r["text"][:500], "...")
    print("source:", r["metadata"].get("source"))
    print("page:", r["metadata"].get("page"))
    print("distance:", r["distance"])



--- result 1 ---
text: من المبادئ الأساسية في تصميم أي نظام هي قابلية وصوله لمختلف المستخدمين، وهذا ينطبق أيضاً على تطبيقات معالجة اللغات الطبيعية، ومنه ظهرت أهمية وجود نماذج لغوية شاملة لمتطلبات المستخدمين من ذوي الاحتياجات الخاصة، كأصحاب المشكلات النطقية والصم والبكم. في حالة الصم والبكم نتعامل مع لغة الإشارة، لذلك لا بد من استبدال خوارزميات تعرف الكلام بخوارزميات رؤية حاسوبية لتعرف لغات الإشارة، فيكون الدخل هو مقطع مصور بدل من صوت، كما يجب ملاحظة أن لغة الإشارة مختلفة فهي غير منظومة صرفياً أو نحوياً بذات طريقة اللغ ...
source: Th_NLP_Lec_1_clean.md
page: 5
distance: 0.9654684662818909

--- result 2 ---
text: البنية الضمنية للغة مناسبة جداً. ...
source: Th_NLP_Lec_7_clean.md
page: 15
distance: 0.9829343557357788

--- result 3 ---
text: يمكن معالجة الأصناف الجزئية باستخدام (CFG) بتحديد أنماط الأفعال والمحددات التي تحتاجها. [جدول]: جدول HTML يحتوي على بيانات منظمة. ...
source: Th_NLP_Lec_7_clean.md
page: 13
distance: 0.9842382073402405

--- result 4 ---
text: يساعد التصنيف الجزئي في ف

## 🧠 Step 6: Augmentation & Generation (The LLM)

We have the relevant documents. Now we construct the prompt for **openrouter**.



In [None]:
def format_context(chunks):
    return "\n\n".join(
        f"[Source: {c['metadata'].get('source')} | Page: {c['metadata'].get('page')}]\n{c['text']}"
        for c in chunks
    )


In [None]:
from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["OPENROUTER_API_KEY"],
    base_url="https://openrouter.ai/api/v1",
    default_headers={
        "HTTP-Referer": "https://colab.research.google.com/",
        "X-Title": "RAG System (Colab)"
    }
)


In [None]:
def rag_answer(query, retrieved_chunks):
    context = format_context(retrieved_chunks)

    response = client.chat.completions.create(
        model="openai/gpt-4o-mini",
        messages=[
            {
                "role": "system",
                 "content": (
                    "أنت مساعد ذكي متخصص في الإجابة عن محاضرات معالجة اللغات الطبيعية.\n"
                    "القواعد المهمة:\n"
                    "• أجب دائمًا بنفس اللغة التي كُتب بها السؤال.\n"
                    "  - إذا كان السؤال بالعربية → أجب بالعربية الفصحى الواضحة\n"
                    "  - إذا كان السؤال بالإنجليزية → أجب بالإنجليزية الواضحة\n"
                    "• استخدم المعلومات الموجودة في الـ Context فقط.\n"
                    "• لا تُضف معلومات من خارج السياق.\n"
                    "• إذا لم يكن الجواب موجودًا في السياق، قل: «لا أعرف» أو «لا توجد معلومات كافية في السياق».\n"
                    "• كن موجزًا ودقيقًا ومباشرًا."
                )
            },
            {
                "role": "user",
                "content": f"""
Context:
{context}

Question:
{query}
"""
            }
        ],
        temperature=0.2
    )

    answer = response.choices[0].message.content

    # استخراج المصادر الفريدة من retrieved_chunks
    sources = []
    seen_sources = set()  # لتجنب التكرار
    for i, chunk in enumerate(retrieved_chunks, start=1):
        source = chunk['metadata'].get('source', 'Unknown')
        page = chunk['metadata'].get('page', 'N/A')
        source_key = f"{source} (Page {page})"
        if source_key not in seen_sources:
            seen_sources.add(source_key)
            sources.append(f"{i}. {source_key}")

    # صياغة الإرجاع المنسق
    formatted_output = f"""
💡 Example Output:
Student: "{query}"
Lecture-Saver 3000: "{answer}"
🔍 Sources:
{ '\\n'.join(sources) if sources else 'No sources found.' }
"""

    return formatted_output

###to use fun
arabic query

In [None]:
query = "النماذج الموجهة لذوي الاحتياجات الخاصة"
results = query_chroma(query, n_results=10)
formatted_answer = rag_answer(query, results)
print(formatted_answer)


💡 Example Output:
Student: "النماذج الموجهة لذوي الاحتياجات الخاصة"
Lecture-Saver 3000: "تظهر أهمية وجود نماذج لغوية شاملة لمتطلبات المستخدمين من ذوي الاحتياجات الخاصة، مثل أصحاب المشكلات النطقية والصم والبكم. في حالة الصم والبكم، يتم التعامل مع لغة الإشارة، مما يتطلب استبدال خوارزميات تعرف الكلام بخوارزميات رؤية حاسوبية لتعرف لغات الإشارة. يجب أن يكون الدخل هو مقطع مصور بدلاً من صوت، كما أن لغة الإشارة تختلف عن اللغات المحكية من حيث التركيب، حيث يمكن أن تحمل معنيين في آن واحد، على عكس اللغات المحكية التي تنقل المعلومات بطريقة خطية."
🔍 Sources:
1. Th_NLP_Lec_1_clean.md (Page 5)\n2. Th_NLP_Lec_7_clean.md (Page 15)\n3. Th_NLP_Lec_7_clean.md (Page 13)\n5. Th_NLP_Lec_7_clean.md (Page 40)\n6. Th_NLP_Lec_7_clean.md (Page 11)\n7. Th_NLP_Lec_6_clean.md (Page 18)\n8. Th_NLP_Lec_9_clean.md (Page 13)\n9. Th_NLP_Lec_10_clean.md (Page 4)\n10. Th_NLP_Lec_6_clean.md (Page 15)



English query

In [None]:
query = "Models designed for people with special needs"
results = query_chroma(query, n_results=10)
formatted_answer = rag_answer(query, results)
print(formatted_answer)


💡 Example Output:
Student: "Models designed for people with special needs"
Lecture-Saver 3000: "تظهر أهمية وجود نماذج لغوية شاملة لمتطلبات المستخدمين من ذوي الاحتياجات الخاصة، مثل أصحاب المشكلات النطقية والصم والبكم. في حالة الصم والبكم، يتم التعامل مع لغة الإشارة، مما يتطلب استبدال خوارزميات تعرف الكلام بخوارزميات رؤية حاسوبية لتعرف لغات الإشارة."
🔍 Sources:
1. Th_NLP_Lec_1_clean.md (Page 5)\n2. Th_NLP_Lec_7_clean.md (Page 13)\n3. Th_NLP_Lec_6_clean.md (Page 23)\n4. Th_NLP_Lec_2_clean.md (Page 2)\n6. Th_NLP_Lec_10_clean.md (Page 7)\n7. Th_NLP_Lec_6_clean.md (Page 18)\n8. Th_NLP_Lec_2_clean.md (Page 1)\n9. Th_NLP_Lec_7_clean.md (Page 15)\n10. Th_NLP_Lec_7_clean.md (Page 5)



## 🚀 The Complete RAG Pipeline

In [None]:
new_file = "/content/Theoretical-Data-Security-Lec-1.pdf"
new_md_file = extract_pdf_to_markdown(new_file)
chunk_output_dir = "/content/NewChunks"
embed_output_dir = "/content/NewEmbeddings"

from pathlib import Path
Path(chunk_output_dir).mkdir(exist_ok=True)
Path(embed_output_dir).mkdir(exist_ok=True)

print("Starting extraction for the new file...")

split_md_files_to_json(
    md_files=[new_md_file],
    output_dir=chunk_output_dir,
    chunk_size=900,
    chunk_overlap=120
)

print(f"Chunks extracted and saved to: {chunk_output_dir}")

print("Generating embeddings...")
generate_embeddings(
    input_path=chunk_output_dir,
    output_dir=embed_output_dir,
    model_name="sentence-transformers/distiluse-base-multilingual-cased-v2"
)

print(f"Embeddings generated and saved to: {embed_output_dir}")

print("Adding new content to the database...")
collection = load_embeddings_to_chroma(
    embeddings_path=embed_output_dir,
    chroma_db_path="./chromaDB",
    collection_name="Final",
    reset_collection=False,
    peek_examples=3
)

print("New file successfully added to the collection!")

ai_query = "أهداف أمن المعلومات"
results = query_chroma(
    query=ai_query,
    db_path="./chromaDB",
    collection_name="Final",
    n_results=10
)

formatted_answer = rag_answer(ai_query, results)
print("\n" + "="*70)
print("Query:", ai_query)
print("Answer:", formatted_answer)
print("="*70)


[32m[INFO] 2026-01-21 04:43:48,485 [RapidOCR] base.py:22: Using engine_name: onnxruntime[0m
[32m[INFO] 2026-01-21 04:43:48,505 [RapidOCR] download_file.py:60: File exists and is valid: /usr/local/lib/python3.12/dist-packages/rapidocr/models/ch_PP-OCRv4_det_infer.onnx[0m
[32m[INFO] 2026-01-21 04:43:48,506 [RapidOCR] main.py:53: Using /usr/local/lib/python3.12/dist-packages/rapidocr/models/ch_PP-OCRv4_det_infer.onnx[0m


Processing: Theoretical-Data-Security-Lec-1.pdf


[32m[INFO] 2026-01-21 04:43:48,613 [RapidOCR] base.py:22: Using engine_name: onnxruntime[0m
[32m[INFO] 2026-01-21 04:43:48,619 [RapidOCR] download_file.py:60: File exists and is valid: /usr/local/lib/python3.12/dist-packages/rapidocr/models/ch_ppocr_mobile_v2.0_cls_infer.onnx[0m
[32m[INFO] 2026-01-21 04:43:48,621 [RapidOCR] main.py:53: Using /usr/local/lib/python3.12/dist-packages/rapidocr/models/ch_ppocr_mobile_v2.0_cls_infer.onnx[0m
[32m[INFO] 2026-01-21 04:43:48,674 [RapidOCR] base.py:22: Using engine_name: onnxruntime[0m
[32m[INFO] 2026-01-21 04:43:48,712 [RapidOCR] download_file.py:60: File exists and is valid: /usr/local/lib/python3.12/dist-packages/rapidocr/models/ch_PP-OCRv4_rec_infer.onnx[0m
[32m[INFO] 2026-01-21 04:43:48,713 [RapidOCR] main.py:53: Using /usr/local/lib/python3.12/dist-packages/rapidocr/models/ch_PP-OCRv4_rec_infer.onnx[0m


Saved to: /content/Theoretical-Data-Security-Lec-1_markdown.md
Content length: 11988 characters
Starting extraction for the new file...
Chunks extracted and saved to: /content/NewChunks
Generating embeddings...
26 embeddings saved in /content/NewEmbeddings/Theoretical-Data-Security-Lec-1_markdown_embeddings.json
Embeddings generation completed
Embeddings generated and saved to: /content/NewEmbeddings
Adding new content to the database...
Found 26 chunks
Stored 699 vectors in Chroma

Example 1
ID: Th_NLP_Lec_3_clean_chunk_1
Text: مقدمة: في مجال معالجة اللغات الطبيعية، يتمثل المدخل في نص مكتوب أو كلام منطوق، بينما يتمحور الهدف الأساسي حول الوصول إلى تمثيل مفاهيمي يعكس الفكرة أو المعنى الذي قصده الشخص الذي أنشأ ذلك النص أو الكلام، وتتنوع مستويات معالجة اللغات الطبيعية، حيث تشمل عدة جوانب تهدف إلى فهم اللغة وتحليلها بشكل دقيق. ...
Source: Th_NLP_Lec_3_clean.md
Page: 1
Header: /

Example 2
ID: Th_NLP_Lec_3_clean_chunk_2
Text: نقطع النص لفقرات. نقطع الفقرة لجمل (حيث الجملة هي الوحدة الأصغر ل

In [5]:
import zipfile
from pathlib import Path

zip_file = "/content/chromaDB (1).zip"
extract_dir = "/content/chromaDB"  # المجلد الذي سيتم الاستخراج فيه

Path(extract_dir).mkdir(exist_ok=True)

with zipfile.ZipFile(zip_file, 'r') as zip_ref:
    zip_ref.extractall(extract_dir)

print(f"تم فك ضغط الملفات في: {extract_dir}")


تم فك ضغط الملفات في: /content/chromaDB
