In [2]:
import streamlit as st
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os
from langchain_google_genai import GoogleGenerativeAIEmbeddings, ChatGoogleGenerativeAI
import chromadb
from langchain_chroma import Chroma


from langchain.schema import Document

from langchain.chains.question_answering import load_qa_chain
import google.generativeai as genai
from langchain.prompts import PromptTemplate
from dotenv import load_dotenv

load_dotenv() # Loads .env file

genai.configure(api_key=os.getenv("GOOGLE_API_KEY")) 

In [None]:
import json

# Open and read the JSON file
with open('docs.json', 'r') as file:
    data = json.load(file)


In [3]:
documents = []

In [None]:
for item in data:
    page_content = item["page_content"]
    
    # Flatten metadata and remove None values
    metadata = {
        "document_title": item.get("document_title"),
        "section_title": item.get("section_title"),
    }

    # Merge nested metadata if it exists
    if "metadata" in item and isinstance(item["metadata"], dict):
        for key, value in item["metadata"].items():
            if isinstance(value, dict):
                metadata.update(value)
            else:
                metadata[key] = value

    # Remove keys with None values
    metadata = {k: v for k, v in metadata.items() if v is not None}

    # Create Document
    documents.append(Document(page_content=page_content, metadata=metadata))


In [None]:
documents

[[Document(metadata={'document_title': 'قانون الضريبة على الدخل رقم 91 لسنة 2005', 'section_title': 'المادة 1', 'type': 'law', 'law_number': '91', 'year': '2005', 'article': '1'}, page_content='المادة 1\nيعمل في شأن الضريبة على الدخل بأحكام القانون المرافق.'),
  Document(metadata={'document_title': 'قانون الضريبة على الدخل رقم 91 لسنة 2005', 'section_title': 'المادة 2', 'type': 'law', 'law_number': '91', 'year': '2005', 'article': '2'}, page_content='المادة 2يلغى قانون الضرائب على الدخل الصادر بالقانون رقم 157 لسنة 1981، على أن تستمر لجان الطعن المشكلة وفقاً لأحكام قانون الضرائب على الدخل المشار إليه حتى 31 ديسمبر سنة 2005 في النظر في المنازعات الضريبية المتعلقة بالسنوات حتى نهاية 2004، وبعدها تحال المنازعات التي لم يتم الفصل فيها بحالتها إلى اللجان المشكلة طبقاً لأحكام القانونالمرافق.\nكما تظل الإعفاءات المحددة لها مدد في القانون المشار إليه سارية بالنسبة إلى الأشخاص الذين بدأت مدد الإعفاء لهم قبل تاريخ العمل بهذا القانون، وذلك إلى أن تنتهي هذه المدد.\nويلغى البند 1 من المادة (1) من ا

In [8]:
from uuid import uuid4

uuids = [str(uuid4()) for _ in range(len(documents))]


In [None]:
    # Create embeddings using a Google Generative AI model
embeddings = GoogleGenerativeAIEmbeddings(model="gemini-embedding-exp-03-07",google_api_key="AIzaSyB-Aby7j5VNug9PAJ8RfEwa9_liwo2Ig5c")


In [15]:
from langchain_chroma import Chroma

vector_store = Chroma(
    collection_name="example_collection",
    embedding_function=embeddings,
    persist_directory="./chroma_langchain_db",
)

In [None]:
batch1 = documents[0:]
batch2 = documents[100:200]
batch3 = documents[200:]

batch1_ids = uuids[0:]
batch2_ids = uuids[100:200]
batch3_ids = uuids[200:]
# 

In [None]:

batches = [
    (batch1, batch1_ids),
    (batch2, batch2_ids),
    (batch3, batch3_ids)
]


In [None]:
import time
index = 0

while True:
    docs, ids = batches[index]
    vector_store.add_documents(documents=docs, ids=ids)

    index = (index + 1) % len(batches)
    time.sleep(180)  # Wait for 3 minutes


In [26]:
from langchain_chroma import Chroma

VDB = Chroma(
    collection_name="example_collection",
    embedding_function=embeddings,
    persist_directory="./chroma_langchain_db",
)

In [54]:
results = VDB.as_retriever(
    k=2,
    
)
# for res in results:
#     print(f"* {res.page_content} [{res.metadata}]")

In [55]:
results

VectorStoreRetriever(tags=['Chroma', 'GoogleGenerativeAIEmbeddings'], vectorstore=<langchain_chroma.vectorstores.Chroma object at 0x0000016BA6487150>, search_kwargs={})

In [29]:
import chromadb

client = chromadb.Client()


client = chromadb.PersistentClient(path="./chroma_langchain_db")

collection_name = "example_collection"
collection = client.get_or_create_collection(name=collection_name)

In [35]:
results = vector_store.similarity_search(
    "الضريبة على الدخل",
    k=2,
    
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

* المادة 1
يعمل في شأن الضريبة على الدخل بأحكام القانون المرافق. [{'type': 'law', 'article': '1', 'section_title': 'المادة 1', 'year': '2005', 'document_title': 'قانون الضريبة على الدخل رقم 91 لسنة 2005', 'law_number': '91'}]
* الباب الثانى 
حقوق والتزامات الممولين والمكلفين وغيرهم وتنظيم الإدارة الضريبية [{'type': 'law', 'chapter': 'حقوق والتزامات الممولين والمكلفين وغيرهم وتنظيم الإدارة الضريبية', 'section_title': 'الباب الثانى حقوق والتزامات الممولين والمكلفين وغيرهم وتنظيم الإدارة الضريبية', 'document_type': 'قانون', 'document_title': 'قانون الإجراءات الضريبية الموحد'}]


In [20]:
vector_store

<langchain_chroma.vectorstores.Chroma at 0x28983d5c1d0>

In [39]:
dense_retriever = vector_db.as_retriever(search_kwargs={'k' : 5})


In [45]:
from langchain.prompts import PromptTemplate , ChatPromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain
model = ChatGoogleGenerativeAI(model="gemini-2.0-flash-exp", temperature=0.3)

# system_prompt = """
# Context: النص التالي يحتوي على مواد قانونية (مواد) باللغة العربية ذات صلة بإدخال المستخدم:
# {context}

# 🔍 المهمة:
# 1) **تحديد نوع الطلب:**
#    - إذا كان الإدخال **سؤالًا مباشرًا** (مثل: "ما هي الالتزامات...؟") أو **جملة تتضمن التزامًا أو إجراءً** (مثل: "يجب على الممولين...")، فاستخرج الالتزامات أو الإجراءات الرئيسية او قم يالاقتراح الأقرب الية.

# 2) **تحديد المواد القانونية ذات الصلة:**
#    - حدد **جميع المواد ذات الصلة** التي تتناول الطلب، واستخدمها فقط كمصدر داخلي للاستخراج (لا تذكر أرقام المواد في الإجابة).

# 3) **استخراج المعلومات الأساسية:**
#    - استخرج فقط الخطوات أو النقاط التي تُجيب على الطلب بشكل مباشر.

#  قواعد التنسيق:
# - إذا كانت الإجابة تتعلق بـ **خطوات أو إجراءات**:
#   - استخدم **قائمة مرقّمة واحدة** (1.، 2.، 3.، ...) بشكل واضح.
# - إذا كانت الإجابة **وصفية أو توضيحية**:
#   - استخدم **نقاط تعداد فقط (•)**.
#  **ممنوع تمامًا** ذكر أي أرقام أو أسماء مواد قانونية (مثل: "المادة 8") في الإجابة.
#  لا تخلط بين التنسيقات.
#  إذا كان هناك شك، استخدم القائمة المرقّمة.


#  **أخرج الإجابة بتنسيق واحد فقط كما هو موضّح أعلاه، دون ذكر أرقام المواد**:
# """

prompt = ChatPromptTemplate.from_messages(
    [
        ("system" , system_prompt),
        ('human' , "جاوب علي السؤال ده: {input}"),
    ]
)
question_answer_chain = create_stuff_documents_chain(model , prompt)
rag_chain = create_retrieval_chain(dense_retriever , question_answer_chain)


In [44]:
system_prompt = """
انت نموذج ذكاء اصطناعي الهدف منك إنك تكون شات بوت ضريبي مساعد، بترد على استفسارات العملاء بشكل واضح ومبني على القوانين المصرية، وباللهجة المصرية من غير أي تشكيل على الكلمات.

🔍 المهمة:
1) **تحديد نوع الطلب:**
   - لو الإدخال عبارة عن **سؤال مباشر** (زي: "ما هي الالتزامات...؟") أو **جملة فيها إلزام أو إجراء** (زي: "يجب على الممولين...")، استخرج الالتزامات أو الإجراءات الرئيسية أو اقترح أقرب حاجة ليها.

2) **تحديد المواد القانونية ذات الصلة:**
   - حدد **كل المواد القانونية اللي ليها علاقة بالطلب**، واستخدمها كمصدر داخلي بس (من غير ما تذكر أرقام المواد في الرد).

3) **استخراج المعلومات الأساسية:**
   - استخرج الخطوات أو النقاط اللي بتجاوب على الطلب بشكل مباشر.

📋 قواعد التنسيق:
- لو الإجابة فيها **خطوات أو إجراءات**:
  - استخدم **قائمة مرقّمة واحدة** (1.، 2.، 3.، ...) بشكل واضح.
- لو الإجابة **وصفية أو توضيحية**:
  - استخدم **نقاط تعداد بس (•)**.
❌ ممنوع تمامًا ذكر أي أرقام أو أسماء مواد قانونية (زي: "المادة 8") في الإجابة.
❌ ما تخلطش بين التنسيقات.
❓ لو مش متأكد، استخدم القائمة المرقّمة.

أخرج الإجابة بتنسيق واحد بس زي ما هو موضح فوق، من غير ذكر أرقام المواد، وباللهجة المصرية من غير تشكيل.

📚 السياق:
النص التالي يحتوي على مواد قانونية (مواد) باللغة العربية ذات صلة بسؤال المستخدم:
{context}
"""


In [46]:
dense_retriever.invoke("متى يجب تقديم الأقرارات الضريبية للأشخاص الطبيعية و الأعتبارية؟ ")

[Document(id='1e491f6f-37c9-4a0f-9059-150d66f83722', metadata={'document_title': 'قانون الضريبة على الدخل رقم 91 لسنة 2005', 'section_title': 'المادة 83', 'type': 'law', 'law_number': '91', 'year': '2005', 'book': 'السادس', 'chapter': 'الإقرارات الضريبية', 'article': '83'}, page_content='المادة 83\nيجب تقديم الإقرار الضريبي خلال المواعيد الآتية:(أ) قبل أول أبريل من كل سنة تالية لانتهاء الفترة الضريبية عن السنة السابقة لها بالنسبة إلى الأشخاص الطبيعيين.\n(ب) قبل أول مايو من كل سنة أو خلال أربعة أشهر تالية لتاريخ انتهاء السنة المالية بالنسبة إلى الأشخاص الاعتبارية.ويوقع الإقرار من الممول أو من يمثله قانوناً، وإذا أعد الإقرار محاسب مستقل فإن عليه التوقيع على الإقرار مع الممول أو ممثله القانوني، وإلا اعتبر الإقرار كأن لم يكن.وفي جميع الأحوال يجب أن يكون الإقرار موقعاً من محاسب مقيد بجدول المحاسبين والمراجعين وذلك بالنسبة لشركات الأموال والجمعيات التعاونية، والأشخاص الطبيعيين وشركات الأشخاص إذا تجاوز رقم الأعمال لأي منهم مليوني جنيه سنوياً.وفي حالة وفاة الممول خلال السنة يجب على الورثة أو و

In [47]:
def Answer_question(Question):
    question = str(Question)
    response = rag_chain.invoke({"input": question})
    return response['answer']

In [48]:
q = " ما هي الفترة الضريبية المحددة في القانون، ومتى تستحق الضريبة؟"

In [51]:
print(Answer_question(q))


الفترة الضريبية بتكون السنة المالية اللي بتبدأ من أول يناير وبتنتهي في 31 ديسمبر من كل سنة، أو أي فترة تانية مدتها 12 شهر، ودي بتكون الأساس لحساب الضريبة.

• ممكن تحسب الضريبة لفترة أقل أو أكتر من 12 شهر.
• الضريبة بتكون مستحقة في اليوم اللي بعد نهاية الفترة الضريبية.
• الضريبة بتكون مستحقة برضه في حالة وفاة الممول، أو لو انقطعت إقامته، أو لو وقف نشاطه بشكل كامل.


In [52]:
q2 = "متى يجب تقديم الأقرارات الضريبية للأشخاص الطبيعية و الأعتبارية؟ "

In [53]:
print(Answer_question(q2))

مواعيد تقديم الإقرارات الضريبية كالتالي:

1.  **الأشخاص الطبيعيين:** لازم يقدموا الإقرار الضريبي قبل أول أبريل من كل سنة، وده بيكون عن السنة الضريبية اللي فاتت.
2.  **الأشخاص الاعتبارية:** عندهم مهلة لحد أول مايو من كل سنة، أو خلال أربع شهور من نهاية السنة المالية بتاعتهم.
3.  **في حالة وفاة الممول:** الورثة أو المسؤول عن التركة لازم يقدموا الإقرار الضريبي عن الفترة اللي قبل الوفاة في خلال 90 يوم من تاريخ الوفاة.
4.  **لو الممول هيسيب مصر:** لازم يقدم الإقرار الضريبي قبل ما يسيب البلد بـ 60 يوم على الأقل، إلا لو كان السفر مفاجئ.
5.  **لو الممول هيوقف النشاط بتاعه:** لازم يقدم الإقرار الضريبي في خلال 60 يوم من تاريخ التوقف.
