<a href="https://colab.research.google.com/github/AhmedSeelim/Arabic-RAG-Powered-QA-Assistant/blob/master/Question_Answering_with_RAG_Powered_AI_Assistant.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:

# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES
# TO THE CORRECT LOCATION (/kaggle/input) IN YOUR NOTEBOOK,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.

import os
import sys
from tempfile import NamedTemporaryFile
from urllib.request import urlopen
from urllib.parse import unquote, urlparse
from urllib.error import HTTPError
from zipfile import ZipFile
import tarfile
import shutil

CHUNK_SIZE = 40960
DATA_SOURCE_MAPPING = 'sanad-dataset:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F819052%2F1401544%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240827%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240827T141723Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D53758020b2e28cf1f0881e2cee759bc2b7a858156bebe7ff9cc775ca07041a6ba3812f9a3c43f90142e1401f070334e56a15b3dbe89500622834b27941187f3efb179b46a0b2753ac15b392ea9e1c851c915198ffc17e27f9740b29653ac84e408c5abb07a7d47f72f1be376cd1a3f385d1dbba571873296992bbd923c65520169575bce5988fad920975d64491fdf40d8a7d1b2c1f83e2b9e39575890baef3e0c89cf5908f1dc4e64101ca086b9fedaa0109f45a27855e676c2eb5a87d59b886871550ff4bf8e4b9964d2aa7d513971f66a078b1536f903d0ccc0a6d1a19069ef74cb8674e95db6d3b5f782012d7d119a7e4f11fe306baf5b86dd712ec2a938'

KAGGLE_INPUT_PATH='/kaggle/input'
KAGGLE_WORKING_PATH='/kaggle/working'
KAGGLE_SYMLINK='kaggle'

!umount /kaggle/input/ 2> /dev/null
shutil.rmtree('/kaggle/input', ignore_errors=True)
os.makedirs(KAGGLE_INPUT_PATH, 0o777, exist_ok=True)
os.makedirs(KAGGLE_WORKING_PATH, 0o777, exist_ok=True)

try:
  os.symlink(KAGGLE_INPUT_PATH, os.path.join("..", 'input'), target_is_directory=True)
except FileExistsError:
  pass
try:
  os.symlink(KAGGLE_WORKING_PATH, os.path.join("..", 'working'), target_is_directory=True)
except FileExistsError:
  pass

for data_source_mapping in DATA_SOURCE_MAPPING.split(','):
    directory, download_url_encoded = data_source_mapping.split(':')
    download_url = unquote(download_url_encoded)
    filename = urlparse(download_url).path
    destination_path = os.path.join(KAGGLE_INPUT_PATH, directory)
    try:
        with urlopen(download_url) as fileres, NamedTemporaryFile() as tfile:
            total_length = fileres.headers['content-length']
            print(f'Downloading {directory}, {total_length} bytes compressed')
            dl = 0
            data = fileres.read(CHUNK_SIZE)
            while len(data) > 0:
                dl += len(data)
                tfile.write(data)
                done = int(50 * dl / int(total_length))
                sys.stdout.write(f"\r[{'=' * done}{' ' * (50-done)}] {dl} bytes downloaded")
                sys.stdout.flush()
                data = fileres.read(CHUNK_SIZE)
            if filename.endswith('.zip'):
              with ZipFile(tfile) as zfile:
                zfile.extractall(destination_path)
            else:
              with tarfile.open(tfile.name) as tarfile:
                tarfile.extractall(destination_path)
            print(f'\nDownloaded and uncompressed: {directory}')
    except HTTPError as e:
        print(f'Failed to load (likely expired) {download_url} to path {destination_path}')
        continue
    except OSError as e:
        print(f'Failed to load {download_url} to path {destination_path}')
        continue

print('Data source import complete.')


Downloading sanad-dataset, 68916418 bytes compressed
Downloaded and uncompressed: sanad-dataset
Data source import complete.


In [2]:
# # This Python 3 environment comes with many helpful analytics libraries installed
# # It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# # For example, here's several helpful packages to load

# import numpy as np # linear algebra
# import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# # Input data files are available in the read-only "../input/" directory
# # For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

# import os
# for dirname, _, filenames in os.walk('/kaggle/input'):
#     for filename in filenames:
#         print(os.path.join(dirname, filename))

# # You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All"
# # You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# Loading and Preprocessing Text Files

In [3]:
import os

# Directory containing the SANAD dataset
data_dir = '/kaggle/input/sanad-dataset'

# List to hold all the documents
texts = []

# Walk through the directory structure
for subdir, _, files in os.walk(data_dir):
    for file in files:
        if file.endswith('.txt'):
            file_path = os.path.join(subdir, file)
            with open(file_path, 'r', encoding='utf-8') as f:
                content = f.read()
                texts.append(content)

print(f"Loaded {len(texts)} documents.")


Loaded 45500 documents.


In [24]:
texts[40001]

'أبوظبي: مريم عدنان استقبلت عيادة الإقلاع عن التدخين في مدينة الشيخ خليفة الطبية في أبوظبي إحدى منشآت شركة أبوظبي للخدمات الصحية «صحة» 1000 مدخن، بينهم نحو 361 مريضاً أقلعوا نهائياً عن التدخين، وذلك منذ انطلاقها عام 2011، وحتى نهاية سبتمبر/ أيلول الماضي.وأكد الدكتور عبدالرزاق القدور استشاري أمراض القلب في مدينة الشيخ خليفة الطبية في أبوظبي، أن نسبة المراجعين الذين أقلعوا عن التدخين بشكل تام من خلال برنامج الإقلاع عن التدخين الذي توفره العيادة وصلت إلى نحو 45% من إجمالي المراجعين خلال العامين الماضيين، فيما كانت 35%، وهي تعد نسبة مرتفعة مقارنة بنسب نجاح إقلاع المدخنين عن التدخين بشكل فردي دون الاستعانة بمعالج مختص حيث لا تتجاوز 5%.وقال استقبلنا منذ بداية العام الجاري حتى نهاية سبتمبر/ أيلول الماضي نحو 200 مراجع من المواطنين، أقلع منهم 70 مراجعاً عن التدخين بشكل نهائي، مشيراً إلى أن نسبة النساء من إجمالي المراجعين للعيادة منذ افتتاحها حتى الآن هي 10%، و 10% للمراهقين ممن تراوح أعمارهم بين 13 - 19 عاماً. وأضاف: أن مدينة الشيخ خليفة الطبية تحرص من خلال برنامج الإقلاع عن التدخين الذي توفره 

# Generate Embeddings for the Documents and Create Vector database

In [5]:
pip install langchain_chroma


Collecting langchain_chroma
  Downloading langchain_chroma-0.1.3-py3-none-any.whl.metadata (1.5 kB)
Collecting chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0 (from langchain_chroma)
  Downloading chromadb-0.5.3-py3-none-any.whl.metadata (6.8 kB)
Collecting fastapi<1,>=0.95.2 (from langchain_chroma)
  Downloading fastapi-0.112.2-py3-none-any.whl.metadata (27 kB)
Collecting langchain-core<0.3,>=0.1.40 (from langchain_chroma)
  Downloading langchain_core-0.2.35-py3-none-any.whl.metadata (6.2 kB)
Collecting chroma-hnswlib==0.7.3 (from chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0->langchain_chroma)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0->langchain_chroma)
  Downloading uvicorn-0.30.6-py3-none-any.whl.metadata (6.6 kB)
Collecting posthog>=2.4.0 (from chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0->langchain_chroma)
  Downloading posthog-3.5.

In [6]:
pip install sentence_transformers

Collecting sentence_transformers
  Downloading sentence_transformers-3.0.1-py3-none-any.whl.metadata (10 kB)
Downloading sentence_transformers-3.0.1-py3-none-any.whl (227 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m227.1/227.1 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentence_transformers
Successfully installed sentence_transformers-3.0.1


In [7]:
from sentence_transformers import SentenceTransformer
from langchain_chroma import Chroma

  from tqdm.autonotebook import tqdm, trange


In [8]:
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")


Using device: cuda


In [9]:
from sentence_transformers import SentenceTransformer

class embedding:
    def __init__(self):
        self.model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2').to(device)  # Move model to GPU

    def embed_documents(self, docs):
        embeddings = self.model.encode(docs, convert_to_tensor=True, device=device)
        return embeddings.cpu().numpy().tolist()  # Convert to CPU and then to list for Chroma compatibility

    def embed_query(self, query):
        embeddings = self.model.encode(query, convert_to_tensor=True, device=device)
        return embeddings.cpu().numpy().tolist()

embed_model = embedding()


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.12k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [10]:
def batch_upsert(texts, batch_size, embed_model):
    vector_database = None
    for i in range(0, len(texts), batch_size):
        batch_texts = texts[i:i+batch_size]
        embeddings = embed_model.embed_documents(batch_texts)  # Embeddings on GPU

        if vector_database is None:
            vector_database = Chroma.from_texts(
                texts=batch_texts,
                embedding=embed_model,
                metadatas=None,
                ids=None,
            )
        else:
            vector_database.add_texts(
                texts=batch_texts,
                embeddings=embeddings
            )
    return vector_database

# Set the batch size
batch_size = 20000
vector_database = batch_upsert(texts, batch_size, embed_model)

retreiver = vector_database.as_retriever(search_type='similarity', search_kwargs={'k': 3})


In [11]:
retreiver = vector_database.as_retriever(search_type='similarity',search_kwargs={'k':3})

In [12]:
print(retreiver.invoke('الرياضة فى الامارات')[0].page_content)

إعداد: أحمد عزت تلعب الرياضة بمختلف مسابقاتها دوراً كبيراً في الترويج والدعاية لدولة الإمارات، حيث أضحت البطولات والمسابقات العالمية التي تحتضنها الدولة على أرضها أو تنظمها خارج الوطن، قوة ناعمة ذات تأثير كبير للإمارات، فالقادمين من الدول الأخرى يتعرفون إلى الإمارات عن قرب حين يحلون ضيوفاً على الدولة للمشاركة في البطولات الرياضية المختلفة، كما أن المسابقات التي تنظمها الإمارات في عدد من الدول يجعلها محط أنظار شعوب هذه البلدان.ومن أهم الأنشطة الرياضية التي تعتبر إضافة إيجابية إلى رصيد الإمارات تلك المتعلقة برياضة الفروسية سواء رياضة خيول السرعة أو القدرة.حدث فريدويبرز على رأس هذه البطولات «كأس دبي العالمي»، الذي تجري وقائعه على مضمار «ميدان»، درة مضامير العالم، الذي يقف شامخاً في دانة الدنيا، ويقام أواخر شهر مارس من كل عام، وقد أقيمت النسخة ال23 من هذه الكأس العالمية يوم 31 مارس الماضي، وحققت نجاحاً باهراً كالعادة. وتشهد الأمسية 9 سباقات، 6 منها ضمن تصنيف الفئة الأولى، وتتنوع أرضياتها بين الأرضية العشبية والأرضية الرملية، كما تتنوع في مسافاتها من 1000 متر وحتى مسافة التحمل 3200 متر.ولأن

#  LLM Integration

In [13]:
# Function to format the documents
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Define the retriever and context chain
context_chain = retreiver | format_docs

In [14]:
pip install langchain

Collecting langchain
  Downloading langchain-0.2.14-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_text_splitters-0.2.2-py3-none-any.whl.metadata (2.1 kB)
Downloading langchain-0.2.14-py3-none-any.whl (997 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m997.8/997.8 kB[0m [31m18.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading langchain_text_splitters-0.2.2-py3-none-any.whl (25 kB)
Installing collected packages: langchain-text-splitters, langchain
Successfully installed langchain-0.2.14 langchain-text-splitters-0.2.2


In [15]:
pip install langchain_google_genai

Collecting langchain_google_genai
  Downloading langchain_google_genai-1.0.10-py3-none-any.whl.metadata (3.8 kB)
Downloading langchain_google_genai-1.0.10-py3-none-any.whl (39 kB)
Installing collected packages: langchain_google_genai
Successfully installed langchain_google_genai-1.0.10


In [16]:
import os
if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = "AIzaSyC2UHXCocEIWVOSFXRX3_dWzBdR4j0kpI8"

In [17]:
from langchain_core.output_parsers import StrOutputParser
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import PromptTemplate


llm = ChatGoogleGenerativeAI(model="gemini-1.5-flash",temperature=0)

template="""
You are an intelligent and contextually aware Arabic AI assistant designed to provide precise and detailed responses to customer questions. Your task is to use the information retrieved from the knowledge base to generate a comprehensive and accurate answer.

Question: {question}

Contextual Information:
{context}

Provide a clear and concise Arabic answer based on the context provided.
"""

prompt=PromptTemplate.from_template(template)




In [18]:
rag_chain = (
     {"context": context_chain,"question": RunnablePassthrough()}
     | prompt
     | llm
     |StrOutputParser()
)

In [19]:
rag_chain.invoke('الرياضة فى الامارات')

'تُعد الرياضة في الإمارات جزءًا أساسيًا من ثقافتها، حيث تُشجع الدولة على ممارسة الرياضة بمختلف أنواعها، وتستثمر بكثافة في تطوير البنية التحتية الرياضية، وتنظيم الأحداث الرياضية الدولية. \n\nمن أهم الرياضات في الإمارات:\n\n* **الفروسية:** تُعد الإمارات من الدول الرائدة في رياضة الفروسية، وتستضيف العديد من البطولات العالمية مثل كأس دبي العالمي، ومهرجان سمو الشيخ منصور بن زايد آل نهيان للخيول العربية الأصيلة، وسباق دبي الدولي للخيول العربية الأصيلة.\n* **كرة القدم:** تُعد كرة القدم الرياضة الأكثر شعبية في الإمارات، وتستثمر الدولة بكثافة في تطويرها، وتضم العديد من الأندية المحلية، وتستضيف العديد من البطولات الدولية.\n* **كرة السلة:** تُعد كرة السلة رياضة شعبية في الإمارات، وتستضيف الدولة العديد من البطولات الدولية، وتشهد نموًا ملحوظًا في عدد الممارسين.\n* **رياضات أخرى:** تُشجع الإمارات على ممارسة مختلف الرياضات مثل الرماية، والقوس والسهم، وكرة اليد، وغيرها.\n\nوتُعد الرياضة في الإمارات وسيلة للترويج للدولة، وتعزيز صورتها الدولية، وتنمية روح المواطنة، وتشجيع الشباب على ممارسة الرياضة، والح

In [20]:
pip install gradio

Collecting gradio
  Downloading gradio-4.42.0-py3-none-any.whl.metadata (15 kB)
Collecting aiofiles<24.0,>=22.0 (from gradio)
  Downloading aiofiles-23.2.1-py3-none-any.whl.metadata (9.7 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.4.0-py3-none-any.whl.metadata (2.9 kB)
Collecting gradio-client==1.3.0 (from gradio)
  Downloading gradio_client-1.3.0-py3-none-any.whl.metadata (7.1 kB)
Collecting pydub (from gradio)
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting python-multipart>=0.0.9 (from gradio)
  Downloading python_multipart-0.0.9-py3-none-any.whl.metadata (2.5 kB)
Collecting ruff>=0.2.2 (from gradio)
  Downloading ruff-0.6.2-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (25 kB)
Collecting semantic-version~=2.0 (from gradio)
  Downloading semantic_version-2.10.0-py2.py3-none-any.whl.metadata (9.7 kB)
Collecting tomlkit==0.12.0 (from gradio)
  Downloading tomlkit-0.12.0-py3-none-any.whl.metadata (2.7 kB)
Collecting websocket

In [40]:
def retrieve_articles(question):
    # Replace with actual retriever.invoke() calls
    articles = [
        retreiver.invoke(question)[0].page_content,
        retreiver.invoke(question)[1].page_content,
        retreiver.invoke(question)[2].page_content
    ]
    return articles

def get_answer(question):
    answer = rag_chain.invoke(question)
    return answer

def process_question(question):
    articles = retrieve_articles(question)
    answer = get_answer(question)
    return articles, answer



ans=process_question('ما الذى حققته برامج الإقلاع عن التدخين  فى الدول العربية؟')

print('Answer to the Question :',ans[1])

Answer to the Question : حققت برامج الإقلاع عن التدخين في الدول العربية نتائج متفاوتة. في الإمارات العربية المتحدة، أظهرت وزارة الصحة ووقاية المجتمع أن نسبة الذين أقلعوا عن التدخين من المترددين على عيادات الإقلاع عن التدخين التابعة للوزارة تراوح بين 16 و 20 في المئة، وهي نسبة ليست كبيرة، ولكنها مقبولة مقارنة بالأرقام العالمية. 

من ناحية أخرى، أظهر معهد أمراض الجهاز التنفسي والرعاية الحرجة بمستشفى كليفلاند كلينك أبوظبي أن 170 شخصًا يتلقون علاجهم عبر برنامج الإقلاع عن التدخين منذ إطلاقه في مايو/‏‏ أيار الماضي، مما يشير إلى وجود اهتمام متزايد بالبرامج العلاجية. 

وتشير توقعات المتخصصين إلى أن قانون الضريبة الانتقائية على التبغ ومشتقاته الذي طبق بداية أكتوبر/‏‏ تشرين الأول الماضي بنسبة 100%، سيؤدي إلى خفض أعداد المدخنين في الإمارات بنسبة 40% خلال الأعوام الثلاثة المقبلة. 

بشكل عام، تُظهر هذه المعلومات أن برامج الإقلاع عن التدخين في الدول العربية تُحقق بعض النجاح، ولكن هناك حاجة إلى مزيد من الجهود لزيادة الوعي وتوفير المزيد من الدعم للمدخنين الراغبين في الإقلاع عن هذه العادة الضارة.



In [41]:
print(('Most Similar Articles : '))
print('Article 1 :',ans[0][0])
print('Article 2 :',ans[0][1])
print('Article 3 :',ans[0][2])

Most Similar Articles : 
Article 1 : دبي:إيمان عبدالله آل علي أطلقت وزارة الصحة ووقاية المجتمع، فعالية «العيادة المتنقلة لدعم الإقلاع عن التدخين»، تحت شعار «أنا ودّرت والحين دورك»، في إطار البرنامج الوطني لمكافحة التبغ، في مركز المحيصنة الصحي، ثم تنتقل إلى مردف سيتي سنتر، وتستمر حتى 22 يونيو، وتعتزم الوزارة إجراء مسح شامل لأعداد المدخنين في الدولة، يبدأ نهاية العام الجاري ويستمر ثلاثة أشهر، ويهدف للوقوف على النسبة الحقيقية للمدخنين جزءا من عوامل أخرى، مثل السمنة والسكري، وتخطط لرفع عدد عيادات الإقلاع عن التدخين في مراكز الرعاية الصحية الأولية إلى عشر. وأكدت الوزارة، أن نسبة الذين أقلعوا من المترددين على عيادات التدخين التابعة للوزارة تراوح بين 16و20 في المئة، وهذه النسبة ليست كبيرة، ولكنها مقبولة مقارنة بالأرقام العالمية.وافتتح الدكتور حسين الرند، الوكيل المساعد لقطاع المراكز والعيادات الصحية، العيادة، بحضور ناصر البدور، الوكيل المساعد، مدير منطقة دبي الطبية والدكتورة وداد الميدور، مديرة البرنامج الوطني لمكافحة التبغ.وأكد الدكتور الرند، أن إطلاق العيادة يأتي ضمن مبادرات عيادات الخير، و

In [34]:
import gradio as gr


iface = gr.Interface(
    fn=process_question,
    inputs="text",
    outputs=[
        gr.Textbox(label="Most Similar Articles"),
        gr.Textbox(label="Answer to the Question")
    ],
    title="Question Answering System",
    description="Enter a question to receive the most similar articles and an answer."
)

iface.launch()


Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://1670a0693143559b3d.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


