# Arabic Question Answering System

##Web Scraping

###Install required packages

In [1]:
!pip install firecrawl anthropic beautifulsoup4 python-dotenv



###Import required libraries

In [2]:
import os
from bs4 import BeautifulSoup
from datetime import datetime
import re
from firecrawl import FirecrawlApp
import anthropic
from getpass import getpass

###API keys
#####- [Anthropic API](https://www.anthropic.com) (API key required)
#####- [Firecrawl API](https://www.firecrawl.com) (API key required)

In [3]:
os.environ["FIRECRAWL_API_KEY"] = getpass("Enter your FIRECRAWL API key: ")
os.environ["ANTHROPIC_API_KEY"] = getpass("Enter your ANTHROPIC API key: ")

Enter your FIRECRAWL API key: ··········
Enter your ANTHROPIC API key: ··········


###Define the article URL to scrape

In [4]:
url = "https://www.aljazeera.net/sport/2025/4/18/barca-arsenal"

###Initialize Firecrawl and Anthropic clients using API keys

In [5]:
firecrawl_key = os.environ["FIRECRAWL_API_KEY"]
anthropic_key = os.environ["ANTHROPIC_API_KEY"]

client = anthropic.Client(api_key=anthropic_key)
app = FirecrawlApp(api_key=firecrawl_key)

###Scrape the URL content using Firecrawl

In [6]:
scrape_result = app.scrape_url(url, formats=['html'])

# Check if scraping succeeded
if not scrape_result:
    print("Failed to fetch data from the URL.")
else:
    print("Page content fetched successfully.")

Page content fetched successfully.


###Functions to extract title and main content from HTML

In [7]:
def extract_title_from_html(html: str) -> str:
    soup = BeautifulSoup(html, 'html.parser')
    title_tag = soup.find('title')
    if title_tag:
        return title_tag.get_text(strip=True)
    return "No Title Found"

def extract_main_content_from_html(html: str) -> str:
    soup = BeautifulSoup(html, 'html.parser')

    # Remove script and style elements
    for script in soup(["script", "style"]):
        script.decompose()

    # Try to locate the main content
    main_content = soup.select_one('main#main-content-area')

    if main_content:
        # Clean known unwanted blocks
        for unwanted in main_content.select('.article-info-block, .disclaimer-text, .article-author, .article-dates'):
            unwanted.decompose()

        # Extract paragraphs
        content = [p.get_text(strip=True) for p in main_content.find_all('p')]
        return '\n'.join(content)

    return "No Main Content Found"

###Extract title & content, display them, and save to a .txt file

In [8]:
if scrape_result:
    html = scrape_result.html

    title = extract_title_from_html(html)
    main_content = extract_main_content_from_html(html)

    # Show title and main content before saving
    print(f"Title:\n{title}\n")
    print(f"Main Content:\n{main_content}\n")

    # Save to a .txt file
    output_path = 'output.txt'
    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(f"Title:\n{title}\n\n")
        f.write(f"Main Content:\n{main_content}\n")

    print(f"Title and main content saved to {output_path}")
else:
    print("No scrape result to process.")

Title:
إغلاق تلميح الأدوات

Main Content:
مع اكتمال عقد الفرق المتأهلة إلى نصف نهائي دوري أبطال أوروبا لكرة القدم، كشف حاسوب عملاق عن توقعاته لحظوظ الفرق الأربعة في التتويج باللقب.
وبلغت أندية كل من برشلونة وإنتر ميلان وأرسنال وباريس سان جيرمان الدور نصف النهائي من المسابقة الأوروبية العريقة بعد تجاوزها عقبة كل من بوروسيا دورتموند وبايرن ميونخ وريال مدريد وأستون فيلا على الترتيب.

وبحسب صحيفة "سبورت" الإسبانية فإن النسب المئوية التي حددها حاسوب "أوبتا" العملاق قد أثارت جدلا واسعا على مواقع التواصل الاجتماعي خاصة بعد أن وضع برشلونة في ذيل قائمة الفرق المرشحة للتتويج باللقب.
ويُعتبر أرسنال المرشح الأبرز لتحقيق اللقب بعد أن أقصى ريال مدريد حامل اللقب بنتيجة 5-1 في مجموع مباراتي الذهاب والإياب، بنسبة 28.7%.
اللافت أن هذه المرة الأولى التي يتصدر فيها أرسنال توقعات الذكاء الاصطناعي للفوز بالكأس "ذات الأذنين" هذا الموسم.

وحل إنتر ميلان ثانيا بعد بلوغه المربع الذهبي على حساب بايرن ميونخ بعد مباراتين قويتين مثيرتين، حيث بلغت نسبة تتويجه بدوري الأبطال وفق حاسوب "أوبتا" 25.5%.
ومنح الحاسوب العمل

##RAG (Retrieval-Augmented Generation)

###Load Text Files

In [9]:
# List to hold all documents (in this case, one long document)
texts = []

# Read the file and store it as a single document
with open("/content/output.txt", "r", encoding="utf-8") as file:
    content = file.read()
    texts.append(content)

print(f"Loaded {len(texts)} document(s). Sample:\n\n{texts[0][:1000]}")

Loaded 1 document(s). Sample:

Title:
إغلاق تلميح الأدوات

Main Content:
مع اكتمال عقد الفرق المتأهلة إلى نصف نهائي دوري أبطال أوروبا لكرة القدم، كشف حاسوب عملاق عن توقعاته لحظوظ الفرق الأربعة في التتويج باللقب.
وبلغت أندية كل من برشلونة وإنتر ميلان وأرسنال وباريس سان جيرمان الدور نصف النهائي من المسابقة الأوروبية العريقة بعد تجاوزها عقبة كل من بوروسيا دورتموند وبايرن ميونخ وريال مدريد وأستون فيلا على الترتيب.

وبحسب صحيفة "سبورت" الإسبانية فإن النسب المئوية التي حددها حاسوب "أوبتا" العملاق قد أثارت جدلا واسعا على مواقع التواصل الاجتماعي خاصة بعد أن وضع برشلونة في ذيل قائمة الفرق المرشحة للتتويج باللقب.
ويُعتبر أرسنال المرشح الأبرز لتحقيق اللقب بعد أن أقصى ريال مدريد حامل اللقب بنتيجة 5-1 في مجموع مباراتي الذهاب والإياب، بنسبة 28.7%.
اللافت أن هذه المرة الأولى التي يتصدر فيها أرسنال توقعات الذكاء الاصطناعي للفوز بالكأس "ذات الأذنين" هذا الموسم.

وحل إنتر ميلان ثانيا بعد بلوغه المربع الذهبي على حساب بايرن ميونخ بعد مباراتين قويتين مثيرتين، حيث بلغت نسبة تتويجه بدوري الأبطال وفق حاسوب "أ

###Prepare the Embedding Model

In [10]:
!pip install -q sentence_transformers

In [11]:
from sentence_transformers import SentenceTransformer
import torch

# Check for GPU availability
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# Embedding class to handle document and query embeddings
class EmbeddingModel:
    def __init__(self):
        # Load multilingual transformer model
        self.model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2').to(device)

    def embed_documents(self, docs):
        # Convert documents into embeddings
        embeddings = self.model.encode(docs, convert_to_tensor=True, device=device)
        return embeddings.cpu().numpy().tolist()

    def embed_query(self, query):
        # Convert single query into embedding
        embeddings = self.model.encode(query, convert_to_tensor=True, device=device)
        return embeddings.cpu().numpy().tolist()

# Initialize the embedding model
embed_model = EmbeddingModel()

Using device: cpu


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


###Create Chroma Vector Database

In [12]:
!pip install -q langchain_chroma

In [13]:
from langchain_chroma import Chroma

# Function to embed documents in batches and store in Chroma vector DB
def batch_upsert(texts, batch_size, embed_model):
    vector_database = None
    for i in range(0, len(texts), batch_size):
        batch_texts = texts[i:i+batch_size]
        embeddings = embed_model.embed_documents(batch_texts)

        if vector_database is None:
            vector_database = Chroma.from_texts(
                texts=batch_texts,
                embedding=embed_model,
                metadatas=None,
                ids=None,
            )
        else:
            vector_database.add_texts(
                texts=batch_texts,
                embeddings=embeddings
            )
    return vector_database

# Set batch size and run upsert
batch_size = 20000
vector_database = batch_upsert(texts, batch_size, embed_model)

# Convert vector database to retriever
retriever = vector_database.as_retriever(search_type='similarity', search_kwargs={'k': 3})

In [14]:
# Try retrieving similar articles using a sample question
sample_question = "ما هي الفرق المتأهلة إلى نصف نهائي دوري أبطال أوروبا لكرة القدم؟"
similar_docs = retriever.invoke(sample_question)

# Print the top 3 similar documents
for i, doc in enumerate(similar_docs):
    print(f"\nArticle {i+1}:\n{doc.page_content[:500]}...")  # Print first 500 characters




Article 1:
Title:
إغلاق تلميح الأدوات

Main Content:
مع اكتمال عقد الفرق المتأهلة إلى نصف نهائي دوري أبطال أوروبا لكرة القدم، كشف حاسوب عملاق عن توقعاته لحظوظ الفرق الأربعة في التتويج باللقب.
وبلغت أندية كل من برشلونة وإنتر ميلان وأرسنال وباريس سان جيرمان الدور نصف النهائي من المسابقة الأوروبية العريقة بعد تجاوزها عقبة كل من بوروسيا دورتموند وبايرن ميونخ وريال مدريد وأستون فيلا على الترتيب.

وبحسب صحيفة "سبورت" الإسبانية فإن النسب المئوية التي حددها حاسوب "أوبتا" العملاق قد أثارت جدلا واسعا على مواقع التوا...


###Build the Prompt Template and RAG Chain

In [15]:
!pip install langchain_google_genai



In [16]:
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    temperature=0,
    google_api_key="AIzaSyBMrcWQfNlHxyQNzhj0cOWyebJkSBHhS-g"
)

# Create a prompt template for the question answering
template = """
You are an intelligent and contextually aware Arabic AI assistant designed to provide precise and detailed responses to customer questions. Your task is to use the information retrieved from the knowledge base to generate a comprehensive and accurate answer.

Question: {question}

Contextual Information:
{context}

Provide a clear and concise Arabic answer based on the context provided.
"""

prompt = PromptTemplate.from_template(template)

# Format the context from documents
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Build the final RAG chain
context_chain = retriever | format_docs
rag_chain = (
    {"context": context_chain, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

###Try the Full RAG Chain on a Sample Question

In [17]:
# Example question
question = "ما هي الفرق المتأهلة إلى نصف نهائي دوري أبطال أوروبا لكرة القدم؟"

# Use the RAG chain to get an answer
answer = rag_chain.invoke(question)

# Print the answer
print("Answer to the Question:\n")
print(answer)



Answer to the Question:

الفرق المتأهلة إلى نصف نهائي دوري أبطال أوروبا لكرة القدم هي: برشلونة، وإنتر ميلان، وأرسنال، وباريس سان جيرمان.


###Save the Answer to a Text File

In [22]:
def process_question(question):
    """Processes the question and returns relevant articles and the final answer."""

    # 1. Retrieve similar articles
    similar_docs = retriever.invoke(question)
    articles = [doc.page_content for doc in similar_docs]  # Assuming you want content only

    # 2. Generate the answer using the RAG chain
    answer = rag_chain.invoke(question)

    return articles, answer


# Save the answer to a text file
ans = process_question("ما هي الفرق المتأهلة إلى نصف نهائي دوري أبطال أوروبا لكرة القدم؟")

with open("/content/answer.txt", "w", encoding="utf-8") as f:
    f.write(ans[1])  # تأكد من أن ans[1] هي الإجابة النهائية

print("Answer has been saved to /content/answer.txt")



Answer has been saved to /content/answer.txt


###Gradio UI

In [18]:
!pip install gradio



In [25]:
import gradio as gr

def rag_interface(question):
    _, answer = process_question(question)
    return answer

iface = gr.Interface(
    fn=rag_interface,
    inputs="text",
    outputs=[
        gr.Textbox(label="Answer to the Question")
    ],
    title="Arabic Question Answering System",
    description="Enter a question to receive an answer."
)

iface.launch()

It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://adbe5a6c7820cb97f4.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


