###Load Text Files

In [30]:
# Load the scraped text content from /content/output.txt

# List to hold all documents (in this case, one long document)
texts = []

# Read the file and store it as a single document
with open("/content/output.txt", "r", encoding="utf-8") as file:
    content = file.read()
    texts.append(content)

print(f"Loaded {len(texts)} document(s). Sample:\n\n{texts[0][:1000]}")

Loaded 1 document(s). Sample:

**MainContent:** مما لا شكّ فيه فقد أصبح الذكاء الاصطناعي الشغل الشاغل لغالبية حكومات الدول المتقدّمة؛ لإدراكها أن العالم يقف عند فجر حقبة جديدة، ستغيّر حياة البشرية والطريقة التي تعيش وتعمل بها في عدد كبير من المجالات والقطاعات المختلفة، مع الإقرار في نفس الوقت بأن مخاطر هذه الحقبة لا تزال مجهولة أيضًا. فلا مبالغة بالقول إن العالم دخل فعليًا مرحلة جديدة عنوانها السباق في تكنولوجيا الذكاء الاصطناعي، لكن إذا لم يتم وضع قواعد ناظمة لهذا السباق؛ فإنّه قد يخرج عن السيطرة، ويهدد المعمورة كلها؛ لأنه يثير العديد من المخاطر والتهديدات الأمنية والأخلاقية؛ نتيجة الاعتماد المتزايد عليه. ليس صدفة أن أكبر الاستثمارات فيه التي يقوم بها العملاقان المتنافسان، الولايات المتحدة والصين، هي في هذا المجال كما أن التطبيقات الضخمة لهذا الذكاء، تعد تمهيدًا لحرب ناعمة بين الآلة والإنسان، ولا يمكن قراءة استقالة "جيفري هينتون" – الذي يطلق عليه "الأب الروحي للذكاء الاصطناعي" من شركة غوغل أوائل مايو 2023 – إلا في سياق "جرس الإنذار" الذي ينبّه البشرية إلى تلك المخاطر العديدة المتعلّقة

###Prepare the Embedding Model

In [31]:
!pip install -q sentence_transformers

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m13.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m27.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [32]:
from sentence_transformers import SentenceTransformer
import torch

# Check for GPU availability
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# Embedding class to handle document and query embeddings
class EmbeddingModel:
    def __init__(self):
        # Load multilingual transformer model
        self.model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2').to(device)

    def embed_documents(self, docs):
        # Convert documents into embeddings
        embeddings = self.model.encode(docs, convert_to_tensor=True, device=device)
        return embeddings.cpu().numpy().tolist()

    def embed_query(self, query):
        # Convert single query into embedding
        embeddings = self.model.encode(query, convert_to_tensor=True, device=device)
        return embeddings.cpu().numpy().tolist()

# Initialize the embedding model
embed_model = EmbeddingModel()

Using device: cpu


###Create Chroma Vector Database

In [33]:
!pip install -q langchain_chroma

In [34]:
from langchain_chroma import Chroma

# Function to embed documents in batches and store in Chroma vector DB
def batch_upsert(texts, batch_size, embed_model):
    vector_database = None
    for i in range(0, len(texts), batch_size):
        batch_texts = texts[i:i+batch_size]
        embeddings = embed_model.embed_documents(batch_texts)

        if vector_database is None:
            vector_database = Chroma.from_texts(
                texts=batch_texts,
                embedding=embed_model,
                metadatas=None,
                ids=None,
            )
        else:
            vector_database.add_texts(
                texts=batch_texts,
                embeddings=embeddings
            )
    return vector_database

# Set batch size and run upsert
batch_size = 20000
vector_database = batch_upsert(texts, batch_size, embed_model)

# Convert vector database to retriever
retriever = vector_database.as_retriever(search_type='similarity', search_kwargs={'k': 3})


###Test the Retriever Output

In [35]:
# Try retrieving similar articles using a sample question
sample_question = "ما هي أسباب خطورة الذكاء الاصطناعي؟"
similar_docs = retriever.invoke(sample_question)

# Print the top 3 similar documents
for i, doc in enumerate(similar_docs):
    print(f"\nArticle {i+1}:\n{doc.page_content[:500]}...")  # Print first 500 characters


Article 1:
**MainContent:** مما لا شكّ فيه فقد أصبح الذكاء الاصطناعي الشغل الشاغل لغالبية حكومات الدول المتقدّمة؛ لإدراكها أن العالم يقف عند فجر حقبة جديدة، ستغيّر حياة البشرية والطريقة التي تعيش وتعمل بها في عدد كبير من المجالات والقطاعات المختلفة، مع الإقرار في نفس الوقت بأن مخاطر هذه الحقبة لا تزال مجهولة أيضًا. فلا مبالغة بالقول إن العالم دخل فعليًا مرحلة جديدة عنوانها السباق في تكنولوجيا الذكاء الاصطناعي، لكن إذا لم يتم وضع قواعد ناظمة لهذا السباق؛ فإنّه قد يخرج عن السيطرة، ويهدد المعمورة كلها؛ لأنه ي...

Article 2:
**MainContent:** مما لا شكّ فيه فقد أصبح الذكاء الاصطناعي الشغل الشاغل لغالبية حكومات الدول المتقدّمة؛ لإدراكها أن العالم يقف عند فجر حقبة جديدة، ستغيّر حياة البشرية والطريقة التي تعيش وتعمل بها في عدد كبير من المجالات والقطاعات المختلفة، مع الإقرار في نفس الوقت بأن مخاطر هذه الحقبة لا تزال مجهولة أيضًا. فلا مبالغة بالقول إن العالم دخل فعليًا مرحلة جديدة عنوانها السباق في تكنولوجيا الذكاء الاصطناعي، لكن إذا لم يتم وضع قواعد ناظمة لهذا السباق؛ فإنّه قد يخرج عن السيطرة،

###Build the Prompt Template and RAG Chain

In [38]:
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    temperature=0,
    google_api_key="AIzaSyBMrcWQfNlHxyQNzhj0cOWyebJkSBHhS-g"
)

# Create a prompt template for the question answering
template = """
You are an intelligent and contextually aware Arabic AI assistant designed to provide precise and detailed responses to customer questions. Your task is to use the information retrieved from the knowledge base to generate a comprehensive and accurate answer.

Question: {question}

Contextual Information:
{context}

Provide a clear and concise Arabic answer based on the context provided.
"""

prompt = PromptTemplate.from_template(template)

# Format the context from documents
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Build the final RAG chain
context_chain = retriever | format_docs
rag_chain = (
    {"context": context_chain, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

###Try the Full RAG Chain on a Sample Question

In [39]:
# Example question
question = "ما هي التحديات الرئيسية التي تواجه الذكاء الاصطناعي؟"

# Use the RAG chain to get an answer
answer = rag_chain.invoke(question)

# Print the answer
print("Answer to the Question:\n")
print(answer)

Answer to the Question:

تواجه تقنية الذكاء الاصطناعي العديد من التحديات الرئيسية، أبرزها:

* **مخاطر فقدان الوظائف:**  يتوقع فقدان مئات الملايين من الوظائف خلال السنوات القادمة بسبب استبدال البشر بالذكاء الاصطناعي في العديد من القطاعات،  بل وحتى  استبداله في 99% من الوظائف خلال عقدين بحسب بعض التوقعات.

* **المخاطر الأمنية والأخلاقية:**  يُثير الاعتماد المتزايد على الذكاء الاصطناعي مخاوف أمنية وأخلاقية كبيرة، خاصةً في المجالات العسكرية والدفاعية،  حيث يُمكن استخدامه كأداة سيطرة وفرض نفوذ.  كما أن  غياب القواعد الناظمة  يُمكن أن يُخرج هذا السباق التكنولوجي عن السيطرة.

* **التنافس الدولي:**  يشهد العالم سباقًا محمومًا بين الدول والشركات العملاقة لتطوير تقنيات الذكاء الاصطناعي، مما يُثير مخاوف من حرب ناعمة بين الآلة والإنسان،  وتُمثل  الاستثمارات الضخمة من قِبل الولايات المتحدة والصين خير دليل على ذلك.

* **التحديات الأخلاقية والمسؤولية:**  يُطرح سؤال المسؤولية الأخلاقية  بشكلٍ كبير  في ظل التطورات السريعة لتقنيات الذكاء الاصطناعي،  و تأثيره الواسع في المجتمع.

* **التحديات العربية:**  

###Gradio UI

In [41]:
!pip install gradio

Collecting gradio
  Downloading gradio-5.25.2-py3-none-any.whl.metadata (16 kB)
Collecting aiofiles<25.0,>=22.0 (from gradio)
  Downloading aiofiles-24.1.0-py3-none-any.whl.metadata (10 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.5.0-py3-none-any.whl.metadata (3.0 kB)
Collecting gradio-client==1.8.0 (from gradio)
  Downloading gradio_client-1.8.0-py3-none-any.whl.metadata (7.1 kB)
Collecting groovy~=0.1 (from gradio)
  Downloading groovy-0.1.2-py3-none-any.whl.metadata (6.1 kB)
Collecting pydub (from gradio)
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting python-multipart>=0.0.18 (from gradio)
  Downloading python_multipart-0.0.20-py3-none-any.whl.metadata (1.8 kB)
Collecting ruff>=0.9.3 (from gradio)
  Downloading ruff-0.11.6-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (25 kB)
Collecting safehttpx<0.2.0,>=0.1.6 (from gradio)
  Downloading safehttpx-0.1.6-py3-none-any.whl.metadata (4.2 kB)
Collecting semantic-version~=2.0 (

In [42]:
import gradio as gr

def rag_interface(question):
    articles, answer = process_question(question)
    articles_str = "\n\n".join(articles)
    return articles_str, answer

iface = gr.Interface(
    fn=rag_interface,
    inputs="text",
    outputs=[
        gr.Textbox(label="Most Similar Articles"),
        gr.Textbox(label="Answer to the Question")
    ],
    title="Arabic Question Answering System",
    description="Enter a question to receive the most similar articles and an answer."
)

iface.launch()

It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://f2cefb2f220c490ed7.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




###Save the Answer to a Text File

In [45]:
# Save the answer to a text file
ans = process_question("ما هي الأسباب التي تجعل الذكاء الاصطناعي يُعد خطرًا على البشرية؟")

with open("/content/answer.txt", "w", encoding="utf-8") as f:
    f.write(ans[1])  # تأكد من أن ans[1] هي الإجابة النهائية

print("Answer has been saved to /content/answer.txt")


Answer has been saved to /content/answer.txt
