In [20]:
''' Librairies nécessaires'''
!pip install python-multipart chromadb arabert
!pip install aiohttp pyngrok
# Install necessary libraries
!pip install transformers fastapi uvicorn[standard] aiofiles
!pip install -q -U google-generativeai




In [27]:
'''Alimentation de la base de données'''
import chromadb
from chromadb.config import Settings
from transformers import AutoTokenizer, AutoModel
from pydantic import BaseModel
import torch
import uuid
import json
# Check if GPU is available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")
# Initialize ChromaDB client with persistence
client = chromadb.Client(Settings(persist_directory="./chroma_storage"))

# Initialize AraBERT model and tokenizer
model_name = "intfloat/multilingual-e5-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name).to(device)

#client.delete_collection(name="quran")
#client.delete_collection(name="hadith")

# Function to generate embeddings
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(device)
    with torch.no_grad():
        outputs = model(**inputs)
        embeddings = outputs.last_hidden_state.mean(dim=1).cpu().numpy()
    return embeddings

# Define Pydantic models for Quran and Hadith
class QuranEntry(BaseModel):
    aya_index_quran: int
    aya_index_sura: int
    sura_name: str
    sura_index: int
    total_verses: int
    aya_chakl: str
    aya_no_chakl: str
    tafsir_aya: str

class HadithEntry(BaseModel):
    source: str
    chapter_no: str
    chapter: str
    text_ar: str

# Bulk load Quran data
def create_quran_vector_base(file_path):
    collection = client.get_or_create_collection(name="quran", metadata={"hnsw:space": "cosine"})
    with open(file_path, "r", encoding="utf-8") as file:
        data = json.load(file)
        for entry_data in data:
            entry = QuranEntry(**entry_data)
            embedding = get_embedding(entry.aya_chakl).tolist()[0]
            collection.add(
                documents=[json.dumps(entry.dict())],
                metadatas=[{"sura_name": entry.sura_name, "aya_index": entry.aya_index_quran}],
                embeddings=[embedding],
                ids=[str(uuid.uuid4())]
            )
    print("Quran vector base created successfully.")

# Bulk load Hadith data
def create_hadith_vector_base(file_path):
    collection = client.get_or_create_collection(name="hadith", metadata={"hnsw:space": "cosine"})
    with open(file_path, "r", encoding="utf-8-sig") as file:
        data = json.load(file)
        for entry_data in data:
            cleaned_entry = {k: v for k, v in entry_data.items() if k and k in HadithEntry.__annotations__}
            entry = HadithEntry(**cleaned_entry)
            embedding = get_embedding(entry.text_ar).tolist()[0]
            collection.add(
                documents=[json.dumps(entry.dict())],
                metadatas=[{"source": entry.source, "chapter_no": entry.chapter_no}],
                embeddings=[embedding],
                ids=[str(uuid.uuid4())]
            )
    print("Hadith vector base created successfully.")

# Load the datasets
create_quran_vector_base("quran.json")
create_hadith_vector_base("json_hadit.json")


Using device: cuda


<ipython-input-27-576c8680897c>:56: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.10/migration/
  documents=[json.dumps(entry.dict())],


Quran vector base created successfully.


<ipython-input-27-576c8680897c>:73: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.10/migration/
  documents=[json.dumps(entry.dict())],


Hadith vector base created successfully.


In [36]:
'''Le serveur developpé à l'aide de fastAPI'''


from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import Literal, List
import chromadb
from chromadb.config import Settings
from transformers import AutoTokenizer, BertLMHeadModel
import uuid
import json
from flask import Flask, request, jsonify
from transformers import AutoTokenizer, pipeline
import google.generativeai as genai

import torch
from transformers import AutoTokenizer, BertModel

# Automatically detect and set the device (CPU or CUDA)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Initialize AraBERT model and tokenizer for embeddings (BertModel is used here)
model_name = "intfloat/multilingual-e5-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name).to(device)  # Changed model here to BertModel

genai.configure(api_key="AIzaSyAwY_S-MTDlJ9aHAeGKqhef8Uu3HxE10LI")
model_gemini = genai.GenerativeModel("models/gemini-2.0-flash-exp")

# Function to generate embeddings with proper device management
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    inputs = {key: value.to(device) for key, value in inputs.items()}  # Move inputs to the correct device
    outputs = model(**inputs)  # Output now comes from BertModel
    embeddings = outputs.last_hidden_state.mean(dim=1).detach().cpu().numpy()  # Mean pooling over token embeddings
    return embeddings


# Initialize Chroma client
#client = chromadb.Client(Settings(
#  persist_directory="./chroma_storage1"  # Directory to save the vector bases
#))

app = FastAPI()

# Input data model
class QueryData(BaseModel):
    query: str
    vector_base: Literal["quran", "hadith"]

class QueryLLMInput(BaseModel):
    query: str
    data: List[dict]
'''
class QuranEntry(BaseModel):
    aya_index_quran: int
    aya_index_sura: int
    sura_name: str
    sura_index: int
    total_verses: int
    aya_chakl: str
    aya_no_chakl: str
    tafsir_aya: str

class HadithEntry(BaseModel):
    source: str
    chapter_no: str
    chapter: str
    text_ar: str

@app.post("/create-vector-base/quran")
async def create_quran_vector_base(data: List[QuranEntry]):
    collection = client.get_or_create_collection(name="quran")

    for entry in data:
        aya_chakl = entry.aya_chakl
        embedding = get_embedding(aya_chakl).tolist()[0]
        collection.add(
            documents=[json.dumps(entry.dict())],
            metadatas=[{"sura_name": entry.sura_name, "aya_index": entry.aya_index_quran}],
            embeddings=[embedding],
            ids=[str(uuid.uuid4())]
        )
    return {"message": "Quran vector base created successfully."}

# Endpoint to create a vector base for Hadith
@app.post("/create-vector-base/hadith")
async def create_hadith_vector_base(data: List[HadithEntry]):
    collection = client.get_or_create_collection(name="hadith")

    for entry in data:
        try:
            text_ar = entry.text_ar  # Use Arabic Hadith text for embeddings
            embedding = get_embedding(text_ar).tolist()[0]

            # Store the full JSON chunk along with its embedding
            collection.add(
                documents=[json.dumps(entry.dict())],  # Store full JSON
                metadatas=[{"source": entry.source, "chapter_no": entry.chapter_no}],
                embeddings=[embedding],
                ids=[str(uuid.uuid4())]
            )
        except KeyError:
            raise HTTPException(status_code=400, detail="Missing required keys in Hadith JSON.")

    return {"message": "Hadith vector base created successfully."}
'''
# Endpoint to query a vector base
@app.post("/query")
async def query_vector_base(data: QueryData):
    # Validate the vector base type
    if data.vector_base not in ["quran", "hadith"]:
        raise HTTPException(status_code=400, detail="Invalid vector base. Use 'quran' or 'hadith'.")

    # Fetch the collection
    collection = client.get_collection(data.vector_base)

    prompt = f"enhance this user query in arabic for better information retreival in arabic, and give only the enhanced query : \n{data.query}"


    response = model_gemini.generate_content(prompt)
    # Generate the query embedding
    query_embedding = get_embedding(response.text).tolist()[0]

    results = collection.query(
        query_embeddings=[query_embedding],  # Query embedding
        n_results=10  # Specify fields to include
    )
    decoded_text = [json.loads(result) for result in results.get("documents")[0]]
    param = QueryLLMInput(query= response.text,data= decoded_text)
    final_results = await query_llm(param)

    return {"generated": final_results, "retrieved": decoded_text}


@app.post('/queryLLM')
async def query_llm(input_data: QueryLLMInput):
    print("I am here")
    try:
        user_query = input_data.query
        source_data = input_data.data

        # Ensure source_data is a valid string
        if isinstance(source_data, dict):
            source_data = json.dumps(source_data, ensure_ascii=False)

        if not user_query or not source_data:
            raise HTTPException(status_code=400, detail="Missing 'query' or 'data' in request body.")

        # Construct the prompt
        prompt = f"المعلومات المقدمة:\n{source_data}\n\nالسؤال:\n{user_query}\n\nالجواب:"
        print("here")

        response = model_gemini.generate_content(prompt)
        print(response.text)
        return response.text

    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))



You are using a model of type xlm-roberta to instantiate a model of type bert. This is not supported for all configurations of models and can yield errors.


In [37]:
'''Pour tester sans exécuter le serveur'''
example_query = QueryData(query="ما قولك عن الجن?", vector_base="quran")
ok = await query_vector_base(example_query)
print(ok)

None
رأيك في ماهية الجن ومعتقدات الناس حولهم؟

I am here
here
بالتأكيد، سأقدم لك رأيي حول ماهية الجن ومعتقدات الناس حولهم، مع الأخذ في الاعتبار المعلومات المقدمة في النصوص القرآنية والتفسيرات التي أوردتها.

**رأيي في ماهية الجن:**

*   **الجن كخلق مستقل:** أؤمن بأن الجن هم خلق مستقل من خلق الله، كما ورد في القرآن الكريم والسنة النبوية. هم ليسوا مجرد أوهام أو خيالات، بل كائنات حقيقية لها طبيعة خاصة تختلف عن طبيعة البشر والملائكة.
*   **طبيعتهم:** النصوص الدينية تشير إلى أن الجن مخلوقون من نار، ولهم القدرة على الاختفاء والتشكل بأشكال مختلفة. كما أنهم مكلفون كالبشر، منهم المؤمنون ومنهم الكافرون، ولهم حرية الاختيار.
*   **علاقتهم بالبشر:** الجن يعيشون في عالم مواز لعالمنا، وقد يكون لهم تأثير على البشر. يمكن أن يكون هذا التأثير سلبياً (كالوسوسة والإغواء) أو إيجابياً (كبعض صور الإلهام)، وإن كان تأثيرهم السلبي هو الأكثر شيوعاً في الوعي الجمعي.
*   **حدود المعرفة:** تبقى طبيعة الجن وكيفية تفاعلهم مع عالمنا من الأمور الغيبية التي لا يمكننا إدراكها بشكل كامل. القرآن الكريم والسنة النبوية يقدمان 

In [38]:
# Get Ngrok authentication token from Colab secrets environment
from google.colab import userdata
NGROK_AUTH_TOKEN = userdata.get('NGORK_HOTMAIL')

In [39]:
'''que des étapes pour lier le serveur à ngrok'''

# Install necessary packages: aiohttp for async subprocess execution and pyngrok for Ngrok integration

import os
import subprocess

# Set LD_LIBRARY_PATH to prioritize system NVIDIA libraries over built-in ones
os.environ.update({'LD_LIBRARY_PATH': '/usr/lib64-nvidia'})

# Define a helper function to run commands synchronously
def run(cmd):
    print('>>> starting', *cmd)
    process = subprocess.Popen(
        cmd,
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE
    )

    # Process and print the output and error streams
    stdout, stderr = process.communicate()

    if stdout:
        print(stdout.decode('utf-8'))
    if stderr:
        print(stderr.decode('utf-8'))

# Replace this with your Ngrok authentication token
NGROK_AUTH_TOKEN = "2rPSxjtzWTP2vtpDDbK9AQf4VNy_6sdRogw7FGiJPcqgdQ2Pk"

# Authenticate with Ngrok using the token
run(['ngrok', 'config', 'add-authtoken', NGROK_AUTH_TOKEN])


>>> starting ngrok config add-authtoken 2rPSxjtzWTP2vtpDDbK9AQf4VNy_6sdRogw7FGiJPcqgdQ2Pk
Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml



In [41]:
import nest_asyncio
import uvicorn

from pyngrok import ngrok
# Required to run FastAPI in Colab
nest_asyncio.apply()
# Expose the server
public_url = ngrok.connect(8000)
print(f"Public URL: {public_url}")
# Start the server
uvicorn.run(app, host="0.0.0.0", port=8000)



INFO:     Started server process [192]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)


Public URL: NgrokTunnel: "https://8139-34-87-183-115.ngrok-free.app" -> "http://localhost:8000"
None
ما هي آراء الدين الإسلامي و الثقافة العربية حول الجن؟

I am here
here
المعلومات المقدمة لا تتحدث عن الجن أو آراء الدين الإسلامي والثقافة العربية حولهم. النصوص الموجودة هي أحاديث نبوية تتناول مواضيع مختلفة مثل الحرص على المال والعمر، وأفضل أنواع الطيب، وقراءة القرآن، وبعض جوانب الزواج. 

لذا، لا يمكنني الإجابة على سؤالك حول آراء الدين الإسلامي والثقافة العربية حول الجن بناءً على هذه النصوص فقط. للإجابة على هذا السؤال، يجب البحث في مصادر أخرى مثل:

* **القرآن الكريم:** يتضمن آيات تتحدث عن الجن، وطبيعتهم، وعلاقتهم بالإنسان.
* **الأحاديث النبوية:** هناك أحاديث أخرى تتناول الجن بشكل مباشر.
* **كتب التفسير:** تشرح آيات القرآن المتعلقة بالجن.
* **كتب الفقه والعقيدة:** تتناول مسائل الجن وأحكامهم.
* **كتب التراث والأدب العربي:** قد تتضمن إشارات إلى الجن في القصص والحكايات الشعبية.

باختصار، المعلومات المقدمة لا تساعد في الإجابة عن سؤالك، وتحتاج إلى البحث في مصادر أخرى للحصول على معلومات دقيقة وش

INFO:     Shutting down
INFO:     Waiting for application shutdown.
INFO:     Application shutdown complete.
INFO:     Finished server process [192]
