In [1]:
!pip install llama-cpp-python --upgrade




In [2]:
pip install huggingface_hub

Note: you may need to restart the kernel to use updated packages.


In [3]:
from huggingface_hub import hf_hub_download

# This will download and return the path to the file
model_path = hf_hub_download(
    repo_id="TheBloke/Mistral-7B-Instruct-v0.1-GGUF",
    filename="mistral-7b-instruct-v0.1.Q4_K_M.gguf",
    local_dir="models"
)

print("Model downloaded to:", model_path)


Model downloaded to: models\mistral-7b-instruct-v0.1.Q4_K_M.gguf


In [43]:
# Phase 4: Generative AI Integration
# Filename: phase4_generative_ai.ipynb

# ===============================
# 📦 STEP 1: Load the dataset
# ===============================

import pandas as pd

# Load cleaned dataset
df = pd.read_csv("../Dataset/Averages in in General Aptitude Tests aa.csv" )

# Now we will remove all rows that have any missing values
df_cleaned = df.dropna()  # dropna() removes any row that contains a missing value

# After removing, We need to check if there are still any missing values
print("Missing Values After Removal:\n", df_cleaned.isnull().sum())

# Also, We will check the number of rows left after removing missing values
print(f"Number of rows before cleaning: {df.shape[0]}")
print(f"Number of rows after cleaning: {df_cleaned.shape[0]}")
# Remove the "نوع_الاختبار" column as it contains only one unique value
df_cleaned = df_cleaned.drop(columns=["نوع_الاختبار"])

# Check the first few rows to confirm the column is removed
df_cleaned.head()
# Display the top 5 rows
df_cleaned.head()


Missing Values After Removal:
 اسم_المدرسة                        0
المنطقة_الإدارية                   0
الإدارة_التعليمية                  0
المكتب_التعليمي                    0
السلطة                             0
نوع_التعليم                        0
الجنس                              0
نوع_الاختبار                       0
تخصص_الاختبار                      0
متوسط_أداء_الطلبة_في_المدرسة       0
ترتيب_المدرسة_على_مستوى_المدارس    0
dtype: int64
Number of rows before cleaning: 6720
Number of rows after cleaning: 6706


Unnamed: 0,اسم_المدرسة,المنطقة_الإدارية,الإدارة_التعليمية,المكتب_التعليمي,السلطة,نوع_التعليم,الجنس,تخصص_الاختبار,متوسط_أداء_الطلبة_في_المدرسة,ترتيب_المدرسة_على_مستوى_المدارس
0,أم سلمة الثانوية للموهوبات - مقررات,مكة المكرمة,الإدارة العامة للتعليم بمنطقة مكة المكرمة,مكتب التعليم جنوب مكة المكرمة,حكومي,تعليم عام بنات,بنات,علمي,89.622377,1
1,ثانوية الرواد الأهلية ( الازدهار ) - مقررات,الرياض,الإدارة العامة للتعليم بمنطقة الرياض,شمال,أهلي,تعليم عام بنات,بنات,نظري,84.44,1
2,ثانوية الموهوبات ( نظام مقررات ),مكة المكرمة,الإدارة العامة للتعليم بمحافظة جدة,مكتب التعليم بشمال جدة,حكومي,تعليم عام بنات,بنات,علمي,89.280423,2
3,الثانوية السادسة لتحفيظ القرآن الكريم 6 - مقررات,الرياض,الإدارة العامة للتعليم بمنطقة الرياض,شمال,حكومي,تحفيظ بنات,بنات,نظري,83.55,2
4,ثانوية مدارس الظهران الاهلية (مقررات),الشرقية,الإدارة العامة للتعليم بالمنطقة الشرقية,مكتب التعليم بمحافظة الخبر,أهلي,تعليم عام بنات,بنات,علمي,88.903225,3


In [6]:

from llama_cpp import Llama

llm = Llama(
    model_path="models/mistral-7b-instruct-v0.1.Q4_K_M.gguf",  
    n_ctx=2048,
    n_threads=4, 
    verbose=True
)


llama_model_loader: loaded meta data with 20 key-value pairs and 291 tensors from models/mistral-7b-instruct-v0.1.Q4_K_M.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = mistralai_mistral-7b-instruct-v0.1
llama_model_loader: - kv   2:                       llama.context_length u32              = 32768
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 14336
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 lla

In [44]:

def ask_model(prompt):
    response = llm(
        prompt=f"[INST] {prompt} [/INST]",
        max_tokens=512,
        temperature=0.7,
        stop=["</s>"]
    )
    return response["choices"][0]["text"].strip()


In [45]:

regions = df_cleaned["المنطقة_الإدارية"].unique().tolist()
authorities = df_cleaned["السلطة"].unique().tolist()
genders = df_cleaned["الجنس"].unique().tolist()
edu_types = df_cleaned["نوع_التعليم"].unique().tolist()
districts = df_cleaned["الإدارة_التعليمية"].unique().tolist()
offices = df_cleaned["المكتب_التعليمي"].unique().tolist()



def extract_filters(user_input):
    filters = {}
    
    for region in regions:
        if region in user_input.lower():
            filters["المنطقة_الإدارية"] = region
    for authority in authorities:
        if authority in user_input:
            filters["السلطة"] = authority
    for gender in genders:
        if gender in user_input:
            filters["الجنس"] = gender
    for edu_type in edu_types:
        if edu_type in user_input:
            filters["نوع_التعليم"] = edu_type
            
    for district in districts:
        if district in user_input:
            filters["الإدارة_التعليمية"] = district
    for office in offices:
        if office in user_input:
            filters["المكتب_التعليمي"] = office
    
    return filters


In [49]:
user_input = "طالبة تسكن في منطقة الرياض، تتبع الإدارة العامة للتعليم بمنطقة الرياض، مكتب تعليم الشمال، في مدرسة حكومية للبنات، نوع التعليم هو تعليم عام، وتبحث عن مدرسة ذات أداء أكاديمي مرتفع."


# استخرج القيم
filters = extract_filters(user_input)
print("الفلاتر المستخرجة:", filters)

# فلترة الداتا
filtered_df = df_cleaned.copy()
for col, value in filters.items():
    filtered_df = filtered_df[filtered_df[col] == value]

top_schools = filtered_df.sort_values(by="ترتيب_المدرسة_على_مستوى_المدارس", ascending=True).head(5)

school_info = top_schools[
    ["اسم_المدرسة", "المنطقة_الإدارية", "نوع_التعليم", "ترتيب_المدرسة_على_مستوى_المدارس"]
].to_dict(orient="records")



الفلاتر المستخرجة: {'المنطقة_الإدارية': 'الرياض', 'السلطة': 'حكومي', 'الجنس': 'بنات', 'الإدارة_التعليمية': 'الإدارة العامة للتعليم بمنطقة الرياض', 'المكتب_التعليمي': 'الرياض'}


In [50]:
def template_1(user_input, schools):
    prompt = f"📝 وصف الطالبة:\n{user_input}\n\n"
    prompt += "🏫 قائمة المدارس المرشحة:\n"
    
    for i, school in enumerate(schools, 1):
        prompt += (
            f"{i}. اسم المدرسة: {school['اسم_المدرسة']}\n"
            f"   المنطقة: {school['المنطقة_الإدارية']}\n"
            f"   نوع التعليم: {school['نوع_التعليم']}\n"
            f"   ترتيب المدرسة: {school['ترتيب_المدرسة_على_مستوى_المدارس']}\n\n"
        )
    
    prompt += (
        "📌 اختر المدرسة صاحبة الترتيب الأعلى (أي الأصغر رقمًا) ووضح لماذا هي الأنسب للطالبة.\n"
        "📍 اذكر اسم المدرسة والسبب، باختصار وباللغة العربية فقط."
    )
    return prompt


In [51]:
# نداء LLaMA
prompt1 = template_1(user_input, school_info)
response_1 = ask_model(prompt1)
print("=== TEMPLATE 1 RESPONSE ===\n", response_1)


Llama.generate: 203 prefix-match hit, remaining 133 prompt tokens to eval
llama_perf_context_print:        load time =  203267.91 ms
llama_perf_context_print: prompt eval time =   16718.62 ms /   133 tokens (  125.70 ms per token,     7.96 tokens per second)
llama_perf_context_print:        eval time =   98156.99 ms /   328 runs   (  299.26 ms per token,     3.34 tokens per second)
llama_perf_context_print:       total time =  115472.67 ms /   461 tokens


=== TEMPLATE 1 RESPONSE ===
 📝 وصف الطالبة:
طالبة تسكن في منطقة الرياض، تتبع الإدارة العامة للتعليم بمنطقة الرياض، مكتب تعليم الشمال، في مدرسة حكومية للبنات، نوع التعليم هو تعليم عام، وتبحث عن مدرسة ذات أداء أكاديمي مرتفع.

🏫 قائمة المدارس المرشحة:
📌 اختر المدرسة صاحبة الترتيب الأعلى (أي الأصغر رقمًا) ووضح لماذا هي الأنسب للطالبة.
📍 اذكر اسم المدرسة والسبب، باختصار وباللغة العربية فقط.
