In [1]:
# الاستيراد (Imports)
import numpy as np
import pandas as pd

# تحسين عرض الجداول عند الحاجة
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 120)


## إنشاء ملف CSV تجريبي مطابق لاسم الملف في الفصل

يُستخدم هذا الجزء فقط لتوليد ملف `Employee_Salary.csv` داخل بيئة التنفيذ. إذا كان لديك الملف الأصلي الذي استُخدم في الكتاب، يمكنك رفعه إلى Colab واستبدال هذا الجزء بحذف خلية التوليد.


In [2]:
import pandas as pd

df = pd.read_csv('Employee_Salary.csv')
df.head()


Unnamed: 0,Years of Experience,Salary
0,1.0,40000.0
1,2.257942,65979.42119
2,2.450875,67253.57549
3,2.498713,67342.4351
4,2.613729,70532.20448


## استخدام Pandas لتحميل البيانات الخارجية (Pandas)

يُحمَّل ملف CSV إلى إطار بيانات (DataFrame) ثم تُعرض صفوفه الأولى بوظيفة `head()` باعتبارها فحصاً أولياً لسلامة القراءة وبنية الجدول.


In [3]:
import pandas as pd

data = pd.read_csv('Employee_Salary.csv')
data.head()


Unnamed: 0,Years of Experience,Salary
0,1.0,40000.0
1,2.257942,65979.42119
2,2.450875,67253.57549
3,2.498713,67342.4351
4,2.613729,70532.20448


## تحويل الأعمدة إلى مصفوفات NumPy باستخدام `to_numpy()`

في هذا الجزء يتم استخراج عمودي «سنوات الخبرة» و«الراتب» وتحويلهما إلى مصفوفات NumPy (NumPy Arrays) تمهيداً لإجراء العمليات العددية الإحصائية بكفاءة.


In [5]:
experience_sample = data["Years of Experience"].to_numpy()
salary_sample = data["Salary"].to_numpy()

print("عينة من سنوات الخبرة:")
print(experience_sample)
print("عينة من الرواتب:")
print(salary_sample)


عينة من سنوات الخبرة:
[ 1.          2.25794198  2.45087546 ... 19.35336879 19.84251968
 20.        ]
عينة من الرواتب:
[ 40000.       65979.42119  67253.57549 ... 438090.8454  482242.1608
 500000.     ]


## خصائص المصفوفة (Shape, Dimensions, Size, Dtype)

تُفحص خصائص المصفوفة لفهم عدد الأبعاد وحجم البيانات ونوعها وحجم كل عنصر في الذاكرة، وهي خطوة مهمة قبل أي تحليل عددي واسع.


In [6]:
print("شكل مصفوفة الرواتب:", salary_sample.shape)      # shape
print("عدد الأبعاد:", salary_sample.ndim)                 # ndim
print("العدد الكلي للعناصر:", salary_sample.size)          # size
print("نوع البيانات:", salary_sample.dtype)                # dtype
print("حجم كل عنصر بالبايت:", salary_sample.itemsize)       # itemsize


شكل مصفوفة الرواتب: (2000,)
عدد الأبعاد: 1
العدد الكلي للعناصر: 2000
نوع البيانات: float64
حجم كل عنصر بالبايت: 8


## التحليل الوصفي للبيانات باستخدام NumPy

يُطبَّق التحليل الوصفي عبر حساب المتوسط (Mean)، وأعلى قيمة (Max)، وأدنى قيمة (Min)، والمجموع (Sum) لكل من الرواتب وسنوات الخبرة.


In [8]:
# العمليات الأساسية على الرواتب
print("الراتب متوسط:", np.mean(salary_sample))
print("راتب أعلى:", np.max(salary_sample))
print("راتب أقل:", np.min(salary_sample))
print("الرواتب مجموع:", np.sum(salary_sample))

# العمليات على سنوات الخبرة
print("الخبرة سنوات متوسط:", np.mean(experience_sample))
print("خبرة أعلى:", np.max(experience_sample))
print("خبرة أقل:", np.min(experience_sample))


الراتب متوسط: 111942.42246879
راتب أعلى: 500000.0
راتب أقل: 40000.0
الرواتب مجموع: 223884844.93758
الخبرة سنوات متوسط: 10.739094570045502
خبرة أعلى: 20.0
خبرة أقل: 1.0


## الانحراف المعياري والتباين والجذر التربيعي

يُستخدم الانحراف المعياري (Standard Deviation) والتباين (Variance) لفهم التشتت حول المتوسط، بينما يُعرض مثال للجذر التربيعي (Square Root) بوصفه عملية رياضية شائعة في بعض التحويلات والنماذج.


In [9]:
# حساب الانحراف المعياري
salary_std = np.std(salary_sample)
experience_std = np.std(experience_sample)
print("الانحراف المعياري للرواتب:", round(salary_std, 2))
print("الانحراف المعياري لسنوات الخبرة:", round(experience_std, 2))

# حساب التباين
salary_variance = np.var(salary_sample)
print("تباين الرواتب:", round(salary_variance, 2))

# الجذر التربيعي (مثال: عرض أول 3 قيم)
sqrt_salaries = np.sqrt(salary_sample)
print("الجذر التربيعي لأول 3 رواتب:", sqrt_salaries[:3])


الانحراف المعياري للرواتب: 45044.55
الانحراف المعياري لسنوات الخبرة: 2.99
تباين الرواتب: 2029011639.89
الجذر التربيعي لأول 3 رواتب: [200.         256.864597   259.33294332]


## الفهرسة والتقطيع (Indexing & Slicing)

يُظهر هذا الجزء كيفية الوصول إلى عناصر محددة باستخدام الفهرسة، وكيفية استخراج شرائح من البيانات باستخدام التقطيع (Slicing)، بما يخدم مراجعة عينات أو شرائح رواتب بعينها.


In [12]:
print("راتب أول:", salary_sample[0])
print("راتب آخر:", salary_sample[-1])
print("الراتب الثالث:", salary_sample[2])

print("أول 3 رواتب:", salary_sample[:3])
print("آخر 3 رواتب:", salary_sample[-3:])
print("الرواتب من الثاني إلى الخامس:", salary_sample[1:5])

print("كل راتب ثاني (فهارس زوجية):", salary_sample[::2])
print("الرواتب ذات الفهارس الفردية:", salary_sample[1::2])


راتب أول: 40000.0
راتب آخر: 500000.0
الراتب الثالث: 67253.57549
أول 3 رواتب: [40000.      65979.42119 67253.57549]
آخر 3 رواتب: [438090.8454 482242.1608 500000.    ]
الرواتب من الثاني إلى الخامس: [65979.42119 67253.57549 67342.4351  70532.20448]
كل راتب ثاني (فهارس زوجية): [ 40000.       67253.57549  70532.20448  71063.36476  74265.40359
  76663.59809  74702.95446  78817.45633  77982.6304   80571.10736
  80752.57642  79605.51595  80236.57673  82411.92045  81723.22559
  81047.22386  83007.24597  82132.98634  83243.68324  84995.68217
  83037.40699  85363.36357  87258.95727  86705.29411  85603.10377
  88092.63073  85131.81763  85295.00194  85971.98705  86431.30577
  86452.77799  89092.44486  86855.52314  84815.43758  87762.14734
  88452.19881  87897.58068  87143.85764  85248.27576  85981.76341
  89233.01115  89338.76001  87096.74383  86968.62298  88645.1752
  87103.72739  86158.85643  86980.23925  88765.51237  88529.68107
  87031.25888  87372.5504   88477.03113  88170.85236  87410.55124
 

## الفلترة الشرطية (Boolean Filtering)

في هذا المثال تُستخدم شروط منطقية لاستخلاص فئات محددة، مثل الموظفين ذوي الرواتب العالية، والموظفين ذوي الخبرة المتوسطة ضمن نطاق معيّن، ثم تُحسب أعدادهم.


In [13]:
# البحث عن الموظفين ذوي الرواتب العالية (أكثر من 100,000)
high_salaries = salary_sample > 100000
print("الرواتب العالية (True/False):", high_salaries)
print("قيم الرواتب العالية:", salary_sample[high_salaries])

# البحث عن الموظفين ذوي الخبرة المتوسطة (5 إلى 15 سنة)
medium_experience = (experience_sample >= 5) & (experience_sample <= 15)
print("سنوات الخبرة المتوسطة:", experience_sample[medium_experience])

# عد الموظفين في كل فئة
print("عدد الموظفين ذوي الرواتب العالية:", np.sum(high_salaries))
print("عدد الموظفين ذوي الخبرة المتوسطة:", np.sum(medium_experience))


الرواتب العالية (True/False): [False False False ...  True  True  True]
قيم الرواتب العالية: [100001.2423 100636.4831 100643.0064 100095.9447 100045.5005 100334.6666
 100780.4731 101230.8766 101732.1054 101139.9797 101080.9703 100786.4238
 102579.2552 100447.7986 101128.034  101949.0991 101859.5179 101282.774
 101978.176  102591.2395 101792.9666 100923.7294 101183.6983 103529.702
 103386.2925 101906.8488 100807.6671 101516.8785 103400.5118 102392.1654
 102145.7582 100886.639  102676.2577 102371.4368 100563.7302 101406.6921
 101971.2114 100165.6393 102145.1816 101732.7087 100563.5783 103085.9126
 103492.781  102570.1202 102228.2478 103384.4251 102556.7127 102631.497
 101090.5564 103218.0781 102148.9381 104424.1495 102185.6334 102565.8153
 103594.3823 103093.8297 103999.025  100439.9264 101243.1109 102861.7053
 101530.453  102721.9988 102664.9883 103109.531  101757.8122 100110.0807
 103690.9845 104176.3602 103599.5557 104256.572  103148.1353 101324.3772
 102050.6031 102648.1224 103000.69

## تحليل الارتباط والمئينات (Correlation & Percentiles)

يُحسب معامل الارتباط (Correlation) بين سنوات الخبرة والراتب باستخدام `np.corrcoef`، ثم يُقاس انتشار الرواتب عبر المتوسط ونسبة من هم فوقه، وأخيراً تُستخرج مئينات الرواتب (Percentiles) لفهم التوزيع.


In [14]:
# معامل الارتباط بين الخبرة والراتب
correlation = np.corrcoef(experience_sample, salary_sample)[0, 1]
print("معامل الارتباط بين الخبرة والراتب:", round(correlation, 3))

# تحديد الموظفين الذين يحصلون على رواتب أعلى من المتوسط
average_salary = np.mean(salary_sample)
above_average = salary_sample > average_salary
print("المتوسط العام للرواتب:", round(average_salary, 2))
print("عدد الموظفين فوق المتوسط:", np.sum(above_average))
print("نسبة الموظفين فوق المتوسط:", round(np.mean(above_average) * 100, 1), "%")

# تحليل التوزيع بالنسب المئوية
percentile_25 = np.percentile(salary_sample, 25)
percentile_75 = np.percentile(salary_sample, 75)
print("النسبة المئوية 25 للرواتب:", round(percentile_25, 2))
print("النسبة المئوية 75 للرواتب:", round(percentile_75, 2))


معامل الارتباط بين الخبرة والراتب: 0.772
المتوسط العام للرواتب: 111942.42
عدد الموظفين فوق المتوسط: 565
نسبة الموظفين فوق المتوسط: 28.2 %
النسبة المئوية 25 للرواتب: 87938.13
النسبة المئوية 75 للرواتب: 116978.64


## المصفوفات ثنائية الأبعاد (2D Arrays)

يوضح المثال التالي كيفية بناء مصفوفة ثنائية الأبعاد تجمع أكثر من متغير في صفوف وأعمدة، مثل الراتب وسنوات الخبرة وتقييم الأداء.


In [16]:
# إنشاء مصفوفة ثنائية الأبعاد تجمع معلومات متعددة
# الأعمدة: [الراتب، سنوات الخبرة، تقييم الأداء]
employee_data = np.array([
    [75000,  5, 4.2],
    [82000,  8, 4.8],
    [68000,  3, 3.9],
    [91000, 12, 4.6],
    [77000,  6, 4.1]
])

print("أبعاد المصفوفة:", employee_data.shape)  # (5, 3)
print("نوع البيانات:", employee_data.dtype)
print("بيانات الموظفين:\n", employee_data)

أبعاد المصفوفة: (5, 3)
نوع البيانات: float64
بيانات الموظفين:
 [[7.5e+04 5.0e+00 4.2e+00]
 [8.2e+04 8.0e+00 4.8e+00]
 [6.8e+04 3.0e+00 3.9e+00]
 [9.1e+04 1.2e+01 4.6e+00]
 [7.7e+04 6.0e+00 4.1e+00]]


## تحويل DataFrame كامل إلى مصفوفة NumPy وفحص خصائصها

يُحوَّل إطار البيانات بالكامل إلى مصفوفة NumPy ثم تُفحص خصائصها، وهو مفيد عندما يكون التحليل لاحقاً قائماً على عمليات مصفوفات متعددة الأبعاد.


In [17]:
data_array = data.to_numpy()
print(data_array)

print("شكل مصفوفة البيانات:", data_array.shape)
print("عدد الأبعاد:", data_array.ndim)
print("العدد الكلي للعناصر:", data_array.size)
print("نوع البيانات:", data_array.dtype)
print("حجم كل عنصر بالبايت:", data_array.itemsize)


[[1.00000000e+00 4.00000000e+04]
 [2.25794198e+00 6.59794212e+04]
 [2.45087546e+00 6.72535755e+04]
 ...
 [1.93533688e+01 4.38090845e+05]
 [1.98425197e+01 4.82242161e+05]
 [2.00000000e+01 5.00000000e+05]]
شكل مصفوفة البيانات: (2000, 2)
عدد الأبعاد: 2
العدد الكلي للعناصر: 4000
نوع البيانات: float64
حجم كل عنصر بالبايت: 8


## إنشاء مصفوفات خاصة (Special Arrays)

تُستخدم الدوال `zeros` و`ones` و`arange` و`linspace` لتهيئة مصفوفات بأغراض مختلفة مثل التهيئة، العد، أو بناء نطاقات رقمية منتظمة.


In [18]:
# مفيدة لتهيئة البيانات
zeros_array = np.zeros(5)
print("مصفوفة أصفار:", zeros_array)

# مفيدة للعد والتجميع
ones_array = np.ones(5)
print("مصفوفة آحاد:", ones_array)

# مفيدة لأرقام الموظفين
employee_ids = np.arange(1001, 1011)  # من 1001 إلى 1010
print("أرقام الموظفين:", employee_ids)

# مفيدة للتحليل الإحصائي
salary_ranges = np.linspace(40000, 200000, 5)  # 5 نقاط بين 40k و 200k
print("نطاقات الرواتب:", salary_ranges)


مصفوفة أصفار: [0. 0. 0. 0. 0.]
مصفوفة آحاد: [1. 1. 1. 1. 1.]
أرقام الموظفين: [1001 1002 1003 1004 1005 1006 1007 1008 1009 1010]
نطاقات الرواتب: [ 40000.  80000. 120000. 160000. 200000.]


## أمثلة تأسيسية على إنشاء المصفوفات من قوائم

يُنشأ مثال بسيط لرواتب مجموعة من الموظفين وسنوات خبرتهم، مع طباعة نوع الكائن للتأكيد أنه مصفوفة `numpy.ndarray`.


In [None]:
import numpy as np

# رواتب الموظفين
employee_salaries = np.array([45000, 52000, 48000, 67000, 55000])
print("رواتب الموظفين:", employee_salaries)
print("نوع البيانات:", type(employee_salaries))

# سنوات الخبرة
years_experience = np.array([2, 4, 3, 7, 5])
print("سنوات الخبرة:", years_experience)


## التعامل مع أنواع بيانات مختلفة داخل NumPy (Dtypes)

يوضح المثال كيف يمكن تحديد نوع البيانات صراحةً باستخدام `dtype`، مثل `np.int32` للأعداد الصحيحة و`np.float64` للأعداد العشرية، بما يحسن الاتساق والكفاءة عند التحليل.


In [20]:
# إنشاء مصفوفة أعمار بنوع بيانات صحيح
employee_ages = np.array([25, 34, 28, 45, 31], dtype=np.int32)
print("أعمار الموظفين:", employee_ages)
print("نوع البيانات:", employee_ages.dtype)

# إنشاء مصفوفة تقييمات أداء بنوع بيانات عشري
performance_scores = np.array([8.5, 9.2, 7.8, 9.5, 8.1], dtype=np.float64)
print("درجات الأداء:", performance_scores)
print("نوع البيانات:", performance_scores.dtype)


أعمار الموظفين: [25 34 28 45 31]
نوع البيانات: int32
درجات الأداء: [8.5 9.2 7.8 9.5 8.1]
نوع البيانات: float64


## أمثلة إضافية وردت ضمن أسئلة الفصل: التطبيع، dot، ومحور العمليات axis

هذه الأمثلة تظهر بصيغة مباشرة ضمن أسئلة الفصل. أُدرجت هنا بشكل قابل للتنفيذ حتى تتضح الفكرة عملياً: يُستخدم التطبيع (Min–Max Normalization) لإعادة تحجيم القيم إلى المجال بين 0 و1، وتُستخدم `np.dot` لحساب حاصل الضرب الاتجاهي بين مصفوفة الأوزان والبيانات، بينما يوضح `axis` الفرق بين العمليات عبر الأعمدة أو عبر الصفوف.


In [23]:
# التطبيع (Min–Max Normalization) على رواتب قائمة بسيطة
employee_salaries = np.array([45000, 52000, 48000, 67000, 55000])

normalized_salaries = (employee_salaries - np.min(employee_salaries)) / (np.max(employee_salaries) - np.min(employee_salaries))
print("الرواتب بعد التطبيع (0 إلى 1):", normalized_salaries)

# بناء بيانات مطبعة لثلاثة مؤشرات: راتب، خبرة، أداء
salary_col = employee_data[:, 0]
exp_col = employee_data[:, 1]
perf_col = employee_data[:, 2]

def minmax(x):
    return (x - np.min(x)) / (np.max(x) - np.min(x))

normalized_data = np.column_stack([minmax(salary_col), minmax(exp_col), minmax(perf_col)])

# أوزان افتراضية لحساب مؤشر أداء شامل (Weighted Composite Index)
weights = np.array([0.5, 0.3, 0.2])

# np.dot لحساب المجموع الموزون لكل صف
comprehensive_performance_index = np.dot(normalized_data, weights)
print("مؤشر الأداء الشامل لكل موظف:", np.round(comprehensive_performance_index, 3))

# axis=0 يعني عبر الأعمدة (متوسط كل عمود)
column_means = np.mean(employee_data, axis=0)
print("متوسط كل عمود في employee_data (axis=0):", column_means)

# axis=1 يعني عبر الصفوف (مجموع كل صف)
row_sums = np.sum(normalized_data, axis=1)
print("مجموع كل صف في normalized_data (axis=1):", np.round(row_sums, 3))


الرواتب بعد التطبيع (0 إلى 1): [0.         0.31818182 0.13636364 1.         0.45454545]
مؤشر الأداء الشامل لكل موظف: [0.286 0.671 0.    0.956 0.34 ]
متوسط كل عمود في employee_data (axis=0): [7.86e+04 6.80e+00 4.32e+00]
مجموع كل صف في normalized_data (axis=1): [0.86  2.164 0.    2.778 0.947]
