## Defining the Problem Statement
We are analyzing job postings in Saudi Arabia to understand key employment trends. This includes insights on job distribution by region, gender preferences, and salary expectations.

In [7]:
! pip install ydata_profiling
! pip install ipyvizzu



In [8]:
! pip install --upgrade numba

Collecting numba
  Downloading numba-0.60.0-cp39-cp39-win_amd64.whl (2.7 MB)
Collecting llvmlite<0.44,>=0.43.0dev0
  Downloading llvmlite-0.43.0-cp39-cp39-win_amd64.whl (28.1 MB)
Installing collected packages: llvmlite, numba
  Attempting uninstall: llvmlite
    Found existing installation: llvmlite 0.37.0


ERROR: Cannot uninstall 'llvmlite'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.


In [9]:
! pip uninstall numba -y
! pip install numba

Found existing installation: numba 0.54.1
Uninstalling numba-0.54.1:
  Successfully uninstalled numba-0.54.1
Collecting numba
  Using cached numba-0.60.0-cp39-cp39-win_amd64.whl (2.7 MB)
Collecting llvmlite<0.44,>=0.43.0dev0
  Using cached llvmlite-0.43.0-cp39-cp39-win_amd64.whl (28.1 MB)
Installing collected packages: llvmlite, numba
  Attempting uninstall: llvmlite
    Found existing installation: llvmlite 0.37.0


ERROR: Cannot uninstall 'llvmlite'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.


##  Loading the data

The dataset consists of job postings collected from Jadarat.

In [10]:
! pip install matplotlib==3.6.0




In [11]:
# Import necessary libraries
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport
import ipyvizzu as ipy
from IPython.display import display
import matplotlib.pyplot as plt

## This statement allows the visuals to render within your Jupyter Notebook.
%matplotlib inline


In [12]:
# Read in the csv file and convert to a Pandas dataframe
data = pd.read_csv('Jadarat_data.csv')

### Viewing the dataframe


In [13]:
data.head(20)  # Preview the first few rows

Unnamed: 0,job_title,job_date,job_desc,job_tasks,comp_name,comp_no,comp_type,comp_size,eco_activity,qualif,region,city,benefits,contract,positions,job_post_id,exper,gender
0,محاسب,27/05/1444,['إعداد وتنظيم مستندات الصرف ومتابعة تحصيل الإ...,[' تدقيق المطالبات المالية والتأكد من اكتمال...,شركة مقر العالم للسفريات,1-317262,خاص,متوسطة فئة أ,أنشطة وكالات السياحة والسفر,"['Language data', 'اللغة الانجليزية', 'محترف']",الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,0 / 1,20202026350419,0 Years,both
1,بائع,27/05/1444,['بيع مجموعة من السلع والخدمات للعملاء، وتوفير...,"[' بيع مجموعة من السلع والخدمات للعملاء.', '...",شركة عالم الكهرباء للمقاولات,4-1324428,خاص,متوسطة فئة ب,تركيب انظمة التبريد وتكييف الهواء وصيانتها واص...,,المنطقة الشرقية,AD DAMMAM...,"['Salary', '5000.0']",دوام كامل,0 / 3,20202026350389,0 Years,both
2,أخصائي عمليات موارد بشرية,27/05/1444,['تنفيذ الإجراءات والأنظمة والنماذج الخاصة بمر...,[' تنفيذ الإجراءات والأنظمة والنماذج الخاصة ...,شركه دار السلام,1-155294,خاص,متوسطة فئة أ,ترميمات المباني السكنية والغير سكنية,"['Language data', 'الانجليزيه', 'محترف']",الرياض,ATH THUMA...,"['Salary', '4000.0']",دوام كامل,0 / 2,20202026350347,2 Years,both
3,ميكانيكي سيارات,27/05/1444,['تشخيص أعطال السيارات وإصلاحها وتنفيذ برامج ا...,[' فحص أداء المعدّات الكهربائية والميكانيكية...,مؤسسة لمكو لغيار الزيوت,8-1925495,خاص,صغيرة فئة ب,,"['Skill data', 'صيانة السيارات وتقييم الاعطال'...",المنطقة الشرقية,AL HUFUF...,"['Salary', '5000.0']",دوام كامل,0 / 10,20202026350219,0 Years,M
4,محاسب,27/05/1444,['إعداد وتنظيم مستندات الصرف ومتابعة تحصيل الإ...,[' تدقيق المطالبات المالية والتأكد من اكتمال...,مؤسسة فكرة اليمامة للمقاولات,1-2356639,خاص,كبيرة,الإنشاءات العامة للمباني السكنية,"['Skill data', 'تحمل ضغط العمل', 'محترف', 'Lan...",الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,0 / 1,20202026350043,0 Years,both
5,مراقب كاميرات أمنية,27/05/1444,['الإشراف على عمليات كاميرات المراقبة الأمنية،...,[' الإشراف على عمليات كاميرات المراقبة، والت...,مطاعم تراث الدمشقية للوجبات السريعة,1-1527188,خاص,صغيرة فئة ب,تشغيل المقاصف والكفتيريات على أساس إمتياز محدد...,"['Skill data', 'اجادة الحاسب والتقنية ', 'متوس...",الرياض,AR RIYADH...,"['Salary', '4500.0']",عمل عن بعد,0 / 1,20202026350031,0 Years,both
6,سكرتير تنفيذي,27/05/1444,['تنظيم المواعيد وإعداد المذكرات وإجراء المراس...,[' تنظيم مواعيد المدير/الرئيس وتذكيره بها، و...,شركة بيانات و دعم القرار للاستشارات في مجال ال...,9-2027654,خاص,صغيرة فئة أ,إعادة تأهيل وهيكلة العمليات الإدارية والمالية ...,"['Language data', 'لغة انجليزية', 'محترف']",الرياض,AR RIYADH...,"['Salary', '6000.0']",دوام كامل,0 / 2,20202026349999,4 Years,F
7,مدير مكتب,27/05/1444,['الإشراف المباشرعلى أنشطة إدارة وتخطيط وتنظيم...,[' إدارة وتوجيه عمليات وإجراءات تنسيق اجتماع...,شركة بيانات و دعم القرار للاستشارات في مجال ال...,9-2027654,خاص,صغيرة فئة أ,إعادة تأهيل وهيكلة العمليات الإدارية والمالية ...,"['Language data', 'لغة انجليزية', 'محترف']",الرياض,AR RIYADH...,"['Salary', '8000.0']",دوام كامل,0 / 1,20202026349997,4 Years,F
8,أخصائي إدارة مشاريع,27/05/1444,['تحليل عناصر وفعاليات المشروع ووضع الخطط والب...,[' تحليل عناصر وفعاليات المشروع وارتباطها وت...,شركة بيانات و دعم القرار للاستشارات في مجال ال...,9-2027654,خاص,صغيرة فئة أ,إعادة تأهيل وهيكلة العمليات الإدارية والمالية ...,"['Language data', 'لغة انجليزية', 'محترف', 'Pr...",الرياض,AR RIYADH...,"['Salary', '10000.0']",دوام كامل,0 / 3,20202026349992,2 Years,F
9,مصمم جرافيك,26/05/1444,['تطوير الأفكار الإبداعية والمفاهيم لتوصيل الر...,[' التنسيق مع مالك التصميم (عملاء محليون أو ...,شركة بيانات و دعم القرار للاستشارات في مجال ال...,9-2027654,خاص,صغيرة فئة أ,إعادة تأهيل وهيكلة العمليات الإدارية والمالية ...,"['Language data', 'لغة انجليزية', 'متوسط']",الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,0 / 2,20202026349583,4 Years,F


In [14]:
data.tail(20)  # Preview the last few rows

Unnamed: 0,job_title,job_date,job_desc,job_tasks,comp_name,comp_no,comp_type,comp_size,eco_activity,qualif,region,city,benefits,contract,positions,job_post_id,exper,gender
1450,مهندس معماري,25/06/1444,['تصميم المباني الجديدة أو الملحقات أو التعديل...,[' وضع التصاميم لمشاريع الإنشاءات وإدارة فري...,مكتب هندسي عبدالمحسن سالم موسى سرحان,11-183776,خاص,صغيرة فئة ب,أنشطة الاستشارات الهندسية والمعمارية,,الرياض,ABA ASLAB...,"['Salary', '7000.0', 'Benefits', 'بدون']",دوام كامل,0 / 1,20202026404473,2 Years,M
1451,فني مختبر طبي,25/06/1444,['تفقد وتشغيل وخدمة معدات المختبر،أخذ عينات ال...,[' تفقد وتشغيل وخدمة معدات حفظ وفحص العينات ...,مجمع ابتسامة العائلة الطبي,1-2599562,خاص,,,"['Professional certificate \\ License data', '...",الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,0 / 2,20202026404173,0 Years,both
1452,بائع,25/06/1444,['بيع مجموعة من السلع والخدمات للعملاء، وتوفير...,"[' بيع مجموعة من السلع والخدمات للعملاء.', '...",شركة فيض الغذاء المحدودة شركة شخص واحد,9-1968507,خاص,صغيرة فئة ب,البيع بالتجزئة للشوكولاتة و الكاكاو,"['Skill data', 'استخدام الحاسب الآلي', 'متوسط'...",مكة المكرمة,JEDDAH...,"['Salary', '4200.0', 'Benefits', 'تأمين طبي حس...",دوام كامل,0 / 6,20202026404057,2 Years,M
1453,مساعد إداري,25/06/1444,['متابعة تنفيذ القرارات الادارية الصادرة عن ال...,[' تنفيذ التعليمات الادارية الصادرة عن الرئي...,شركة روافد الصحة العالمية(شركة شخص واحد),1-225115,خاص,متوسطة فئة أ,البيع بالتجزئة للأجهزة والمعدات والمستلزمات ال...,"['Language data', 'English ', 'محترف']",الرياض,AR RIYADH...,"['Salary', '5000.0', 'Benefits', 'بدل المواصلا...",دوام كامل,0 / 1,20202026403991,2 Years,F
1454,أخصائي عمليات موارد بشرية,25/06/1444,['تنفيذ الإجراءات والأنظمة والنماذج الخاصة بمر...,[' تنفيذ الإجراءات والأنظمة والنماذج الخاصة ...,شركـة ذوق للتجارة,1-1526321,خاص,صغيرة فئة ب,البيع بالتجزئة للوكلاء بالعمولة بدون محلات,,الرياض,AR RIYADH...,"['Salary', '5556.0']",دوام كامل,0 / 1,20202026403956,0 Years,F
1455,فني تصميم داخلي,24/06/1444,['تصميم أنظمة الألوان وطرز الأثاث، والمواد الم...,[' وضع التصاميم للمشروعات الداخلية، وإدارة ف...,شركة نمو للبحوث والدراسات (شركة شخص واحد),1-2166711,خاص,صغيرة فئة أ,مراكز البحوث والدراسات الاجتماعية,,الرياض,AR RIYADH...,"['Salary', '5000.0', 'Benefits', 'عموله']",دوام كامل,0 / 1,20202026403328,2 Years,both
1456,محامي,24/06/1444,['دراسة القضية وتجهيز ملفها وجمع البينات الخطي...,[' استقبال القضية وتحديد نوعها وتحليل عناصره...,شركة فيصل عبد الله الفوزان وشركاؤه للمحاماة,1-2664602,خاص,,أنشطة المحاماة والاستشارات القانونية,"['Skill data', 'التعامل مع برامج الأوفيس', 'مح...",الرياض,AR RIYADH...,"['Salary', '4000.0']",دوام كامل,0 / 1,20202026403115,0 Years,both
1457,محاسب,23/06/1444,['إعداد وتنظيم مستندات الصرف ومتابعة تحصيل الإ...,[' تدقيق المطالبات المالية والتأكد من اكتمال...,شركة بوركت للتجارة,1-2290505,خاص,صغيرة فئة ب,البيع بالتجزئة لمنتجات المخابز والحلويات السكرية,"['Skill data', 'دورات محاسبية', 'محترف', 'Prof...",الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,1 / 2,20202026402637,4 Years,both
1458,أخصائي خدمة عملاء,23/06/1444,['وضع وتحديد مؤشرات ومعايير الأداء والجودة في ...,[' إجراء الدراسات والتحاليل المتخصصة بهدف وض...,شركة بوركت للتجارة,1-2290505,خاص,صغيرة فئة ب,البيع بالتجزئة لمنتجات المخابز والحلويات السكرية,"['Skill data', 'مهارات الإقناع', 'محترف', 'الل...",الرياض,AR RIYADH...,"['Salary', '4000.0']",دوام كامل,1 / 5,20202026402465,4 Years,both
1459,موظف صندوق محاسبة,23/06/1444,['عد المبالغ المالية المتوافرة في آلة تسجيل ال...,[' عدّ المبالغ المالية وتسجيلها في آلة تسجيل...,شركة عنان للخدمات الغذائية,23-1946813,خاص,صغيرة فئة ب,المطاعم مع الخدمة,"['Skill data', 'استخدام الحاسب الالي', 'متوسط'...",المنطقة الشرقية,AL KHAFJI...,"['Salary', '4000.0', 'Benefits', 'بونص وبدلات']",دوام كامل,0 / 1,20202026402325,0 Years,both


In [15]:
data.shape

(1470, 18)

### Data Profiling


In [16]:
# Disblay all columns
data.columns

Index(['job_title', 'job_date', 'job_desc', 'job_tasks', 'comp_name',
       'comp_no', 'comp_type', 'comp_size', 'eco_activity', 'qualif', 'region',
       'city', 'benefits', 'contract', 'positions', 'job_post_id', 'exper',
       'gender'],
      dtype='object')

In [17]:
# Disblay all information available
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 18 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   job_title     1470 non-null   object
 1   job_date      1470 non-null   object
 2   job_desc      1470 non-null   object
 3   job_tasks     1470 non-null   object
 4   comp_name     1470 non-null   object
 5   comp_no       1470 non-null   object
 6   comp_type     1470 non-null   object
 7   comp_size     1456 non-null   object
 8   eco_activity  1380 non-null   object
 9   qualif        780 non-null    object
 10  region        1470 non-null   object
 11  city          1470 non-null   object
 12  benefits      1470 non-null   object
 13  contract      1470 non-null   object
 14  positions     1470 non-null   object
 15  job_post_id   1470 non-null   int64 
 16  exper         1470 non-null   object
 17  gender        1470 non-null   object
dtypes: int64(1), object(17)
memory usage: 206.8+ KB


In [18]:
# Display summary statistics for categorical columns
data.describe(include="object")

Unnamed: 0,job_title,job_date,job_desc,job_tasks,comp_name,comp_no,comp_type,comp_size,eco_activity,qualif,region,city,benefits,contract,positions,exper,gender
count,1470,1470,1470,1470,1470,1470,1470,1456,1380,780,1470,1470,1470,1470,1470,1470,1470
unique,324,92,438,444,886,894,2,7,361,615,14,114,393,2,25,6,3
top,بائع,09/06/1444,['بيع مجموعة من السلع والخدمات للعملاء، وتوفير...,"[' بيع مجموعة من السلع والخدمات للعملاء.', '...",شركه العرض المتقن للخدمات التجارية شركة مساهمة...,1-169123,خاص,صغيرة فئة ب,المطاعم مع الخدمة,"['Language data', 'الانجليزية', 'متوسط']",الرياض,AR RIYADH...,"['Salary', '4000.0']",دوام كامل,0 / 1,0 Years,both
freq,98,47,93,90,16,16,1465,635,65,28,622,523,449,1448,853,833,587


Unique values are: 2 comp_type - 7 comp_size - 2 contract - 6 exper - 3 gender

In [19]:
data['job_title'].value_counts()

job_title
بائع                          98
محاسب                         89
أخصائي تسويق                  54
مساعد إداري                   45
موظف استقبال                  45
                              ..
معلم ثانوي لغة أجنبية          1
معلم ابتدائي علوم ورياضيات     1
وكيل مدرسة                     1
أخصائي استمرارية الأعمال       1
مشغل آلة تشطيب رخام            1
Name: count, Length: 324, dtype: int64

In [20]:
data['job_date'].value_counts()

job_date
09/06/1444      47
Publish date    47
22/04/1444      43
25/05/1444      39
20/04/1444      39
                ..
16/03/1444       1
12/03/1444       1
07/03/1444       1
05/03/1444       1
27/06/1444       1
Name: count, Length: 92, dtype: int64

In [21]:
data['job_desc'].value_counts()

job_desc
['بيع مجموعة من السلع والخدمات للعملاء، وتوفير المعلومات المتعلقة بالمنتجات واستخداماتها وأسعارها، وتولي أمور الدفع وتلقي المدفوعات من العملاء.']                                                                                                93
['إعداد وتنظيم مستندات الصرف ومتابعة تحصيل الإيرادات وتوثيقها وتحليلها، وإعداد القيود المحاسبية وتسجيل العمليات المالية بالسجلات وتدقيق حسابات البنوك وإعداد التسويات اللازمة وإعداد التقارير والوثائق المتعلقة بالنفقات والإيرادات وحفظها.']    82
['تحديد الأهداف وتطوير السياسات التسويقية للسلع والخدمات، والإشراف على تنفيذها وتقييمها، وإجراء اختبارات السوق وإعداد الوثائق والتقارير المتخصصة والمتعلقة في مجال التسويق وعرضها وحفظها.']                                                      45
['متابعة تنفيذ القرارات الادارية الصادرة عن الرئيس المباشر وتنظيم أعمال البريد والمواعيد اليومية، وإنجاز الأعمال الادارية المتعلقة بسير العمل وتنسيق وتنظيم اجتماعات الرئيس المباشر']                                                            43
['استقبال الزوا

In [22]:
data['job_tasks'].value_counts()

job_tasks
['   بيع مجموعة من السلع والخدمات للعملاء.', '  توفير المعلومات المتعلقة بالمنتجات، والاستخدامات، والأسعار.', '  مراقبة مستويات المخزون والحفاظ على ترتيب المتجر، وإصدار طلبات لشراء المنتجات، والتعامل مع المنتجات الواردة.', '  تولي أمور الدفع وتلقي المدفوعات من العملاء، ومعالجة طلبات استبدال المنتجات، والمرتجعات وفقاً للسياسة المتبعة.', '  ', '  ']                                                                                                                                                                                                                                                                                                                                                                                   90
['   تدقيق المطالبات المالية والتأكد من اكتمال شروطها القانونية والمالية، وإعداد وتنظيم وتوثيق مستندات الصرف ومتابعة تدقيقها وإجازتها للصرف من الجهات الرقابية المعتمدة.', '  مراقبة النفقات الجارية والرأسمالية بحسب الموقف المالي الشهري لبنود الموازنة، وإعداد الموقف ال

In [23]:
data['comp_name'].value_counts()

comp_name
شركه العرض المتقن للخدمات التجارية شركة مساهمة سعودية مقفلة    16
شركة الخدمات الاستشارية السعودية للاستشارات الهندسية           11
شركة مدارس موسوعة العلوم الاهلية                               10
مؤسسة سليمان عبدالرحمن النمله للمقاولات                         9
شركة الحبيب للتجارة والتعهدات التجارية المحدودة                 9
                                                               ..
مكتب الإبن الحكيم للاستشارات التعليمية والتربوية                1
أبو سلطان للمقاولات                                             1
موسسة بيكو للقرطاسية                                            1
شركة بتوك للمحروقات شركة شخص واحد                               1
مصنع عبدالرحمن بن محمد بن عبدالعزيز العبدالقادر للرخام          1
Name: count, Length: 886, dtype: int64

In [24]:
data['comp_no'].value_counts()

comp_no
1-169123      16
1-1264988     11
1-383334      10
14-540         9
9-170461       9
              ..
12-1615763     1
8-1979979      1
9-1623601      1
12-1959805     1
15-1971895     1
Name: count, Length: 894, dtype: int64

In [25]:
data['comp_type'].value_counts()

comp_type
خاص           1465
شبه حكومية       5
Name: count, dtype: int64

In [26]:
data['comp_size'].value_counts()

comp_size
صغيرة فئة ب     635
صغيرة فئة أ     325
متوسطة فئة أ    162
متوسطة فئة ب    134
كبيرة            78
متوسطة فئة ج     76
عملاقة           46
Name: count, dtype: int64

In [27]:
data['eco_activity'].value_counts()

eco_activity
المطاعم مع الخدمة                                                        65
الخدمات الطبية بالمصحات المتخصصة ومراكز إعادة التأهيل والصحة الوقائية    46
أنشطة خدمات صيانة المباني                                                44
أنشطة الاستشارات الهندسية والمعمارية                                     27
ترميمات المباني السكنية والغير سكنية                                     24
                                                                         ..
صناعة حديد الزهر ما في ذلك مسبوكات حديد الصلب والزهر                      1
تركيب وتمديد انابيب تكييف الهواء وصيانتها واصلاحها                        1
رعاية وصيانة منتزهات الطرق السريعة                                        1
نقل السوائل او الغازات السائلة                                            1
البيع بالتجزئة للادوات الكهربائية وتمديداتها                              1
Name: count, Length: 361, dtype: int64

In [28]:
data['qualif'].value_counts()

qualif
['Language data', 'الانجليزية', 'متوسط']                                                                                                                                                                                                                                      28
['Language data', 'الانجليزية', 'محترف']                                                                                                                                                                                                                                      11
['Language data', 'اللغة الانجليزية', 'محترف']                                                                                                                                                                                                                                10
['Language data', 'العربية', 'محترف', 'الانجليزية', 'متوسط']                                                                                                                  

In [29]:
data['region'].value_counts()

region
الرياض             622
مكة المكرمة        369
المنطقة الشرقية    219
المدينة المنورة     86
الباحة              46
عسير                42
القصيم              32
حائل                18
تبوك                11
نجران                8
جازان                7
الجوف                5
الحدود الشمالية      4
اخرى                 1
Name: count, dtype: int64

In [30]:
data['city'].value_counts()

city
AR RIYADH...    523
JEDDAH...       245
AD DAMMAM...     78
MAKKAH AL...     72
AL KHUBAR...     54
               ... 
AN NAQ'A...       1
AS SAFFAN...      1
AL ATAWLA...      1
AL HAFAIR...      1
AL KHAFJI...      1
Name: count, Length: 114, dtype: int64

In [31]:
data['benefits'].value_counts()

benefits
['Salary', '4000.0']                                                 449
['Salary', '5000.0']                                                 148
['Salary', '6000.0']                                                  86
['Salary', '4500.0']                                                  85
['Salary', '7000.0']                                                  66
                                                                    ... 
['Salary', '4600.0']                                                   1
['Salary', '10000.0', 'Benefits', 'راتب أساسي فقط']                    1
['Salary', '5000.0', 'Benefits', 'عمولة مستهدفة من ارباح الفرع ']      1
['Salary', '5500.0', 'Benefits', 'راتب أساسي بدون بدلات']              1
['Salary', '4000.0', 'Benefits', 'اجازة سنوية 30 يوم ']                1
Name: count, Length: 393, dtype: int64

In [32]:
data['contract'].value_counts()

contract
دوام كامل     1448
عمل عن بعد      22
Name: count, dtype: int64

In [33]:
data['positions'].value_counts()

positions
0 / 1     853
0 / 2     258
0 / 3     107
0 / 4      62
0 / 5      57
0 / 10     29
0 / 6      24
0 / 50     20
0 / 20     10
1 / 2      10
0 / 30      6
1 / 1       6
0 / 7       5
0 / 9       4
0 / 15      3
1 / 5       3
0 / 8       3
2 / 2       2
1 / 3       2
0 / 25      1
0 / 46      1
1 / 4       1
2 / 4       1
5 / 4       1
3 / 9       1
Name: count, dtype: int64

In [34]:
data['exper'].value_counts()

exper
0 Years     833
2 Years     436
4 Years     153
7 Years      30
10 Years     15
12 Years      3
Name: count, dtype: int64

In [35]:
data['gender'].value_counts()

gender
both    587
M       480
F       403
Name: count, dtype: int64

In [36]:
# Display summary statistics for numerical columns
data.describe(include="number")

Unnamed: 0,job_post_id
count,1470.0
mean,20202030000000.0
std,58639.41
min,20202030000000.0
25%,20202030000000.0
50%,20202030000000.0
75%,20202030000000.0
max,20202030000000.0


In [37]:
data['job_post_id'].value_counts()

job_post_id
20202026399061    3
20202026396963    3
20202026378973    3
20202026375465    3
20202026375503    3
                 ..
20202026231488    1
20202026231494    1
20202026231523    1
20202026231538    1
20202026398972    1
Name: count, Length: 1381, dtype: int64

In [38]:
data.dtypes  # للتحقق من نوع البيانات

job_title       object
job_date        object
job_desc        object
job_tasks       object
comp_name       object
comp_no         object
comp_type       object
comp_size       object
eco_activity    object
qualif          object
region          object
city            object
benefits        object
contract        object
positions       object
job_post_id      int64
exper           object
gender          object
dtype: object

## Data Quality Checking and Remediation
We will check for missing values, data types, and inconsistencies.

In [42]:
# Checking for missing values
data.isnull().sum()

job_title         0
job_date          0
job_desc          0
job_tasks         0
comp_name         0
comp_no           0
comp_type         0
comp_size        14
eco_activity     90
qualif          690
region            0
city              0
benefits          0
contract          0
positions         0
job_post_id       0
exper             0
gender            0
dtype: int64

In [43]:
# Checking data types and basic info
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 18 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   job_title     1470 non-null   object
 1   job_date      1470 non-null   object
 2   job_desc      1470 non-null   object
 3   job_tasks     1470 non-null   object
 4   comp_name     1470 non-null   object
 5   comp_no       1470 non-null   object
 6   comp_type     1470 non-null   object
 7   comp_size     1456 non-null   object
 8   eco_activity  1380 non-null   object
 9   qualif        780 non-null    object
 10  region        1470 non-null   object
 11  city          1470 non-null   object
 12  benefits      1470 non-null   object
 13  contract      1470 non-null   object
 14  positions     1470 non-null   object
 15  job_post_id   1470 non-null   int64 
 16  exper         1470 non-null   object
 17  gender        1470 non-null   object
dtypes: int64(1), object(17)
memory usage: 206.8+ KB


## Exploratory Data Analysis (EDA)
We'll use automated profiling with `ydata_profiling` to generate a summary report.

In [None]:
# Generate data profiling report
profile = ProfileReport(data, explorative=True)
profile.to_notebook_iframe()

#### 1. Reliability:

The data is sourced from Jadarat, a certified platform for job postings in Saudi Arabia.

#### 2. Timeliness:

The data may not fully reflect the current job market trends in 2025 for it doesn't have a spicifid timing for collection, and that's acceptable for my corrent analysis and problem statement.

#### 3. Consistency:

#### 4. Relevance:

#### 5. Uniqueness:

#### 6. Completeness:

#### 7. Check Accuracy:

## Data Cleaning

Handling missing values

Correcting errors

Dealing with outliers

In [44]:
data.isnull().sum()


job_title         0
job_date          0
job_desc          0
job_tasks         0
comp_name         0
comp_no           0
comp_type         0
comp_size        14
eco_activity     90
qualif          690
region            0
city              0
benefits          0
contract          0
positions         0
job_post_id       0
exper             0
gender            0
dtype: int64

In [47]:
data[data['comp_size'].isna()]  


Unnamed: 0,job_title,job_date,job_desc,job_tasks,comp_name,comp_no,comp_type,comp_size,eco_activity,qualif,region,city,benefits,contract,positions,job_post_id,exper,gender
1296,مدير إداري,25/06/1444,['المشاركة في تطوير الأهداف الرئيسية للشؤون ال...,[' المشاركة في تطوير الأهداف الرئيسية للشؤون...,مكتب تصميم المشاريع للاستشارات الهندسية,4-1990473,خاص,,,,المنطقة الشرقية,AD DAMMAM...,"['Salary', '12400.0']",دوام كامل,0 / 1,20202026404052,7 Years,M
1393,موظف صندوق محاسبة,01/07/1444,['عد المبالغ المالية المتوافرة في آلة تسجيل ال...,[' عدّ المبالغ المالية وتسجيلها في آلة تسجيل...,مغاسل نسيم الفل للملابس,15-1963098,خاص,,,,المنطقة الشرقية,AL KHUBAR...,"['Salary', '4000.0']",دوام كامل,0 / 3,20202026407308,0 Years,both
1399,موظف صندوق محاسبة,29/06/1444,['عد المبالغ المالية المتوافرة في آلة تسجيل ال...,[' عدّ المبالغ المالية وتسجيلها في آلة تسجيل...,مغاسل نسيم الفل للملابس,15-1963098,خاص,,,,الرياض,AL KHUBAR...,"['Salary', '4000.0']",دوام كامل,0 / 2,20202026407112,0 Years,both
1401,وسيط عقاري,29/06/1444,['مساعدة البائعين وتقديم اقتراحات بأفضل طريقة ...,[' تقييم رغبات العملاء والميزانيات المحددة و...,مؤسسة فانس العقارية,1-2268591,خاص,,,"['Skill data', 'عقاري', 'مبتدئ', 'Language dat...",الرياض,RUMAH...,"['Salary', '4000.0']",دوام كامل,0 / 1,20202026407053,0 Years,F
1409,محامي,29/06/1444,['دراسة القضية وتجهيز ملفها وجمع البينات الخطي...,[' استقبال القضية وتحديد نوعها وتحليل عناصره...,شركة الخبراء المتحدون للمحاماة والاستشارات الق...,1-2334348,خاص,,,"['Professional certificate \\ License data', '...",الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,0 / 2,20202026406912,2 Years,both
1411,أخصائي قانوني,29/06/1444,['مساعدة العملاء والمنشآت في مختلف المسائل الق...,[' تأهيل الطلبات وتقييم الخيارات القانونية، ...,شركة الخبراء المتحدون للمحاماة والاستشارات الق...,1-2334348,خاص,,,"['Skill data', 'إدارة وتنظيم المستندات والوثائ...",الرياض,AR RIYADH...,"['Salary', '4000.0']",دوام كامل,0 / 2,20202026406840,0 Years,both
1421,مدير مالي,29/06/1444,['المشاركة في تطوير الأهداف الرئيسية للإدارة ا...,[' المشاركة في تطوير الأهداف الرئيسية للإدار...,شركة إرفاء المحدودة (شركة شخص واحد),17-1989300,خاص,,,,حائل,ABA AL HI...,"['Salary', '14000.0']",دوام كامل,0 / 1,20202026406695,7 Years,both
1426,مصفف شعر,29/06/1444,['تقديم المشورة للعميل وتسريح الشعر وتصفيفه وت...,[' استقبال العميل وإجلاسه على كرسي القص ووض...,صالون تشرين ثاني للتزيين النسائي,1-2593881,خاص,,,"['Skill data', 'صف الشعر', 'متوسط']",الرياض,AR RIYADH...,"['Salary', '4000.0']",دوام كامل,0 / 2,20202026406598,4 Years,F
1432,موظف صندوق محاسبة,27/06/1444,['عد المبالغ المالية المتوافرة في آلة تسجيل ال...,[' عدّ المبالغ المالية وتسجيلها في آلة تسجيل...,مؤسسة التذوق الحلو لتقديم الوجبات,1-2559144,خاص,,,,الرياض,AL BIYAD...,"['Salary', '4000.0']",دوام كامل,0 / 2,20202026406120,0 Years,M
1436,أخصائي علاج طبيعي,26/06/1444,['دراسة وتحليل الحالة المرضية ووضع خطة وبرنامج...,[' دراسة وتحليل برنامج المعالجة الطبيعية الم...,مجمع ارجوان سامي بن نائف العتيبي الطبي,2-1949575,خاص,,,,الرياض,AL KHARJ...,"['Salary', '4000.0']",دوام كامل,0 / 1,20202026405893,0 Years,F


In [None]:
data['comp_size'].fillna('غير معروف', inplace=True)

In [49]:
data[data['eco_activity'].isna()]  

Unnamed: 0,job_title,job_date,job_desc,job_tasks,comp_name,comp_no,comp_type,comp_size,eco_activity,qualif,region,city,benefits,contract,positions,job_post_id,exper,gender
3,ميكانيكي سيارات,27/05/1444,['تشخيص أعطال السيارات وإصلاحها وتنفيذ برامج ا...,[' فحص أداء المعدّات الكهربائية والميكانيكية...,مؤسسة لمكو لغيار الزيوت,8-1925495,خاص,صغيرة فئة ب,,"['Skill data', 'صيانة السيارات وتقييم الاعطال'...",المنطقة الشرقية,AL HUFUF...,"['Salary', '5000.0']",دوام كامل,0 / 10,20202026350219,0 Years,M
25,مدير عام,26/05/1444,['المشاركة في وضع الأهداف العامة والسياسات وال...,[' المشاركة في وضع الأهداف والسياسات والمباد...,ورشة اضواء المشاعل للحدادة والالمنيوم,10-2010602,خاص,صغيرة فئة أ,,"['Skill data', 'حداد', 'متوسط', 'Language data...",المدينة المنورة,AL MADINA...,"['Salary', '4000.0']",دوام كامل,0 / 1,20202026348601,0 Years,M
40,مدير فرع,25/05/1444,['المشاركة في وضع وإعداد أهداف الفرع في ضوء تو...,[' المشاركة في وضع وإعداد الخطط والأهداف الخ...,شركة الزي للتجارة,9-2079452,خاص,متوسطة فئة أ,,"['Language data', 'العربية', 'محترف', 'الانجلي...",المنطقة الشرقية,DHAHRAN...,"['Salary', '4500.0', 'Benefits', 'حسب سنوات ال...",دوام كامل,0 / 1,20202026347650,2 Years,both
42,موظف استقبال فندق,25/05/1444,['الإشراف على خدمات الضيوف في مكتب الاستقبال، ...,[' الحفاظ على قائمة الحجوزات، وتوفير السجلات...,فندق قصر الواحة الفندقية,1-2440535,خاص,صغيرة فئة ب,,"['Skill data', 'الاستقبال الفندقي', 'محترف', '...",الرياض,AR RIYADH...,"['Salary', '4500.0', 'Benefits', 'تارقت شهري',...",دوام كامل,0 / 4,20202026347394,2 Years,both
47,بائع,25/05/1444,['بيع مجموعة من السلع والخدمات للعملاء، وتوفير...,"['1- إستقبال الزبائن وعمل أوامر الطلبات ', '2-...",شركة مطعم بيت الشاورما لتقديم الوجبات,1-2239765,خاص,متوسطة فئة ج,,"['Language data', 'العربية ', 'محترف']",الرياض,AR RIYADH...,"['Salary', '4000.0']",دوام كامل,0 / 50,20202026346891,0 Years,M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1444,مشرف مدخلي البيانات,26/06/1444,['الإشراف على مدخلي البيانات والتأكد من صحة ال...,[' تدقيق البيانات بعد إدخالها، والتأكد من صح...,خالد عوض الجوهي للمقاولات,1-2073853,خاص,,,"['Skill data', 'اتقان الحاسب ', 'متوسط', 'Lang...",الرياض,HAFIRAT N...,"['Salary', '4500.0']",دوام كامل,0 / 5,20202026405354,0 Years,both
1451,فني مختبر طبي,25/06/1444,['تفقد وتشغيل وخدمة معدات المختبر،أخذ عينات ال...,[' تفقد وتشغيل وخدمة معدات حفظ وفحص العينات ...,مجمع ابتسامة العائلة الطبي,1-2599562,خاص,,,"['Professional certificate \\ License data', '...",الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,0 / 2,20202026404173,0 Years,both
1467,صيدلي,18/06/1444,['دراسة التركيبات الدوائية للعقاقير والعلاجات ...,[' دراسة مواصفات وتركيبات الادوية والعقاقير ...,شركة تقنية الدواجن والألبان للتجارة,1-2415250,خاص,صغيرة فئة ب,,"['Professional certificate \\ License data', '...",الرياض,AR RIYADH...,"['Salary', '7000.0']",دوام كامل,0 / 1,20202026399061,0 Years,both
1468,مشغل آلة تشطيب رخام,18/06/1444,['تشغيل آلة تشطيب الرخام وابعادء الأجزاء المتف...,[' تسوية الرخام بواسطة أقراص الألماس الحديدي...,مصنع عبدالرحمن بن محمد بن عبدالعزيز العبدالقاد...,15-1971895,خاص,صغيرة فئة أ,,"['Skill data', 'متقن للعمل وشغوف ويرغب بالتطور...",المنطقة الشرقية,AL KHUBAR...,"['Salary', '4000.0', 'Benefits', 'اجازة سنوية ...",دوام كامل,0 / 3,20202026398972,0 Years,M


In [None]:
data['eco_activity'].fillna('غير معروف', inplace=True)

In [48]:
data[data['qualif'].isna()]  

Unnamed: 0,job_title,job_date,job_desc,job_tasks,comp_name,comp_no,comp_type,comp_size,eco_activity,qualif,region,city,benefits,contract,positions,job_post_id,exper,gender
1,بائع,27/05/1444,['بيع مجموعة من السلع والخدمات للعملاء، وتوفير...,"[' بيع مجموعة من السلع والخدمات للعملاء.', '...",شركة عالم الكهرباء للمقاولات,4-1324428,خاص,متوسطة فئة ب,تركيب انظمة التبريد وتكييف الهواء وصيانتها واص...,,المنطقة الشرقية,AD DAMMAM...,"['Salary', '5000.0']",دوام كامل,0 / 3,20202026350389,0 Years,both
14,مصمم جرافيك,26/05/1444,['لديه الخبرة في اخراج العروض التقديمية الرس...,['لديه الخبرة في اخراج العروض التقديمية الرس...,مكتب مدارات للاستشارات الهندسية,3-1971776,خاص,متوسطة فئة ب,إدارة المشاريع الانشائية,,حائل,HAIL...,"['Salary', '7000.0']",دوام كامل,0 / 1,20202026349504,4 Years,M
15,مدخل بيانات,26/05/1444,['التمكن من استخدام برامج مايكروسفت أوفيس'],['التمكن من استخدام برامج مايكروسفت أوفيس'],مكتب مدارات للاستشارات الهندسية,3-1971776,خاص,متوسطة فئة ب,إدارة المشاريع الانشائية,,حائل,HAIL...,"['Salary', '3000.0']",دوام كامل,0 / 2,20202026349475,2 Years,M
16,مطور برامج,26/05/1444,[' تحليل وادارة تطبيقات باستخدام الأدوات البر...,[' تحليل وادارة تطبيقات باستخدام الأدوات ال...,مكتب مدارات للاستشارات الهندسية,3-1971776,خاص,متوسطة فئة ب,إدارة المشاريع الانشائية,,حائل,HAIL...,"['Salary', '9000.0']",دوام كامل,0 / 1,20202026349439,4 Years,M
17,أخصائي إدارة اداء,26/05/1444,[' فهم مبادئ الإدارة الإستراتيجية وقياس الأداء...,[' فهم مبادئ الإدارة الإستراتيجية وقياس الأداء...,مكتب مدارات للاستشارات الهندسية,3-1971776,خاص,متوسطة فئة ب,إدارة المشاريع الانشائية,,حائل,HAIL...,"['Salary', '12000.0']",دوام كامل,0 / 1,20202026349417,10 Years,M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1454,أخصائي عمليات موارد بشرية,25/06/1444,['تنفيذ الإجراءات والأنظمة والنماذج الخاصة بمر...,[' تنفيذ الإجراءات والأنظمة والنماذج الخاصة ...,شركـة ذوق للتجارة,1-1526321,خاص,صغيرة فئة ب,البيع بالتجزئة للوكلاء بالعمولة بدون محلات,,الرياض,AR RIYADH...,"['Salary', '5556.0']",دوام كامل,0 / 1,20202026403956,0 Years,F
1455,فني تصميم داخلي,24/06/1444,['تصميم أنظمة الألوان وطرز الأثاث، والمواد الم...,[' وضع التصاميم للمشروعات الداخلية، وإدارة ف...,شركة نمو للبحوث والدراسات (شركة شخص واحد),1-2166711,خاص,صغيرة فئة أ,مراكز البحوث والدراسات الاجتماعية,,الرياض,AR RIYADH...,"['Salary', '5000.0', 'Benefits', 'عموله']",دوام كامل,0 / 1,20202026403328,2 Years,both
1460,كيميائي,23/06/1444,['دراسة خصائص المواد الكميائية للصناعات الكيمي...,[' إعداد برامج تشغيل الأجهزة والمعدات المخبر...,شركة نواف صالح البطي للتجارة,1-2604723,خاص,صغيرة فئة ب,تجارة الجملة والتجزئه في أنواع أخرى من المركبا...,,الرياض,AR RIYADH...,"['Salary', '5000.0']",دوام كامل,0 / 1,20202026402275,0 Years,F
1464,بائع,21/06/1444,['بيع مجموعة من السلع والخدمات للعملاء، وتوفير...,"[' بيع مجموعة من السلع والخدمات للعملاء.', '...",شركة النجمة الذهبية للتبريد والتكييف شركة شخص ...,8-1977608,خاص,صغيرة فئة ب,تركيب انظمة التبريد وتكييف الهواء وصيانتها واص...,,المنطقة الشرقية,AL HUFUF...,"['Salary', '4000.0']",دوام كامل,0 / 1,20202026401107,2 Years,F


In [None]:
# to be considered later

In [None]:
data.duplicated() # check duplicate values

In [51]:
data.duplicated(subset=['job_title'])

0       False
1       False
2       False
3       False
4        True
        ...  
1465     True
1466     True
1467     True
1468    False
1469     True
Length: 1470, dtype: bool

## Data Cleaning