# Overview
Welcome to Tuwaiq Academy, a non-profit training institute in Saudi Arabia. With millions of applicants vying for limited seats in advanced AI programs, this challenge is your chance to revolutionize the allocation process. Your task is to build a predictive model that identifies top candidates likely to successfully complete the training program.

### Goal:
The goal of the competition is to develop an efficient model that sifts through the pool of applicants, pinpointing those with the highest likelihood of completing Tuwaiq Academy's rigorous training programs. By achieving this, you contribute to the strategic utilization of limited seats, ensuring they are granted to individuals your model identifies as having the best potential to excel in the program. Seize the challenge, make a lasting impact!

# Description
### Overview:
Tuwaiq Academy, a non-profit educational institute in the Kingdom of Saudi Arabia, is on a mission to advance AI and emerging technologies. With a surge in applications and limited seats for our coveted advanced programs, we invite you to participate in this competition for educational excellence.

### Objective:
In the face of millions of applicants, Tuwaiq Academy aims to streamline the selection process for our advanced training programs. Your challenge is to develop a predictive model that can accurately identify individuals with the highest likelihood of successfully completing the rigorous training curriculum.

### Why Participate:

* Impactful Contribution: Your efforts directly influence the strategic allocation of limited seats, ensuring they are granted to those most likely to excel in the program.
* Advancing Education: By participating in this competition, you become a key player in shaping the future of education, contributing to the growth of knowledge and expertise in the field.
### Key Details:

* Dataset: We provide registration information for accepted trainees in a variety of training programs, including a completion target column.
* Objective: Develop a robust model to identify candidates with the best potential for successful program completion.
* Outcome: The winning models will significantly enhance the efficiency of the selection process, allowing Tuwaiq Academy to optimize resource allocation and make a lasting impact on the education landscape.
### How to Win:

* Accuracy: Build a model that accurately predicts trainees' likelihood of completing the program.
* Innovation: Stand out by incorporating innovative approaches, algorithms, or features that elevate the predictive power of your model.
* Explanation: Provide insights into the factors driving your model's predictions, demonstrating a clear understanding of the problem.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

# Installing required Libraries:

In [105]:
import pandas as pd
import numpy as np

# Exploratory Data Analysis (EDA)

In [106]:
df=pd.read_csv('test.csv')
df

Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,أنثى,منطقة الرياض,الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,SWPS,تقليدية,متوسط,...,5,لا,البكالوريوس,علوم الحاسب الالي,,3.72,4.0,خريج,,
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,أنثى,منطقة الرياض,الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,PCRF,تقليدية,مبتدئ,...,19,لا,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,2.00,4.0,,,
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,أنثى,منطقة الرياض,الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,SWPS,,,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.72,5.0,موظف,دوام كامل,Yes
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,أنثى,منطقة الرياض,الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,PCRF,,متقدم,...,5,نعم,البكالوريوس,Biology,,4.47,5.0,غير موظف,,
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,أنثى,منطقة الرياض,الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,,داعمة,متقدم,...,33,نعم,الدبلوم,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.46,5.0,غير موظف,دوام كامل,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,ذكر,منطقة الرياض,الرياض,1b546d80-2ed0-42e6-9867-61b3d2f92d50,GRST,INFA,,متوسط,...,5,نعم,البكالوريوس,علوم حاسب,,2.55,5.0,موظف,,
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,ذكر,منطقة الرياض,الرياض,aa87165d-cbde-4453-baca-1c8c03775e39,CAUF,CRDP,داعمة,مبتدئ,...,47,نعم,البكالوريوس,الهندسة الكهربائية,الهندسة والتصنيع والبناء,3.00,4.0,,,
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,ذكر,منطقة الرياض,الرياض,c49987af-b421-4b88-b36a-a0ec91d95aa3,GRST,INFA,تقليدية,متوسط,...,5,نعم,البكالوريوس,شبكات حاسب,,3.00,5.0,موظف,,
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,أنثى,منطقة الرياض,الرياض,899795e1-7bf3-46d0-a58e-824d4033f6da,PCRF,PCRF,تقليدية,متوسط,...,173,لا,البكالوريوس,نظم معلومات حاسوبية,,4.12,5.0,غير موظف,,


In [107]:
df.shape

(818, 23)

In [108]:
df.describe()

Unnamed: 0,Age,Program Days,University Degree Score,University Degree Score System
count,804.0,818.0,807.0,807.0
mean,26.675373,19.496333,8.406061,9.736059
std,5.462686,30.87822,19.588729,21.166854
min,18.0,3.0,0.0,4.0
25%,23.0,5.0,3.395,5.0
50%,25.0,12.0,4.0,5.0
75%,29.0,19.0,4.505,5.0
max,58.0,292.0,100.0,100.0


In [109]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 818 entries, 0 to 817
Data columns (total 23 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Student ID                      818 non-null    object 
 1   Age                             804 non-null    float64
 2   Gender                          818 non-null    object 
 3   Home Region                     817 non-null    object 
 4   Home City                       817 non-null    object 
 5   Program ID                      818 non-null    object 
 6   Program Main Category Code      818 non-null    object 
 7   Program Sub Category Code       703 non-null    object 
 8   Technology Type                 454 non-null    object 
 9   Program Skill Level             618 non-null    object 
 10  Program Presentation Method     818 non-null    object 
 11  Program Start Date              818 non-null    object 
 12  Program End Date                818 

## Removing Duplicates

In [110]:
for i in df.columns:
    print(df[i].value_counts())
    print("---------------------")
# The first ID have been recorded for 3 times, we will check if the data have dublicates or not.

Student ID
19018c51-6a35-40da-a78c-2b26ed1e0728    3
8e198172-5f1d-4612-974e-aad81442bc0a    3
638e61d4-cda8-4637-b3eb-20c39cb29ef9    2
511c4ea9-8728-4ce6-a98c-350040ff2cf6    2
37321139-ee76-4be2-a034-f93e2b678f4e    2
                                       ..
36f9da7e-8984-4567-85a7-3700877e7e76    1
52221506-f0c7-4aa5-ae57-681051f90f15    1
9b992af9-8789-44f9-993e-dcbe3bef806d    1
3b52dbd3-403c-46ed-89ff-616c959781c9    1
4a15a037-f5f4-4947-8a67-9f28494a6f26    1
Name: count, Length: 780, dtype: int64
---------------------
Age
23.0    120
24.0     93
25.0     76
22.0     70
26.0     49
27.0     48
28.0     45
21.0     39
29.0     35
31.0     29
30.0     28
20.0     25
32.0     24
36.0     15
35.0     14
33.0     14
37.0     12
38.0     12
19.0     11
34.0      9
40.0      5
39.0      5
41.0      5
43.0      4
44.0      4
42.0      4
18.0      4
48.0      2
58.0      1
45.0      1
50.0      1
Name: count, dtype: int64
---------------------
Gender
أنثى    482
ذكر     336
Name: count

In [111]:
df.loc[df['Student ID'] == '19018c51-6a35-40da-a78c-2b26ed1e0728']
# the same student showed in the dataset but the other information is different, this means the student is signed 9 times for different programs(data is not duplicated)

Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working
11,19018c51-6a35-40da-a78c-2b26ed1e0728,25.0,ذكر,منطقة الرياض,الرياض,c1ade348-9775-4501-b050-252d5c5e6468,CAUF,SWPS,تقليدية,مبتدئ,...,5,نعم,البكالوريوس,تقنية المعلومات,,4.0,5.0,خريج,,
24,19018c51-6a35-40da-a78c-2b26ed1e0728,25.0,ذكر,منطقة الرياض,الرياض,aee3a7b8-28ea-4b9d-963f-2f1413b81c04,PCRF,PCRF,,متوسط,...,12,نعم,البكالوريوس,تقنية المعلومات,,4.0,5.0,خريج,,
684,19018c51-6a35-40da-a78c-2b26ed1e0728,25.0,ذكر,منطقة الرياض,الرياض,321e4dc8-c3c4-4173-bca5-59a0bd9f327c,PCRF,PCRF,تقليدية,متوسط,...,12,نعم,البكالوريوس,تقنية المعلومات,,4.0,5.0,خريج,,


In [112]:
df.duplicated().sum()
# Data shows that there is Identical rows, so we will need to delete the duplicates

4

In [113]:
# print the rows with duplicate information (sorted) to check that there is a true duplication
duplicated = df[df.duplicated(keep=False)].sort_values(by=df.columns.tolist())
duplicated

Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working
215,70b9066f-f253-48a5-b30d-cdffa6fe7185,33.0,ذكر,منطقة الرياض,الرياض,321e4dc8-c3c4-4173-bca5-59a0bd9f327c,PCRF,PCRF,تقليدية,متوسط,...,12,نعم,البكالوريوس,نظم المعلومات,تكنولوجيا الاتصالات والمعلومات,4.0,5.0,موظف,دوام كامل,Yes
495,70b9066f-f253-48a5-b30d-cdffa6fe7185,33.0,ذكر,منطقة الرياض,الرياض,321e4dc8-c3c4-4173-bca5-59a0bd9f327c,PCRF,PCRF,تقليدية,متوسط,...,12,نعم,البكالوريوس,نظم المعلومات,تكنولوجيا الاتصالات والمعلومات,4.0,5.0,موظف,دوام كامل,Yes
712,88bb585d-20b3-4c55-adfe-85606cc3d32e,21.0,ذكر,منطقة الرياض,الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,,داعمة,متقدم,...,33,نعم,البكالوريوس,علوم الحاسبات,تكنولوجيا الاتصالات والمعلومات,4.0,5.0,طالب,,
734,88bb585d-20b3-4c55-adfe-85606cc3d32e,21.0,ذكر,منطقة الرياض,الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,,داعمة,متقدم,...,33,نعم,البكالوريوس,علوم الحاسبات,تكنولوجيا الاتصالات والمعلومات,4.0,5.0,طالب,,
38,9a9a9fd0-8605-4136-817e-456b89d98d53,32.0,ذكر,منطقة الرياض,الرياض,3dd29418-5f9d-4f1f-88bd-15beb922c745,APMR,,,متوسط,...,19,لا,الماجستير,ادارة أعمال,,4.83,5.0,موظف,,
409,9a9a9fd0-8605-4136-817e-456b89d98d53,32.0,ذكر,منطقة الرياض,الرياض,3dd29418-5f9d-4f1f-88bd-15beb922c745,APMR,,,متوسط,...,19,لا,الماجستير,ادارة أعمال,,4.83,5.0,موظف,,
310,d667a01b-9800-4d10-8c00-3ae9624b19ac,23.0,ذكر,منطقة الرياض,الرياض,7820fea0-6794-4b09-a31c-addee650e67c,CAUF,SWPS,داعمة,مبتدئ,...,12,نعم,البكالوريوس,علوم الحاسب,,3.39,5.0,موظف,,
418,d667a01b-9800-4d10-8c00-3ae9624b19ac,23.0,ذكر,منطقة الرياض,الرياض,7820fea0-6794-4b09-a31c-addee650e67c,CAUF,SWPS,داعمة,مبتدئ,...,12,نعم,البكالوريوس,علوم الحاسب,,3.39,5.0,موظف,,


In [114]:
# removing duplicates
df.drop_duplicates(inplace=True)

df.shape

(814, 23)

## Changing date format

In [115]:
df['Program Start Date']=pd.to_datetime(df['Program Start Date'])
df['Program End Date']=pd.to_datetime(df['Program End Date'])

In [116]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 814 entries, 0 to 817
Data columns (total 23 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Student ID                      814 non-null    object        
 1   Age                             800 non-null    float64       
 2   Gender                          814 non-null    object        
 3   Home Region                     813 non-null    object        
 4   Home City                       813 non-null    object        
 5   Program ID                      814 non-null    object        
 6   Program Main Category Code      814 non-null    object        
 7   Program Sub Category Code       701 non-null    object        
 8   Technology Type                 451 non-null    object        
 9   Program Skill Level             614 non-null    object        
 10  Program Presentation Method     814 non-null    object        
 11  Program Sta

## Fixing Nulls

In [117]:
df.isna().sum()

Student ID                          0
Age                                14
Gender                              0
Home Region                         1
Home City                           1
Program ID                          0
Program Main Category Code          0
Program Sub Category Code         113
Technology Type                   363
Program Skill Level               200
Program Presentation Method         0
Program Start Date                  0
Program End Date                    0
Program Days                        0
Completed Degree                    0
Level of Education                  3
Education Speaciality              37
College                           490
University Degree Score            11
University Degree Score System     11
Employment Status                  70
Job Type                          578
Still Working                     578
dtype: int64

In [118]:
# Age:
df['Age'].value_counts()

Age
23.0    119
24.0     93
25.0     76
22.0     70
26.0     49
27.0     48
28.0     45
21.0     38
29.0     35
31.0     29
30.0     28
20.0     25
32.0     23
36.0     15
35.0     14
33.0     13
37.0     12
38.0     12
19.0     11
34.0      9
40.0      5
39.0      5
41.0      5
43.0      4
44.0      4
42.0      4
18.0      4
48.0      2
58.0      1
45.0      1
50.0      1
Name: count, dtype: int64

In [119]:
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Age'].value_counts()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].median(), inplace=True)


Age
23.0    119
24.0     93
25.0     90
22.0     70
26.0     49
27.0     48
28.0     45
21.0     38
29.0     35
31.0     29
30.0     28
20.0     25
32.0     23
36.0     15
35.0     14
33.0     13
37.0     12
38.0     12
19.0     11
34.0      9
40.0      5
39.0      5
41.0      5
43.0      4
44.0      4
42.0      4
18.0      4
48.0      2
58.0      1
45.0      1
50.0      1
Name: count, dtype: int64

In [120]:
# Level of Education
df['Level of Education'].value_counts()

Level of Education
البكالوريوس    657
الماجستير       68
الدبلوم         44
ثانوي           36
الدكتوراه        5
متوسط            1
Name: count, dtype: int64

In [121]:
df['Level of Education'].fillna(df['Level of Education'].mode().iloc[0], inplace=True)
df['Level of Education'].value_counts()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Level of Education'].fillna(df['Level of Education'].mode().iloc[0], inplace=True)


Level of Education
البكالوريوس    660
الماجستير       68
الدبلوم         44
ثانوي           36
الدكتوراه        5
متوسط            1
Name: count, dtype: int64

In [122]:
df.head()

Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,أنثى,منطقة الرياض,الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,SWPS,تقليدية,متوسط,...,5,لا,البكالوريوس,علوم الحاسب الالي,,3.72,4.0,خريج,,
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,أنثى,منطقة الرياض,الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,PCRF,تقليدية,مبتدئ,...,19,لا,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,2.0,4.0,,,
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,أنثى,منطقة الرياض,الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,SWPS,,,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.72,5.0,موظف,دوام كامل,Yes
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,أنثى,منطقة الرياض,الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,PCRF,,متقدم,...,5,نعم,البكالوريوس,Biology,,4.47,5.0,غير موظف,,
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,أنثى,منطقة الرياض,الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,,داعمة,متقدم,...,33,نعم,الدبلوم,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.46,5.0,غير موظف,دوام كامل,No


In [123]:
# Sub Category
main_sub_categories = df.groupby('Program Main Category Code')['Program Sub Category Code']\
                       .apply(lambda x: x.astype(str).unique())
print(main_sub_categories)

Program Main Category Code
ABIR                            [INFA, nan]
APMR    [SRTA, QTDY, nan, KLTM, SWPS, ASCW]
CAUF                [SWPS, nan, ERST, CRDP]
DTFH                                  [nan]
GRST                                 [INFA]
INFA                                 [INFA]
PCRF                                 [PCRF]
QWLM                                  [nan]
SERU                           [INFA, ERST]
TOSL                            [nan, TOSL]
Name: Program Sub Category Code, dtype: object


In [124]:
def fill_sub_category(row):
    main_category = row['Program Main Category Code']
    sub_categories = row['Program Sub Category Code']

    # Handle case where sub_categories is a single NaN float
    if pd.isna(sub_categories):
        return [main_category]

    # Ensure sub_categories is always treated as a list
    if not isinstance(sub_categories, list):
        sub_categories = [sub_categories]

    # If all values are nan, fill with main category
    if all(pd.isna(x) for x in sub_categories):
        return [main_category] * len(sub_categories)

    # Replace nan values with first non-nan value if exists, otherwise main category
    first_non_nan = next((x for x in sub_categories if not pd.isna(x)), main_category)
    return [first_non_nan if pd.isna(x) else x for x in sub_categories]

# Apply the function to fill nan values
df['Program Sub Category Code'] = df.apply(fill_sub_category, axis=1)

In [125]:
main_sub_categories = df.groupby('Program Main Category Code')['Program Sub Category Code']\
                       .apply(lambda x: x.astype(str).unique())
print(main_sub_categories)

Program Main Category Code
ABIR                                 [['INFA'], ['ABIR']]
APMR    [['SRTA'], ['QTDY'], ['APMR'], ['KLTM'], ['SWP...
CAUF             [['SWPS'], ['CAUF'], ['ERST'], ['CRDP']]
DTFH                                           [['DTFH']]
GRST                                           [['INFA']]
INFA                                           [['INFA']]
PCRF                                           [['PCRF']]
QWLM                                           [['QWLM']]
SERU                                 [['INFA'], ['ERST']]
TOSL                                           [['TOSL']]
Name: Program Sub Category Code, dtype: object


In [126]:
df.isnull().sum()

Student ID                          0
Age                                 0
Gender                              0
Home Region                         1
Home City                           1
Program ID                          0
Program Main Category Code          0
Program Sub Category Code           0
Technology Type                   363
Program Skill Level               200
Program Presentation Method         0
Program Start Date                  0
Program End Date                    0
Program Days                        0
Completed Degree                    0
Level of Education                  0
Education Speaciality              37
College                           490
University Degree Score            11
University Degree Score System     11
Employment Status                  70
Job Type                          578
Still Working                     578
dtype: int64

In [None]:
# Home Region, Home City
# There is only 1 null records in Home Region, and they are also nulls in Home City thought, we will drop them
df[df['Home Region'].isnull()]

Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working
249,f6a1cc64-4468-496b-8605-2ef0acc707f5,25.0,ذكر,,,e006900d-05a9-4c2b-a36f-0ffb9fce44cd,APMR,[APMR],,متوسط,...,44,نعم,البكالوريوس,,,,,,,


In [128]:
df.dropna(subset=['Home Region'], inplace=True)

In [129]:
# Education Speaciality
# Since Tuwaiq academy provides a Program related to Computer Science,
# it is normal to have students who have Computer Science background to apply for, so we will fill the nulls with علوم الحاسبات
df['Education Speaciality'].value_counts()

Education Speaciality
علوم الحاسبات                          132
تقنية المعلومات                         98
علوم حاسب                               55
نظم المعلومات                           46
تقنية معلومات                           25
                                      ... 
applied network systems engineering      1
تسويق                                    1
العلوم في الرياضيات                      1
هندسة إلكترونيات                         1
شبكات حاسب                               1
Name: count, Length: 210, dtype: int64

In [130]:
df['Education Speaciality'].fillna('علوم الحاسبات',inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Education Speaciality'].fillna('علوم الحاسبات',inplace=True)


In [131]:
# نوحد مسميات التخصصات
import re
import pandas as pd

def normalize_specialty(s):
    if pd.isna(s):
        return s
    s = str(s).strip().lower()

    # --- Computer Science & IT ---
    # علوم حاسب (Computer Science)
    if re.search(r'علوم\s*حاس(ب|بات|وب|ب\s*آلي|ب\s*الآلي|ب\.|ب$)', s) or \
       re.search(r'computer\s*science|cs|computing|علوم\s*الحاسب', s):
        return 'علوم حاسب'

    # هندسة حاسب (Computer Engineering)
    if re.search(r'هندسة\s*حاس(ب|بات|وب|ب\s*آلي|ب\s*الآلي|ب\.)', s) or \
       re.search(r'computer\s*engineering|هندسة\s*الحاسب', s):
        return 'هندسة حاسب'

    # تقنية معلومات (IT)
    if re.search(r'تقن(ية|يه)\s*معلومات|تكنولوجيا\s*معلومات|information\s*technology|it\b', s):
        return 'تقنية معلومات'

    # نظم معلومات (Information Systems)
    if re.search(r'نظم\s*معلومات|information\s*system|is\b|mis\b', s):
        return 'نظم معلومات'

    # أمن سيبراني (Cybersecurity)
    if re.search(r'أمن\s*سيبراني|cyber\s*security|cybersecurity|الأمن\s*السيبراني', s):
        return 'أمن سيبراني'

    # هندسة برمجيات (Software Engineering)
    if re.search(r'هندسة\s*برمجيات|software\s*engineering', s):
        return 'هندسة برمجيات'

    # --- Engineering ---
    # هندسة كهربائية (Electrical Engineering)
    if re.search(r'هندسة\s*كهربائية|electrical\s*engineering', s):
        return 'هندسة كهربائية'

    # --- Business ---
    # إدارة أعمال (Business Administration)
    if re.search(r'إدارة\s*أعمال|ادارة\s*اعمال|business\s*administration|mba', s):
        return 'إدارة أعمال'

    # --- Miscellaneous ---
    # غير متخصص (Non-Specialized)
    if re.search(r'غير\s*متخصص|non\-specialized|لا\s*يوجد', s):
        return 'غير متخصص'

    # Default: Return original string (title-cased)
    return s.title()

# Apply to DataFrame

df['Education Speaciality'] = df['Education Speaciality'].apply(normalize_specialty)



In [132]:
df['Education Speaciality'].value_counts()

Education Speaciality
علوم حاسب            285
تقنية المعلومات       98
نظم معلومات           54
نظم المعلومات         46
تقنية معلومات         44
                    ... 
تجارة الكترونية        1
Software Engineer      1
Computer Network       1
مالية                  1
شبكات حاسب             1
Name: count, Length: 143, dtype: int64

In [133]:
# College
# Since the data is about Tuwaiq academy, witch provides a computer science related courses, we will change the data into تكنولوجيا الاتصالات والمعلومات and غير ذلك,
# and fill the missing data with تكنولوجيا الاتصالات والمعلومات
df['College'].value_counts()

College
تكنولوجيا الاتصالات والمعلومات         289
الأعمال والإدارة والقانون               17
الفنون والعلوم الإنسانية                 6
العلوم الاجتماعية والصحافة والإعلام      4
التعليم                                  3
الهندسة والتصنيع والبناء                 3
العلوم الطبيعية والرياضيات والإحصاء      2
Name: count, dtype: int64

In [134]:
df['College'].fillna('تكنولوجيا الاتصالات والمعلومات', inplace=True)

df['College'] = df['College'].mask(
    df['College'] != 'تكنولوجيا الاتصالات والمعلومات',
    'غير ذلك'
)

df['College'].value_counts()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['College'].fillna('تكنولوجيا الاتصالات والمعلومات', inplace=True)


College
تكنولوجيا الاتصالات والمعلومات    778
غير ذلك                            35
Name: count, dtype: int64

In [135]:
df['Employment Status'] = df['Employment Status'].fillna(df['Employment Status'].mode()[0])

In [136]:
# ما نحتاجه لانه موجود Employment Status
df = df.drop('Still Working', axis=1)

In [137]:
df['University Degree Score'] = df['University Degree Score'].fillna(df['University Degree Score'].median())
df['University Degree Score System'] = df['University Degree Score System'].fillna(df['University Degree Score System'].mode()[0])

In [138]:
df.isna().sum()

Student ID                          0
Age                                 0
Gender                              0
Home Region                         0
Home City                           0
Program ID                          0
Program Main Category Code          0
Program Sub Category Code           0
Technology Type                   362
Program Skill Level               200
Program Presentation Method         0
Program Start Date                  0
Program End Date                    0
Program Days                        0
Completed Degree                    0
Level of Education                  0
Education Speaciality               0
College                             0
University Degree Score             0
University Degree Score System      0
Employment Status                   0
Job Type                          577
dtype: int64

In [139]:
mode_count =(df['Program Skill Level'] == 'متوسط').sum()
mode_count

279

In [140]:
df['Program Skill Level'].value_counts()

Program Skill Level
متوسط    279
مبتدئ    259
متقدم     75
Name: count, dtype: int64

In [141]:
#normalized score system
#عشان تكون المعدلات ادق
df['Degree_Score_Normalized'] = (
    df['University Degree Score'] 
    / df['University Degree Score System']
)

df['Degree_Score_Pct'] = df['Degree_Score_Normalized'] * 100
df.drop(columns=['Degree_Score_Normalized'], inplace=True)


In [142]:
df['Program ID'].value_counts()

Program ID
ab263106-20a8-42aa-9626-278e62ae3a49    15
0d6336e2-4a79-4c32-8f15-073f9a4f6976    12
321e4dc8-c3c4-4173-bca5-59a0bd9f327c    12
e006900d-05a9-4c2b-a36f-0ffb9fce44cd    11
774699c7-15e8-484e-9045-efe5905866aa    10
                                        ..
a5a9e969-2d2d-4a17-a8e9-b1589d970847     1
ce173b66-cd22-4a7a-9cb5-c872f6942f50     1
bb30a929-46df-4648-9224-4d7739bdb61f     1
ee8edc03-54db-45ad-9417-9e7df440c8d6     1
aa87165d-cbde-4453-baca-1c8c03775e39     1
Name: count, Length: 211, dtype: int64

In [143]:
df['Completed Degree'].value_counts()

Completed Degree
نعم    635
لا     178
Name: count, dtype: int64

In [144]:
df['Technology Type'].value_counts()

Technology Type
تقليدية    354
داعمة       49
ناشئة       48
Name: count, dtype: int64

In [145]:
df['Technology Type'].isna().sum()

362

In [None]:
#we will filled the missing data in Technology Type with مفقود since its nearly half of the data
df['Technology Type'] = df['Technology Type'].fillna('مفقود')

In [147]:
df['Program Skill Level'].isna().sum()

200

In [148]:
##we will filled the missing data in Program Skill Level with مفقود
#we made all the nulls to مفقود because nulls doesnt apear while training and testing

df['Program Skill Level'] = df['Program Skill Level'].fillna('مفقود')
df


Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,أنثى,منطقة الرياض,الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,[SWPS],تقليدية,متوسط,...,5,لا,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,3.72,4.0,خريج,,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,أنثى,منطقة الرياض,الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,[PCRF],تقليدية,مبتدئ,...,19,لا,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,2.00,4.0,موظف,,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,أنثى,منطقة الرياض,الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,[SWPS],مفقود,مفقود,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,أنثى,منطقة الرياض,الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,[PCRF],مفقود,متقدم,...,5,نعم,البكالوريوس,Biology,تكنولوجيا الاتصالات والمعلومات,4.47,5.0,غير موظف,,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,أنثى,منطقة الرياض,الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,[TOSL],داعمة,متقدم,...,33,نعم,الدبلوم,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,ذكر,منطقة الرياض,الرياض,1b546d80-2ed0-42e6-9867-61b3d2f92d50,GRST,[INFA],مفقود,متوسط,...,5,نعم,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,2.55,5.0,موظف,,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,ذكر,منطقة الرياض,الرياض,aa87165d-cbde-4453-baca-1c8c03775e39,CAUF,[CRDP],داعمة,مبتدئ,...,47,نعم,البكالوريوس,الهندسة الكهربائية,غير ذلك,3.00,4.0,موظف,,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,ذكر,منطقة الرياض,الرياض,c49987af-b421-4b88-b36a-a0ec91d95aa3,GRST,[INFA],تقليدية,متوسط,...,5,نعم,البكالوريوس,شبكات حاسب,تكنولوجيا الاتصالات والمعلومات,3.00,5.0,موظف,,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,أنثى,منطقة الرياض,الرياض,899795e1-7bf3-46d0-a58e-824d4033f6da,PCRF,[PCRF],تقليدية,متوسط,...,173,لا,البكالوريوس,نظم معلومات,تكنولوجيا الاتصالات والمعلومات,4.12,5.0,غير موظف,,82.4


In [149]:
df['Education Speaciality'].value_counts()

Education Speaciality
علوم حاسب            285
تقنية المعلومات       98
نظم معلومات           54
نظم المعلومات         46
تقنية معلومات         44
                    ... 
تجارة الكترونية        1
Software Engineer      1
Computer Network       1
مالية                  1
شبكات حاسب             1
Name: count, Length: 143, dtype: int64

In [150]:
df.tail(20)

Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
798,7581c89c-ff82-40dc-a3af-56ed6d9b4d9b,29.0,ذكر,منطقة الرياض,الرياض,c93ccd9b-76cc-4683-acec-d16064a65681,CAUF,[CAUF],مفقود,متقدم,...,5,نعم,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,3.13,4.0,موظف,,78.25
799,ddea6cbe-20a0-4598-b9ce-73c39e604c03,27.0,أنثى,منطقة الجوف,سكاكا,5ab61376-f20b-4e5a-bce4-22b8890bbc2e,APMR,[SRTA],تقليدية,مبتدئ,...,5,نعم,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,3.75,5.0,غير موظف,تدريب,75.0
800,4b6cbd6b-45ff-4906-907c-c98e9d6f196f,20.0,أنثى,منطقة الرياض,الرياض,4185c029-c93a-49d0-87c3-fcede7b57048,CAUF,[CAUF],مفقود,مبتدئ,...,5,نعم,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,4.0,5.0,طالب,,80.0
801,5439a6bd-1f9d-47c4-899b-c795ad5fd5c4,26.0,أنثى,منطقة مكة المكرمة,جدة,e58677d9-20ef-43a4-955e-e78e2989cc91,INFA,[INFA],مفقود,مفقود,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.6,5.0,موظف,دوام كامل,72.0
802,c68a72ea-c800-4c8a-a48e-9e43678dd371,27.0,ذكر,منطقة مكة المكرمة,جدة,6fa2fce7-a84d-48d7-b71b-99ae9bae7865,CAUF,[SWPS],تقليدية,متوسط,...,26,نعم,البكالوريوس,تقنية معلومات,تكنولوجيا الاتصالات والمعلومات,4.07,5.0,خريج,,81.4
803,2c5e4be4-4a79-4de0-953b-36892a4acd4e,27.0,ذكر,منطقة الرياض,الرياض,9b4cedaa-fac0-4eac-aa4b-b05b6a0c97ff,PCRF,[PCRF],مفقود,متوسط,...,12,نعم,البكالوريوس,إدارة الشبكات,تكنولوجيا الاتصالات والمعلومات,3.38,5.0,موظف,دوام كامل,67.6
804,75e4fc60-1308-4454-b36f-637934508b2e,24.0,أنثى,منطقة تبوك,تبوك,daf89fda-a75f-487c-a30c-0b65de513e32,CAUF,[CAUF],مفقود,مبتدئ,...,5,لا,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,3.0,5.0,غير موظف,,60.0
805,21242b23-9fdf-413b-8dda-d178ce01864c,23.0,ذكر,منطقة مكة المكرمة,القنفذة,cc8e4e42-65d5-4fa1-82f9-6c6c2d508b60,APMR,[SWPS],مفقود,متوسط,...,5,لا,البكالوريوس,رياضيات,تكنولوجيا الاتصالات والمعلومات,2.63,4.0,خريج,,65.75
806,c7106923-becb-41e0-95da-905c61d6f861,21.0,أنثى,منطقة الرياض,الرياض,642f04b2-67f8-4403-98f1-c5c5755eb358,CAUF,[SWPS],داعمة,متوسط,...,5,لا,الدبلوم,برمجة وقواعد بيانات,تكنولوجيا الاتصالات والمعلومات,4.54,5.0,طالب,,90.8
807,6816f4c0-c117-40f9-a46f-2c55e29b6d14,25.0,ذكر,منطقة الرياض,الرياض,0d12d5ef-7965-4a0d-a18c-7cc826c4f971,APMR,[SRTA],داعمة,مبتدئ,...,5,نعم,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,3.96,5.0,موظف,دوام كامل,79.2


In [152]:
##we will filled the missing data inJob Type with مفقود
df['Job Type'] = df['Job Type'].fillna('مفقود')
df


Unnamed: 0,Student ID,Age,Gender,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,أنثى,منطقة الرياض,الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,[SWPS],تقليدية,متوسط,...,5,لا,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,أنثى,منطقة الرياض,الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,[PCRF],تقليدية,مبتدئ,...,19,لا,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,أنثى,منطقة الرياض,الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,[SWPS],مفقود,مفقود,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,أنثى,منطقة الرياض,الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,[PCRF],مفقود,متقدم,...,5,نعم,البكالوريوس,Biology,تكنولوجيا الاتصالات والمعلومات,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,أنثى,منطقة الرياض,الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,[TOSL],داعمة,متقدم,...,33,نعم,الدبلوم,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,ذكر,منطقة الرياض,الرياض,1b546d80-2ed0-42e6-9867-61b3d2f92d50,GRST,[INFA],مفقود,متوسط,...,5,نعم,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,ذكر,منطقة الرياض,الرياض,aa87165d-cbde-4453-baca-1c8c03775e39,CAUF,[CRDP],داعمة,مبتدئ,...,47,نعم,البكالوريوس,الهندسة الكهربائية,غير ذلك,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,ذكر,منطقة الرياض,الرياض,c49987af-b421-4b88-b36a-a0ec91d95aa3,GRST,[INFA],تقليدية,متوسط,...,5,نعم,البكالوريوس,شبكات حاسب,تكنولوجيا الاتصالات والمعلومات,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,أنثى,منطقة الرياض,الرياض,899795e1-7bf3-46d0-a58e-824d4033f6da,PCRF,[PCRF],تقليدية,متوسط,...,173,لا,البكالوريوس,نظم معلومات,تكنولوجيا الاتصالات والمعلومات,4.12,5.0,غير موظف,مفقود,82.4


In [153]:
df.isna().sum()

Student ID                        0
Age                               0
Gender                            0
Home Region                       0
Home City                         0
Program ID                        0
Program Main Category Code        0
Program Sub Category Code         0
Technology Type                   0
Program Skill Level               0
Program Presentation Method       0
Program Start Date                0
Program End Date                  0
Program Days                      0
Completed Degree                  0
Level of Education                0
Education Speaciality             0
College                           0
University Degree Score           0
University Degree Score System    0
Employment Status                 0
Job Type                          0
Degree_Score_Pct                  0
dtype: int64

In [154]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 813 entries, 0 to 817
Data columns (total 23 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Student ID                      813 non-null    object        
 1   Age                             813 non-null    float64       
 2   Gender                          813 non-null    object        
 3   Home Region                     813 non-null    object        
 4   Home City                       813 non-null    object        
 5   Program ID                      813 non-null    object        
 6   Program Main Category Code      813 non-null    object        
 7   Program Sub Category Code       813 non-null    object        
 8   Technology Type                 813 non-null    object        
 9   Program Skill Level             813 non-null    object        
 10  Program Presentation Method     813 non-null    object        
 11  Program Sta

In [155]:
# encoding categorical variables
# find object columns
categorical_columns=list(df.select_dtypes(['object']).columns)
categorical_columns

['Student ID',
 'Gender',
 'Home Region',
 'Home City',
 'Program ID',
 'Program Main Category Code',
 'Program Sub Category Code',
 'Technology Type',
 'Program Skill Level',
 'Program Presentation Method',
 'Completed Degree',
 'Level of Education',
 'Education Speaciality',
 'College',
 'Employment Status',
 'Job Type']

In [156]:
import category_encoders as ce
encoder= ce.OneHotEncoder(cols='Gender',return_df=True,use_cat_names=True)

In [157]:
df=encoder.fit_transform(df)

In [158]:
df.drop(columns=['Gender_أنثى'], inplace=True)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region,Home City,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,منطقة الرياض,الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,[SWPS],تقليدية,متوسط,...,5,لا,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,منطقة الرياض,الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,[PCRF],تقليدية,مبتدئ,...,19,لا,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,منطقة الرياض,الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,[SWPS],مفقود,مفقود,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,منطقة الرياض,الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,[PCRF],مفقود,متقدم,...,5,نعم,البكالوريوس,Biology,تكنولوجيا الاتصالات والمعلومات,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,منطقة الرياض,الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,[TOSL],داعمة,متقدم,...,33,نعم,الدبلوم,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,منطقة الرياض,الرياض,1b546d80-2ed0-42e6-9867-61b3d2f92d50,GRST,[INFA],مفقود,متوسط,...,5,نعم,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,منطقة الرياض,الرياض,aa87165d-cbde-4453-baca-1c8c03775e39,CAUF,[CRDP],داعمة,مبتدئ,...,47,نعم,البكالوريوس,الهندسة الكهربائية,غير ذلك,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,منطقة الرياض,الرياض,c49987af-b421-4b88-b36a-a0ec91d95aa3,GRST,[INFA],تقليدية,متوسط,...,5,نعم,البكالوريوس,شبكات حاسب,تكنولوجيا الاتصالات والمعلومات,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,منطقة الرياض,الرياض,899795e1-7bf3-46d0-a58e-824d4033f6da,PCRF,[PCRF],تقليدية,متوسط,...,173,لا,البكالوريوس,نظم معلومات,تكنولوجيا الاتصالات والمعلومات,4.12,5.0,غير موظف,مفقود,82.4


In [159]:
df.drop(columns=['Home City'], inplace=True)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,Program Presentation Method,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,منطقة الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,[SWPS],تقليدية,متوسط,عن بعد,...,5,لا,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,منطقة الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,[PCRF],تقليدية,مبتدئ,عن بعد,...,19,لا,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,منطقة الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,[SWPS],مفقود,مفقود,عن بعد,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,منطقة الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,[PCRF],مفقود,متقدم,حضوري,...,5,نعم,البكالوريوس,Biology,تكنولوجيا الاتصالات والمعلومات,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,منطقة الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,[TOSL],داعمة,متقدم,حضوري,...,33,نعم,الدبلوم,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,منطقة الرياض,1b546d80-2ed0-42e6-9867-61b3d2f92d50,GRST,[INFA],مفقود,متوسط,حضوري,...,5,نعم,البكالوريوس,علوم حاسب,تكنولوجيا الاتصالات والمعلومات,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,منطقة الرياض,aa87165d-cbde-4453-baca-1c8c03775e39,CAUF,[CRDP],داعمة,مبتدئ,حضوري,...,47,نعم,البكالوريوس,الهندسة الكهربائية,غير ذلك,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,منطقة الرياض,c49987af-b421-4b88-b36a-a0ec91d95aa3,GRST,[INFA],تقليدية,متوسط,حضوري,...,5,نعم,البكالوريوس,شبكات حاسب,تكنولوجيا الاتصالات والمعلومات,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,منطقة الرياض,899795e1-7bf3-46d0-a58e-824d4033f6da,PCRF,[PCRF],تقليدية,متوسط,عن بعد,...,173,لا,البكالوريوس,نظم معلومات,تكنولوجيا الاتصالات والمعلومات,4.12,5.0,غير موظف,مفقود,82.4


In [160]:
encoder= ce.OneHotEncoder(cols='College',return_df=True,use_cat_names=True)
df=encoder.fit_transform(df)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,Program Presentation Method,...,Completed Degree,Level of Education,Education Speaciality,College_تكنولوجيا الاتصالات والمعلومات,College_غير ذلك,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,منطقة الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,[SWPS],تقليدية,متوسط,عن بعد,...,لا,البكالوريوس,علوم حاسب,1,0,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,منطقة الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,[PCRF],تقليدية,مبتدئ,عن بعد,...,لا,البكالوريوس,تقنية المعلومات,1,0,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,منطقة الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,[SWPS],مفقود,مفقود,عن بعد,...,نعم,البكالوريوس,شبكات الحاسب الآلي,1,0,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,منطقة الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,[PCRF],مفقود,متقدم,حضوري,...,نعم,البكالوريوس,Biology,1,0,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,منطقة الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,[TOSL],داعمة,متقدم,حضوري,...,نعم,الدبلوم,تقنية المعلومات,1,0,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,منطقة الرياض,1b546d80-2ed0-42e6-9867-61b3d2f92d50,GRST,[INFA],مفقود,متوسط,حضوري,...,نعم,البكالوريوس,علوم حاسب,1,0,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,منطقة الرياض,aa87165d-cbde-4453-baca-1c8c03775e39,CAUF,[CRDP],داعمة,مبتدئ,حضوري,...,نعم,البكالوريوس,الهندسة الكهربائية,0,1,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,منطقة الرياض,c49987af-b421-4b88-b36a-a0ec91d95aa3,GRST,[INFA],تقليدية,متوسط,حضوري,...,نعم,البكالوريوس,شبكات حاسب,1,0,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,منطقة الرياض,899795e1-7bf3-46d0-a58e-824d4033f6da,PCRF,[PCRF],تقليدية,متوسط,عن بعد,...,لا,البكالوريوس,نظم معلومات,1,0,4.12,5.0,غير موظف,مفقود,82.4


In [161]:
df.drop(columns=['College_غير ذلك'], inplace=True)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region,Program ID,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,Program Presentation Method,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College_تكنولوجيا الاتصالات والمعلومات,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,منطقة الرياض,451d680f-e067-41c0-a998-6b3da3963bca,CAUF,[SWPS],تقليدية,متوسط,عن بعد,...,5,لا,البكالوريوس,علوم حاسب,1,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,منطقة الرياض,4957a013-46a7-419c-93d5-ebf3741ab2a1,PCRF,[PCRF],تقليدية,مبتدئ,عن بعد,...,19,لا,البكالوريوس,تقنية المعلومات,1,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,منطقة الرياض,03ec0d20-11cd-49bf-9b54-de5d12d4bd76,CAUF,[SWPS],مفقود,مفقود,عن بعد,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,1,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,منطقة الرياض,4ad7a7dc-abcf-43fa-b2e3-07095e083661,PCRF,[PCRF],مفقود,متقدم,حضوري,...,5,نعم,البكالوريوس,Biology,1,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,منطقة الرياض,60494e5b-b20a-4440-ab75-0fd257748dcc,TOSL,[TOSL],داعمة,متقدم,حضوري,...,33,نعم,الدبلوم,تقنية المعلومات,1,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,منطقة الرياض,1b546d80-2ed0-42e6-9867-61b3d2f92d50,GRST,[INFA],مفقود,متوسط,حضوري,...,5,نعم,البكالوريوس,علوم حاسب,1,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,منطقة الرياض,aa87165d-cbde-4453-baca-1c8c03775e39,CAUF,[CRDP],داعمة,مبتدئ,حضوري,...,47,نعم,البكالوريوس,الهندسة الكهربائية,0,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,منطقة الرياض,c49987af-b421-4b88-b36a-a0ec91d95aa3,GRST,[INFA],تقليدية,متوسط,حضوري,...,5,نعم,البكالوريوس,شبكات حاسب,1,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,منطقة الرياض,899795e1-7bf3-46d0-a58e-824d4033f6da,PCRF,[PCRF],تقليدية,متوسط,عن بعد,...,173,لا,البكالوريوس,نظم معلومات,1,4.12,5.0,غير موظف,مفقود,82.4


In [162]:
encoder= ce.OneHotEncoder(cols='Home Region',return_df=True,use_cat_names=True)
df=encoder.fit_transform(df)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region_منطقة الرياض,Home Region_المنطقة الشرقية,Home Region_منطقة مكة المكرمة,Home Region_منطقة عسير,Home Region_منطقة تبوك,Home Region_منطقة المدينة المنورة,Home Region_منطقة الحدود الشمالية,...,Program Days,Completed Degree,Level of Education,Education Speaciality,College_تكنولوجيا الاتصالات والمعلومات,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,1,0,0,0,0,0,0,...,5,لا,البكالوريوس,علوم حاسب,1,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,1,0,0,0,0,0,0,...,19,لا,البكالوريوس,تقنية المعلومات,1,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,1,0,0,0,0,0,0,...,12,نعم,البكالوريوس,شبكات الحاسب الآلي,1,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,1,0,0,0,0,0,0,...,5,نعم,البكالوريوس,Biology,1,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,1,0,0,0,0,0,0,...,33,نعم,الدبلوم,تقنية المعلومات,1,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,1,0,0,0,0,0,0,...,5,نعم,البكالوريوس,علوم حاسب,1,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,1,0,0,0,0,0,0,...,47,نعم,البكالوريوس,الهندسة الكهربائية,0,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,1,0,0,0,0,0,0,...,5,نعم,البكالوريوس,شبكات حاسب,1,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,1,0,0,0,0,0,0,...,173,لا,البكالوريوس,نظم معلومات,1,4.12,5.0,غير موظف,مفقود,82.4


In [163]:
encoder= ce.OneHotEncoder(cols='Completed Degree',return_df=True,use_cat_names=True)
df=encoder.fit_transform(df)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region_منطقة الرياض,Home Region_المنطقة الشرقية,Home Region_منطقة مكة المكرمة,Home Region_منطقة عسير,Home Region_منطقة تبوك,Home Region_منطقة المدينة المنورة,Home Region_منطقة الحدود الشمالية,...,Completed Degree_لا,Completed Degree_نعم,Level of Education,Education Speaciality,College_تكنولوجيا الاتصالات والمعلومات,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,1,0,0,0,0,0,0,...,1,0,البكالوريوس,علوم حاسب,1,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,1,0,0,0,0,0,0,...,1,0,البكالوريوس,تقنية المعلومات,1,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,1,0,0,0,0,0,0,...,0,1,البكالوريوس,شبكات الحاسب الآلي,1,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,1,0,0,0,0,0,0,...,0,1,البكالوريوس,Biology,1,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,1,0,0,0,0,0,0,...,0,1,الدبلوم,تقنية المعلومات,1,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,1,0,0,0,0,0,0,...,0,1,البكالوريوس,علوم حاسب,1,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,1,0,0,0,0,0,0,...,0,1,البكالوريوس,الهندسة الكهربائية,0,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,1,0,0,0,0,0,0,...,0,1,البكالوريوس,شبكات حاسب,1,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,1,0,0,0,0,0,0,...,1,0,البكالوريوس,نظم معلومات,1,4.12,5.0,غير موظف,مفقود,82.4


In [164]:
df.drop(columns=['Completed Degree_لا'], inplace=True)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region_منطقة الرياض,Home Region_المنطقة الشرقية,Home Region_منطقة مكة المكرمة,Home Region_منطقة عسير,Home Region_منطقة تبوك,Home Region_منطقة المدينة المنورة,Home Region_منطقة الحدود الشمالية,...,Program Days,Completed Degree_نعم,Level of Education,Education Speaciality,College_تكنولوجيا الاتصالات والمعلومات,University Degree Score,University Degree Score System,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,1,0,0,0,0,0,0,...,5,0,البكالوريوس,علوم حاسب,1,3.72,4.0,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,1,0,0,0,0,0,0,...,19,0,البكالوريوس,تقنية المعلومات,1,2.00,4.0,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,1,0,0,0,0,0,0,...,12,1,البكالوريوس,شبكات الحاسب الآلي,1,3.72,5.0,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,1,0,0,0,0,0,0,...,5,1,البكالوريوس,Biology,1,4.47,5.0,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,1,0,0,0,0,0,0,...,33,1,الدبلوم,تقنية المعلومات,1,4.46,5.0,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,1,0,0,0,0,0,0,...,5,1,البكالوريوس,علوم حاسب,1,2.55,5.0,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,1,0,0,0,0,0,0,...,47,1,البكالوريوس,الهندسة الكهربائية,0,3.00,4.0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,1,0,0,0,0,0,0,...,5,1,البكالوريوس,شبكات حاسب,1,3.00,5.0,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,1,0,0,0,0,0,0,...,173,0,البكالوريوس,نظم معلومات,1,4.12,5.0,غير موظف,مفقود,82.4


In [165]:
# Since Degree_Score_Pct is created, we don't need University Degree Score and University Degree Score System anymore
df.drop(columns=['University Degree Score'], inplace=True)
df.drop(columns=['University Degree Score System'], inplace=True)
df

Unnamed: 0,Student ID,Age,Gender_ذكر,Home Region_منطقة الرياض,Home Region_المنطقة الشرقية,Home Region_منطقة مكة المكرمة,Home Region_منطقة عسير,Home Region_منطقة تبوك,Home Region_منطقة المدينة المنورة,Home Region_منطقة الحدود الشمالية,...,Program Start Date,Program End Date,Program Days,Completed Degree_نعم,Level of Education,Education Speaciality,College_تكنولوجيا الاتصالات والمعلومات,Employment Status,Job Type,Degree_Score_Pct
0,d8524ed6-a1b2-4f6f-9041-66eebcab899a,23.0,0,1,0,0,0,0,0,0,...,2023-10-08,2023-10-12,5,0,البكالوريوس,علوم حاسب,1,خريج,مفقود,93.0
1,5490b973-d85e-4b26-93a8-ecc11c47a5a0,31.0,0,1,0,0,0,0,0,0,...,2023-07-16,2023-08-03,19,0,البكالوريوس,تقنية المعلومات,1,موظف,مفقود,50.0
2,3c1d99c8-f25b-4198-b904-aacb15164888,29.0,0,1,0,0,0,0,0,0,...,2022-12-25,2023-01-05,12,1,البكالوريوس,شبكات الحاسب الآلي,1,موظف,دوام كامل,74.4
3,9e57ee90-2d60-48b8-91a1-7caa49f03810,23.0,0,1,0,0,0,0,0,0,...,2023-03-19,2023-03-23,5,1,البكالوريوس,Biology,1,غير موظف,مفقود,89.4
4,a11b482b-6cc3-4e1a-8b95-60ab2e42097a,30.0,0,1,0,0,0,0,0,0,...,2023-11-12,2023-12-14,33,1,الدبلوم,تقنية المعلومات,1,غير موظف,دوام كامل,89.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,c4bd99a6-2902-4822-947e-2a3aab3f1e92,36.0,1,1,0,0,0,0,0,0,...,2023-08-13,2023-08-17,5,1,البكالوريوس,علوم حاسب,1,موظف,مفقود,51.0
814,2e057846-ee90-4b31-b6e7-c1c5122f4cbd,29.0,1,1,0,0,0,0,0,0,...,2023-11-26,2024-01-11,47,1,البكالوريوس,الهندسة الكهربائية,0,موظف,مفقود,75.0
815,8f9ff50d-510c-4d56-b0eb-60c2fb1c5e84,32.0,1,1,0,0,0,0,0,0,...,2023-07-23,2023-07-27,5,1,البكالوريوس,شبكات حاسب,1,موظف,مفقود,60.0
816,8a49b6cd-e7c3-460b-8126-a419cf995e6e,28.0,0,1,0,0,0,0,0,0,...,2023-05-14,2023-11-02,173,0,البكالوريوس,نظم معلومات,1,غير موظف,مفقود,82.4


In [166]:
df.to_pickle('Cleaned_test.pickle')