In [284]:
import pandas as pd 
import numpy as np
from lightgbm import LGBMClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score

In [285]:
def count_encoder(train,test,features:list):
    for feature in features:
        for df in (train,test):
            df[feature] = df[feature].map(df[feature].value_counts(normalize=True))


def agg_count(train,test,features:list,aggregation_feature:str,func):
    for feature in features:
        for df in (train,test):
            df[feature+'agg_count'] = df[feature].groupby(aggregation_feature).agg(func)


def mode (train,test,feature,aggregation_feature):
    for df in (train,test):
        df[feature+'_mode_'+aggregation_feature] = df[aggregation_feature].map(df.group_by(aggregation_feature)[feature].mode())


def stats_with_features(train,test,func,*feat):
    for df in (train,test):
        name = ''
        for f in feat:
            name += f
        df[name+func] = df[list(feat)].agg(func,axis=1)

def stats_by_feat(train,test,feat_to_stat,feat_to_group,func):
    for df in (train,test):
        df[feat_to_stat+feat_to_group+func] = df[feat_to_group].map(df.groupby(feat_to_group)[feat_to_stat].aggregate(func))

def to_date(train,test,*feats):
    for df in (train,test):
        for feature in feats:
            df[feature] = pd.to_datetime(df[feature])

def date(train,test,date):
    for df in (train,test):
        df[date+'day'] = df[date].dt.dayofyear
        df[date+'month'] = df[date].dt.month
        df[date+'year'] = df[date].dt.year

In [286]:
pd.options.display.max_columns=69

In [287]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

In [288]:
ID = test['Student ID']

for df in (train,test):
    df.drop(columns=['Student ID','Program ID'],inplace=True)

In [289]:
train

Unnamed: 0,Age,Gender,Home Region,Home City,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,Program Presentation Method,Program Start Date,Program End Date,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working,Y
0,37.0,ذكر,منطقة الرياض,الرياض,PCRF,PCRF,,,حضوري,2023-05-28,2023-06-08,12,نعم,البكالوريوس,هندسة حاسب الالي,,2.44,4.0,غير موظف,,,0
1,21.0,ذكر,منطقة عسير,خميس مشيط,APMR,SWPS,,متوسط,حضوري,2023-04-02,2023-04-06,5,نعم,البكالوريوس,الإذاعة والتلفزيون والفيلم,الفنون والعلوم الإنسانية,5.00,5.0,طالب,,,0
2,24.0,ذكر,منطقة الرياض,الرياض,APMR,,,متوسط,حضوري,2023-07-23,2023-09-14,54,نعم,البكالوريوس,Information Technology,,3.50,5.0,موظف,,,0
3,23.0,ذكر,منطقة الرياض,الرياض,TOSL,TOSL,,,حضوري,2023-07-23,2023-08-24,33,نعم,البكالوريوس,حوسبة تطبيقية - (مسار شبكات الحاسب),,3.55,5.0,خريج,,,0
4,23.0,ذكر,منطقة الرياض,الرياض,CAUF,SWPS,تقليدية,متوسط,حضوري,2023-04-30,2023-06-22,54,لا,البكالوريوس,نظم المعلومات الحاسوبية,تكنولوجيا الاتصالات والمعلومات,4.00,5.0,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6543,31.0,أنثى,منطقة الرياض,الرياض,CAUF,SWPS,,,حضوري,2023-04-02,2023-06-06,66,نعم,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.40,5.0,,,,0
6544,27.0,أنثى,منطقة القصيم,بريدة,PCRF,PCRF,,مبتدئ,عن بعد,2023-05-14,2023-05-25,12,نعم,البكالوريوس,علوم الحاسب,,4.46,5.0,موظف,,,0
6545,24.0,أنثى,منطقة الرياض,الرياض,PCRF,PCRF,تقليدية,مبتدئ,حضوري,2023-07-16,2023-07-20,5,لا,البكالوريوس,نظم المعلومات,تكنولوجيا الاتصالات والمعلومات,4.93,5.0,موظف,دوام كامل,Yes,1
6546,25.0,ذكر,منطقة الرياض,الرياض,PCRF,PCRF,,متوسط,حضوري,2024-01-07,2024-01-18,12,نعم,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.00,4.0,غير موظف,تدريب,No,0


In [290]:
test

Unnamed: 0,Age,Gender,Home Region,Home City,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,Program Presentation Method,Program Start Date,Program End Date,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working
0,23.0,أنثى,منطقة الرياض,الرياض,CAUF,SWPS,تقليدية,متوسط,عن بعد,2023-10-08,2023-10-12,5,لا,البكالوريوس,علوم الحاسب الالي,,3.72,4.0,خريج,,
1,31.0,أنثى,منطقة الرياض,الرياض,PCRF,PCRF,تقليدية,مبتدئ,عن بعد,2023-07-16,2023-08-03,19,لا,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,2.00,4.0,,,
2,29.0,أنثى,منطقة الرياض,الرياض,CAUF,SWPS,,,عن بعد,2022-12-25,2023-01-05,12,نعم,البكالوريوس,شبكات الحاسب الآلي,تكنولوجيا الاتصالات والمعلومات,3.72,5.0,موظف,دوام كامل,Yes
3,23.0,أنثى,منطقة الرياض,الرياض,PCRF,PCRF,,متقدم,حضوري,2023-03-19,2023-03-23,5,نعم,البكالوريوس,Biology,,4.47,5.0,غير موظف,,
4,30.0,أنثى,منطقة الرياض,الرياض,TOSL,,داعمة,متقدم,حضوري,2023-11-12,2023-12-14,33,نعم,الدبلوم,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.46,5.0,غير موظف,دوام كامل,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,36.0,ذكر,منطقة الرياض,الرياض,GRST,INFA,,متوسط,حضوري,2023-08-13,2023-08-17,5,نعم,البكالوريوس,علوم حاسب,,2.55,5.0,موظف,,
814,29.0,ذكر,منطقة الرياض,الرياض,CAUF,CRDP,داعمة,مبتدئ,حضوري,2023-11-26,2024-01-11,47,نعم,البكالوريوس,الهندسة الكهربائية,الهندسة والتصنيع والبناء,3.00,4.0,,,
815,32.0,ذكر,منطقة الرياض,الرياض,GRST,INFA,تقليدية,متوسط,حضوري,2023-07-23,2023-07-27,5,نعم,البكالوريوس,شبكات حاسب,,3.00,5.0,موظف,,
816,28.0,أنثى,منطقة الرياض,الرياض,PCRF,PCRF,تقليدية,متوسط,عن بعد,2023-05-14,2023-11-02,173,لا,البكالوريوس,نظم معلومات حاسوبية,,4.12,5.0,غير موظف,,


In [291]:
for df in (train,test):
    df['Gender']=df['Gender'].map({'أنثى':0,'ذكر':1})

In [292]:

cat_cols = list(train.select_dtypes(exclude='number').columns)
for col in cat_cols:
    print(col,train[col].nunique())

Home Region 13
Home City 92
Program Main Category Code 10
Program Sub Category Code 11
Technology Type 3
Program Skill Level 3
Program Presentation Method 2
Program Start Date 77
Program End Date 88
Completed Degree 2
Level of Education 5
Education Speaciality 871
College 9
Employment Status 6
Job Type 4
Still Working 2


In [293]:
train['Education Speaciality']

0                          هندسة حاسب الالي
1                الإذاعة والتلفزيون والفيلم
2                    Information Technology
3       حوسبة تطبيقية - (مسار شبكات الحاسب)
4                   نظم المعلومات الحاسوبية
                       ...                 
6543                        تقنية المعلومات
6544                            علوم الحاسب
6545                          نظم المعلومات
6546                        تقنية المعلومات
6547                   دراسات وقضايا معاصرة
Name: Education Speaciality, Length: 6548, dtype: object

In [294]:
train

Unnamed: 0,Age,Gender,Home Region,Home City,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,Program Presentation Method,Program Start Date,Program End Date,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working,Y
0,37.0,1,منطقة الرياض,الرياض,PCRF,PCRF,,,حضوري,2023-05-28,2023-06-08,12,نعم,البكالوريوس,هندسة حاسب الالي,,2.44,4.0,غير موظف,,,0
1,21.0,1,منطقة عسير,خميس مشيط,APMR,SWPS,,متوسط,حضوري,2023-04-02,2023-04-06,5,نعم,البكالوريوس,الإذاعة والتلفزيون والفيلم,الفنون والعلوم الإنسانية,5.00,5.0,طالب,,,0
2,24.0,1,منطقة الرياض,الرياض,APMR,,,متوسط,حضوري,2023-07-23,2023-09-14,54,نعم,البكالوريوس,Information Technology,,3.50,5.0,موظف,,,0
3,23.0,1,منطقة الرياض,الرياض,TOSL,TOSL,,,حضوري,2023-07-23,2023-08-24,33,نعم,البكالوريوس,حوسبة تطبيقية - (مسار شبكات الحاسب),,3.55,5.0,خريج,,,0
4,23.0,1,منطقة الرياض,الرياض,CAUF,SWPS,تقليدية,متوسط,حضوري,2023-04-30,2023-06-22,54,لا,البكالوريوس,نظم المعلومات الحاسوبية,تكنولوجيا الاتصالات والمعلومات,4.00,5.0,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6543,31.0,0,منطقة الرياض,الرياض,CAUF,SWPS,,,حضوري,2023-04-02,2023-06-06,66,نعم,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.40,5.0,,,,0
6544,27.0,0,منطقة القصيم,بريدة,PCRF,PCRF,,مبتدئ,عن بعد,2023-05-14,2023-05-25,12,نعم,البكالوريوس,علوم الحاسب,,4.46,5.0,موظف,,,0
6545,24.0,0,منطقة الرياض,الرياض,PCRF,PCRF,تقليدية,مبتدئ,حضوري,2023-07-16,2023-07-20,5,لا,البكالوريوس,نظم المعلومات,تكنولوجيا الاتصالات والمعلومات,4.93,5.0,موظف,دوام كامل,Yes,1
6546,25.0,1,منطقة الرياض,الرياض,PCRF,PCRF,,متوسط,حضوري,2024-01-07,2024-01-18,12,نعم,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.00,4.0,غير موظف,تدريب,No,0


# Feature Engineering

In [295]:
to_date(train,test,'Program Start Date')
to_date(train,test,'Program End Date')

In [296]:
date(train,test,'Program Start Date')
date(train,test,'Program End Date')

In [297]:
for df in (train,test):
    df.drop(columns=['Program Start Date','Program End Date','Program Start Dateyear','Program End Dateyear'],inplace=True)

In [298]:
train

Unnamed: 0,Age,Gender,Home Region,Home City,Program Main Category Code,Program Sub Category Code,Technology Type,Program Skill Level,Program Presentation Method,Program Days,Completed Degree,Level of Education,Education Speaciality,College,University Degree Score,University Degree Score System,Employment Status,Job Type,Still Working,Y,Program Start Dateday,Program Start Datemonth,Program End Dateday,Program End Datemonth
0,37.0,1,منطقة الرياض,الرياض,PCRF,PCRF,,,حضوري,12,نعم,البكالوريوس,هندسة حاسب الالي,,2.44,4.0,غير موظف,,,0,148,5,159,6
1,21.0,1,منطقة عسير,خميس مشيط,APMR,SWPS,,متوسط,حضوري,5,نعم,البكالوريوس,الإذاعة والتلفزيون والفيلم,الفنون والعلوم الإنسانية,5.00,5.0,طالب,,,0,92,4,96,4
2,24.0,1,منطقة الرياض,الرياض,APMR,,,متوسط,حضوري,54,نعم,البكالوريوس,Information Technology,,3.50,5.0,موظف,,,0,204,7,257,9
3,23.0,1,منطقة الرياض,الرياض,TOSL,TOSL,,,حضوري,33,نعم,البكالوريوس,حوسبة تطبيقية - (مسار شبكات الحاسب),,3.55,5.0,خريج,,,0,204,7,236,8
4,23.0,1,منطقة الرياض,الرياض,CAUF,SWPS,تقليدية,متوسط,حضوري,54,لا,البكالوريوس,نظم المعلومات الحاسوبية,تكنولوجيا الاتصالات والمعلومات,4.00,5.0,,,,0,120,4,173,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6543,31.0,0,منطقة الرياض,الرياض,CAUF,SWPS,,,حضوري,66,نعم,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.40,5.0,,,,0,92,4,157,6
6544,27.0,0,منطقة القصيم,بريدة,PCRF,PCRF,,مبتدئ,عن بعد,12,نعم,البكالوريوس,علوم الحاسب,,4.46,5.0,موظف,,,0,134,5,145,5
6545,24.0,0,منطقة الرياض,الرياض,PCRF,PCRF,تقليدية,مبتدئ,حضوري,5,لا,البكالوريوس,نظم المعلومات,تكنولوجيا الاتصالات والمعلومات,4.93,5.0,موظف,دوام كامل,Yes,1,197,7,201,7
6546,25.0,1,منطقة الرياض,الرياض,PCRF,PCRF,,متوسط,حضوري,12,نعم,البكالوريوس,تقنية المعلومات,تكنولوجيا الاتصالات والمعلومات,4.00,4.0,غير موظف,تدريب,No,0,7,1,18,1


In [299]:
stats_by_feat(train,test,'University Degree Score','Home City','mean')


In [300]:
traintest = pd.concat([train,test])

In [301]:
traintest = pd.get_dummies(traintest)

In [302]:
train = traintest[:len(train)]
test = traintest[len(train):]

In [303]:
test

Unnamed: 0,Age,Gender,Program Days,University Degree Score,University Degree Score System,Y,Program Start Dateday,Program Start Datemonth,Program End Dateday,Program End Datemonth,University Degree ScoreHome Citymean,Home Region_المنطقة الشرقية,Home Region_منطقة الباحة,Home Region_منطقة الجوف,Home Region_منطقة الحدود الشمالية,Home Region_منطقة الرياض,Home Region_منطقة القصيم,Home Region_منطقة المدينة المنورة,Home Region_منطقة تبوك,Home Region_منطقة جازان,Home Region_منطقة حائل,Home Region_منطقة عسير,Home Region_منطقة مكة المكرمة,Home Region_منطقة نجران,Home City_أبها,Home City_أبو عريش,Home City_أحد المسارحة,Home City_أحد رفيدة,Home City_أملج,Home City_ابها,Home City_الأحساء,Home City_الباحة,Home City_البدائع,Home City_البكيرية,...,Education Speaciality_هندسة نظم معلومات,Education Speaciality_هندسة وأمن الشبكات,Education Speaciality_هندسه برمجيات,Education Speaciality_هندسه حاسب,Education Speaciality_هندسه حاسب الالي,Education Speaciality_هندسه حاسب وشبكات,Education Speaciality_هندسه شبكات,Education Speaciality_هندسه شبكات واتصلات,Education Speaciality_هندسه صناعيه,Education Speaciality_هندسه كهربائية,Education Speaciality_هندسه ميكانيكية,Education Speaciality_هياكل ومحركات,Education Speaciality_وسائط متعددة تفاعلية,College_الأعمال والإدارة والقانون,College_البرامج والمؤهلات العامة,College_التعليم,College_الصحة والرفاة,College_العلوم الاجتماعية والصحافة والإعلام,College_العلوم الطبيعية والرياضيات والإحصاء,College_الفنون والعلوم الإنسانية,College_الهندسة والتصنيع والبناء,College_تكنولوجيا الاتصالات والمعلومات,Employment Status_خريج,Employment Status_طالب,Employment Status_عمل حر,Employment Status_غير موظف,Employment Status_موظف,Employment Status_موظف - طالب,Job Type_تدريب,Job Type_تطوع,Job Type_دوام جزئي,Job Type_دوام كامل,Still Working_No,Still Working_Yes
0,23.0,0,5,3.72,4.0,,281,10,285,10,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
1,31.0,0,19,2.00,4.0,,197,7,215,8,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
2,29.0,0,12,3.72,5.0,,359,12,5,1,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,True,False,False,False,False,True,False,True
3,23.0,0,5,4.47,5.0,,78,3,82,3,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
4,30.0,0,33,4.46,5.0,,316,11,348,12,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,True,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,36.0,1,5,2.55,5.0,,225,8,229,8,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
814,29.0,1,47,3.00,4.0,,330,11,11,1,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
815,32.0,1,5,3.00,5.0,,204,7,208,7,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
816,28.0,0,173,4.12,5.0,,134,5,306,11,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False


In [304]:
train

Unnamed: 0,Age,Gender,Program Days,University Degree Score,University Degree Score System,Y,Program Start Dateday,Program Start Datemonth,Program End Dateday,Program End Datemonth,University Degree ScoreHome Citymean,Home Region_المنطقة الشرقية,Home Region_منطقة الباحة,Home Region_منطقة الجوف,Home Region_منطقة الحدود الشمالية,Home Region_منطقة الرياض,Home Region_منطقة القصيم,Home Region_منطقة المدينة المنورة,Home Region_منطقة تبوك,Home Region_منطقة جازان,Home Region_منطقة حائل,Home Region_منطقة عسير,Home Region_منطقة مكة المكرمة,Home Region_منطقة نجران,Home City_أبها,Home City_أبو عريش,Home City_أحد المسارحة,Home City_أحد رفيدة,Home City_أملج,Home City_ابها,Home City_الأحساء,Home City_الباحة,Home City_البدائع,Home City_البكيرية,...,Education Speaciality_هندسة نظم معلومات,Education Speaciality_هندسة وأمن الشبكات,Education Speaciality_هندسه برمجيات,Education Speaciality_هندسه حاسب,Education Speaciality_هندسه حاسب الالي,Education Speaciality_هندسه حاسب وشبكات,Education Speaciality_هندسه شبكات,Education Speaciality_هندسه شبكات واتصلات,Education Speaciality_هندسه صناعيه,Education Speaciality_هندسه كهربائية,Education Speaciality_هندسه ميكانيكية,Education Speaciality_هياكل ومحركات,Education Speaciality_وسائط متعددة تفاعلية,College_الأعمال والإدارة والقانون,College_البرامج والمؤهلات العامة,College_التعليم,College_الصحة والرفاة,College_العلوم الاجتماعية والصحافة والإعلام,College_العلوم الطبيعية والرياضيات والإحصاء,College_الفنون والعلوم الإنسانية,College_الهندسة والتصنيع والبناء,College_تكنولوجيا الاتصالات والمعلومات,Employment Status_خريج,Employment Status_طالب,Employment Status_عمل حر,Employment Status_غير موظف,Employment Status_موظف,Employment Status_موظف - طالب,Job Type_تدريب,Job Type_تطوع,Job Type_دوام جزئي,Job Type_دوام كامل,Still Working_No,Still Working_Yes
0,37.0,1,12,2.44,4.0,0.0,148,5,159,6,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
1,21.0,1,5,5.00,5.0,0.0,92,4,96,4,15.447500,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,False,False
2,24.0,1,54,3.50,5.0,0.0,204,7,257,9,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
3,23.0,1,33,3.55,5.0,0.0,204,7,236,8,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
4,23.0,1,54,4.00,5.0,0.0,120,4,173,6,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6543,31.0,0,66,4.40,5.0,0.0,92,4,157,6,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
6544,27.0,0,12,4.46,5.0,0.0,134,5,145,5,5.498788,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
6545,24.0,0,5,4.93,5.0,1.0,197,7,201,7,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,True,False,False,False,False,True,False,True
6546,25.0,1,12,4.00,4.0,0.0,7,1,18,1,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,True,False,False,True,False,False,False,True,False


# EDA

In [305]:
train.describe()

Unnamed: 0,Age,Gender,Program Days,University Degree Score,University Degree Score System,Y,Program Start Dateday,Program Start Datemonth,Program End Dateday,Program End Datemonth,University Degree ScoreHome Citymean
count,6456.0,6548.0,6548.0,6467.0,6467.0,6548.0,6548.0,6548.0,6548.0,6548.0,6545.0
mean,26.831165,0.44044,19.691662,8.224432,9.773929,0.158674,181.399969,6.509316,187.382407,6.712126,8.228084
std,5.535967,0.496478,32.112061,19.120384,21.259962,0.3654,108.715441,3.544787,109.524922,3.530927,2.458955
min,18.0,0.0,3.0,0.0,4.0,0.0,1.0,1.0,4.0,1.0,0.0
25%,23.0,0.0,5.0,3.3,5.0,0.0,85.0,3.0,82.0,3.0,8.744391
50%,25.0,0.0,12.0,4.0,5.0,0.0,197.0,7.0,201.0,7.0,8.744391
75%,29.0,1.0,19.0,4.51,5.0,0.0,281.0,10.0,285.0,10.0,8.744391
max,57.0,1.0,292.0,100.0,100.0,1.0,365.0,12.0,363.0,12.0,43.144286


In [306]:
train['Y'].value_counts()

Y
0.0    5509
1.0    1039
Name: count, dtype: int64

In [307]:
train

Unnamed: 0,Age,Gender,Program Days,University Degree Score,University Degree Score System,Y,Program Start Dateday,Program Start Datemonth,Program End Dateday,Program End Datemonth,University Degree ScoreHome Citymean,Home Region_المنطقة الشرقية,Home Region_منطقة الباحة,Home Region_منطقة الجوف,Home Region_منطقة الحدود الشمالية,Home Region_منطقة الرياض,Home Region_منطقة القصيم,Home Region_منطقة المدينة المنورة,Home Region_منطقة تبوك,Home Region_منطقة جازان,Home Region_منطقة حائل,Home Region_منطقة عسير,Home Region_منطقة مكة المكرمة,Home Region_منطقة نجران,Home City_أبها,Home City_أبو عريش,Home City_أحد المسارحة,Home City_أحد رفيدة,Home City_أملج,Home City_ابها,Home City_الأحساء,Home City_الباحة,Home City_البدائع,Home City_البكيرية,...,Education Speaciality_هندسة نظم معلومات,Education Speaciality_هندسة وأمن الشبكات,Education Speaciality_هندسه برمجيات,Education Speaciality_هندسه حاسب,Education Speaciality_هندسه حاسب الالي,Education Speaciality_هندسه حاسب وشبكات,Education Speaciality_هندسه شبكات,Education Speaciality_هندسه شبكات واتصلات,Education Speaciality_هندسه صناعيه,Education Speaciality_هندسه كهربائية,Education Speaciality_هندسه ميكانيكية,Education Speaciality_هياكل ومحركات,Education Speaciality_وسائط متعددة تفاعلية,College_الأعمال والإدارة والقانون,College_البرامج والمؤهلات العامة,College_التعليم,College_الصحة والرفاة,College_العلوم الاجتماعية والصحافة والإعلام,College_العلوم الطبيعية والرياضيات والإحصاء,College_الفنون والعلوم الإنسانية,College_الهندسة والتصنيع والبناء,College_تكنولوجيا الاتصالات والمعلومات,Employment Status_خريج,Employment Status_طالب,Employment Status_عمل حر,Employment Status_غير موظف,Employment Status_موظف,Employment Status_موظف - طالب,Job Type_تدريب,Job Type_تطوع,Job Type_دوام جزئي,Job Type_دوام كامل,Still Working_No,Still Working_Yes
0,37.0,1,12,2.44,4.0,0.0,148,5,159,6,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
1,21.0,1,5,5.00,5.0,0.0,92,4,96,4,15.447500,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,False,False
2,24.0,1,54,3.50,5.0,0.0,204,7,257,9,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
3,23.0,1,33,3.55,5.0,0.0,204,7,236,8,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
4,23.0,1,54,4.00,5.0,0.0,120,4,173,6,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6543,31.0,0,66,4.40,5.0,0.0,92,4,157,6,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
6544,27.0,0,12,4.46,5.0,0.0,134,5,145,5,5.498788,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
6545,24.0,0,5,4.93,5.0,1.0,197,7,201,7,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,True,False,False,False,False,True,False,True
6546,25.0,1,12,4.00,4.0,0.0,7,1,18,1,8.744391,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,True,False,False,True,False,False,False,True,False


In [308]:
test

Unnamed: 0,Age,Gender,Program Days,University Degree Score,University Degree Score System,Y,Program Start Dateday,Program Start Datemonth,Program End Dateday,Program End Datemonth,University Degree ScoreHome Citymean,Home Region_المنطقة الشرقية,Home Region_منطقة الباحة,Home Region_منطقة الجوف,Home Region_منطقة الحدود الشمالية,Home Region_منطقة الرياض,Home Region_منطقة القصيم,Home Region_منطقة المدينة المنورة,Home Region_منطقة تبوك,Home Region_منطقة جازان,Home Region_منطقة حائل,Home Region_منطقة عسير,Home Region_منطقة مكة المكرمة,Home Region_منطقة نجران,Home City_أبها,Home City_أبو عريش,Home City_أحد المسارحة,Home City_أحد رفيدة,Home City_أملج,Home City_ابها,Home City_الأحساء,Home City_الباحة,Home City_البدائع,Home City_البكيرية,...,Education Speaciality_هندسة نظم معلومات,Education Speaciality_هندسة وأمن الشبكات,Education Speaciality_هندسه برمجيات,Education Speaciality_هندسه حاسب,Education Speaciality_هندسه حاسب الالي,Education Speaciality_هندسه حاسب وشبكات,Education Speaciality_هندسه شبكات,Education Speaciality_هندسه شبكات واتصلات,Education Speaciality_هندسه صناعيه,Education Speaciality_هندسه كهربائية,Education Speaciality_هندسه ميكانيكية,Education Speaciality_هياكل ومحركات,Education Speaciality_وسائط متعددة تفاعلية,College_الأعمال والإدارة والقانون,College_البرامج والمؤهلات العامة,College_التعليم,College_الصحة والرفاة,College_العلوم الاجتماعية والصحافة والإعلام,College_العلوم الطبيعية والرياضيات والإحصاء,College_الفنون والعلوم الإنسانية,College_الهندسة والتصنيع والبناء,College_تكنولوجيا الاتصالات والمعلومات,Employment Status_خريج,Employment Status_طالب,Employment Status_عمل حر,Employment Status_غير موظف,Employment Status_موظف,Employment Status_موظف - طالب,Job Type_تدريب,Job Type_تطوع,Job Type_دوام جزئي,Job Type_دوام كامل,Still Working_No,Still Working_Yes
0,23.0,0,5,3.72,4.0,,281,10,285,10,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
1,31.0,0,19,2.00,4.0,,197,7,215,8,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
2,29.0,0,12,3.72,5.0,,359,12,5,1,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,True,False,False,False,False,True,False,True
3,23.0,0,5,4.47,5.0,,78,3,82,3,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False
4,30.0,0,33,4.46,5.0,,316,11,348,12,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,True,False,False,False,False,False,True,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
813,36.0,1,5,2.55,5.0,,225,8,229,8,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
814,29.0,1,47,3.00,4.0,,330,11,11,1,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
815,32.0,1,5,3.00,5.0,,204,7,208,7,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False
816,28.0,0,173,4.12,5.0,,134,5,306,11,9.476438,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False


# Validation

In [309]:
lgbm = LGBMClassifier(random_state=42)


In [310]:
stratfiedkfold = StratifiedKFold(shuffle=True,random_state=69)
f1 = []
for v_train,v_test in stratfiedkfold.split(train.drop(columns='Y'),train['Y']):
    train_v, test_V= train.iloc[v_train],train.iloc[v_test]
    lgbm.fit(np.array(train_v.drop(columns='Y')),train_v['Y'])
    pred = lgbm.predict(np.array(test_V.drop(columns='Y')))
    score = f1_score(pred,test_V['Y'])
    print(score)
    f1.append(score)
            

[LightGBM] [Info] Number of positive: 831, number of negative: 4407
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 786
[LightGBM] [Info] Number of data points in the train set: 5238, number of used features: 121
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.158648 -> initscore=-1.668320
[LightGBM] [Info] Start training from score -1.668320
0.6187845303867403
[LightGBM] [Info] Number of positive: 831, number of negative: 4407
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 795
[LightGBM] [Info] Number of data points in the train set: 5238, number of used features: 122
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.158648 -> initscore=-1.668320
[LightGBM] [Info] Start training from score -1.668320
0.6055555555555555
[LightGBM] [Info] Number of positive: 831, number of negative:

In [311]:
np.array(f1).mean()

0.5917566419342132

In [312]:
lgbm.fit(np.array(train.drop(columns='Y')),train['Y'])

[LightGBM] [Info] Number of positive: 1039, number of negative: 5509
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 812
[LightGBM] [Info] Number of data points in the train set: 6548, number of used features: 130
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.158674 -> initscore=-1.668124
[LightGBM] [Info] Start training from score -1.668124


In [313]:
pred = lgbm.predict(np.array(test.drop(columns='Y')))

In [314]:
sub = pd.DataFrame({
    'ID':range(1,len(pred)+1),
    'Y':pred
})

In [315]:
sub.to_csv('submission.csv',index=False)