# Extreme Gradient Boosting (XGBoost) Algorithm
### Evan Julian Sudarman
### 2073008
### Sistem Informasi (S1)
### Last Editing: 18/05/2023

## Singkatnya tentang XGBoost

### What (Apa itu XGBoost?)
XGBoost (Extreme Gradient Boosting) adalah sebuah algoritma Machine Learning yang digunakan untuk memprediksi nilai target berdasarkan fitur atau atribut yang tersedia. Algoritma ini merupakan salah satu teknik yang populer dalam memecahkan masalah regresi dan klasifikasi.

### Why (Mengapa XGBoost digunakan?)
XGBoost digunakan karena kemampuannya dalam memberikan performa prediksi yang tinggi dan efektif dalam memproses data dengan jumlah fitur yang besar. XGBoost juga dilengkapi dengan berbagai fitur seperti regresi, klasifikasi, dan pembelajaran ranking.

### Who (Siapa yang menggunakan XGBoost?)
XGBoost digunakan oleh para ilmuwan data, data analyst, dan praktisi Machine Learning di berbagai industri seperti teknologi, keuangan, kesehatan, dan lain-lain. Algoritma ini juga digunakan dalam berbagai kompetisi Machine Learning.

### When (Kapan XGBoost digunakan?)
XGBoost digunakan ketika terdapat masalah yang memerlukan prediksi nilai target berdasarkan fitur yang tersedia, terutama pada masalah regresi dan klasifikasi dengan jumlah fitur yang besar.

### Where (Di mana XGBoost digunakan?)
XGBoost digunakan di berbagai industri seperti teknologi, keuangan, kesehatan, dan lain-lain. Algoritma ini juga digunakan dalam berbagai kompetisi Machine Learning, serta bisa diimplementasikan pada berbagai platform dan bahasa pemrograman seperti Python, R, dan Java.

### How (Bagaimana XGBoost bekerja?)
XGBoost bekerja dengan cara membangun sekumpulan model Machine Learning sederhana, seperti decision tree, dan menggabungkan hasil prediksi dari setiap model tersebut secara adaptif dan iteratif. Proses ini dilakukan dengan tujuan untuk meminimalkan kesalahan prediksi dan meningkatkan performa model secara keseluruhan. Algoritma XGBoost juga menggunakan teknik regularisasi dan pruning untuk menghindari overfitting dan memperbaiki generalisasi model.

## Kenapa menggunakan XGBoost
XGBoost (Extreme Gradient Boosting) adalah salah satu algoritma machine learning yang populer untuk masalah regresi dan klasifikasi. Berikut adalah beberapa keunggulan algoritma XGBoost:

Skor akurasi yang tinggi: XGBoost memiliki performa yang sangat baik dalam masalah klasifikasi dan regresi. Hal ini dikarenakan XGBoost menggunakan teknik boosting tree, yaitu menggabungkan beberapa pohon keputusan yang lemah menjadi satu model yang kuat.

Kecepatan training yang cepat: XGBoost dirancang untuk mengoptimalkan kecepatan training. XGBoost dapat memproses set data besar dengan cepat dan efisien. Selain itu, XGBoost menggunakan teknik gradient boosting yang memungkinkan model untuk menghasilkan prediksi secara cepat.

Mengatasi overfitting: Overfitting adalah masalah umum dalam machine learning. XGBoost mempunyai fitur-fitur yang memungkinkan model untuk mencegah overfitting seperti regularization dan early stopping.

Mendukung berbagai jenis data: XGBoost dapat digunakan untuk berbagai jenis data seperti data tabular, gambar, dan teks. Selain itu, XGBoost dapat bekerja dengan baik dalam data dengan jumlah fitur yang besar.

Interpretabilitas yang baik: XGBoost memiliki kemampuan untuk memberikan insight tentang feature yang penting dalam mempengaruhi hasil prediksi. Dengan kata lain, XGBoost dapat memberikan penjelasan tentang apa yang menjadi faktor penting dalam mempengaruhi hasil prediksi.

Mendukung parallel processing: XGBoost dapat dijalankan pada berbagai sistem dan mendukung parallel processing. Hal ini memungkinkan XGBoost untuk memproses data dengan cepat dan efisien.

In [31]:
# Melakukan Instalasi Modul XGBoost, karena model XGB tidak ada dalam modul scikit learn, dia memiliki modul tersendiri.
!pip install xgboost



You should consider upgrading via the 'c:\users\asus\anaconda3\python.exe -m pip install --upgrade pip' command.


In [15]:
import pandas as pd
import xgboost as xgb
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, KFold
from sklearn.model_selection import StratifiedKFold

In [16]:
# Import dataset menggunakan pandas dataframe.
data = pd.read_csv('dataset.csv')
# Variable X sebagai feature dan y sebagai target.
X, y = data.iloc[:,:-1], data.iloc[:,-1]
"""
- iloc: adalah metode pandas yang digunakan untuk mengindeks baris dan kolom berdasarkan lokasi.
- Variabel X:
data.iloc[:,:-1]
Mengambil semua baris dan kolom kecuali kolom terakhir dari objek DataFrame data. Titik dua yang pertama memiliki arti
mengambil setiap baris dan kolom. Sementara titik dua yang kedua berarti akan mengecualikan 1 kolom terakhir.
- Variabel y:
data.iloc[:,-1]
Mengambil semua baris dari kolom terakhir.
"""

'\n- iloc: adalah metode pandas yang digunakan untuk mengindeks baris dan kolom berdasarkan lokasi.\n- Variabel X:\ndata.iloc[:,:-1]\nMengambil semua baris dan kolom kecuali kolom terakhir dari objek DataFrame data. Titik dua yang pertama memiliki arti\nmengambil setiap baris dan kolom. Sementara titik dua yang kedua berarti akan mengecualikan 1 kolom terakhir.\n- Variabel y:\ndata.iloc[:,-1]\nMengambil semua baris dari kolom terakhir.\n'

In [17]:
y

0        Dropout
1       Graduate
2        Dropout
3       Graduate
4       Graduate
          ...   
4419    Graduate
4420     Dropout
4421     Dropout
4422    Graduate
4423    Graduate
Name: Target, Length: 4424, dtype: object

In [18]:
X

Unnamed: 0,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Nacionality,Mother's qualification,Father's qualification,Mother's occupation,...,Curricular units 1st sem (without evaluations),Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP
0,1,8,5,2,1,1,1,13,10,6,...,0,0,0,0,0,0.000000,0,10.8,1.4,1.74
1,1,6,1,11,1,1,1,1,3,4,...,0,0,6,6,6,13.666667,0,13.9,-0.3,0.79
2,1,1,5,5,1,1,1,22,27,10,...,0,0,6,0,0,0.000000,0,10.8,1.4,1.74
3,1,8,2,15,1,1,1,23,27,6,...,0,0,6,10,5,12.400000,0,9.4,-0.8,-3.12
4,2,12,1,3,0,1,1,22,28,10,...,0,0,6,6,6,13.000000,0,13.9,-0.3,0.79
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4419,1,1,6,15,1,1,1,1,1,6,...,0,0,6,8,5,12.666667,0,15.5,2.8,-4.06
4420,1,1,2,15,1,1,19,1,1,10,...,0,0,6,6,2,11.000000,0,11.1,0.6,2.02
4421,1,1,1,12,1,1,1,22,27,10,...,0,0,8,9,1,13.500000,0,13.9,-0.3,0.79
4422,1,1,1,9,1,1,1,22,27,8,...,0,0,5,6,5,12.000000,0,9.4,-0.8,-3.12


In [19]:
data

Unnamed: 0,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Nacionality,Mother's qualification,Father's qualification,Mother's occupation,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
0,1,8,5,2,1,1,1,13,10,6,...,0,0,0,0,0.000000,0,10.8,1.4,1.74,Dropout
1,1,6,1,11,1,1,1,1,3,4,...,0,6,6,6,13.666667,0,13.9,-0.3,0.79,Graduate
2,1,1,5,5,1,1,1,22,27,10,...,0,6,0,0,0.000000,0,10.8,1.4,1.74,Dropout
3,1,8,2,15,1,1,1,23,27,6,...,0,6,10,5,12.400000,0,9.4,-0.8,-3.12,Graduate
4,2,12,1,3,0,1,1,22,28,10,...,0,6,6,6,13.000000,0,13.9,-0.3,0.79,Graduate
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4419,1,1,6,15,1,1,1,1,1,6,...,0,6,8,5,12.666667,0,15.5,2.8,-4.06,Graduate
4420,1,1,2,15,1,1,19,1,1,10,...,0,6,6,2,11.000000,0,11.1,0.6,2.02,Dropout
4421,1,1,1,12,1,1,1,22,27,10,...,0,8,9,1,13.500000,0,13.9,-0.3,0.79,Dropout
4422,1,1,1,9,1,1,1,22,27,8,...,0,5,6,5,12.000000,0,9.4,-0.8,-3.12,Graduate


In [20]:
drop = data['Target'].value_counts()['Dropout']
enroll = data['Target'].value_counts()['Enrolled']
graduate = data['Target'].value_counts()['Graduate']
print("Jumlah data dengan nilai dropout:", drop)
print("Jumlah data dengan nilai enrolled:", enroll)
print("Jumlah data dengan nilai graduate:", graduate)

Jumlah data dengan nilai dropout: 1421
Jumlah data dengan nilai enrolled: 794
Jumlah data dengan nilai graduate: 2209


## Parameter Modeling XGB dan masing-masing fungsinya
### - learning_rate:
Parameter ini mengontrol ukuran langkah yang diambil dalam setiap iterasi selama pelatihan model. Semakin kecil nilai learning rate, semakin lambat konvergensi, tetapi lebih akurat hasilnya.

### - max_depth:
Parameter ini mengontrol kedalaman maksimum pohon dalam model. Semakin dalam pohon, semakin rumit modelnya. Namun, jika terlalu dalam, model dapat menjadi overfitting pada data training.

### - n_estimators:
Parameter ini menentukan jumlah pohon dalam model. Semakin banyak pohon, semakin kuat model. Namun, nilai ini juga akan mempengaruhi waktu pelatihan model.

### - colsample_bytree:
Parameter ini menentukan proporsi fitur yang dipilih secara acak untuk setiap pohon dalam model. Ini membantu mengurangi overfitting dan mempercepat pelatihan.

### - alpha:
Parameter ini menentukan penalti pada bobot fitur yang besar dalam model. Hal ini membantu mengurangi overfitting dan meningkatkan generalisasi model.

### - objective:
Parameter ini menentukan jenis masalah yang ingin diselesaikan, seperti regresi, klasifikasi biner, atau multikelas.

### - eval_metric:
Parameter ini menentukan metrik evaluasi yang digunakan selama pelatihan, seperti mean squared error atau accuracy.

### - subsample:
Parameter ini menentukan proporsi sampel data yang digunakan dalam setiap iterasi selama pelatihan model. Hal ini membantu mengurangi overfitting dan mempercepat pelatihan.

### - gamma:
Parameter ini menentukan nilai ambang batas untuk memotong pohon dalam model. Semakin tinggi nilai gamma, semakin banyak pohon yang terpotong dan semakin sederhana modelnya.

### - min_child_weight:
Parameter ini menentukan bobot minimum untuk menambahkan anak simpul ke dalam pohon. Hal ini membantu mengurangi overfitting dengan memperkuat aturan pruning.

In [21]:
xgb_model = xgb.XGBClassifier(colsample_bytree=0.848007252062556, 
                              learning_rate= 0.5682837569370375, 
                              max_depth= 5, 
                              n_estimators= 100, 
                              subsample= 0.8100050604323482)

In [22]:
class_mapping = {'Dropout': 0, 'Enrolled': 1, 'Graduate': 2}
y = [class_mapping[cls] for cls in y]
# Mendefinisikan metode cross-validation (misalnya K-Fold dengan k=5)
kfold = KFold(n_splits=10, shuffle=True)

# Melakukan cross-validation dan mendapatkan skor akurasi
scores = cross_val_score(xgb_model, 
                         X, 
                         y, 
                         cv=kfold, 
                         scoring='accuracy')

In [23]:
# Menampilkan skor akurasi dari setiap fold
for i, score in enumerate(scores):
    print(f"Fold {i+1} Accuracy: {score}")

# Menampilkan rata-rata skor akurasi dari cross-validation
print("Mean Accuracy: ", scores.mean())

Fold 1 Accuracy: 0.7742663656884876
Fold 2 Accuracy: 0.7878103837471784
Fold 3 Accuracy: 0.7697516930022573
Fold 4 Accuracy: 0.7562076749435666
Fold 5 Accuracy: 0.7647058823529411
Fold 6 Accuracy: 0.7669683257918553
Fold 7 Accuracy: 0.7737556561085973
Fold 8 Accuracy: 0.755656108597285
Fold 9 Accuracy: 0.7579185520361991
Fold 10 Accuracy: 0.7760180995475113
Mean Accuracy:  0.7683058741815879


In [24]:
# SK-Fold
skfold=StratifiedKFold(n_splits=10)
scores=cross_val_score(xgb_model,X,y,cv=skfold, scoring='accuracy')
print(np.mean(scores))

0.7680918868676139


[1] 	N. A. Alshahrani, “Machine Learning in Information Systems Research: A Systematic Literature Review,” Journal of Management Information Systems, vol. 36, no. 1, pp. 11-54, 2019. 

[2] 	P. S. S. I. U. K. Maranatha, Buku Panduan Program Studi S-1 Sistem Informasi Tahun Akademik 2021-2022, Bandung: Fakultas Teknologi Informasi Universitas Kristen Maranatha, 2021. 

[3] 	H. T, T. R dan F. J, “The Elements of Statistical Learning: Data Mining, Inference, and Prediction,” Journal of the Royal Statistical Society, vol. 170, no. 2, pp. 557-557, 2007. 

[4] 	V. Realinho, J. Machado, L. Baptista dan M. V. Martins, “Predict students' dropout and academic success (1.0),” 13 December 2021. [Online]. Available: https://doi.org/10.5281/zenodo.5777340. [Diakses 26 March 2023].

[5] 	E. Alpaydin, Introduction to machine learning, Cambridge: MIT Press, 2010. 

[6] 	M. Mohri, A. Rostamizadeh dan A. Talwalkar, Foundations of machine learning., Cambridge: MITPress, 2021. 

[7] 	A. R. Rajkumar dan P. Thirunavukarasu, “Machine learning applications in big data analytics: a review,” International Journal of Advanced Intelligence Paradigms, vol. 1, no. 15, pp. 1-20, 2021. 

[8] 	R. Singh dan R. K. Gupta, “Pattern recognition techniques for machine learning: a review,” Soft Computing, vol. 13, no. 24, pp. 9651-9672, 2020. 

[9] 	I. Goodfellow, Y. Bengio dan A. Courville, Deep learning, Cambridge: MIT press, 2016. 

[10] 	F. V. G. Pedregosa, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot dan E. Duchesnay, “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, no. 12, pp. 2825-2830, 2011. 

[11] 	J. Hunter, “Matplotlib: A 2D graphics environment,” Computing in Science & Engineering, vol. 3, no. 9, pp. 90-95, 2007. 

[12] 	W. McKinney, “Data structures for statistical computing in Python,” dalam Proceedings of the 9th Python in Science Conference, 2010. 

[13] 	M. Fauzi, “aktor-Faktor yang Mempengaruhi Retensi Mahasiswa Perguruan Tinggi,” Jurnal Kajian Pendidikan dan Pengajaran, vol. 1, no. 4, pp. 1-8, 2021. 

[14] 	A. Ma’ruf dan A. S. Siregar, “Implementasi Faktor-faktor yang Mempengaruhi Retensi Mahasiswa: Studi Kasus Universitas Pembangunan Jaya.,” Jurnal Pendidikan Bisnis dan Manajemen, vol. 6, no. 1, pp. 1-10, 2020. 

[15] 	Y. Riyanto dan S. Mulyani, “Program Bimbingan dan Konseling Akademik dalam Meningkatkan Retensi Mahasiswa di Perguruan Tinggi,” Jurnal Ilmiah Psikologi Terapan, vol. 9, no. 1, pp. 45-54, 2021. 

[16] 	R. A. Saputra dan A. Lathifah, “Implementasi E-Learning dalam Meningkatkan Retensi Mahasiswa di Perguruan Tinggi,” Jurnal Ilmiah Teknologi dan Sains Terapan, vol. 5, no. 1, pp. 1-8, 2021. 

[17] 	T. Chen dan C. Guestrin, “Xgboost: A scalable tree boosting system.,” dalam In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016. 

[18] 	M. Kumar dan D. Toshniwal, “Extreme Gradient Boosting (XGBoost),” dalam Encyclopedia of Machine Learning and Data Mining, Springer, 2021. 

[19] 	C. Tianqi, “Understanding XGBoost,” arXiv preprint, 2018.

[20] 	L. Breiman, “Random forests,” Machine learning, vol. 45, no. 1, pp. 5-32, 2001. 

[21] 	Z. H. Zhou, Ensemble methods: foundations and algorithms, Shanghai: CRC press, 2012. 

[22] 	R. Caruana dan A. Niculescu-Mizil, “An empirical comparison of supervised learning algorithms,” dalam Proceedings of the 23rd international conference on Machine learning, 2006. 

[23] 	S. R. Shubham dan G. Singh, “Decision Tree Algorithm for Classification in Machine Learning: An Overview,” International Journal of Advanced Research in Computer Science, vol. 11, no. 4, pp. 23-28, 2020. 

[24] 	S. S. Ali dan S. S. Wahid, “Decision Tree Algorithm: A Comprehensive Survey,” Journal of Applied Sciences, vol. 20, no. 3, pp. 120-127, 2020. 

[25] 	S. S. Ali dan S. S. Wahid, “Overfitting Problem in Decision Tree Algorithm: A Review,” International Journal of Computer Applications, vol. 179, no. 31, pp. 7-11, 2020. 

[26] 	R. Kumar dan P. Aggarwal, “A Survey on Decision Tree Algorithm with Pruning Techniques,” Journal of Emerging Technologies and Innovative Research, vol. 7, no. 5, pp. 362-367, 2020. 

[27] 	S. S. Ali dan S. S. Wahid, “An Overview of Decision Tree Algorithm with Ensemble Learning,” Journal of Theoretical and Applied Information Technology, vol. 98, no. 23, pp. 4354-4364, 2020. 