## Hal Pertama yang dilakukan adalah mengimport semua library yang diperlukan untuk pengerjaan

In [1]:
# Library yang digunakan 
import pandas as pd
import numpy as np
from numpy import mean
from numpy import std
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, LabelEncoder, PowerTransformer
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import QuantileTransformer

## Memanggil dan melihat isi dari dataset 'Hasil TES SBK LPDP Gelombang 1 - 2021.csv'

In [2]:
# Memanggil/membaca dataset dan melihat isi dataset
dataset = pd.read_csv('Hasil TES SBK LPDP Gelombang 1 - 2021.csv', encoding='unicode_escape')
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 431 entries, 0 to 430
Data columns (total 10 columns):
 #   Column                                                                                Non-Null Count  Dtype 
---  ------                                                                                --------------  ----- 
 0   Jenis Beasiswa                                                                        431 non-null    object
 1   Tingkat Pendidikan yang Dituju                                                        431 non-null    object
 2   Negara Tujuan Kuliah                                                                  431 non-null    object
 3   Bidang Studi yang dipilih saat mendaftar                                              431 non-null    object
 4   Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP                                431 non-null    object
 5   Apakah anda dinyatakan Lulus Seleksi Substansi Akademik Pada gelombang I Tahun 2021?  431 no

In [3]:
dataset

Unnamed: 0,Jenis Beasiswa,Tingkat Pendidikan yang Dituju,Negara Tujuan Kuliah,Bidang Studi yang dipilih saat mendaftar,Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP,Apakah anda dinyatakan Lulus Seleksi Substansi Akademik Pada gelombang I Tahun 2021?,Jumlah Jawaban Benar pada Tes Penalaran Verbal,Jumlah Jawaban Benar pada Tes Kuantitatif,Jumlah Jawaban Benar pada Tes Pemecahan Masalah,[optional] Kampus/universitas tujuan saat ini (pilihan 1)
0,Targeted,S2,Dalam negeri,TRP,Tidak,Ya,10,12,6,Universitas Indonesia
1,Reguler,S2,Luar Negeri,ENE,"Ya, dengan Loa",Ya,17,22,8,UCL
2,Targeted,S2,Luar Negeri,ELE,"Ya, dengan Loa",Ya,16,18,7,KTH Sweden
3,Reguler,S2,Dalam negeri,LIN,Tidak,Tidak,15,12,4,UGM
4,Afirmasi,S2,Luar Negeri,LIN,Tidak,Ya,16,9,7,University of Birmingham
...,...,...,...,...,...,...,...,...,...,...
426,Reguler,S2,Dalam negeri,718,Tidak,Tidak,23,25,12,UGM
427,Reguler,S2,Dalam negeri,TRP,Tidak,Tidak,14,14,6,UI
428,Targeted,S2,Luar Negeri,ENT,Tidak,Tidak,15,7,9,Imperial College London
429,Targeted,S2,Dalam negeri,TRP,Tidak,Ya,17,11,6,


## Teknik Prapemrosesan Data
### Hal pertama yang bisa kita lakukan adalah mencari missing value dan menentukan apa yang harus dilakukan

In [4]:
print(dataset.isnull().sum())

Jenis Beasiswa                                                                           0
Tingkat Pendidikan yang Dituju                                                           0
Negara Tujuan Kuliah                                                                     0
Bidang Studi yang dipilih saat mendaftar                                                 0
Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP                                   0
Apakah anda dinyatakan Lulus Seleksi Substansi Akademik Pada gelombang I Tahun 2021?     0
Jumlah Jawaban Benar pada Tes Penalaran Verbal                                           0
Jumlah Jawaban Benar pada Tes Kuantitatif                                                0
Jumlah Jawaban Benar pada Tes Pemecahan Masalah                                          0
[optional] Kampus/universitas tujuan saat ini (pilihan 1)                               79
dtype: int64


Dari pencarian missing value bisa dilihat bahwa semua kolom sudah terisi data dan hanya tersisa kolom '[optional] Kampus/universitas tujuan saat ini (pilihan 1)' yang terdapat missing value. Karena data ini penting dan bersifat kategorikal, maka missing value tersebut akan diganti dengan string yang menunjukkan bahwa data tersebut belum diisi.

In [5]:
dataset = dataset.fillna('Belum Diisi')
dataset

Unnamed: 0,Jenis Beasiswa,Tingkat Pendidikan yang Dituju,Negara Tujuan Kuliah,Bidang Studi yang dipilih saat mendaftar,Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP,Apakah anda dinyatakan Lulus Seleksi Substansi Akademik Pada gelombang I Tahun 2021?,Jumlah Jawaban Benar pada Tes Penalaran Verbal,Jumlah Jawaban Benar pada Tes Kuantitatif,Jumlah Jawaban Benar pada Tes Pemecahan Masalah,[optional] Kampus/universitas tujuan saat ini (pilihan 1)
0,Targeted,S2,Dalam negeri,TRP,Tidak,Ya,10,12,6,Universitas Indonesia
1,Reguler,S2,Luar Negeri,ENE,"Ya, dengan Loa",Ya,17,22,8,UCL
2,Targeted,S2,Luar Negeri,ELE,"Ya, dengan Loa",Ya,16,18,7,KTH Sweden
3,Reguler,S2,Dalam negeri,LIN,Tidak,Tidak,15,12,4,UGM
4,Afirmasi,S2,Luar Negeri,LIN,Tidak,Ya,16,9,7,University of Birmingham
...,...,...,...,...,...,...,...,...,...,...
426,Reguler,S2,Dalam negeri,718,Tidak,Tidak,23,25,12,UGM
427,Reguler,S2,Dalam negeri,TRP,Tidak,Tidak,14,14,6,UI
428,Targeted,S2,Luar Negeri,ENT,Tidak,Tidak,15,7,9,Imperial College London
429,Targeted,S2,Dalam negeri,TRP,Tidak,Ya,17,11,6,Belum Diisi


In [6]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 431 entries, 0 to 430
Data columns (total 10 columns):
 #   Column                                                                                Non-Null Count  Dtype 
---  ------                                                                                --------------  ----- 
 0   Jenis Beasiswa                                                                        431 non-null    object
 1   Tingkat Pendidikan yang Dituju                                                        431 non-null    object
 2   Negara Tujuan Kuliah                                                                  431 non-null    object
 3   Bidang Studi yang dipilih saat mendaftar                                              431 non-null    object
 4   Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP                                431 non-null    object
 5   Apakah anda dinyatakan Lulus Seleksi Substansi Akademik Pada gelombang I Tahun 2021?  431 no

### Hal berikutnya adalah memastikan bahwa tidak ada duplikat data pada dataset dengan mengidentifikasi data yang duplikat

In [7]:
duplicated_data = dataset.duplicated()
print(duplicated_data.any())

True


In [8]:
print(dataset[duplicated_data])

    Jenis Beasiswa Tingkat Pendidikan yang Dituju Negara Tujuan Kuliah  \
39        Targeted                             S2         Dalam negeri   
122        Reguler                             S2         Dalam negeri   
289       Targeted                             S2          Luar Negeri   
339       Afirmasi                             S2         Dalam negeri   
380       Afirmasi                             S2          Luar Negeri   
386       Targeted                             S2         Dalam negeri   

    Bidang Studi yang dipilih saat mendaftar  \
39                                       TRP   
122                                        M   
289                                      PUB   
339                                      IPA   
380                                      PUB   
386                                      TRP   

    Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP  \
39                                      Ya, dengan Loa       
122                 

Dikarenakan ditemukan adanya 6 data duplikat, maka data duplikat tersebut akan kita hapus karena kita tidak perlu data yang sama berulang sekaligus agar akurasi bisa ditingkatkan. 

In [9]:
print(dataset.shape)
dataset.drop_duplicates(inplace=True)
print(dataset.shape)

(431, 10)
(425, 10)


### Mengecek kolom dengan single value, jika ada maka kolom tersebut dapat dihapus karena tidak begitu penting.

In [10]:
print(dataset.nunique())

Jenis Beasiswa                                                                            3
Tingkat Pendidikan yang Dituju                                                            2
Negara Tujuan Kuliah                                                                      2
Bidang Studi yang dipilih saat mendaftar                                                 85
Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP                                    2
Apakah anda dinyatakan Lulus Seleksi Substansi Akademik Pada gelombang I Tahun 2021?      2
Jumlah Jawaban Benar pada Tes Penalaran Verbal                                           19
Jumlah Jawaban Benar pada Tes Kuantitatif                                                23
Jumlah Jawaban Benar pada Tes Pemecahan Masalah                                          12
[optional] Kampus/universitas tujuan saat ini (pilihan 1)                               166
dtype: int64


Setelah kita lihat, ternyata dataset tidak ada kolom yang memiliki single value, sehingga kita bisa langsung lewat/lanjut ke tahap berikutnya.

### Mengecek kolom dengan low value berupa nilai yang kurang dari 1%, pengecekan ini hanya untuk kolom dengan tipe data numerik, yaitu 'Jumlah Jawaban Benar pada Tes Penalaran Verbal', 'Jumlah Jawaban Benar pada Tes Kuantitatif', dan 'Jumlah Jawaban Benar pada Tes Pemecahan Masalah'

In [11]:
counts = dataset.nunique()

to_del = [i for i, v in enumerate(counts) if (float(v)/dataset.shape[0]*100) < 1]
print(to_del)

[0, 1, 2, 4, 5]


Pada tahap ini ternyata ditemukan low value dari dataset, hal ini bisa kemungkinan adanya kesalahan input jumlah jawaban benar atau bisa saja data memang sudah benar. Tetapi yang akan dilakukan kali ini kita tidak menghapus baris dengan low value tersebut dan menganggap bahwa data sudah benar, hal ini juga dilakukan agar tidak ada lebih banyak data yang kita buang.

### Untuk mempermudah pemrosesan data nantinya maka selanjutnya dilakukan Transformasi pada dataset 

In [12]:
# Mendefinisikan X dan y (Input dan Output data)
X, y = dataset.iloc[:, [0,1,2,3,4,6,7,8,9]], dataset.iloc[:, 5]
X

Unnamed: 0,Jenis Beasiswa,Tingkat Pendidikan yang Dituju,Negara Tujuan Kuliah,Bidang Studi yang dipilih saat mendaftar,Mendaftar dengan menggunakan LoA sesuai ketentuan LPDP,Jumlah Jawaban Benar pada Tes Penalaran Verbal,Jumlah Jawaban Benar pada Tes Kuantitatif,Jumlah Jawaban Benar pada Tes Pemecahan Masalah,[optional] Kampus/universitas tujuan saat ini (pilihan 1)
0,Targeted,S2,Dalam negeri,TRP,Tidak,10,12,6,Universitas Indonesia
1,Reguler,S2,Luar Negeri,ENE,"Ya, dengan Loa",17,22,8,UCL
2,Targeted,S2,Luar Negeri,ELE,"Ya, dengan Loa",16,18,7,KTH Sweden
3,Reguler,S2,Dalam negeri,LIN,Tidak,15,12,4,UGM
4,Afirmasi,S2,Luar Negeri,LIN,Tidak,16,9,7,University of Birmingham
...,...,...,...,...,...,...,...,...,...
426,Reguler,S2,Dalam negeri,718,Tidak,23,25,12,UGM
427,Reguler,S2,Dalam negeri,TRP,Tidak,14,14,6,UI
428,Targeted,S2,Luar Negeri,ENT,Tidak,15,7,9,Imperial College London
429,Targeted,S2,Dalam negeri,TRP,Tidak,17,11,6,Belum Diisi


In [13]:
y

0         Ya
1         Ya
2         Ya
3      Tidak
4         Ya
       ...  
426    Tidak
427    Tidak
428    Tidak
429       Ya
430       Ya
Name: Apakah anda dinyatakan Lulus Seleksi Substansi Akademik Pada gelombang I Tahun 2021?, Length: 425, dtype: object

#### Setelah itu kita akan melakukan transformasi data X yang bersifat categorical, karena kategori pada data sangat banyak maka kita menggunakan one hot encoder dalam mentransformasi setiap datanya agar datanya menjadi numerical.

#### Selanjutnya dilakukan transformasi data khususnya yang numerical agar menjadi lebih gaussian sehingga lebih mudah diproses dengan menggunakan metode normal quantile transform

#### Selain itu, untuk data numerical juga akan dilakukan scaling dengan Standard Scaler untuk men-skalakan data tersebut diantara 0-1 sehingga jarak/jangkauan/persebaran data lebih jelas dan pelatihan bisa lebih mudah dilakukan.

In [14]:
col_trans = [('oh', OneHotEncoder(), X.iloc[:,[0,1,2,3,4,8]].columns),('scale', StandardScaler(), X.iloc[:,[5,6,7]].columns),('trans', QuantileTransformer(n_quantiles=100, output_distribution='normal'), X.iloc[:,[5,6,7]].columns)]
column_transformer = ColumnTransformer(transformers = col_trans, remainder='passthrough')
X_oh = column_transformer.fit_transform(X)
X_oh

<425x266 sparse matrix of type '<class 'numpy.float64'>'
	with 5100 stored elements in Compressed Sparse Row format>

#### Setelah itu kita akan melakukan label encoder untuk data y atau output yang bersifat categorical menjadi numerical

In [15]:
# Melakukan transformasi data y dengan label encoder
le = LabelEncoder()
y_le = le.fit_transform(y)
y_le

array([1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0,
       1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

Setelah prapemrosesan data selesai/dirasa cukup maka kita bisa mulai membuat model dan melakukan pelatihan.

### Mendefinisikan dan mengevaluasi model Machine Learning (menggunakan model RandomForestClassifier)

In [16]:
model = RandomForestClassifier()
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X_oh, y_le, scoring='accuracy', cv=cv, n_jobs=-1, error_score="raise")
print('Accuracy: %.5f (%.5f)' % (mean(n_scores)*100, std(n_scores)))

Accuracy: 87.20930 (0.04074)
