#  <p style="text-align: center;">Modul 2
##  <p style="text-align: center;">Preparte HR Data
### <p style="text-align: center;"> Human Capital Data Science (HCDS)

Banyak algoritma machine learning akan membuat perkiraan tentang dataset yang diinput ke dalam sistem. Dalam bab ini akan dijelaskan mengenai cara menyiapkan dataset untuk machine learning menggunakan Python menggunakan scikit-learn.

# 2.1. Data Transforms
## 2.1.1 Rescale Data

Standarisasi Data adalah teknik yang berguna untuk mengubah variable yang memiliki distribusi dengan rata-rata dan standar deviasi yang berbeda-beda, menjadi distribusi standar dengan rata-rata 0 dan standar deviasi 1. 

Beberapa algoritma akan memiliki kinerja yang lebih baik ketika menggunakan variable berdistribusi standar, seperti ***linear regression***, ***logistic regression***, dan analisa ***linear discriminate***. 

Standarisasi data dapat dilakukan menggunakan ***scikit-learn*** dengan ***StandardScaler*** *class*.

In [3]:
# Rescale data (between 0 and 1)
import pandas as pd

# Load Library
from pandas import read_csv 
from numpy import set_printoptions 
from sklearn.preprocessing import MinMaxScaler

# Load Dataset
dataset = pd.read_csv("datahr.csv")
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable 
X = array[:,0:9] 
Y = array[:,9] 
scaler = MinMaxScaler(feature_range=(0, 1)) 
rescaledX = scaler.fit_transform(X) 

# summarize transformed data 
set_printoptions(precision=3)
print(rescaledX[0:5,:])

[[0.78  0.781 0.6   0.776 0.5   0.    0.    0.    0.5  ]
 [0.022 0.812 1.    0.822 0.25  0.    0.    0.    0.5  ]
 [0.692 0.797 0.6   0.593 0.375 0.    0.    0.    0.   ]
 [0.011 0.641 0.8   0.706 0.25  0.    0.    0.    0.   ]
 [0.912 0.766 0.6   0.762 0.375 0.    0.    0.    0.   ]]


## 2.1.2. Standardize Data

Standarisasi Data adalah teknik yang berguna untuk mengubah variable yang memiliki distribusi dengan rata-rata dan standar deviasi yang berbeda-beda, menjadi distribusi standar dengan rata-rata 0 dan standar deviasi 1. 

Beberapa algoritma akan memiliki kinerja yang lebih baik ketika menggunakan variable berdistribusi standar, seperti ***linear regression***, ***logistic regression***, dan analisa ***linear discriminate***. 

Standarisasi data dapat dilakukan menggunakan ***scikit-learn*** dengan ***StandardScaler*** *class*.

In [4]:
# Standarisasi Data (Rata-rata = 0 dan Standar Deviasi = 1)

# Load Library
from pandas import read_csv 
from numpy import set_printoptions 
from sklearn.preprocessing import StandardScaler

# Load Dataset
dataset = pd.read_csv("datahr.csv")
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable 
X = array[:,0:9] 
Y = array[:,9] 
standardizer = StandardScaler().fit(X) 
standardizedX = standardizer.transform(X) 

# summarize transformed data 
set_printoptions(precision=3) 
print(standardizedX[0:5,:])

[[ 0.633  0.625  0.765  1.027  1.589 -0.423 -0.151 -1.194  0.608]
 [-2.054  0.75   2.585  1.239  0.272 -0.423 -0.151 -1.194  0.608]
 [ 0.321  0.687  0.765  0.197  0.93  -0.423 -0.151 -1.194 -0.951]
 [-2.093  0.061  1.675  0.707  0.272 -0.423 -0.151 -1.194 -0.951]
 [ 1.1    0.562  0.765  0.963  0.93  -0.423 -0.151 -1.194 -0.951]]


## 2.1.3 Normalize Data
Normalisasi dalam *scikit-learn* mengacu pada penyeleksian kembali setiap observasi (baris) untuk memiliki panjang 1 (disebut norma satuan atau vektor dengan panjang 1 dalam aljabar linear). 

Metode pre-processing ini dapat berguna untuk ***dataset sparse*** (banyak nol) dengan variable dari berbagai skala ketika menggunakan algoritma yang nilai-nilai masukan berat seperti algoritma *Neural Network* dan algoritma yang menggunakan ukuran jarak seperti algoritma ***k-Nearest Neighbors (k-NN)***. Normalisasi data pada Python dengan *scikit-learn* dapat menggunakan kelas ***Normalizer***.

#### Dataset HR

Contoh normalisasi variable pada dataset *datahr.csv* dapat dilihat pada bagian berikut ini:

In [5]:
# Normalisasi Data (Panjang data adalah 1)
# Load Library
from pandas import read_csv 
from numpy import set_printoptions 
from sklearn.preprocessing import Normalizer

# Load Dataset
dataset = pd.read_csv("datahr.csv")
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable 
X = array[:,0:9] 
Y = array[:,9]
normalizerX = Normalizer().fit(X)
normalizedX = normalizerX.transform(X)

# summarize transformed data
set_printoptions(precision=3)
print(normalizedX[0:5,:])

[[3.052e-03 3.281e-03 1.907e-02 9.995e-01 2.289e-02 0.000e+00 0.000e+00
  3.815e-03 7.630e-03]
 [4.042e-04 3.234e-03 2.572e-02 9.995e-01 1.470e-02 0.000e+00 0.000e+00
  3.675e-03 7.349e-03]
 [3.227e-03 3.899e-03 2.241e-02 9.995e-01 2.241e-02 0.000e+00 0.000e+00
  4.482e-03 4.482e-03]
 [4.047e-04 3.116e-03 2.428e-02 9.996e-01 1.619e-02 0.000e+00 0.000e+00
  4.047e-03 4.047e-03]
 [3.551e-03 3.281e-03 1.930e-02 9.996e-01 1.930e-02 0.000e+00 0.000e+00
  3.859e-03 3.859e-03]]


## 2.1.4 Binarize Data

Apabila diperlukan penambahan variable baru yang bersifat binary untuk mempertajam pengambilan keputusan dari hasil analisa data, scikit-learn dapat digunakan melalui ***Binarizer*** class. Penambahan variable binary tersebut juga dapat menjadi output atau target variable dalam pengolah data *machine learning*.

#### Data Set Pima Indians Diabetes
Contoh perubahan dataset *pima-indians-diabetes.data.csv* menjadi binary data adalah sebagai berikut:

In [6]:
# Binarisasi Data

# Load Library
from pandas import read_csv 
from numpy import set_printoptions 
from sklearn.preprocessing import Binarizer

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = pd.read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]
binarizerX = Binarizer(threshold=0.0).fit(X)
binaryX = binarizerX.transform(X)

# summarize transformed data
set_printoptions(precision=3)
print(binaryX[0:5,:])

[[1. 1. 1. 1. 1. 0. 0. 1. 1.]
 [1. 1. 1. 1. 1. 0. 0. 1. 1.]
 [1. 1. 1. 1. 1. 0. 0. 1. 1.]
 [1. 1. 1. 1. 1. 0. 0. 1. 1.]
 [1. 1. 1. 1. 1. 0. 0. 1. 1.]]


### Summary 
Pada bagian ini telah dijelaskan mengenai *data trasnform* untuk Machine Learning dengan Python menggunakan *scikit-learn*, yaitu sebagai berikut:
- Rescale data.
- Standardize data.
- Normalize data.
- Binarize data

Dalam pelajaran berikutnya akan dijelaskan mengenai cara memilih *variable* dari dataset yang paling relevan untuk membuat model prediksi *machine learning*. 

# 2.2. Feature Selection

Variable dataset yang digunakan untuk melatih model *machine learning* memiliki pengaruh besar pada tingkat akurasi dari model prediksi yang dihasilkan. Variable yang tidak relevan atau hanya relevan sebagian dapat berdampak negatif pada kinerja model. 

Dalam bagian ini akan dijelaskan mengenai teknik *feature selection* secara otomatis yang dapat digunakan untuk menyiapkan data *machine learning* pada Python dengan *scikit-learn*. 

Setelah menyelesaikan pelajaran ini, Anda akan tahu cara menggunakan:
1. ***Univariate Selection*** 
2. ***Recursive Feature Elimination***
3. ***Principle Component Analysis***
4. ***Feature Importance***

***Feature Selection*** adalah proses pemilihan *input variable* yang relevan dalam memprediksi *output variable* secara otomatis. 

Memiliki input variabel yang tidak relevan terhadap prediksi output variable dapat menurunkan tingkat akurasi model prediksi pada machine learning, terutama algoritma linier seperti ***linier regression dan logistic regression***. 

Tiga manfaat dari melakukan *feature selection* sebelum pemodelan data adalah:
- ***Mengurangi Overfitting***: Data relevan dapat membantu mengurangi pengaruh pengambilan keputusan berdasarkan data yang tidak relevan.
- ***Meningkatkan Akurasi***: Data relevan dapat membantu meingkatkan akurasi pemodelan data.
- ***Mengurangi Waktu Pemodelan Data***: Semakin efisien jumlah data yang diolah (input variable yang kurang relevan dikurangi), maka semakin sedikit juga waktu yang diperlukan machine learning untuk pemodelan data.  

Berikut ini akan dipejari mengenai berbagai metode dalam melakukan *feature selection* dalam machine learning. 

## 2.2.1 Univariate Selection

Tes statistik dapat digunakan untuk memilih *input variable* yang memiliki hubungan terkuat dengan *output variable*. 

*Library scikit-learn* menyediakan kelas ***SelectKBest*** yang dapat digunakan dengan beberapa uji statistik yang berbeda untuk memilih sejumlah input variable tertentu. 

Contoh di bawah ini menggunakan uji statistik ***chi-square*** untuk *non-negative input variable* untuk memilih beberapa input variable terbaik dari dataset yang digunakan. 

In [7]:
# Feature Extraction dengan Univariate Statistical Tests (Chi-squared for classification)

# Load Library
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = pd.read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Feature extraction
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)

# summarize scores
set_printoptions(precision=3)
print(nama[0:8])
print(fit.scores_)

['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV']
[  117.341    41.199   690.534 19580.099   601.153   177.457    39.201
    20.778    59.323]


Terlihat keempat *input variable* yang memiliki feature selection score tertinggi adalah variable:
1. KB (Kerja_bulanan): Rata-rata jam bekerja karyawan pada tahun terakhir. 
2. PROJ (Proyek): Jumlah proyek yang dikerjakan pada tahun terakhir. 
3. DK (Durasi_kerja): Jumlah tahun bekerja karyawan selama di perusahaan. 
4. KK (Kepuasan_kerja): Tingkat kepuasan karyawan terhadap pekerjaan saat ini. 

In [8]:
features = fit.transform(X)

# summarize selected features
print(features[0:5,:])

[[  5. 262.   6.   0.]
 [  7. 272.   4.   0.]
 [  5. 223.   5.   0.]
 [  6. 247.   4.   0.]
 [  5. 259.   5.   0.]]


## 2.2.2 Recursive Feature Elimination

***The Recursive Feature Elimination*** (atau RFE) bekerja dengan menghapus input variable secara berulang dan membangun model berdasarkan input variable yang tersisa. 

RFE menggunakan akurasi model untuk mengidentifikasi input variable yang paling berkontribusi dalam meningkatkan akurasi pemodelan output variable. Anda dapat mempelajari lebih lanjut tentang kelas RFE pada dokumentasi scikit-learn. 

Contoh di bawah ini menggunakan RFE dengan algoritma ***logistic Regression*** untuk memilih 3 input variable yang paling berkontribusi dalam meningkatkan akurasi pemodelan output variable ***BUY*** pada dataset ***browsing.csv***. Pemilihan algoritma tidak terlalu penting asalkan terampil dan konsisten.

In [9]:
# Feature Extraction with  Recursive Feature Elimination (RFE)

# Load Library
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = pd.read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# feature extraction
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Num Features: %d" % fit.n_features_)
print("Feature Name: %s" % nama[0:8])
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

Num Features: 3
Feature Name: ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV']
Selected Features: [ True  True False False False False  True False False]
Feature Ranking: [1 1 3 7 5 2 1 6 4]


### 2.2.3 Principal Component Analysis (PCA)

***Principal Component Analysis (atau PCA)*** menggunakan aljabar linier untuk mengubah dataset menjadi bentuk kompresi. Umumnya ini disebut **teknik reduksi data**. 

PCA membantu proses pemilihan jumlah dimensi atau *input variable* utama pada hasil *data transform*. Dalam contoh di bawah ini merupakan penggunaan PCA untuk memilih 3 *input variable* utama. Pelajari lebih lanjut tentang kelas PCA dalam scikit-learn dengan meninjau API di link berikut: http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html.

In [10]:
# Feature Extraction with Principal Component Analysis (PCA)

# Load Library
from pandas import read_csv
from sklearn.decomposition import PCA

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = pd.read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# feature extraction
pca = PCA(n_components=3)
fit = pca.fit(X)

# summarize components
print("Explained Variance: %s" % fit.explained_variance_ratio_)
print(fit.components_)

Explained Variance: [0.995 0.004 0.001]
[[ 9.684e-04 -3.395e-04 -3.958e-03 -1.000e+00 -2.831e-03  3.550e-04
   4.278e-05  8.183e-04  5.547e-04]
 [ 8.505e-04  2.073e-04 -3.240e-03  8.600e-04 -8.448e-03  2.686e-03
   4.114e-04  9.999e-01  5.863e-03]
 [-3.214e-02  9.081e-03  2.100e-01 -3.616e-03  9.770e-01 -3.276e-03
   5.269e-03  8.882e-03  1.496e-02]]


### 2.2.4 Feature Importance
*Bagged Decision Tree* seperti ***Random Forest*** dan ***Extra Trees*** dapat digunakan untuk memperkirakan tingkat relevansi input variable terhadap output variable.  

Salah satu contoh *feature importance classifier* yang umum digunakan adalah ***ExtraTreesClassifier***.

Note: ***ExtraTreesClassifier*** dapat dipelajari lebih lanjut pada Scikit Learn API dengan link berikut:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier. html  

In [11]:
# Feature Importance menggunakan Extra Trees CLassifier

# Load Library
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = pd.read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Feature Extraction
model = ExtraTreesClassifier()
model.fit(X,Y)
print(nama[0:8])
print(model.feature_importances_)

['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV']
[0.214 0.15  0.166 0.132 0.274 0.014 0.003 0.028 0.02 ]


  from numpy.core.umath_tests import inner1d


Input variable dengan score tertinggi merupakan variable yang terpenting dalam pemodelan Output Variable. Terlihat tiga input variable yang memiliki score tertinggi adalah ***DK, PUAS, dan KB.*** 

#### Ringkasan
Dalam bab ini Anda menemukan pemilihan fitur untuk menyiapkan data pembelajaran mesin dengan Python dengan scikit-learn. Anda belajar tentang 4 teknik seleksi fitur otomatis yang berbeda:
- Univariate Selection.
- Recursive Feature Elimination.
- Principle Component Analysis.
- Feature Importance

Sekarang saatnya untuk mulai mencari cara mengevaluasi algoritma Machine Learning pada dataset yang digunakan. Dalam pembahasan berikut akan digunakan metode resampling yang dapat digunakan untuk memperkirakan kinerja algoritma *machine learning* pada data yang tidak terlihat.