#  <p style="text-align: center;">Modul 4
##  <p style="text-align: center;">Deploy Model
### <p style="text-align: center;"> Human Capital Data Science (HCDS)

# 4.1. Otomisasi Alur Kerja Machine Learning
Pada *Machine Learning* terdapat alur kerja yang dapat diotomatisasi. Hal ini dapat dilakukan menggunakan Pipeline pada Scikit-learn Python. Python scikit-learn menyediakan utilitas Pipeline untuk membantu mengotomatisasi alur kerja pembelajaran mesin

Dalam bagian ini akan dibahas mengenai:
1. Cara menggunakan *pipeline* untuk meminimalkan kebocoran data.
2. Bagaimana membangun persiapan data dan pemodelan *pipeline*.
3. Bagaimana membangun *feature extraction* dan pemodelan *pipeline*.

*Pipeline* akan dapat digunakan ketika dalam proses pemodelan *machine learning* dimungkinkan pembuatan rangkaian linear dari  transoformasi data yang dapat dievaluasi tingkat kinerjanya. 

Tujuan utama dari otomisasi alur kerja adalah untuk memastikan dataset dapat digunakan dalam *pipeline* yang tersedia untuk evaluasi, seperti train dataset atau setiap *fold* pada prosedur *cross validation*. Berikutnya juga dapat dilakukan peninjauan dokumentasi API untuk kelas *Pipeline* & ***FeatureUnion*** dan *pipeline* modul.

## 4.1.1. Persiapan Data dan Modeling Pipeline 
Dalam menerapkan *machine learning* seringkali terjadi kebocoran data dalam proses pemodelan, seperti terjadinya penggunaan test data pada train data. Oleh karena itu diperlukan alat uji pemisahan dataset yang cukup kuat agar tidak terjadi kebocoran tersebut.  Persiapan data adalah salah satu cara mudah untuk membocorkan pengetahuan dari seluruh dataset pelatihan ke algoritma. 

Sebagai contoh, menyiapkan data Anda menggunakan normalisasi atau standardisasi pada seluruh dataset pelatihan sebelum belajar tidak akan menjadi tes yang valid karena train data akan dipengaruhi oleh skala data dalam test data. 

*Pipeline* dapat mencegah terjadinya kebocoran data dari test dataset yang digunakan dengan memastikan bahwa persiapan data seperti standardisasi dibatasi untuk setiap *fold* pada *cross validation*. Contoh di bawah ini menunjukkan persiapan data penting dan evaluasi model aliran kerja pada dataset HR. 

*Pipeline* didefinisikan dengan dua langkah:
1. Standarisasi data.
2. Mempelajari model *Decision Tree Classifier* (algoritma terbaik untuk dataset HR).
Pipa kemudian dievaluasi menggunakan 10 kali lipat lintas-validasi.

In [1]:
# Pembuatan sebuah Pipeline yang menstandarisasi dataset kemudian membuat sebuah model
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.tree import DecisionTreeClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Pembuatan pipeline
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('CART', DecisionTreeClassifier()))
model = Pipeline(estimators)

# Evaluasi pipeline
kfold = KFold(n_splits=10, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.973978315262719


Perhatikan bagaimana kami membuat daftar langkah-langkah Python yang disediakan untuk Saluran Pipa untuk memproses data. Perhatikan juga bagaimana Pipeline itu sendiri diperlakukan seperti estimator dan dievaluasi secara keseluruhan dengan prosedur k-fold cross-validation. Menjalankan contoh memberikan ringkasan keakuratan pengaturan pada dataset.

## 4.1.2. *Feature Extraction* dan *Modeling Pipeline*
Ekstraksi fitur adalah prosedur lain yang rentan terhadap kebocoran data. Seperti persiapan data, prosedur ekstraksi fitur harus dibatasi pada data dalam dataset pelatihan Anda. Pipeline menyediakan alat yang berguna yang disebut FeatureUnion yang memungkinkan hasil seleksi berbagai fitur dan prosedur ekstraksi untuk digabungkan menjadi dataset yang lebih besar di mana model dapat dilatih. Yang penting, semua ekstraksi fitur dan penyatuan fitur terjadi dalam setiap lipatan prosedur validasi silang. Contoh di bawah ini menunjukkan pipeline yang didefinisikan dengan empat langkah:1. Ekstraksi Fitur dengan Analisis Komponen Utama (3 fitur).2. Ekstraksi Fitur dengan Seleksi Statistik (6 fitur).3. Uni Fitur.4. Pelajari Model Regresi Logistik.Pipa kemudian dievaluasi menggunakan 10 kali lipat lintas-validasi

In [2]:
# Pembuatan Pipeline yang melakukan extract feature dari data kemudian membuat model
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# create feature union
features = []
features.append(('pca', PCA(n_components=3)))
features.append(('select_best', SelectKBest(k=6)))
feature_union = FeatureUnion(features)

# create pipeline
estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression()))
model = Pipeline(estimators)

# evaluate pipeline
kfold = KFold(n_splits=10, random_state=7)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.8977481234361969


Perhatikan bagaimana FeatureUnion adalah Pipeline-nya sendiri yang pada gilirannya adalah satu langkah di Pipeline akhir yang digunakan untuk memberi umpan Logistic Regression. Ini mungkin membuat Anda berpikir tentang bagaimana Anda dapat mulai menanamkan saluran pipa dalam jaringan pipa. Menjalankan contoh memberikan ringkasan keakuratan pengaturan pada dataset.

#### Ringkasan
Dalam bab ini Anda menemukan berbagai kebocoran data dalam pembelajaran mesin terapan. Anda menemukan utilitas Saluran Pipa di Python scikit-belajar dan bagaimana mereka dapat digunakan untuk mengotomatisasi kerja pembelajaran mesin diterapkan standar ¬. Anda telah mempelajari cara menggunakan Saluran Pipa dalam dua kasus penggunaan penting:Âˆ Persiapan data dan pemodelan dibatasi untuk setiap lipatan prosedur validasi silang.Âˆ Ekstraksi fitur dan penyatuan fitur yang dibatasi untuk setiap lipatan prosedur validasi silang.

Ini melengkapi pelajaran tentang cara mengevaluasi algoritma pembelajaran mesin. Dalam pelajaran berikutnya Anda akan melihat pertama Anda bagaimana meningkatkan kinerja algoritma pada masalah Anda dengan menggunakan metode ensemble.

# 4.2. Peningkatan Kinerja dengan Ensemble

Metode Ensemble merupakan salah satu metode yang dapat digunakan untuk meningkatkan kinerja algoritma *machine learning* agar dapat menghasilkan model prediksi dengan tingkat akurasi yang leih tinggi. 

Pada bagian ini akan dibahas mengenai beberapa metode Ensemble yang terdapat pada scikit-learn Python, yaitu *Boosting, Bagging, dan Majority Voting.* Untuk lebih detailnya akan dibahas mengenai beberapa hal berikut ini:
1. Cara menggunakan metode *bagging ensemble* seperti pohon keputusan yang dikantongi, hutan acak dan pohon tambahan.
2. Cara menggunakan metode *boosting ensemble* seperti AdaBoost dan peningkatan gradien stochastic.
3. Cara menggunakan metode *voting ensemble* untuk menggabungkan prediksi dari beberapa algoritma.## 8.1. Tipe Penggabungan Model dalam *Ensemble Prediction*.

Tiga metode ensemble dalam scikit-learn yang dapat digunakan untuk menggabungkan algoritma *machine-learning* yang berbeda adalah:
1. ***Bagging Ensemble Method*** - membangun beberapa model (biasanya dari jenis yang sama) dari subsamples berbeda yang dipecah dari dataset yang digunakan.
2. ***Boosting Ensemble Method*** - membangun urutan beberapa model (biasanya dari jenis yang sama) dimana masing-masing model merupakan perbaikan kesalahan prediksi dari model sebelumnya dalam sebuah rangkaian urutan model.
3. ***Voting Ensemble Method***. Membangun beberapa model (biasanya dari jenis yang berbeda) dan statistik sederhana (seperti menghitung mean) digunakan untuk menggabungkan prediksi.

Ini mengasumsikan Anda pada umumnya akrab dengan algoritme pembelajaran mesin dan metode ensembel dan tidak akan membahas detail cara kerja atau parameternya. Pima Indian onset of diabetes dataset digunakan untuk mendemonstrasikan setiap algoritma. Setiap ensemble algorithm didemonstrasikan menggunakan 10-fold cross-validation dan metrik kinerja akurasi klasi ﬁ kasi.

## 4.2.1. Bagging Ensemble
Bootstrap Aggregation (atau Bagging) melibatkan pengambilan beberapa sampel dari dataset pelatihan Anda (dengan penggantian) dan pelatihan model untuk setiap sampel. Prediksi output ¬ nal adalah rata-rata di seluruh prediksi dari semua sub-model. Tiga model bagging yang dibahas di bagian ini adalah sebagai berikut:
- Bagged Decision Trees.
- Random Forest.
- Extra Trees

### a. Bagged Decision Trees
Pengepakan berkinerja terbaik dengan algoritme yang memiliki ***variansi data tinggi***. Contoh populer adalah *Decision Tree*, sering dibangun tanpa pemangkasan. Dalam contoh di bawah ini adalah contoh penggunaan BaggingClassifier dengan algoritma Klasifikasi dan Regresi Pohon (DecisionTreeClassifier1). Sebanyak 100 pohon dibuat.

In [1]:
# Bagged Decision Trees for Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Modeling menggunakan Bagged Decision Tree
seed = 7
kfold = KFold(n_splits=10, random_state=seed)
cart = DecisionTreeClassifier()
num_trees = 100
model = BaggingClassifier(base_estimator=cart, n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

  from numpy.core.umath_tests import inner1d


0.9896580483736447


### b. Random Forest

Random Forests adalah perpanjangan dari pohon keputusan yang dikantongi. Sampel dari dataset pelatihan diambil dengan penggantian, tetapi pohon-pohon dibangun dengan cara yang mengurangi korelasi antara klasifikasi individu. Secara khusus, alih-alih dengan rakus memilih titik perpecahan terbaik dalam konstruksi setiap pohon, hanya satu bagian acak dari fitur yang dipertimbangkan untuk setiap pemisahan. Anda dapat membuat model Random Forest untuk klasifikasi menggunakan kelas RandomForestClassifier2. Contoh di bawah ini menunjukkan penggunaan Random Forest untuk klasifikasi dengan 100 pohon dan titik terpisah yang dipilih dari seleksi acak 3 fitur.

In [2]:
# Random Forest Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Modeling menggunakan Random Forest
num_trees = 100
max_features = 3
kfold = KFold(n_splits=10, random_state=7)
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.990909090909091


### c. Extra Trees
Pohon Ekstra adalah modifikasi lain dari pengepakan di mana pohon-pohon acak dibangun dari sampel dataset pelatihan. Anda dapat membangun model Pohon Ekstra untuk klasifikasi menggunakan kelas ExtraTreesClassifier3. Contoh di bawah ini memberikan demonstrasi pohon tambahan dengan jumlah pohon yang diatur ke 100 dan perpecahan yang dipilih dari 7 fitur acak.

In [3]:
# Extra Trees Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import ExtraTreesClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Modeling menggunakan Extra Trees
num_trees = 100
max_features = 7
kfold = KFold(n_splits=10, random_state=7)
model = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.9889908256880734


## 4.2.2. Boosting  Ensemble Algorithms

***Boosting Ensemble Algorithms*** merupakan suatu *workflow* yang membentuk suatu rangkaian model machine learning dimana  model tersebut terus diperbaiki berdasarkan tingkat akurasi dari model sebelumnya dalam rangkaian model tersebut. Sehingga akan diperoleh suatu model machine learning akhir yang merupakan rangkaian dari seluruh model pada rangkaian ensemble, dimana setiap model memiliki bobot yang berbeda pada pembentukan model machine learning tersebut. Dua algoritma boosting ensemble - machine learning  ensembel yang paling umum adalah:
- AdaBoost
- Stochastic Gradient Boosting

### a. Adaboost
AdaBoost mungkin merupakan algoritma ensemble pendongkrak pertama yang berhasil. Ini umumnya bekerja dengan membobotkan instance dalam dataset dengan cara mudah atau sulitnya mengklasifikasi, memungkinkan algoritma untuk kurang memperhatikannya dalam pembuatan model berikutnya. Anda dapat membangun model AdaBoost untuk klasifikasi menggunakan kelas AdaBoostClassifier4. Contoh di bawah ini menunjukkan pembangunan 30 pohon keputusan secara berurutan menggunakan algoritma AdaBoost.

In [4]:
# AdaBoost Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

num_trees = 30
seed=7

kfold = KFold(n_splits=10, random_state=seed)
model = AdaBoostClassifier(n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.9539616346955796


### b. Stochastic Gradient Boosting
Stochastic Gradient Boosting (juga disebut Gradient Boosting Machines) adalah salah satu teknik ensemble yang paling canggih. Ini juga merupakan teknik yang terbukti menjadi salah satu teknik terbaik yang tersedia untuk meningkatkan kinerja melalui ansambel. Anda dapat membangun model Gradient Boosting untuk klasifikasi menggunakan ***GradientBoostingClassifier*** class. Contoh di bawah ini menunjukkan Stochastic Gradient Boosting untuk klasifikasi dengan 100 pohon.

In [5]:
# Stochastic Gradient Boosting Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

seed = 7
num_trees = 100
kfold = KFold(n_splits=10, random_state=seed)
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.9731442869057547


## 4.2.3. Voting Ensemble 
Voting adalah salah satu cara paling sederhana untuk menggabungkan prediksi dari berbagai algoritma pembelajaran mesin. Ini bekerja dengan terlebih dahulu membuat dua atau lebih model mandiri dari set data pelatihan Anda. Klasifikasi Voting kemudian dapat digunakan untuk membungkus model Anda dan rata-rata prediksi sub-model ketika diminta untuk membuat prediksi untuk data baru. Prediksi dari sub-model dapat ditimbang, tetapi menentukan bobot untuk klasifikasi secara manual atau bahkan secara heuristik sulit. 

Metode yang lebih maju dapat mempelajari cara terbaik untuk memperkirakan prediksi dari sub-model, tetapi ini disebut susun (agregasi bertumpuk) dan saat ini tidak disediakan dalam scikit-learn. Anda dapat membuat model ensemble pemungutan suara untuk klasifikasi menggunakan kelas VotingClassifier6. Kode di bawah ini memberikan contoh menggabungkan prediksi regresi logistik, pohon klasifikasi dan regresi dan mendukung mesin vektor bersama-sama untuk masalah klasifikasi.

In [6]:
# Voting Ensemble for Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]
kfold = KFold(n_splits=10, random_state=7)

# create the sub models
estimators = []
model1 = LogisticRegression()
estimators.append(('logistic', model1))
model2 = DecisionTreeClassifier()
estimators.append(('cart', model2))
model3 = SVC()
estimators.append(('svm', model3))

# create the ensemble model
ensemble = VotingClassifier(estimators)
results = cross_val_score(ensemble, X, Y, cv=kfold)
print(results.mean())

  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
  if diff:


0.9492910758965805


  if diff:


#### Ringkasan
Dalam bab ini Anda menemukan algoritma pembelajaran mesin ensembel untuk meningkatkan kinerja model pada masalah Anda. Anda belajar tentang:
- *Ensemble Bagging* termasuk *Bagged Decision Tree, Random Forest dan Extra Trees.*
- *Boosing Ensamble* termasuk *AdaBoost dan Stochastic Gradient Boosting*.
- *Voting Ensemble* untuk membuat rata-rata prediksi untuk model apa pun yang digunakan dalam pemodelan.

Pada bagian selanjutnya Anda akan menemukan teknik lain yang dapat Anda gunakan untuk meningkatkan kinerja algoritma pada dataset Anda yang disebut tuning algoritme.

# 4.3. Algorithm Tuning

Setiap algoritma *machine learning* memiliki parameter sehingga penggunaannya dapat disesuaikan untuk masalah data yang diberikan. Model dapat memiliki banyak parameter dan kombinasi terbaik dari parameter dapat diperlakukan sebagai masalah pencarian. 

Dalam bab ini akan dijelaskan mengenai cara menyesuaikan (*tuning*) parameter algoritma *machine learning* dengan *scikit-learn* pada Python. Berikut materi yang akan dijelaskan:
1. Pentingnya penyetelan parameter algoritma untuk meningkatkan kinerja algoritma.
2. Cara menggunakan strategi tuning algoritma pencarian jaringan.
3. Cara menggunakan strategi tuning algoritma pencarian acak.

Penalaan algoritma adalah langkah terakhir dalam proses pembelajaran mesin yang diterapkan sebelum memperbaiki model Anda. Kadang-kadang disebut optimasi hiperparameter di mana parameter algoritma disebut sebagai hiperparameter, sedangkan koefisien yang ditemukan oleh algoritma pembelajaran mesin itu sendiri disebut sebagai parameter. Optimalisasi menyarankan sifat pencarian masalah. 

Berurutan sebagai masalah pencarian, Anda dapat menggunakan strategi pencarian yang berbeda untuk menemukan parameter yang baik dan kuat atau set parameter untuk algoritma pada masalah yang diberikan. Python scikit-learn menyediakan dua metode sederhana untuk penyetelan parameter algoritma:
- ***Grid Search Parameter Tuning.***
- ***Random Search Parameter Tuning.***

## 4.3.1. Grid Serach Parameter Tuning
Pencarian grid adalah pendekatan untuk penyetelan parameter yang secara sistematis akan membangun dan mengevaluasi model untuk setiap kombinasi parameter algoritma yang ditentukan dalam sebuah grid. Anda dapat melakukan pencarian kisi menggunakan GridSearchCV class1. Contoh di bawah ini mengevaluasi nilai alpha yang berbeda untuk algoritma Ridge Regression pada dataset diabetes standar. Ini adalah pencarian grid satu dimensi.

Menjalankan contoh mencantumkan skor optimal yang dicapai dan set parameter dalam kisi yang mencapai skor itu. Dalam hal ini nilai alfa 0,0.

In [7]:
# Grid Search for Algorithm Tuning
import numpy
from pandas import read_csv
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0])
param_grid = dict(alpha=alphas)
model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid.fit(X, Y)
print(grid.best_score_)
print(grid.best_estimator_.alpha)

0.23520656853454305
0.0


## 4.3.2. Random Search Parameter Tuning

Pencarian acak adalah pendekatan untuk penyetelan parameter yang akan mengambil sampel parameter algoritma dari distribusi acak (mis. Seragam) untuk sejumlah iterasi tetap. Model dibangun dan dievaluasi untuk setiap kombinasi parameter yang dipilih. Anda dapat melakukan pencarian acak untuk parameter algoritma menggunakan Random2SearchCV class2. Contoh di bawah ini mengevaluasi nilai alpha acak yang berbeda antara 0 dan 1 untuk algoritma Ridge Regression pada dataset diabetes standar. Total 100 iterasi dilakukan dengan nilai alpha acak seragam yang dipilih dalam kisaran antara 0 dan 1 (kisaran yang dapat diambil nilai alpha).

Menjalankan contoh menghasilkan hasil seperti yang ada dalam contoh pencarian kotak di atas. Nilai alpha optimal dekat 0.0 ditemukan.

In [8]:
# Randomized for Algorithm Tuning
import numpy
from pandas import read_csv
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

param_grid = {'alpha': uniform()}
model = Ridge()
rsearch = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100, random_state=7)
rsearch.fit(X, Y)

print(rsearch.best_score_)
print(rsearch.best_estimator_.alpha)

0.2352063034368106
0.0014268805627581926


#### Ringkasan

Penyesuaian parameter algoritma adalah langkah penting untuk meningkatkan kinerja algoritma tepat sebelum menyajikan hasil atau menyiapkan sistem untuk produksi. Dalam bab ini Anda menemukan penyetelan parameter algoritma dan dua metode yang dapat Anda gunakan sekarang di Python dan scikit-belajar untuk meningkatkan hasil algoritma Anda:
- Penyetelan Parameter Pencarian Grid
- Pencarian Parameter Acak

Pelajaran ini menyimpulkan cakupan teknik yang dapat Anda gunakan untuk meningkatkan kinerja algoritma pada dataset Anda. Dalam pelajaran berikutnya dan terakhir Anda akan menemukan bagaimana Anda dapat menyelesaikan model Anda untuk menggunakannya pada data yang tidak terlihat.

# 4.4. Save and Load Machine Learning Models

Setelah berhasil menemukan model machine learning terbaik, maka hal berikutnya yang perlu dilakukan adalah menyimpan model tersebut dan memuat kembali ketika ingin dilakukan prediksi menggunakan model tersebut di kemudian hari. 

Pada bagian ini akan dibahas mengenai:
1. Pentingnya model serialisasi untuk digunakan kembali.
2. Cara menggunakan ***Pickle*** untuk membuat serial dan deserialize model *machine learning*.
3. Cara menggunakan ***Joblib*** untuk membuat serial dan deserialize model *machine learning*.

## 4.4.1. Finilaze Model with Pickle

***Pickle*** adalah cara standar untuk membuat objek bersambung dalam Python. Operasi *pickle* akan membantu membuat rangkaian algoritma *machine learning* dan menyimpannya ke dalam sebuah ﬁle. Ketika model ingin digunakan kembali, maka *pickle file* tersebut dapat digunakan untuk membuat prediksi baru. 

Berikut ini adalah contoh pembuatan model prediksi pada data HR dengan menggunakan algoritma Random Forest, lalu menyimpan model tersebut untuk dapat memprediksi dataset terbaru. 

In [9]:
# Random Forest Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from pickle import dump 
from pickle import load

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Modeling menggunakan Random Forest
num_trees = 100
max_features = 3
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)

# Penyimpanan Model Machine Learning
namafile = 'hr_rf_model.sav'
dump(model, open(namafile,'wb'))

# Pemuatan Model Machine Learning
loaded_model = load(open(namafile, 'rb')) 

# Uji Model dengan K-Fold Cross Validation
kfold = KFold(n_splits=10, random_state=7)
results = cross_val_score(loaded_model, X, Y, cv=kfold)
print(results.mean())

0.9909924937447873


## 4.4.2. Finalize Model with Joblib

***Joblib*** adalah bagian dari ekosistem SciPy dan menyediakan utilitas untuk pipelining pekerjaan Python. *Library joblib* menyediakan utilitas untuk menyimpan dan memuat objek Python yang memanfaatkan struktur data NumPy secara efisien. Hal ini dapat berguna untuk beberapa algoritma pembelajaran mesin yang membutuhkan banyak parameter atau menyimpan seluruh dataset (mis. K-Nearest Neighbors). 

Berikut ini adalah contoh pembuatan model prediksi pada data HR dengan menggunakan algoritma Random Forest, lalu menyimpan model tersebut menggunakan *joblib* untuk dapat memprediksi dataset terbaru.

In [10]:
# Random Forest Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.externals.joblib import dump 
from sklearn.externals.joblib import load 

# Load Dataset
nama = ['PUAS', 'EVAL', 'PROJ', 'KB', 'DK', 'KK', 'PROM', 'DIV', 'GAJI', 'STAT'] 
dataset = read_csv("datahr.csv")
array = dataset.values

# Pemisahaan Array menjadi Array Input Variable and Array Output Variable
X = array[:,0:9]
Y = array[:,9]

# Modeling menggunakan Random Forest
num_trees = 100
max_features = 3
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)

# Penyimpanan Model Machine Learning
namafile = 'hr_rf_model.sav'
dump(model, open(namafile,'wb'))

# Pemuatan Model Machine Learning
loaded_model = load(open(namafile, 'rb')) 

# Uji Model dengan K-Fold Cross Validation
kfold = KFold(n_splits=10, random_state=7)
results = cross_val_score(loaded_model, X, Y, cv=kfold)
print(results.mean())

0.9911592994161801
