<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Pengenalan Scikit-Learn</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas sedikit tentang __Scikit-Learn__. Dimulai dari instalasi Scikit-Learn dan beberapa fitur Scikit-Learn dan contoh penerapannya yang akan berguna untuk membangun model <i>machine learning</i> yang sesungguhnya.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Apa itu Scikit-Learn?
            <ul>
                <li>Install Scikit-Learn</li>
                <li>Mengecek versi Scikit-Learn</li>
            </ul>
        </li>
        <li>
            Features
            <ul>
                <li>Datasets</li>
                <ul>
                    <li>Load dataset</li>
                    <li>Menampilkan target dari dataset</li>
                    <li>Menampilkan deskripsi dataset</li>
                </ul>
                <li>Modeling Algorithms</li>
                <li>Model Evaluation</li>
                <li>Preprocessing</li>
                <li>Feature Selection</li>
                <li>Parameter Tuning</li>
            </ul>
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Apa itu Scikit-Learn?

__Scikit-Learn__ adalah sebuah <i>library</i> Python yang sangat bermanfaat untuk membangun model <i>machine learning</i>. Scikit-Learn atau yang dikenal juga dengan __sklearn__ dapat dengan membantu kita dalam pemodelan data dengan klasifikasi, regresi, klasterisasi atau <i>clustering</i>, dan juga fitur-fitur lainnya untuk memudahkan pemodelan <i>machine learning</i>.

Sebelumnya menggunakan Scikit-Learn, kita harus menginstalnya terlebih dahulu. 

### Install Scikit-Learn

Untuk menginstal Scikit-Learn atau sklearn, silahkan Anda jalankan blok kode di bawah ini. Disini kita akan install Scikit-Learn versi __0.24.1__.

In [None]:
pip install scikit-learn==0.24.1 --user

### Mengecek Versi Scikit-Learn

Untuk mengecek versi Scikit-Learn yang terinstal pada komputer, kita dapat menggunakan kode <code>sklearn.\_\_version\_\_</code> seperti contoh di bawah ini. Jangan lupa <i>import</i> sklearn terlebih dahulu untuk menggunakannya.

In [None]:
# Import scikit-learn 

import sklearn

In [None]:
# Mengecek versi scikit-learn

sklearn.__version__

<hr>

## Features

Ada banyak fitur yang dapat kita pergunakan untuk membantu dalam pemodelan <i>machine learning</i>. Beberapa <i>package</i> yang sering digunakan di antaranya:

* __Datasets:__ <i>load</i> dataset yang sudah disediakan oleh Python.
* __Supervised Learning Algoritms:__ Mengakses algoritma <i>supervised learning</i>.
* __Clustering:__ Pemodelan data dengan algoritma <i>clustering</i>.
* __Dimentionality Reduction:__ Mereduksi jumlah atribut pada data.
* __Cross Validation:__ Untuk mengecek akurasi pada model <i>supervised</i>.
* __Feature Selection:__ Mengidentifikasi atribut yang berguna dalam pemodelan <i>machine learning</i>.
* __Parameter Tuning:__ Memilih parameter terbaik agar model <i>machine learning</i> yang dihasilkan memiliki akurasi yang baik.

Masih banyak lagi fitur-fitur pada Scikit-Learn yang dapat digunakan untuk beragam kebutuhan kita dalam pemodelan <i>machine learning</i>. Namun, pada <i>notebook</i> ini kita hanya akan membahas tentang 7 fitur yang telah disebutkan di atas.

### Datasets

Jika kita ingin berlatih memodelkan data namun kita tidak memiliki dataset, kita dapat menggunakan dataset yang telah disediakan oleh Python pada <i>library</i> Sklearn, di antaranya:

* Dataset __Boston House Prices__ (<i>regression</i>) --> <code>load_boston()</code>
* Dataset __Iris__ (<i>classification</i>) --> <code>load_iris()</code>
* Dataset __Diabetes__ (<i>regression</i>) --> <code>load_diabetes()</code>
* Dataset __Digits__ (<i>classification</i>) --> <code>load_digits()</code>
* Dataset __Wine__ (<i>classification</i>) --> <code>load_wine()</code>
* Dataset __Breast Cancer Wisconsin__ (<i>classification</i>) --> <code>load_breast_cancer()</code>
* Dataset __Linnerud__ (<i>multivariate regression</i>) --> <code>load_linnerud()</code>

#### Load dataset

Untuk me-<i>load</i> dataset tersebut, kita harus mengimpor <i>package</i>-nya terlebih dahulu, kemudian buat dataframe Pandas dari dataset yang sudah di-<i>load</i>. Misalnya kita ingin menggunakan dataset Breast Cancer Wisconsin, maka kita impor datasetnya dan membuat dataframenya seperti di bawah ini.

In [None]:
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np

# load dataset diabetes
data_bc = load_breast_cancer()

# membuat dataframe
df_bc = pd.DataFrame(data_bc['data'], columns=data_bc['feature_names'])
df_bc.head()

Sekarang kita coba contoh lainnya, misalnya menggunakan dataset Boston House Prices.

In [None]:
from sklearn.datasets import load_boston
import pandas as pd               

# load dataset boston
boston = load_boston()

# membuat dataframe
df_boston = pd.DataFrame(boston['data'], columns=boston['feature_names'])
df_boston.head()

#### Menampilkan target dari dataset

Parameter <code>data</code> yang kita gunakan di atas hanya menampilkan atribut dari dataset dan TIDAK menampilkan targetnya. Untuk melihat target dari masing-masing baris data tersebut, kita dapat menggunakan parameter <code>target</code>.

In [None]:
# Menampilkan target dataset breast cancer

data_bc['target']

Untuk klasifikasi, kita juga dapat melihat nama kategori dari target dengan parameter <code>target_names</code>. Misalnya seperti yang kita lihat dataset Breast Cancer memiliki target yang direpresentasikan dengan angka <code>0</code> dan <code>1</code> dan kita ingin mengetahui apa nama kategori/kelas yang direpresentasikan dengan bilangan integer tersebut.

In [None]:
# Melihat nama kelas target

data_bc['target_names']

#### Melihat deskripsi dataset

Kita juga dapat melihat deskripsi dari dataset tersebut seperti di bawah ini.

In [None]:
# Melihat deskripsi dataset breast cancer

print(data_bc['DESCR'])

### Modeling Algorithms

Scikit-Learn menyediakan <i>package</i> untuk mengaplikasikan algoritma-algoritma <i>machine learning</i> dengan mudah. Misalnya untuk algoritma <i>supervised learning</i>, ada banyak algoritma yang dapat kita gunakan, di antaranya:

* __Linear Regression__ (<i>regression</i>) --> <code>linear_model.LinearRegression()</code>
* __Logistic Regression__ (<i>classification</i>) --> <code>linear_model.LogisticRegression()</code>
* __K-Nearest Neighbors (KNN)__ (<i>classification</i>) --> <code>neighbors.KNeighborsClassifier()</code>
* __Support Vector Machine (SVM)__ (<i>classification</i>) --> <code>svm.SVC()</code>
* __Support Vector Machine (SVM)__ (<i>regression</i>) --> <code>svm.SVR()</code>
* __Decision Tree__ (<i>classification</i>) --> <code>tree.DecisionTreeClassfier()</code>
* __Decision Tree__ (<i>regression</i>) --> <code>tree.DecisionTreeRegressor()</code>
* __Random Forest__ (<i>classification</i>) --> <code>ensemble.RandomForestClassifier()</code>
* __Naive Bayes__ (<i>classification</i>) --> <code>naive_bayes.GaussianNB()</code>
* __K-Means__ (<i>clustering</i>) --> <code>cluster.KMeans()</code>
* __DBSCAN__ (<i>clustering</i>) --> <code>cluster.DBSCAN()</code>

Selain beberapa algoritma yang telah disebutkan di atas, masih banyak lagi algoritma-algoritma untuk klasifikasi, regresi, dan clustering yang dapat digunakan.

Sebagai contoh, misalnya kita ingin memodelkan dataset Boston House Prices menggunakan algoritma Linear Regression. Yang harus dilakukan pertama kali adalah mengimpor <i>package</i> yang dibutuhkan. Disini kita <i>import</i> <code>LinearRegression</code> dari <i>module</i> <code>sklearn.linear_model</code>. Perhatikan kode berikut.

In [None]:
from sklearn.datasets import load_boston               # import dataset Boston
from sklearn.linear_model import LinearRegression      # import algoritma Linear Regression
              
# load dataset boston
boston = load_boston()

# mendefinisikan atribut dan target 
X = boston['data']
y = boston['target']

# memodelkan atribut dan target dengan Linear Regression
model_lr = LinearRegression()
model_lr.fit(X, y)

Secara sederhana, kita mendefinisikan model linear regression dengan menyimpannya pada variabel <code>model_lr</code>. Kemudian model tersebut kita latih dengan memberikan nilai <code>X</code> dan <code>y</code> sebagai parameter pada <i>method</i> <code>fit()</code>.

Sampai disini, model linear regression sederhana sudah berhasil dibuat.

Nah, untuk algoritma linear regression, kita dapat menampilkan __koefisien__ dan __intercept__ seperti di bawah ini.

In [None]:
# Menampilkan koefisien dan intercept

print('Koefisien model Linear Regression:\n')
print(model_lr.coef_)
print('\n')
print('Intercept: ', model_lr.intercept_)

### Model Evaluation

Untuk mengevaluasi model <i>machine learning</i> yang telah dibuat, kita juga dapat dengan mudah menggunakan <i>package</i> yang telah disediakan Python pada Sklearn.

__Model Evaluation Techniques__
* __Holdout Validation__ --> <code>model_selection.train_test_split()</code> (__Train/test split__ adalah teknik <i>Holdout validation</i> yang paling banyak digunakan)
* __Cross Validation__ --> <code>model_selection.KFold()</code> (__K-Fold Cross Validation adalah__ teknik <i>cross validation</i> yang paling banyak digunakan)


__Model Evaluation Metrics__
* __Accuracy__ (<i>classification</i>) --> <code>metrics.accuracy_score()</code>
* __Confussion Matrix__ (<i>classification</i>) --> <code>metrics.confusion_matrix()</code>
* __F-Measure / F1 Score__ (<i>classification</i>) --> <code>metrics.f1_score()</code>
* __Logarithmic Loss__ (<i>classification</i>) --> <code>metrics.log_loss()</code>
* __Mean Absolute Error (MAE)__ (<i>regression</i>) --> <code>metrics.mean_absolute_error()</code>
* __Mean Squared Error (MSE)__ (<i>regression</i>) --> <code>metrics.mean_squared_error()</code>

Selain teknik dan metrik evaluasi model <i>machine learning</i> yang telah disebutkan di atas, masih banyak lagi pilihan-pilihan evaluasi model yang dapat digunakan sesuai dengan karakteristik dataset kita.

In [None]:
from sklearn.datasets import load_boston               # import dataset Boston
from sklearn.linear_model import LinearRegression      # import algoritma Linear Regression
from sklearn.model_selection import train_test_split   # import train/test split 
from sklearn.metrics import mean_absolute_error        # import mean absolute error (MAE)
from sklearn.metrics import mean_squared_error         # import mean squared error
              
# load dataset boston
boston = load_boston()

# mendefinisikan atribut dan target 
X = boston['data']
y = boston['target']

# membagi data menjadi train set dan test set untuk evaluasi
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

# memodelkan atribut dan target dengan Linear Regression
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)           # melatih model dengan data X_train dan y_train
y_predict = model_lr.predict(X_test)     # menguji model dengan data X_test

# menghitung MAE dan MSE untuk melihat kinerja model
print('MAE: ', mean_absolute_error(y_predict, y_test))
print('MSE: ', mean_squared_error(y_predict, y_test))

### Preprocessing

Tahap <i>preprocessing</i> data, seperti normalisasi, standarisasi dan <i>encoding</i>, juga dapat kita aplikasikan pada dataset dengan menggunakan Sklearn.

__Feature Scaling__
* __Normalization__ --> <code>preprocessing.Normalizer()</code>
* __Standard Scaling__ --> <code>preprocessing.StandardScaler()</code>
* __Min Max Scaling__ --> <code>preprocessing.MinMaxScaler()</code>

__Encoding__
* __Label Encoding__ --> <code>preprocessing.LabelEncoder()</code>
* __One-Hot Encoding__ --> <code>preprocessing.OneHotEncoder()</code>

Misalnya disini kita ingin menormalisasi dataset Boston House Prices sebelum dilakukan pemodelan data. Perhatikan kode berikut.

In [None]:
import pandas as pd
from sklearn.datasets import load_boston               # import dataset Boston
from sklearn.preprocessing import Normalizer           # import normalizer
              
# load dataset boston
boston = load_boston()

# normalisasi data
norm = Normalizer().fit_transform(boston['data'])

# membuat dataframe untuk menampilkan hasil normalisasi pada dataframe
df_boston = pd.DataFrame(norm, columns=boston['feature_names'])
df_boston.head()

### Feature Selection

<i>Feature selection</i> terkadang dibutuhkan karena dapat memaksimalkan kinerja model <i>machine learning</i>. Seleksi fitur dapat berupa <i>feature extraction</i>, <i>feature elimination</i>, atau <i>dimensionality reduction</i>. Seluruh teknik tersebut akan menghasilkan fitur yang dirasa penting atau menggabungkan fitur agar nantinya model akan bekerja lebih baik.

Dengan Sklearn, kita dapat dengan mudah melakukan seleksi fitur dari dataset yang kita miliki dengan berbagai algoritma yang telah disediakan Python.

__Feature Selection__
* __Recursive Feature Elimination (RFE)__ --> <code>feature_selection.RFE()</code>
* __Select K Best__ --> <code>feature_selection.SelectKBest()</code>
* __chi2__ --> <code>feature_selection.chi2()</code>
* __Select From Model__ --> <code>feature_selection.SelectFromModel()</code>

__Dimensionality Reduction Algorithms__
* __Principal Component Analysis (PCA)__ --> <code>decomposition.PCA()</code>
* __Linear Discriminant Analysis (LDA)__ --> <code>discriminant_analysis.LinearDiscriminantAnalysis()</code>

Selain yang telah disebutkan di atas, masih banyak lagi <i>package</i> yang dapat digunakan untuk seleksi fitur.

Sebagai contoh misalnya disini kita akan menggunakan teknik reduksi dimensi dengan PCA. Perhatikan contoh berikut.

In [None]:
import pandas as pd
from sklearn.datasets import load_boston               # import dataset Boston
from sklearn.preprocessing import Normalizer           # import normalizer
from sklearn.decomposition import PCA                  # import PCA
              
# load dataset boston
boston = load_boston()

# normalisasi data
norm_data = Normalizer().fit_transform(boston['data'])

# mengaplikasikan PCA
pca = PCA(n_components=2).fit_transform(norm_data)

df_pca = pd.DataFrame(data = pca, columns = ['Fitur 1', 'Fitur 2'])
df_pca.head()

### Parameter Tuning

<i>Parameter tuning</i> pada dasarnya adalah memilih atau mengkombinasikan parameter-parameter agar algoritma <i>machine learning</i> dapat menghasilkan performa terbaiknya. Setidaknya di Scikit-Learn Python ada 2 teknik parameter tuning, yaitu Grid Search dan Randomized Search.

* __Grid Search__ --> <code>model_selection.GridSearchCV()</code>
* __Randomized Search__ --> <code>model_selection.RandomizedSearchCV()</code>

In [None]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV

# load dataset
data_bc = load_breast_cancer()

# mendefinisikan atribut dan target 
X = data_bc['data']
y = data_bc['target']

# membagi data menjadi train set dan test set untuk evaluasi
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=10)

# mendefinisikan parameter yang ingin dicoba
param_grid = {'n_neighbors': np.arange(2,20), 
             'weights': ['distance', 'uniform'], 
             'p': [1, 2],
             'algorithm': ['auto', 'brute', 'kd_tree', 'ball_tree']}

# modeling dengan KNN + Randomized Search
model_knn = KNeighborsClassifier()
gscv = GridSearchCV(model_knn, param_grid, scoring='accuracy', cv=5)
gscv.fit(X_train, y_train)

Untuk menampilkan kombinasi parameter terbaik dapat menggunakan atribut <code>.best_params_</code>.

In [None]:
# Menampilkan kombinasi parameter terbaik

gscv.best_params_

Untuk menampilkan skor terbaik dapat menggunakan atribut <code>.best_score_</code>.

In [None]:
# Menampilkan skor terbaik

gscv.best_score_

Masih banyak proses yang dapat dilakukan dengan memanfaatkan Scikit-Learn di Python. Yang telah disampaikan di atas adalah sebagian proses yang harus diketahui jika kita baru memulai terjun di bidang <i>data science</i> atau <i>machine learning</i>.

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>