# Contoh Penerapan Machine Learning

Sekarang kita akan mencoba untuk memprediksi spesies bunga iris menggunakan dataset yang telah disediakan oleh library scikit learn. Bunga iris memiliki 3 spesies yaitu iris setosa, versicolor dan virginica yang dibedakan berdasarkan ukuran sepal dan petal. Berikut merupakan bentuk dari ketiga spesies bunga iris:

![alt text](https://miro.medium.com/max/700/0*fTQ9JbFu3zg_a5HD.png)

Dataset bunga iris pada scikit learn (sklearn) akan saya ubah menjadi dataframe/tabel terlebih dahulu supaya mudah dipahami. Untuk mengubahnya, saya menggunakan library pandas. Kita import library pandas dan library sklearn untuk mengambil dan mengolah dataset.

In [51]:
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris() # memasukan dataset iris ke dalam variabel iris

df = pd.DataFrame(iris.data, columns=iris.feature_names) # membuat dataframe
df['target'] = iris.target # kita tambahkan kolom target 

Selanjutnya kita akan menampilkan 5 data teratas untuk melihat data secara garis besar menggunakan method .head(). Kita juga dapat mengecek data tersebut apakah terdapat missing value/null menggunakan method .isnull() dan sum()

In [52]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [38]:
df.isnull().sum()

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
target               0
dtype: int64

Dari informasi di atas terlihat bahwa dataset tidak memiliki nilai null sehingga bersih. Machine learning yang akan digunakan termasuk ke dalam supervised learning karena dataset iris memiliki label/target. Pada dataset di atas, label memiliki nilai 0, 1, 2. Untuk melihat nama label dapat dilakukan dengan melihat data iris pada sklearn. Kita juga dapat melihat jumlah label/target pada dataset tersebut. Terlihat bahwa jumlah label seimbang antara ketiga jenis. 

In [39]:
#keterangan target, terdapat pada data iris sklearn
for index, name in enumerate(iris.target_names):
  print(f'Nomor {index} adalah spesies jenis iris {name}')

Nomor 0 adalah spesies jenis iris setosa
Nomor 1 adalah spesies jenis iris versicolor
Nomor 2 adalah spesies jenis iris virginica


In [40]:
df['target'].value_counts()

2    50
1    50
0    50
Name: target, dtype: int64

Selanjutnya kita akan mencoba untuk membagi data dari dataframe yang telah dibuat menjadi data train dan data test. Data train akan digunakan oleh komputer untuk dipelajari sedangkan data test akan digunakan untuk proses prediksi. Perbandingan antara data train dan data test yang dipakai adalah 0.2 untuk data test (umumnya 0.2 - 0.3 untuk data test) dan pemilihan dilakukan secara acak dengan tingkat random 21. Fungsi dari stratify adalah untuk meratakan jumlah pembagian data sehingga baik data train maupun data test memiliki jumlah jenis yang sama.

In [18]:
from sklearn.model_selection import train_test_split

# kita pisahkan terlebih dahulu data feature dengan data target
x = df.drop('target', axis=1)
y = df['target']

# saatnya membagi data train dengan data test
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, stratify=y, random_state=21)

In [50]:
print('Proporsi jenis pada data train:')
print(y_train.value_counts())

print('Proporsi jenis pada data test:')
print(y_test.value_counts())

# Terlihat bahwa perbandingan ketiga jenis sama untuk data train maupun data test

Proporsi jenis pada data train:
2    40
1    40
0    40
Name: target, dtype: int64
Proporsi jenis pada data test:
2    10
1    10
0    10
Name: target, dtype: int64


Selanjutnya kita akan melakukan eksperimen untuk menemukan hyperparameter yang sesuai dengan model/algoritma sehingga menghasilkan akurasi tinggi. Model/algoritma yang akan saya gunakan adalah DecisionTreeClassifier karena machine learning yang dibuat termasuk ke dalam klasifikasi. Untuk memilih hyperparameter yang sesuai, saya menggunakan GridSearchCV. Kemudian mengisinya dengan estimator/model dan hyperparameter pada DecisionTree. Untuk mengetahui hyperparameter apa saja yang terdapat pada DecisionTreeClassifier dapat dilihat pada link berikut:

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

Saya tidak menggunakan semua hyperparameter yang ada, dan untuk nilai hyperparameter saya menggunakan sembarang angka, karena jika terlalu banyak akan memakan waktu yang lama.

In [54]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

param = {'max_depth':[2,3,5,7,9,11,13],
         'splitter':['best', 'random'],
         'min_samples_split': [2,3,5,7,9,11,13],
         'min_samples_leaf': [2,3,5,7,9,11,13],
         'random_state':[15,17,19,21]
         }
tree = DecisionTreeClassifier()

gscv = GridSearchCV(estimator=tree,
                    param_grid=param)
gscv.fit(x_train, y_train)

GridSearchCV(cv=None, error_score=nan,
             estimator=DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort='deprecated',
                                              random_state=None,
                                              splitter='best'),
             iid='deprecated', n_jobs=None,
             param_grid={'max_depth': [2, 3, 5, 7, 9, 11, 13],
            

Untuk melihat hyperparameter yang paling baik dapat dilakukan dengan menggunakan best_params_. Di bawah ini terlihat kumpulan hyperparameter yang menghasilkan nilai terbesar.

In [20]:
gscv.best_params_

{'max_depth': 5,
 'min_samples_leaf': 2,
 'min_samples_split': 2,
 'random_state': 15,
 'splitter': 'random'}

Untuk melihat berapa nilai yang dihasilkan oleh kombinasi hyperparameter di atas, kita dapat menggunakan best_score_

In [21]:
gscv.best_score_

0.9666666666666668

Setelah kita mengetahui hyperparameter yang sesuai, saat nya kita membuat model machine learning kemudian melatihnya dengan data train menggunakan method fit()

In [22]:
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(max_depth=5,
                              min_samples_split=2,
                              splitter='random',
                              min_samples_leaf=2,
                              random_state=15
                              )

tree.fit(x_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=5, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=2, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=15, splitter='random')

Setelah dilatih kita dapat menggunakan data test (x_test) sebagai prediksi, kemudian kita bandingkan dengan y_test untuk menilai tingkat akurasi machine learning yang dibuat. 

In [23]:
y_predict = tree.predict(x_test)

In [24]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_predict)
accuracy

0.9666666666666667

Akurasi 0.96 termasuk ke dalam kategori yang sangat baik (di atas 90). Misalkan akurasi yang dihasilkan jelek, kita dapat mengatasinya dengan memilih model/algoritma yang lain dan mencari hyperparameter yang sesuai. Selanjutnya kita akan mencoba membuat program sederhana supaya terlihat lebih menarik.

In [36]:
# Saatnya kita membuat program sederhana supaya lebih keren
import numpy as np

print('Deteksi Spesies Iris\n')
sepal_length = float(input('Masukan panjang sepal: '))
sepal_width = float(input('Masukan lebar sepal: '))
petal_length = float(input('Masukan panjang petal: '))
petal_width = float(input('Masukan lebar petal: '))

# model hanya menerima input data 2 dimensi, oleh karena itu kita ubah bentuk data
# menjadi dua dimensi
data = np.array([[sepal_length, sepal_width, petal_length, petal_width]])


predict_data = tree.predict(data)

print('\n')
print('Hasil:')
if predict_data == 0:
  print('Bunga tersebut termasuk ke dalam spesies iris setosa')

elif predict_data == 1:  
  print('Bunga tersebut termasuk ke dalam spesies iris versicolor')

elif predict_data == 2:  
  print('Bunga tersebut termasuk ke dalam spesies iris virginica')


# Kita coba masukan data berikut 6.0, 4.6, 1.4, 4.2 

Deteksi Spesies Iris

Masukan panjang sepal: 6
Masukan lebar sepal: 4.6
Masukan panjang petal: 1.4
Masukan lebar petal: 4.2


Hasil:
Bunga tersebut termasuk ke dalam spesies iris versicolor
