# Prinsip-Prinsip Dasar dari Machine Learning

Oleh Afif Akbar Iskandar

Kita akan mulai "menyelam" pada prinsip-prinsip dasar dari machine learning, dan bagaimana cara mengimplementasikannya via Scikit-Learn API.

Bagian ini mencover **supervised learning** dan **unsupervised learning** secara singkat

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

# use seaborn for plot defaults
# this can be safely commented out
import seaborn; seaborn.set()

## Objek Estimator

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression(normalize=True)
print(model.normalize)

In [None]:
print(model)

Buat fungsi Y = 2*X + 1

In [None]:
x = np.arange(10)
y = 2 * x + 1

In [None]:
print(x)
print(y)

In [None]:
plt.plot(x, y, 'o');

In [None]:
X = x[:, np.newaxis] #Ubah kedalam bentuk yang dikenal scikit-learn
print(X)
print(y)

In [None]:
model.fit(X, y) #fit model dengan data

In [None]:
print(model.coef_)
print(model.intercept_)

Model yang dihasilkan adalah slope = 2 dan intercept = 1.

## Supervised Learning (Klasifikasi dan Regresi)

Pada **Supervised Learning**, data yang dibutuhkan adalah Fitur pada setiap sampel, dan label yang bersesuaian.

Contoh supervised learning:
- Diberikan data riwayat applicants kartu kredit beserta hasilnya (diterima atau tidak) untuk membuat model apakah pendaftar kartu kredit dimasa depan akan diterima aplikasinya atau tidak (klasifikasi)
- Diberikan data riwayat harga rumah dari tahun ke tahun di kompleks X untuk membuat model harga rumah dimasa depan (regresi)

### Contoh Klasifikasi

K nearest neighbors (kNN) adalah salah satu algoritma pembelajaran yang paling sederhana: diberikan data baru, maka kNN akan mencarikan fitur yang paling dekat sehingga kelas data baru tersebut akan sama dengan data hasil belajarnya

In [None]:
from sklearn import neighbors, datasets

iris = datasets.load_iris()
X, y = iris.data, iris.target

# buat model
knn = neighbors.KNeighborsClassifier(n_neighbors=5)

# fit model
knn.fit(X, y)

# Iris jenis apa yang memiliki 3cm x 5cm sepal dan 4cm x 2cm petal?
# panggil method predict
result = knn.predict([[3, 5, 4, 2],])

print(iris.target_names[result])

Anda juga bisa melihat hasilnya dalam versi probabilistik

In [None]:
knn.predict_proba([[3, 5, 4, 2],])

In [None]:
from fig_code import plot_iris_knn
plot_iris_knn()

### Latihan
Gunakan SVM untuk memprediksi hal yang sama seperti diatas

In [None]:
from sklearn.svm import SVC


#kode anda


### Contoh Regresi

Contoh regresi yang paling sederhana adalah `fitting` garis kedalam data kita

In [None]:
# Buat data yang simpel
import numpy as np
np.random.seed(0)
X = np.random.random(size=(20, 1))
y = 3 * X.squeeze() + 2 + np.random.randn(20)

plt.plot(X.squeeze(), y, 'o');

Plot garis terbaik menggunakan regresi linear

In [None]:
model = LinearRegression()
model.fit(X, y)

# Plot data dan garis
X_fit = np.linspace(0, 1, 100)[:, np.newaxis]
y_fit = model.predict(X_fit)

plt.plot(X.squeeze(), y, 'o')
plt.plot(X_fit.squeeze(), y_fit);

Scikit-learn mempunyai `regresor` lain yang lebih kompleks (mis. random forest)

In [None]:
# Random Forest
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(X, y)

# Plot data dan garis
X_fit = np.linspace(0, 1, 100)[:, np.newaxis]
y_fit = model.predict(X_fit)

plt.plot(X.squeeze(), y, 'o')
plt.plot(X_fit.squeeze(), y_fit);

## Unsupervised Learning: Reduksi Dimensi dan Klaster

Pada **Unupervised Learning**, data yang dibutuhkan hanya Fitur pada setiap sampel saja (tanpa label.

Contoh Unsupervised learning:
- Diberikan data kumpulan berita hari ini, tentukanlah berita paling penting pada hari itu (Reduksi Dimensi)
- Diberikan data mahasiswa suatu Universitas, kelompokkan sesuai dengan kemampuan finansial untuk distribusi beasiswa (Klaster)

### Reduksi Dimensi : PCA

Principle Component Analysis (PCA) adalah salah satu teknik reduksi dimensi, secara teknis akan dipelajari di pertemuan selanjutnya

Pengaplikasian pada Iris-dataset (4D to 2D)

In [None]:
X, y = iris.data, iris.target

from sklearn.decomposition import PCA
pca = PCA(n_components=0.95)
pca.fit(X)
X_reduced = pca.transform(X)
print("Reduced dataset shape:", X_reduced.shape)

In [None]:
import pylab as plt
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y,
           cmap='RdYlBu')

print("Arti dari 2 componen:")
for component in pca.components_:
    print(" + ".join("%.3f x %s" % (value, name)
                     for value, name in zip(component,
                                            iris.feature_names)))

### Klaster : K-Means

K-Means merupakan teknik klaster paling sederhana (berdasarkan jarak)

akan diaplikasikan pada iris dataset

In [None]:
from sklearn.cluster import KMeans
k_means = KMeans(n_clusters=3, random_state=0) # Fixing the RNG in kmeans
k_means.fit(X)
y_pred = k_means.predict(X)

plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y_pred,
           cmap='RdYlBu');

# Rekap: Antarmuka Estimator Scikit-Learn

API Scikit-learn memiliki antarmuka (interface) yang seragam untuk semua metode, kita akan melihat beberapa contoh dibawah ini

- Tersedia di **semua estimator**
  + `model.fit()` : melatih data training. Untuk *supervised learning*, fungsi ini menerima 2 input, yaitu data `X` dan label       `y` (contoh : `model.fit(X,y)`). Untuk *unsupervised learning*, hanya memerlukan 1 input, yaitu data `X` saja (contoh :         `model.fit(X)`).
- Tersedia di **estimator supervised learning**
  + `model.predict()` : diberikan sebuah model yang sudah dilatih (trained), fungsi ini melakukan prediksi dari model tersebut.     Ini membutuhkan satu parameter saja, yaitu data baru yang akan diprediksi labelnya yaitu data test / data validasi `X_new`     (contoh : `model.predict(X_new)`).
  + `model.predict_proba()` : Untuk permasalahan klasifikasi, beberapa estimator juga menyediakan metode ini, yang menghasilkan      probabilitas dari observasi baru untuk setiap label kategorik yang tersedia. Pada kasus ini, label dengan probabilitas          tertinggi akan ditampilkan di metode `model.predict()`.
  + model.score() : untuk permasalahan klasifikasi atau regresi, hampir semua (atau bahkan semua) memiliki metode ini sebagai       salah satu cara untuk menilai kecocokan model terhadap data yang kita latih (nilai antara 0 sampai 1).
- Tersedia di **estimator unsupervised learning**
  + `model.predict()` : memprediksi label di permasalahan *clustering*.
  + `model.transform()` : diberikan model *unsupervised learning*, transformasikan data ke basis baru. Metode ini juga menerima      data baru `X_new` dan menghasilkan representasi data yang baru sesuai sesuai data yang dilatih kedalam model.
  + `model.fit_transform()` : beberapa estimator mengimplementasikan metode ini, yang merupakan *pipeline* dari proses `model.fit()` dan `model.transform()` secara simultan.

## Validasi dan Evaluasi Model

Hal yang cukup penting dalam pemodelan *machine learning* adalah validasi dan evaluasi model, hal ini menentukan apakah model yang kita miliki sudah baik atau belum.

Metode validasi sederhana

In [None]:
from sklearn.neighbors import KNeighborsClassifier
X, y = iris.data, iris.target
clf = KNeighborsClassifier(n_neighbors=1)
clf.fit(X, y)
y_pred = clf.predict(X)
print(np.all(y == y_pred))

Validasi dengan Confussion Matrix

In [None]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(y, y_pred))

Evaluasi dengan cross-validation

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y)
clf.fit(Xtrain, ytrain)
ypred = clf.predict(Xtest)
print("akurasi metode ini" , accuracy_score(ypred,ytest))

## Flow-Chart : Memilih Estimator Terbaik

In [None]:
from IPython.display import Image
Image("http://scikit-learn.org/dev/_static/ml_map.png")

Sumber: [scikit-learn website](http://scikit-learn.org/stable/tutorial/machine_learning_map/)

## Contoh Aplikasi : Optical Character Recognition

Berikut merupakan salah satu aplikasi menarik dari permasalahan *machine learning* yaitu OCR

### Load & Visualisasi Data

In [None]:
from sklearn import datasets
digits = datasets.load_digits()
digits.images.shape

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i, ax in enumerate(axes.flat):
    ax.imshow(digits.images[i], cmap='binary', interpolation='nearest')
    ax.text(0.05, 0.05, str(digits.target[i]),
            transform=ax.transAxes, color='green')
    ax.set_xticks([])
    ax.set_yticks([])

Masing-masing data diatas direpresentasikan dalam sebuah matriks, sebagai contoh : 

In [None]:
# Representasi gambar
print(digits.images.shape)
print(digits.images[0])

In [None]:
# Representasi yang digunakan dalam algoritma
print(digits.data.shape)
print(digits.data[0])

In [None]:
# Label
print(digits.target)

Sehingga kita memiliki 1797 data dengan 64 fitur

### Unsupervised Learning : Reduksi Dimensi

Reduksi 64 fitur menjadi 2 dimensi, sehingga mudah untuk dilakukan visualisasi

In [None]:
from sklearn.manifold import Isomap

In [None]:
iso = Isomap(n_components=2)
data_projected = iso.fit_transform(digits.data)

In [None]:
data_projected.shape

In [None]:
plt.scatter(data_projected[:, 0], data_projected[:, 1], c=digits.target,
            edgecolor='none', alpha=0.5, cmap=plt.cm.get_cmap('nipy_spectral', 10));
plt.colorbar(label='digit label', ticks=range(10))
plt.clim(-0.5, 9.5)

Dari plot diatas, kita dapat melihat persebaran data dari masing-masing digit angka. Mari kita coba lakukan supervised learning untuk permasalahan diatas.

### Supervised Learning : Klasifikasi

Split data menjadi 2 bagian : train-set dan test-set

In [None]:
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(digits.data, digits.target,
                                                random_state=2)
print(Xtrain.shape, Xtest.shape)

lakukan training menggunakan salah satu algoritma, dalam hal ini saya menggunakan regresi logistik

In [None]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(penalty='l2', max_iter=10000)
clf.fit(Xtrain, ytrain)
ypred = clf.predict(Xtest)

cek akurasi dari model kita

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(ytest, ypred)

In [None]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(ytest, ypred))

In [None]:
plt.imshow(np.log(confusion_matrix(ytest, ypred)),
           cmap='Blues', interpolation='nearest')
plt.grid(False)
plt.ylabel('true')
plt.xlabel('predicted');

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i, ax in enumerate(axes.flat):
    ax.imshow(Xtest[i].reshape(8, 8), cmap='binary')
    ax.text(0.05, 0.05, str(ypred[i]),
            transform=ax.transAxes,
            color='green' if (ytest[i] == ypred[i]) else 'red')
    ax.set_xticks([])
    ax.set_yticks([])