# Pengenalan Scikit-Learn: Machine Learning dengan Python

Oleh Afif Akbar Iskandar

Sesi ini akan membahas mengenai dasar Scikit-Learn, library populer yang mengandung koleksi dari tools untuk machine learning yang ditulis dengan Python. Selanjutnya dapat dilihat di http://scikit-learn.org.

## Outline

**Tujuan Utama:** Memperkenalkan konsep dasar machine learning, dan bagaimana cara pengaplikasiannya menggunakan Python dengan library Scikit-learn.

- Definisi machine learning
- Representasi data di scikit-learn
- Perkenalan dengan Scikit-learn API

## Tentang Scikit-Learn

[Scikit-Learn](http://github.com/scikit-learn/scikit-learn) adalah library Python yang dirancang untuk mempermudah penggunaan algoritma machine learning dalam kode Python, melalui **API ** Yang telah dikembangkan oleh ratusan kontributor dari seluruh dunia, dan digunakan di seluruh industri dan akademisi.

Scikit-Learn dirancang diatas modul [NumPy (Numerical Python)](http://numpy.org) dan [SciPy (Scientific Python)](http://scipy.org) pada Python, sehingga segala perhitungan didalamnya lebih efisien. Namun, scikit-learn tidak spesifik di desain untuk data yang besar.

Untuk pengenalan kali ini, akan digunakan dataset yang kecil hingga medium untuk diproses menggunakan Scikit-Learn

## Apa itu Machine Learning?

Machine Learning,  cabang dari **Artificial Intelligence** , adalah disiplin ilmu yang mencakup perancangan dan pengembangan algoritma yang memungkinkan komputer untuk mengembangkan perilaku yang didasarkan pada data empiris, seperti dari sensor data basis data. Sistem pembelajar dapat memanfaatkan contoh (data) untuk menangkap ciri yang diperlukan dari probabilitas yang mendasarinya (yang tidak diketahui).

Perhatikan dua task sederhana dari pembelajaran mesin berikut.
Yang pertama adalah **klasifikasi**: gambar ini memperlihatkan data dua dimensi, diberi warna berdasarkan kelasnya. Algoritma klasifikasi biasanya digunakan untuk mencari batas dari dua kelas tersebut.

In [None]:
%matplotlib inline

# set seaborn plot defaults.
# This can be safely commented out
import seaborn; seaborn.set()

In [None]:
# Import the example plot from the figures directory
from fig_code import plot_sgd_separator
plot_sgd_separator()

Task kedua adalah **regresi** : mencari garis yang `fit` dengan data kita

In [None]:
from fig_code import plot_linear_regression
plot_linear_regression()

## Representasi Data pada Scikit-learn

Machine Learning selalu berhubungan dengan Data, untuk itu penting untuk melakukan representasi yang tepat sebelum melakukan analisis menggunakan Machine Learning.

Sebelum menggunakan Scikit-Learn untuk melakukan task Machine Learning, kita harus memastikan data kita sudah diubah kedalam bentuk matriks dimana baris menggambarkan `n_samples` dan kolom menggambarkan `n_features`

![Data Layout](images/data-layout.png)

(Gambar diambil dari [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook))

## Contoh Sederhana : Iris-Dataset

Data yang digunakan pada sesi ini adalah `iris dataset` yang tersimpan pada modul Scikit-Learn, data ini mendeskripsikan 3 spesies bunga

In [None]:
from IPython.core.display import Image, display
display(Image(filename='images/iris_setosa.jpg'))
print("Iris Setosa\n")

display(Image(filename='images/iris_versicolor.jpg'))
print("Iris Versicolor\n")

display(Image(filename='images/iris_virginica.jpg'))
print("Iris Virginica")

### Pertanyaan Singkat:

**Jika kita ingin mendesain algoritma pengenal spesies iris, bagaimana bentuk datanya?**

Ingat: kita butuh array 2D `[n_samples x n_features]`.

- Apa yang jadi `n_samples` nya ?

- Apa yang jadi `n_features` nya ?

Ingat, pada setiap data, diharuskan menggunakan jumlah fitur yang sama

### Loading the Iris Data with Scikit-Learn

Scikit-learn telah mengekstraksi data iris kedalam 4 fitur berikut:

- Fitur pada Iris dataset:

  1. panjang sepal dalam cm
  2. lebar sepal dalam cm
  3. panjang petal dalam cm
  4. lebar petal dalam cm

- Kelas target:

  1. Iris Setosa
  2. Iris Versicolour
  3. Iris Virginica
  

#### Mulai Code

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
iris.keys()

In [None]:
n_samples, n_features = iris.data.shape
print((n_samples, n_features))
print(iris.data[0])

In [None]:
print(iris.data.shape)
print(iris.target.shape)

In [None]:
print(iris.target)

In [None]:
print(iris.target_names)

Data ini merupakan data 4D, tetapi kita dapat menggambar data tersebut dalam 2D kedalam  scatter-plot:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x_index = 0
y_index = 1

# formatter untuk mengatur warna berbeda pada setiap kelas
formatter = plt.FuncFormatter(lambda i, *args: iris.target_names[int(i)])

plt.scatter(iris.data[:, x_index], iris.data[:, y_index],
            c=iris.target, cmap=plt.cm.get_cmap('RdYlBu', 3))
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.clim(-0.5, 2.5)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index]);

### Latihan singkat
Ubahlah `x_index` dan `y_index` sehingga data menjadi terpisah secara sempurna

pertanyaan : bagaimana agar representasi pada fitur tidak hilang walaupun dimensinya diturunkan ?