# Pengenalan Machine Learning dengan Python

oleh Setia Budi <br/>
Github/Twitter/Instagram: @boedybios

<div>
    <img src="./images/boedy.png" width="500">
</div>

In [1]:
from notebook.services.config import ConfigManager
cm = ConfigManager()
cm.update('livereveal', {
        'scroll': True,
        'width': '100%',
        'height': '100%',
})

{'scroll': True, 'width': '100%', 'height': '100%'}

# Konsep Dasar

## Apa itu Machine Learning (ML)?
- "Machine Learning is a study that gives computers the ability to learn without being explicitly programmed" - **Arthur Samuel**
-  "Machine Learning is a program can be said to learn from experience $E$ with respect to some class of tasks $T$ and performance measure $P$, if its performance at tasks in $T$, as measured by $P$, improves with experience $E$." - **Tom Mitchell** 
- Machine Learning adalah bidang ilmu yang memampukan suatu program komputer untuk belajar dari sekumpulan data.

## Learning Problem

- **Learning problem** dalam konteks Machine Learning (ML) melibatkan suatu dataset (terdiri dari sejumlah $n$ sample data) untuk melakukan prediksi terhadap properties yang tidak diketahui pada dataset lain yang sejenis. 
- Secara umum learning problem dapat dibagi menjadi dua, yaitu **supervised learning** dan **unsupervised learning**.
- Pada **supervised learning problem**, program memprediksi suatu nilai output untuk suatu input berdasarkan proses **learning** dengan memanfaatkan sekumpulan data yang terbagi dalam dua label, yaitu input dan output. Di sini program melakukan **learning** dari sekumpulan contoh kasus (examples) yang menyertakan "jawaban benar".
- Pada **unsupervised learning problem**, program tidak melakukan learning dari labeled data; melainkan mencoba menemukan pola (patterns) pada data. Di sini program melakukan **learning** dari sekumpulan contoh kasus (examples) tanpa disertai "jawaban benar".

## Supervised Machine Learning Tasks

- Secara umum terdapat dua jenis Supervised Machine Learning Tasks, yaitu **Classification** dan **Regression**.
- **Classification tasks** menekankan pada proses learning (training) untuk melakukan prediksi nilai discrete (i.e., category, class, label) dari sejumlah features.
- **Regression tasks** menekankan pada proses learning (training) untuk melakukan prediksi nilai continuos (floating point) dari sejumlah features.

## Terminologi Dasar pada Supervised Learning 

- **output**: label, response variable, dependent variable, regressand, criterion variable, measured variable, responding variable, explained variable, outcome variable, experimental variable, dan output variable
- **input**: features, explanatory variables, independent variables, predictors, regressors, controlled variables, and exposure variables
- **train set**: Sekumpulan "contoh" yang digunakan untuk proses **learning (training)** pada supervised learning.
- **test set**: Sekumpulan "contoh" yang digunakan untuk mengukur performa pada supervised learning.
- Pada supervised learning, **response variable** bisa dianalogikan sebagai **kunci jawaban** dan **explanatory variables** bisa dianalogikan sebagai **pertanyaan**nya. 

## Unsupervised Machine Learning Tasks

- Terdapat beberapa Unsupervised Machine Learning Tasks dan kita akan berfokus pada dua tasks, yaitu **Clustering** dan **Dimensionality Reduction**.
- **Clustering tasks** menekankan pada proses explorasi data untuk menemukan kelompok (group) pada data berdasarkan kemiripan (kedekatan) karakteristik.
- **Dimensionality Reduction tasks** menekankan pada proses explorasi data untuk menemukan sejumlah features yang paling berdampak terhadap response variable.

# Dataset

## Sample Dataset

In [2]:
from sklearn.datasets import load_iris

In [3]:
iris = load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [4]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

## Deskripsi Dataset

In [5]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## Features & Target

### Features

In [6]:
X = iris.data
X.shape
# X

(150, 4)

In [7]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

### Target

In [8]:
y = iris.target
y.shape
# y

(150,)

In [9]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

## Load Sample Dataset sebagai Pandas DataFrame

In [10]:
iris = load_iris(as_frame=True)

iris_features_df = iris.data
iris_features_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


## Splitting Dataset: Training & Testing Set

In [11]:
from sklearn.model_selection import train_test_split

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=1)

In [13]:
print(f'X train: {X_train.shape}')
print(f'X test: {X_test.shape}')
print(f'y train: {y_train.shape}')
print(f'y test: {y_test.shape}')

X train: (105, 4)
X test: (45, 4)
y train: (105,)
y test: (45,)


# Machine Learning Model

## Overview

- Pada Scikit Learn, model machine learning dibentuk dari class yang dikenal dengan istilah **estimator**.
- Setiap estimator akan mengimplementasikan dua method utama, yaitu `fit()` dan `predict()`.
- Method `fit()` digunakan untuk melakukan training model.
- Method `predict()` digunakan untuk melakukan estimasi/prediksi dengan memanfaatkan trained model.

## Pilih Model Machine Learning

In [14]:
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

model = GaussianNB()
# model = KNeighborsClassifier(n_neighbors=3)
# model = SVC()

## Pilih Model Machine Learning

In [15]:
model.fit(X_train, y_train)

GaussianNB()

## Evaluasi Model Machine Learning

In [16]:
y_pred = model.predict(X_test)

In [17]:
from sklearn.metrics import accuracy_score, classification_report

In [18]:
accuracy_score(y_test, y_pred)

0.9333333333333333

In [19]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.94      0.89      0.91        18
           2       0.86      0.92      0.89        13

    accuracy                           0.93        45
   macro avg       0.93      0.94      0.93        45
weighted avg       0.94      0.93      0.93        45



## Deploy Model Machine Learning

In [20]:
import joblib

#### Dump model sebagai joblib file

In [21]:
joblib.dump(model, 'deployed_model.joblib')

['deployed_model.joblib']

#### Load model dari joblib file

In [23]:
production_model = joblib.load('deployed_model.joblib')

#### Menggunakan model untuk prediction

In [26]:
import numpy as np
new_cases = np.array([[5.8, 4., 1.2, 0.2], 
                      [5.7, 4.4, 1.5, 0.4]])

In [29]:
y_pred = production_model.predict(new_cases)
y_pred

array([0, 0])

In [30]:
for item in y_pred:
    print(iris.target_names[item])

setosa
setosa


# Penutup

## Terima kasih untuk atensinya
Semoga materi yang disampaikan bisa bermanfaat <br/>
Bagi yang tertarik bisa mempelajari lebih lanjut di channel YouTube Indonesia Belajar <br/>
<br/>

<div>
    <img src="./images/indonesia_belajar.png" width="700">
</div>