<a href="https://colab.research.google.com/github/beatriceadel/ppsdcw3/blob/main/codingws3_ml.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Machine Learning w/ Python**

## **Apa itu Machine Learning?**


>The use and development of computer systems that are able to **learn and adapt without following explicit instructions**, by using **algorithms and statistical models** to analyse and draw inferences from **patterns in data**. 

-*Oxford Dictionaries*

<img src="https://volcanohong.github.io/content/images/2016/ml_process.png" width=600 height=300/>

## **Libraries & Tools Python untuk Machine Learning**


*   **NumPy & SciPy**: General-purpose numerical computation
*   **Pandas**: Data analysis & manipulation
*   **Matplotlib & Seaborn**: Data visualization
*   **Scikit-Learn**: Machine learning functions and algorithms
*   **Tensorflow**: Machine learning models
*   **PyTorch**: Machine learning, computer vision, & natural language processing
*   **Keras**: Machine learning, deep learning, neural networks



# **Studi Kasus**

Untuk workshop ini, kita akan mengaplikasikan beberapa macam algoritma pada dataset **'Breast Cancer Wisconsin'** yang diambil dari [*UCI Machine Learning Repository*](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Original))

Dataset dapat di download melalui link [ini](https://raw.githubusercontent.com/beatriceadel/ppsdcw3/main/breast-cancer-wisconsin.csv)

Setelah data sudah didownload, kita bisa memulai dengan mengimport libraries yang akan kita gunakan: NumPy, Pandas, Matplotlib, dan Seaborn.

In [None]:
# Import library - library yang akan digunakan


## Mengidentifikasi Masalah

Pertama - tama, dalam membangun sebuah machine learning model, kita perlu mengidentifikasi terlebih dahulu masalah apa yang ingin kita selesaikan dengan model yang kita buat.

**Masalah - masalah paling umum dalam Machine Learning:**

*   *Classification*
*   Regression
*   Clustering

<img src="https://www.researchgate.net/profile/Frank-Nielsen-3/publication/314626729/figure/fig1/AS:810830673244160@1570328505835/The-three-pillars-of-learning-in-data-science-clustering-flat-or-hierarchical.ppm" width=600 height=400/>

In [None]:
# Membaca data


## Memproses Data
Dalam machine learning, sebelum kita membangun model, kita juga perlu melakukan **data pre-processing.**


### Memeriksa Missing Values

Missing values atau data yang kosong dapat mengganggu proses komputer dalam mempelajari data. Maka dari itu, ada beberapa cara yang dapat kita lakukan untuk mengatasi missing values:


*   Menghapus instansi data (row) yang mengandung missing value
*   Mengganti missing value dengan rata - rata dari data atribut tersebut
*   Mengganti missing value dengan sebuah konstanta (constant)

Kita dapat memfilter missing values dengan menggunakan cara yang sama seperti ketika kita membuat kondisi saat menulis `if` statement.

In [None]:
# Menyeleksi missing values


#### **Latihan**

Coba periksa apakah kolom ```size_uniformity``` dan ```shape_uniformity```mengandung missing values atau tidak. 


In [None]:
# Jawaban


In [None]:
# Menghapus data dengan missing values


### Melihat korelasi antar fitur/kolom (bar chart)

Terkadang ada fitur / kolom di dataset yang kita miliki yang sebenarnya tidak relevan untuk proses training. 

Kita dapat melihat fitur mana saja yang relevan dan tidak melalui visualisasi data dengan menggunakan [Matplotlib](https://matplotlib.org/) dan [Seaborn](http://seaborn.pydata.org/). 

Kita dapat melihat korelasi antara satu fitur dengan target fitur kita (class) dengan menggunakan **bar chart**.

In [None]:
# Menampilkan bar chart untuk melihat korelasi clump_thickness dengan class


#### **Latihan**

Tampilkan bar chart yang menunjukkan korelasi antara fitur `size_uniformity` dengan target fitur kita (`class`)


In [None]:
# Jawaban 


### Melihat korelasi antar fitur/kolom (heatmap)

Untuk melihat korelasi antara semua fitur, bentuk visualisasi yang paling mudah adalah dengan menggunakan **heatmap.** Dalam sebuah heatmap, angka *+1* menunjukkan tingkat korelasi positif yang paling kuat, angka *-1* mennjukkan tingkat korelasi negatif yang paling kuat, dan angka *0* mengindikasikan bahwa tidak ada korelasi antara kedua fitur tersebut. 

In [None]:
# Menampilkan heatmap


Dari heatmap di atas, kita dapat melihat bahwa fitur "id" dan "mitoses" tidak memiliki korelasi yang kuat dengan "class". Jadi, kita dapat menyeleksi fitur/kolom yang akan kita gunakan dalam proses training sebagai berikut:

In [None]:
# Seleksi fitur


## Membangun Machine Learning Model

Untuk membangun machine learning model kali ini, kita akan mencoba menggunakan beberapa algoritma yang tersedia di [scikit-learn](https://scikit-learn.org/stable/index.html). Pertama, kita import terlebih dahulu tools yang akan kita gunakan.

In [None]:
# Import dari scikit-learn


Kita ingin membuat model berdasarkan fungsi **y = f(x)** dimana ketika input x (data baru) diterima, machine learning model kita dapat menentukan y (class) berdasarkan data yang sudah dipelajari di proses training. 

Untuk itu, kita juga perlu membagi dataset kita menjadi "train set" dan "test set". Train set akan digunakan untuk melatih machine learning model kita, sedangkan test set akan digunakan untuk mengevaluasi model kita. 

Dalam percobaan kita, kita akan menggunakan fungsi `train_test_split` untuk membagi secara random (`random_state = 42`), dan kita akan tentukan jumlah test set sebanyak 20% dari total data (`test_size = 0.2`)

In [None]:
# Menentukan pembagian data

Setelah itu, kita perlu:

1.   Menentukan algoritma klasifikasi / classifier (`clf`) yang akan digunakan. 
2.   Melatih classifier `clf` dengan train dataset `x_train` dan `y_train`.
3.   Menggunakan data `x_test` untuk melihat hasil prediksi model.
4.   Mengestimasi akurasi model dengan test dataset dan **cross-validation**.



Apa itu cross-validation? 

Cross-validation adalah salah satu cara untuk mengevaluasi machine learning model. Dalam cross-validation, dataset dibagi menjadi beberapa subset (misal *n*), *1* subset akan disimpan untuk validasi atau test, dan *n-1* subset lainnya akan digunakan untuk proses training. Proses ini diulang hingga semua subset sempat digunakan untuk validasi, dan rata - rata akurasi dari tiap repetisinya adalah hasil akurasi akhir.

###Nearest Neighbor

Nearest Neighbor adalah alogritma yang cara kerjanya adalah mencari "tetangga" terdekat untuk menentukan data yang baru diterima akan diklasifikasikan ke kelompok yang mana. 

<img src="http://3.bp.blogspot.com/-ZslDMqm5M9o/T8ja_f_fALI/AAAAAAAAAt4/z7w55YAZXpw/s1600/p1.png" width=400 height=300/>

Kita dapat menggunakan algoritma ini dengan mengimport `KNeighborsClassifier` dari  `sklearn.neighbors`

In [None]:
# Nearest Neighbor


###Decision Tree

Decision Tree adalah algoritma yang cara kerjanya adalah menyusun suatu struktur hierarki untuk menentukan data yang baru diterima akan diklasifikasikan ke kelompok yang mana. 

<img src="https://miro.medium.com/max/6810/1*1tGLoeGg4cDwQXSLSgD5Zg.png" width=300 height=150/>

Kita dapat menggunakan algoritma ini dengan mengimport `DecisionTreeClassifier` dari `sklearn.tree`

In [None]:
# Decision Tree

###Random Forest

Random Forest adalah algoritma yang dibangun dengan beberapa decision tree, dimana output dari seluruh decision tree digabung menjadi 1 output. 

<img src="https://miro.medium.com/max/2612/0*f_qQPFpdofWGLQqc.png" width=300 height=200/>

Kita dapat menggunakan algoritma ini dengan mengimport `RandomForestClassifier` dari `sklearn.ensemble`

In [None]:
# Random Forest

###Naive Bayes

Naive Bayes adalah algoritma yang mengaplikasikan **Bayes' Theorem**, dimana cara kerjanya adalah menghitung probabilitas sesuatu berdasarkan data yang sudah diketahui. Probabilitas inilah yang menentukan data yang baru akan diklasifikasikan ke kelompok yang mana. Kita dapat menggunakan algoritma ini dengan mengimport `GaussianNB` dari `sklearn.naive_bayes`

In [None]:
# Naive Bayes

In [None]:
# Perbandingan hasil akurasi
