# Tugas Besar: Face Recognition dengan Keras


### Instruksi Tugas Besar
Didalam notebook ini, beberapa script sudah disediakan sehingga Anda hanya akan mengerjakan beberapa bagian script yang kosong. Selama pengerjaan Anda akan diberi petunjuk terkait alur dan instruksi pengerjaan. Oleh karena itu, perhatikan istruksi dengan baik. Tulisan `Tugas:` mengindikasikan script kosong yang harus Anda kerjakan agar keseluruhan sistem dapat berjalan dengan baik. 

>**Note:** Setelah Anda menyelesaikan tugas besar ini, Anda diminta untuk mengumpulkan tugas besar ini dalam bentuk HTML. Sebelum diubah menjadi HTML, semua script harus dipastikan sudah di-run agar penilai dapat melihat hasil dari kode yang dijalankan. Anda dapat mengubah notebook ini menjadi HTML dengan **File -> Download as -> HTML(.html)**. Sertakan file HTML tersebut bersama folder tugas besar ini.

Selain mengimplementasikan bagian script yang kosong, Anda juga diminta menjawab pertanyaan analisis. Pertanyaan tersebut ditandai dengan tulisan **'Pertanyaan X'**. Baca dengan baik pertanyaan tersebut dan berikan jawaban anda secara jelas di bagian dengan tulisan **Jawaban**. Tugas besar Anda akan dinilai berdasarkan kode implementasi dan juga jawaban analisis setiap pertanyaan.

>**Note:** Sel Code dan Markdown dapat dieksekusi dengan **Shift+Enter** di keyboard. Sel Markdown dapat di-edit dengan mengklik dua kali sel tersebut.

Bagian yang diberi tanda **_opsional_** merupakan tugas yang diberikan jika Anda ingin mendapatkan nilai lebih dari standar minimum.

### Alur Tugas Besar
Notebook tugas besar ini dibagi menjadi beberapa langkah sebagai berikut. Silahkan diperhatikan dan dipahami alur dan detail setiap langkah.
1. Loading Dataset
2. Periksa Isi Dataset
3. Pisah Fitur dan Label
4. Olah data label dengan One-Hot-Encoding
5. Definisikan Model Machine Learning
6. Definisikan Hyperparameters
7. Definisikan Optimizer dan Loss Function
8. Training Model
9. Evaluasi Model
10. Eksperimen Model Machine Learning Lain(Opsional)
11. Implementasi Model

## Kelompok yang mengerjakan
Silahkan klik dua kali sel ini kemudian isi bagian yang kosong.

**Kelompok:** (isi no kelompok)

**Anggota Kelompok:**
1. Alif Ilham Madani
2. M. Fariz Aziz


### Persiapkan library yang dibutuhkan
Tugas besar ini menggunakan banyak library yang bisa dilihat di file requirements.txt. Script dibawah dapat dijalankan untuk instalasi semua library tersebut.

In [1]:
conda install -r requirements.txt


Note: you may need to restart the kernel to use updated packages.


usage: conda-script.py [-h] [-V] command ...
conda-script.py: error: unrecognized arguments: -r


## 1. Loading Dataset
Dataset yang digunakan dalam tugas besar ini disimpan dalam file CSV dengan nama train.csv dan test.csv. Berikut adalah script yang digunakan untuk membaca dataset CSV tersebut yang kemudian disimpan dalam dataframe Pandas.

In [None]:
import pandas as pd

## Direktori dataset
dir_trainset = "./dataset/trainset.csv"  # Dataset for Training 
dir_validset = "./dataset/validset.csv"  # Dataset for Validation 
dir_testset = "./dataset/testset.csv"    # Dataset for Testing

## Membaca data csv ke Dataframe Pandas
train_pd = pd.read_csv(dir_trainset, index_col=0)
valid_pd = pd.read_csv(dir_validset, index_col=0)
test_pd = pd.read_csv(dir_testset, index_col=0)

## proses membaca dataset membutuhkan waktu yang cukup lama sekitar 1-2 menit

print('trainset, validset & testset berhasil dibaca!')

## 2. Periksa Isi Dataset
Dataset ini merupakan representasi dari foto-foto wajah yang nantinya akan diklasifikasikan dengan model machine learning. Setiap foto wajah direpresentasikan dalam 512 fitur muka yang biasanya dikenal dengan istilah **feature embeddings**. Script dibawah ini memperlihatkan isi dataset untuk 10 baris pertama. Perhatikan bahwa terdapat informasi 512 fitur wajah pada kolom `feature-0` hingga `feature-511` beserta ID wajahnya pada kolom `face_id`. Fitur-fitur wajah tersebut diperoleh dengan Convolutional Neural Network(CNN) yang dapat dilihat pada skema dibawah ini. Karena CNN bukan merupakan bahasan utama dalam mata kuliah Dasar Sistem Kendali Cerdas maka facenet tidak dibahas lebih lanjut pada tugas besar ini. Namun, mahasiswa diperbolehkan untuk mempelajari beberapa contoh CNN yang digunakan untuk ekstrak feature embeddings tersebut, seperti [ageitgey](https://github.com/ageitgey/face_recognition) dan [davidsandberg](https://github.com/davidsandberg/facenet).
<img src="files/assets/feature_embeddings.PNG">

In [None]:
## Lihat isi dataset
train_pd[:10]

## 3. Pisahkan Fitur dan Label
Sebelum dataset dapat digunakan dalam training, validation dan testing machine learning, perlu dilakukan pemisahan antara fitur dan label untuk masing-masing trainingset, validationset dan testset. Dalam hal ini, fitur merupakan 512 fitur wajah yang terdapat pada kolom nol hingga 511 `feature-0`-`feature-511`, sedangkan label merupakan kolom ke 512 `face_id`. Namun, perlu diketahui bahwa Keras menerima data dalam bentuk _numpy ndarray_ bukan _pandas dataframe_ sedangkan dataset kita sebelumnya dalam bentuk _pandas dataframe_. Oleh karena itu, perlu dilakukan konversi data dari pandas ke numpy dengan [pandas.dataframe.values](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.values.html).

Dengan demikian berikut adalah langkah-langkah yang perlu dilakukan:
1. Acak baris yang ada didalam dataset _pandas dataframe_ masing-masing `train_pd`, `valid_pd` dan `test_pd` dengan [sklearn.utils.shuffle](https://scikit-learn.org/stable/modules/generated/sklearn.utils.shuffle.html) dengan contoh sebagai berikut [shuffle-dataframe-rows](https://stackoverflow.com/questions/29576430/shuffle-dataframe-rows)
2. Konversi data dari _pandas dataframe_ menjadi _numpy ndarray_.
3. Pisah data fitur yang disimpan dalam `X_train`, `X_val` dan `X_test` dengan [numpy indexing](https://www.numpy.org/devdocs/user/basics.indexing.html).
4. Pisah data label `y_train`, `y_val` dan `y_test`. Namun, perlu diketahui bahwa dimensi vektor harus dalam bentuk vektor kolom yang dapat dilakukan dengan [numpy.ndarray.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.reshape.html)

In [None]:
from sklearn.utils import shuffle

## Tugas : Acak baris train_pd dan test_pd
train_pd = None
valid_pd = None
test_pd = None

In [None]:
import numpy as np

## Tugas : Konversi dataframe pandas ke numpy ndarray
train = train_pd.values
print('trainingset')
print(train[:5,:5]) # Tampilkan 5 kolom pertama dan 5 baris pertama

valid = valid_pd.values
print('\nvalidset')
print(valid[:5,:5])

test = test_pd.values
print('\ntestset')
print(test[:5,:5])

In [None]:
## Tugas : Pisah data fitur dan data label

# Trainingset
X_train = train[:,:512]
y_train = train[:,512].reshape(X_train.shape[0],-1)
print('Dimensi matriks trainset')
print('fitur: '+ str(X_train.shape))
print('label: '+ str(y_train.shape))

# Validset
X_valid = valid[:,:512]
y_valid = valid[:,512].reshape(X_valid.shape[0],-1)
print('\nDimensi matriks validset')
print('fitur: '+ str(X_valid.shape))
print('label: '+ str(y_valid.shape))

# Testset
X_test = test[:,:512]
y_test = test[:,512].reshape(X_test.shape[0],-1)
print('\nDimensi matriks testset')
print('fitur: '+ str(X_test.shape))
print('label: '+ str(y_test.shape))

## Hasil Seharusnya di console
##
##   Dimensi matriks trainset
##   fitur: (16700, 512)
##   label: (16700, 1)
##   
##   Dimensi matriks validset
##   fitur: (1161, 512)
##   label: (1161, 1)
##   
##   Dimensi matriks testset
##   fitur: (1200, 512)
##   label: (1200, 1)

## 4. Olah data label dengan One-Hot-Encoding
Data label dalam `y_train` dan `y_test` masih berupa tipe integer dimana satu nilai merepresentasikan satu identitas wajah. Dalam keras, data label perlu diolah menjadi matriks yang tiap baris berupa vektor nilai nol atau satu. Data label tersebut perlu dioleh dengan metode [One-Hot-Encoding](https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f).

Misalkan terdapat 3 kelas dan data label adalah sebagai berikut 

[[0], 
 [1], 
 [1], 
 [2]].

Dengan metode one-hot-encoding maka data label akan menjadi

[[1, 0, 0],
 [0, 1, 0],
 [0, 1, 0],
 [0, 0, 1]]
 
Salah satu cara mengimplementasikan one-hot encoding adalah dengan menggunakan library [sklearn.preprocessing.LabelBinazer()](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html).

*NB:* Perhatikan bahwa jumlah label y_train, y_valid & y_test berbeda yang bisa menyebabkan potensi kesalahan pada one-hot encoding tanpa modifikasi!!

In [None]:
from sklearn import preprocessing

## Tugas : Olah data label dengan metode one-hot encoding

y_train = None # Label untuk traningset
y_valid = None # Label untuk validset
y_test = None # Label untuk testset

print('Dimensi label setelah one-hot-encoding')
print('train: ' + str(y_train.shape))
print('valid: ' + str(y_valid.shape))
print('test : ' + str(y_test.shape))

## Hasil Seharusnya di console
##  
##  Dimensi label setelah one-hot-encoding
##  train: (38781, 200)
##  valid: (2368, 200)
##  test : (2458, 200)

## 5. Definisikan Model Machine Learning
Pada tugas besar ini, Anda diharapkan membangun model Neural Network dengan Keras yang dapat dilihat contoh implementasinya pada [API Sequential Keras](https://keras.io/getting-started/sequential-model-guide/). Silahkan bereksperimen dengan jumlah hidden layer, jumlah node dan fungsi aktivasi. Selain itu, silahkan gunakan Dropout sebagai salah satu metode penanganan overfitting.

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation

## Tugas : Definisikan Parameter Model
dimensi_input = None  # Dimensi data input (jumlah fitur)
hidden_layer_1 = None # Jumlah node pada hidden layer pertama
hidden_layer_2 = None # Jumlah node pada hidden layer kedua
output_layer = None    # Jumlah node pada output layer
drop_prob = None      # Nilai probability untuk dropout layer

## Tugas : Definisikan model dibawah


## Tampilkan definisi model
model.summary()

## 6. Definisikan Hyperparameters
Hyperparameters merupakan nilai-nilai yang perlu ditentukan agar kita dapat memeroleh hasil training yang baik. Dalam hal ini, perlu ditentukan nilai learning rate, ukuran batch dan jumlah iterasi epoch.

In [None]:
## Tugas : Tentukan Nilai Hyperparameters
learning_rate = None
batch_size = None
epoch = None

## 7. Definisikan Optimizer dan Loss Function
Optimizer merupakan opsi yang juga perlu diperhatikan, pilihan optimizer dalam Keras dapat dilihat [keras-optimizers](https://keras.io/optimizers/). Selain itu, loss function juga perlu dipilih yang disesuaikan dengan jenis data yang digunakan. Dalam Keras jenis-jenis loss function dapat dilihat di [keras-losses](https://keras.io/losses/).

In [None]:
from keras.optimizers import Adam

## Tugas : Definisikan Optimizer dan Loss function

optimizer = None

model.compile(loss= None , optimizer= None , metrics=[ 'accuracy' ])

## 8. Training Model
Model dapat di-train dengan script sebagai berikut. Perlu diperhatikan bahwa training machine learning biasanya dilakukan berulang kali dengan mengatur hyperparameter model(hidden layer, jumlah node, dll) dan hyperparameter training (learning rate, ukuran batch, optimizer, dll) sehingga diperoleh model hasil training dengan akurasi terbaik. Tidak terdapat rumus baku tentang nilai hyperparameter untuk menghasilkan training terbaik. Akan tetapi, terdapat beberapa artikel yang menjelaskan tentang sense dalam memilih hyperparameter sebagai berikut [Neural Networks and Deep Learning book - Chapter 3: How to choose a neural network's hyper-parameters? by Michael Nielsen](http://neuralnetworksanddeeplearning.com/chap3.html#how_to_choose_a_neural_network's_hyper-parameters) dan [Deep Learning book - chapter 11.4: Selecting Hyperparameters by Ian Goodfellow, Yoshua Bengio, Aaron Courville](http://www.deeplearningbook.org/contents/guidelines.html)

In [None]:
## Train Model dengan script dibawah
model.fit()

__Pertanyaan 1__: Jelaskan langkah-langkah yang Anda lakukan sehingga mendapat akurasi terbaik saat ini? Uraikan setiap langkah beserta alasannya. Menurut Anda, apakah model saat ini performanya sudah cukup?

__Jawaban__: (silahkan klik dua kali cell ini)
- langkah 1
- langkah 2
- ...


## 8. Evaluasi Model (Testing)
Berikut adalah script yang dapat digunakan untuk menguji model dengan dataset test. Jika akurasi hasil evaluasi jauh lebih kecil daripada akurasi training, maka model Anda mengalami **overfitting**.

In [None]:
## Evaluasi Model dengan script dibawah
score = model.evaluate(X_test, y_test, batch_size=128)
print('Loss test    : {:.2f}'.format(score[0]))
print('Akurasi test : {:.2f} %'.format(score[1]*100))

## 9. Eksperimen Model Machine Learning Lain (Opsional)
Neural Network merupakan salah satu dari banyak algoritma machine learning. Jika Anda ingin mengerjakan bagian opsional ini silahkan bereksperimen membangun face recognition dengan algoritma lain, seperti Support Vector Machine(SVM).

In [None]:
## Tugas : (Opsional)
## Membangun model face recognition dengan algoritma selain NN
## Silahkan bereksperimen dengan banyak algoritma

__Pertanyaan 2__: Apakah algoritma terbaik yang Anda gunakan lebih baik dari Neural Network? Silahkan jelaskan alasan kenapa algoritma tersebut lebih baik atau lebih buruk dari Neural Network?

__Jawaban__: (silahkan klik dua kali cell ini)
