# Face Recognition

Trong bài tập này, ta sẽ xây dựng một hệ thống nhận dạng khuôn mặt. Nhiều ý tưởng được trình bày ở đây là từ  [FaceNet](https://arxiv.org/pdf/1503.03832.pdf), va [DeepFace](https://research.fb.com/wp-content/uploads/2016/11/deepface-closing-the-gap-to-human-level-performance-in-face-verification.pdf). 

Các vấn đề nhận dạng khuôn mặt thường chia thành hai loại:

- **Face Verification** - "đây có phải là người đang yêu cầu không?". Ví dụ, tại một số sân bay, ta có thể thông qua trạm hải quan bằng cách để hệ thống quét hộ chiếu và sau đó xác minh rằng bạn (người mang hộ chiếu) có phải là người chính xác hay không. Điện thoại di động mở khóa bằng khuôn mặt cũng đang sử dụng xác minh khuôn mặt. Đây là một bài toán đối sánh 1:1

- **Face Recognition** - "người này là ai?". Đây là một bài toán đối sánh 1: K.

FaceNet học một mạng nơ-ron mã hóa hình ảnh khuôn mặt thành một vectơ gồm 128 units. Bằng cách so sánh hai vectơ như vậy, ta có thể xác định xem hai bức ảnh có phải của cùng một người hay không.
    
**Trong bài vấn đề này ta sẽ đưa ra các bước thực hiện sau:**
- Thực hiện triplet loss function
- Sử dụng mô hình được đào tạo trước để ánh xạ hình ảnh khuôn mặt thành các encoding 128 chiều
- Sử dụng các mã hóa này để thực hiện xác minh khuôn mặt và nhận dạng khuôn mặt

#### Load packages
Hãy load các thư viện cần thiết. 

In [3]:
from keras.models import Sequential
from keras.layers import Conv2D, ZeroPadding2D, Activation, Input, concatenate
from keras.models import Model
from keras.layers.normalization import BatchNormalization
from keras.layers.pooling import MaxPooling2D, AveragePooling2D
from keras.layers.merge import Concatenate
from keras.layers.core import Lambda, Flatten, Dense
from keras.initializers import glorot_uniform
from keras.engine.topology import Layer
from keras import backend as K
K.set_image_data_format('channels_first')
import cv2
import os
import numpy as np
from numpy import genfromtxt
import pandas as pd
import tensorflow as tf
from fr_utils import *
from inception_blocks_v2 import *

%matplotlib inline
%load_ext autoreload
%autoreload 2

np.set_printoptions(threshold=np.nan)

ValueError: threshold must be non-NAN, try sys.maxsize for untruncated representation

## 0 - Xác minh khuôn mặt

Trong Xác minh khuôn mặt, bạn được cung cấp hai hình ảnh và bạn phải xác định xem chúng có phải của cùng một người hay không. Cách đơn giản nhất để làm điều này là so sánh hai hình ảnh theo từng pixel. Nếu khoảng cách giữa hai hình ảnh nhỏ hơn một ngưỡng đã chọn, đó có thể là cùng một người!

<img src="images/pixel_comparison.png" style="width:380px;height:150px;">
<caption><center> <u> <font color='purple'> Figure 1 </u></center></caption>

* Tất nhiên, thuật toán này hoạt động thực sự kém, vì các giá trị pixel thay đổi đáng kể do sự thay đổi về ánh sáng, hướng khuôn mặt của người đó, thậm chí cả những thay đổi nhỏ ở vị trí đầu, v.v.
* Ta sẽ thấy rằng thay vì sử dụng hình ảnh raw, ta có thể học cách mã hóa, $f(img)$.  
* Bằng cách sử dụng encoding cho mỗi hình ảnh, phép so sánh element-wise sẽ đưa ra dự đoán chính xác hơn về việc liệu hai hình ảnh có phải của cùng một người hay không.

## 1 - Mã hóa hình ảnh khuôn mặt thành một vector 128 chiều

### 1.1 - Sử dụng ConvNet để tính toán các mã hóa

Mô hình FaceNet cần rất nhiều dữ liệu và thời gian đào tạo lâu dài. Vì vậy, một cách người ta thường làm trong học sâu là tải trọng số và load model đã được đào tạo trước. Kiến trúc mạng tuân theo mô hình tại Figure 3 trong paper [Szegedy *et al.*](https://arxiv.org/abs/1409.4842). Kiến trúc model ta có thể xem trong file `inception_blocks_v2.py`

Những điều quan trọng bạn cần biết là:

- Mạng này sử dụng hình ảnh RGB 96x96 chiều làm đầu vào. Cụ thể, nhập hình ảnh khuôn mặt (hoặc một batch hình ảnh khuôn mặt $m$) dưới dạng một khối $(m, n_C, n_H, n_W) = (m, 3, 96, 96)$ 
- Nó xuất ra một ma trận có dạng $(m, 128)$ mã hóa từng hình ảnh khuôn mặt đầu vào thành một vectơ 128 chiều

Mã sau tạo model cho hình ảnh khuôn mặt.

In [2]:
FRmodel = faceRecoModel(input_shape=(3, 96, 96))

In [3]:
print("Total Params:", FRmodel.count_params())

Total Params: 3743280


Bằng cách sử dụng lớp kết nối đầy đủ 128 nơ-ron làm lớp cuối cùng , mô hình đảm bảo rằng đầu ra là một vectơ mã hóa có kích thước 128. Sau đó, ta sử dụng các mã hóa để so sánh hai hình ảnh khuôn mặt như sau:

<img src="images/distance_kiank.png" style="width:680px;height:250px;">

Vì vậy, một encoding tốt nếu:
- Các encoding của hai hình ảnh của cùng một người khá giống nhau.
- Các encoding của hai hình ảnh của những người khác nhau rất khác nhau.

Triplet loss function  sẽ là hàm loss function và cố gắng "đẩy" mã hóa của hai hình ảnh của cùng một người (Anchor và Positive) gần nhau hơn, đồng thời "kéo" các mã hóa của hai hình ảnh của những người khác nhau (Anchor, Negative) xa nhau hơn. 

### 1.2 -Triplet Loss function

Đối với hình ảnh $x$, chúng ta ký hiệu mã hóa của nó là $f(x)$, trong đó $f$ là hàm được tính toán bởi mạng nơ-ron.

<img src="images/f_x.png" style="width:380px;height:150px;">

<!--
We will also add a normalization step at the end of our model so that $\mid \mid f(x) \mid \mid_2 = 1$ (means the vector of encoding should be of norm 1).
!-->

Training sẽ sử dụng triplets of images $(A, P, N)$:  

- A là "Anchor" image--bức ảnh của một người 
- P là "Positive" image--bức ảnh của cùng một người giống A
- N là "Negative" image--bức ảnh của một người khác A

Bộ ba ảnh này được chọn từ tập dữ liệu đào tạo của chúng ta. Chúng ta sẽ viết $ (A ^ {(i)}, P ^ {(i)}, N ^ {(i)}) $ để biểu thị ví dụ đào tạo $ i $ -th.

Ta muốn chắc chắn rằng hình ảnh  $A^{(i)}$  gần với ảnh $P^{(i)}$ hơn ảnh $N^{(i)}$):

$$\mid \mid f(A^{(i)}) - f(P^{(i)}) \mid \mid_2^2 + \alpha < \mid \mid f(A^{(i)}) - f(N^{(i)}) \mid \mid_2^2$$

Do đố ta sẽ tối ưu hóa hàm "triplet cost":

$$\mathcal{J} = \sum^{m}_{i=1} \large[ \small \underbrace{\mid \mid f(A^{(i)}) - f(P^{(i)}) \mid \mid_2^2}_\text{(1)} - \underbrace{\mid \mid f(A^{(i)}) - f(N^{(i)}) \mid \mid_2^2}_\text{(2)} + \alpha \large ] \small_+ \tag{3}$$

Ta sử dụng kí hiệu "$[z]_+$" có nghĩa là $max(z,0)$.  

Notes:
- ta muốn (1) nhỏ.
- Và muốn (2) là khoảng cách bình phương giữa "A" và "N" tương đối lớn.
- $\alpha$ được gọi là ngưỡng. Nó là một hyperparameter mà ta chọn theo cách thủ công. Chúng ta sẽ sử dụng $\alpha = 0.2$. 

In [4]:
def triplet_loss(y_true, y_pred, alpha = 0.2):
    """
    Thực hiện triplet_loss như được xác định bởi công thức(3)
    
    Arguments:
    y_true -- true labels
    y_pred -- danh sách python chứa ba đối tượng:
            anchor -- encodings cho hình ảnh anchor có shape (None, 128)
            positive -- encodings cho hình ảnh positive có shape (None, 128)
            negative -- encodings cho hình ảnh negative có shape (None, 128)
    
    Returns:
    loss -- số thực
    """
    
    anchor, positive, negative = y_pred[0], y_pred[1], y_pred[2]
    
    # Step 1: Tính toán khoảng cách (encoding) giữa A và P
    pos_dist = tf.reduce_sum(tf.square(tf.subtract(anchor,positive)),axis=-1)
    # Step 2: Tính toán khoảng cách (encoding) giữa A và N
    neg_dist = tf.reduce_sum(tf.square(tf.subtract(anchor,negative)),axis=-1)
    # Step 3: trừ hai khoảng cách trước đó và cộng với alpha.
    basic_loss = tf.add((tf.subtract(pos_dist,neg_dist)),alpha)
    # Step 4: Lấy max(basic_loss,0)
    loss = tf.reduce_sum(tf.maximum(basic_loss,0.0))

    return loss

## 2 - Load model được đào tạo trước

FaceNet được đào tạo bằng cách tối ưu hóa triplet loss function. Nhưng vì quá trình đào tạo đòi hỏi nhiều dữ liệu và tính toán nhiều đồng nghĩa với máy tính hiện đại để train nên ta sẽ không đào tạo lại từ đầu. Thay vào đó,load một mô hình đã được đào tạo trước đó.

In [6]:
FRmodel.compile(optimizer = 'adam', loss = triplet_loss, metrics = ['accuracy'])
load_weights_from_FaceNet(FRmodel)

Ví dụ về khoảng cách giữa các encoding:

<img src="images/distance_matrix.png" style="width:380px;height:200px;">
<br>

Tiếp theo ta hãy sử dụng mô hình này để thực hiện xác minh khuôn mặt và nhận dạng khuôn mặt!

## 3 - Áp dụng model

Giả sử ta đang xây dựng một hệ thống cho một tòa nhà văn phòng và người quản lý tòa nhà muốn cung hệ thống nhận dạng khuôn mặt để cho phép nhân viên ra vào tòa nhà.

Ta muốn xây dựng hệ thống **Xác minh khuôn mặt** cho phép truy cập vào danh sách những nhân viên có trong database của tòa nhà. Để được nhận vào, mỗi người phải quẹt thẻ ID (thẻ căn cước) để nhận dạng mình ở cửa ra vào. Sau đó, hệ thống xác minh khuôn mặt sẽ kiểm tra xem họ có phải là nhân viên trong tòa nhà hay không.

### 3.1 - Xác minh khuôn mặt

Hãy xây dựng một cơ sở dữ liệu chứa một vectơ mã hóa cho mỗi người được phép vào văn phòng. Để tạo encoding, chúng ta sử dụng ```img_to_encoding(image_path, model)```

Mã sau sẽ xây dựng database (được biểu diễn dưới dạng python dict). Database này ánh xạ  mỗi người thành encoding 128 chiều trên khuôn mặt của họ.

In [1]:
database = {}
database["danielle"] = img_to_encoding("images/danielle.png", FRmodel)
database["younes"] = img_to_encoding("images/younes.jpg", FRmodel)
database["tian"] = img_to_encoding("images/tian.jpg", FRmodel)
database["andrew"] = img_to_encoding("images/andrew.jpg", FRmodel)
database["Hieu Le"] = img_to_encoding("images/hieu.jpg", FRmodel)
database["kian"] = img_to_encoding("images/kian.jpg", FRmodel)
database["dan"] = img_to_encoding("images/dan.jpg", FRmodel)
database["sebastiano"] = img_to_encoding("images/sebastiano.jpg", FRmodel)
database["bertrand"] = img_to_encoding("images/bertrand.jpg", FRmodel)
database["kevin"] = img_to_encoding("images/kevin.jpg", FRmodel)
database["felix"] = img_to_encoding("images/felix.jpg", FRmodel)
database["benoit"] = img_to_encoding("images/benoit.jpg", FRmodel)
database["arnaud"] = img_to_encoding("images/arnaud.jpg", FRmodel)

NameError: name 'img_to_encoding' is not defined

Bây giờ, khi ai đó xuất hiện ở cửa trước và quẹt thẻ ID của họ (do đó cung cấp cho ta tên của họ), ta có thể tra cứu encoding của họ trong database và sử dụng nó để kiểm tra xem người đứng ở cửa trước có khớp với tên trên không ID.

Mã sau thực hiện từng bước như sau:

1. Tính toán mã hóa của hình ảnh từ `image_path`.
2. Tính toán khoảng cách giữa encoding này và encoding hình ảnh nhận dạng được lưu trữ trong database.
3. Mở cửa nếu khoảng cách nhỏ hơn ngưỡng đặt ra ở đây là 0,7, nếu không thì không được mở.



In [8]:
def verify(image_path, identity, database, model):
    """
    Hàm xác minh xem người trên hình ảnh "image_path" có phải là "identity" hay không.
    
    Arguments:
    image_path -- hình ảnh cần xác minh
    identity -- tên của người bạn muốn xác minh danh tính. Phải là nhân viên làm việc văn phòng.
    database -- từ điển python ánh xạ tên của tên người được phép với mã hóa encoding của họ.
    model -- model ta đã load
    
    Returns:
    dist -- khoảng cách giữa image_path và hình ảnh của "identity" trong database.
    door_open -- True nếu cùng một người, False nếu otherwise
    """
     
    # Step 1: Tính toán encoding cho hình ảnh.
    encoding = img_to_encoding(image_path,model)
    
    # Step 2: Tính toán khoảng cách
    dist = np.linalg.norm(encoding - database[identity])
    
    # Step 3: Mở cửa nếu dist < 0.7, else không mở cửa
    if dist<0.7:
        print("Đây là " + str(identity) + ", Chào mừng bạn")
        door_open = True
    else:
        print("Đây không phải là " + str(identity) + ", Bạn không phải nhân viên công ty")
        door_open = False
        
    return dist, door_open

Younes is trying to enter the office and the camera takes a picture of him ("images/camera_0.jpg"). Let's run your verification algorithm on this picture:

<img src="images/camera_0.jpg" style="width:100px;height:100px;">

In [9]:
verify("images/camera_0.jpg", "younes", database, FRmodel)

It's younes, welcome in!


(0.65939289, True)

**Expected Output**:

<table>
    <tr>
        <td>
            **It's younes, welcome in!**
        </td>
        <td>
           (0.65939283, True)
        </td>
    </tr>

</table>

Benoit, who does not work in the office, stole Kian's ID card and tried to enter the office. The camera took a picture of Benoit ("images/camera_2.jpg). Let's run the verification algorithm to check if benoit can enter.
<img src="images/camera_2.jpg" style="width:100px;height:100px;">

In [10]:
verify("images/camera_2.jpg", "kian", database, FRmodel)

It's not kian, please go away


(0.86224014, False)

**Expected Output**:

<table>
    <tr>
        <td>
            **It's not kian, please go away**
        </td>
        <td>
           (0.86224014, False)
        </td>
    </tr>

</table>

### 3.2 - Face Recognition

Your face verification system is mostly working well. But since Kian got his ID card stolen, when he came back to the office the next day and couldn't get in! 

To solve this, you'd like to change your face verification system to a face recognition system. This way, no one has to carry an ID card anymore. An authorized person can just walk up to the building, and the door will unlock for them! 

You'll implement a face recognition system that takes as input an image, and figures out if it is one of the authorized persons (and if so, who). Unlike the previous face verification system, we will no longer get a person's name as one of the inputs. 

**Exercise**: Implement `who_is_it()`. You will have to go through the following steps:
1. Compute the target encoding of the image from image_path
2. Find the encoding from the database that has smallest distance with the target encoding. 
    - Initialize the `min_dist` variable to a large enough number (100). It will help you keep track of what is the closest encoding to the input's encoding.
    - Loop over the database dictionary's names and encodings. To loop use `for (name, db_enc) in database.items()`.
        - Compute the L2 distance between the target "encoding" and the current "encoding" from the database.
        - If this distance is less than the min_dist, then set `min_dist` to `dist`, and `identity` to `name`.

In [11]:
# GRADED FUNCTION: who_is_it

def who_is_it(image_path, database, model):
    """
    Implements face recognition for the office by finding who is the person on the image_path image.
    
    Arguments:
    image_path -- path to an image
    database -- database containing image encodings along with the name of the person on the image
    model -- your Inception model instance in Keras
    
    Returns:
    min_dist -- the minimum distance between image_path encoding and the encodings from the database
    identity -- string, the name prediction for the person on image_path
    """
    
    ### START CODE HERE ### 
    
    ## Step 1: Compute the target "encoding" for the image. Use img_to_encoding() see example above. ## (≈ 1 line)
    encoding = img_to_encoding(image_path,model)
    
    ## Step 2: Find the closest encoding ##
    
    # Initialize "min_dist" to a large value, say 100 (≈1 line)
    min_dist = 100
    
    # Loop over the database dictionary's names and encodings.
    for (name, db_enc) in database.items():
        
        # Compute L2 distance between the target "encoding" and the current db_enc from the database. (≈ 1 line)
        dist = np.linalg.norm(encoding - db_enc)

        # If this distance is less than the min_dist, then set min_dist to dist, and identity to name. (≈ 3 lines)
        if dist<min_dist:
            min_dist = dist
            identity = name

    ### END CODE HERE ###
    
    if min_dist > 0.7:
        print("Not in the database.")
    else:
        print ("it's " + str(identity) + ", the distance is " + str(min_dist))
        
    return min_dist, identity

Younes is at the front-door and the camera takes a picture of him ("images/camera_0.jpg"). Let's see if your who_it_is() algorithm identifies Younes. 

In [12]:
who_is_it("images/camera_0.jpg", database, FRmodel)

it's younes, the distance is 0.659393


(0.65939289, 'younes')

**Expected Output**:

<table>
    <tr>
        <td>
            **it's younes, the distance is 0.659393**
        </td>
        <td>
           (0.65939283, 'younes')
        </td>
    </tr>

</table>

You can change "`camera_0.jpg`" (picture of younes) to "`camera_1.jpg`" (picture of bertrand) and see the result.

#### Congratulations!

* Your face recognition system is working well! It only lets in authorized persons, and people don't need to carry an ID card around anymore! 
* You've now seen how a state-of-the-art face recognition system works.

#### Ways to improve your facial recognition model
Although we won't implement it here, here are some ways to further improve the algorithm:
- Put more images of each person (under different lighting conditions, taken on different days, etc.) into the database. Then given a new image, compare the new face to multiple pictures of the person. This would increase accuracy.
- Crop the images to just contain the face, and less of the "border" region around the face. This preprocessing removes some of the irrelevant pixels around the face, and also makes the algorithm more robust.


## Key points to remember
- Face verification solves an easier 1:1 matching problem; face recognition addresses a harder 1:K matching problem. 
- The triplet loss is an effective loss function for training a neural network to learn an encoding of a face image.
- The same encoding can be used for verification and recognition. Measuring distances between two images' encodings allows you to determine whether they are pictures of the same person. 

Congrats on finishing this assignment! 


### References:

- Florian Schroff, Dmitry Kalenichenko, James Philbin (2015). [FaceNet: A Unified Embedding for Face Recognition and Clustering](https://arxiv.org/pdf/1503.03832.pdf)
- Yaniv Taigman, Ming Yang, Marc'Aurelio Ranzato, Lior Wolf (2014). [DeepFace: Closing the gap to human-level performance in face verification](https://research.fb.com/wp-content/uploads/2016/11/deepface-closing-the-gap-to-human-level-performance-in-face-verification.pdf) 
- The pretrained model we use is inspired by Victor Sy Wang's implementation and was loaded using his code: https://github.com/iwantooxxoox/Keras-OpenFace.
- Our implementation also took a lot of inspiration from the official FaceNet github repository: https://github.com/davidsandberg/facenet 
