# Chương trình: Face Recognition Mini-Challenge 
Nam Vũ - CH1802018

# Introduction
Chương trình dùng 3 thư viện chính:
- cv2 (opencv): dùng để tìm khuôn mặt (face detection) trong ảnh và cắt vùng ảnh của khuôn mặt
- tensorflow (TF): AI network để nhận dạng (recognize) khuôn mặt
- PIL (pillow): dùng để hiển thị kết quả lên màn hình

In [36]:
import cv2 as cv
import tensorflow as tf
from tensorflow import keras
from PIL import Image, ImageDraw, ImageFont

Bên cạnh đó chương trình còn sử dụng một số thư viện khác
- os : Sử dụng chủ yếu để xử lý các đường dẫn (path) của file và folder.
- hashlib: sử dụng để tính MD5-hash của file, folder. Qua đó có thể kiểm tra một file hay thư mục có bị update hay không.
- yaml: sử dụng để đọc/ghi file config của chương trình dưới dang yaml file (https://pyyaml.org/).
- numpy: trong trương trình này không dùng numpy để tính toán mà chỉ sử dung đê lưu trữ data dưới cấu trúc array của numpy

In [37]:
import os
import hashlib
import yaml
import numpy as np

# Initialize program
- Bật chức năng Eager-Execution của tensorflow cho phép thực thi tính toán ngay tức thì của TF (https://www.tensorflow.org/api_docs/python/tf/enable_eager_execution).

In [38]:
tf.enable_eager_execution()

- Khai báo các hằng số được sử dụng trong chương trình
  - IMG_WIDTH, IMG_HEIGHT: kích thước chuẩn của vùng khuôn mặt
  - ALLOWED_EXTENSIONS: danh sách các loại ảnh mà chương trình hỗ trợ

In [39]:
IMG_WIDTH = 128
IMG_HEIGHT = 128
ALLOWED_EXTENSIONS = {'.png', '.jpg', '.jpeg', '.heic'}

- data_path: Thư mục chứa dữ liệu của chương trình. Bao gồm:
  - hình ảnh để huấn luyện: database_imgs
  - opencv model để detect khuôn mặt: opencv/data/haarcascades/haarcascade_frontalface_alt.xml

In [40]:
data_path = os.path.abspath("./data")
train_data_path = os.path.join(data_path, "database_imgs")
face_cascade_name = os.path.join(data_path, "opencv/data/haarcascades/haarcascade_frontalface_alt.xml")

  - Đọc (load) model của opencv

In [41]:
face_cascade = cv.CascadeClassifier(face_cascade_name)

- train_names: đây là một array (toàn cục) chứa danh sách tên người (định danh) có trong bộ dữ liệu huấn luyện (training data) 

In [42]:
train_names = []

# Basic functions
Đây là các hàm cơ bản:

## extract_face
    Hàm này dùng để trích xuất các khuôn mặt có trong một tấm ảnh. Hàm trả ra danh sách các vùng ảnh của các khuôn mặt được tìm thấy và vị trí của chúng trong ảnh gốc.
    Hàm này được xây dựng dựa trên ví dụ của OPENCV về face-detection:

- Input của hàm extract_face là đường dẫn của file hình chứa các khuôn mặt cần trích xuất.
- Output của hàm là 2 array: array chứa các hình được trích xuất, và array chứa tọa độ (x, y, width, height) của hình ảnh.
- Các hình trích xuât được chuẩn hóa về kích thước: 128x128 (IMG_WIDTH x IMG_HEIGHT)

In [43]:
def extract_face(img_path):
    """
    Extracts the list of faces from an input images
    :param img_path: the path to image file. The input-file's extension must be in ALLOWED_EXTENSIONS
    :return: 2 arrays: first array contains the image of faces, the second one contains the location (x, y, w, h)
    """

    frame_ori = cv.imread(img_path)
    frame_gra = cv.cvtColor(frame_ori, cv.COLOR_BGR2GRAY)
    frame_gra = cv.equalizeHist(frame_gra)
    faces = face_cascade.detectMultiScale(frame_gra)
    img_faces = []
    img_frame = []
    for (x, y, w, h) in faces:
        frame_face = frame_gra[y:y + h, x:x + w]
        frame_face = cv.resize(frame_face, dsize=(IMG_WIDTH, IMG_HEIGHT))
        img_faces.append((frame_face / 127.5) - 1)
        img_frame.append([x, y, w, h])
    return img_faces, img_frame


## load_train_data
Hàm này dùng để đọc nội dung folder chứa training data để cung cấp cho việc xây dựng model (build_model). 
Cấu trúc của training data đượ quy định theo đề bài:
- Trong training data folder có nhiều sub-folder, folder-name là id của 1 người
- Trong sub-folder chứa hình ảnh khuôn mặt tương ứng với folder-name
Hàm này dùng hàm extract_face để trich xuất các khuôn mặt

- Input của hàm load_train_data là đường dẫn của folder chứa kho hình ảnh training.
- Output của hàm là 1 array: mỗi phần tử trong array gồm 2 thành phần [ảnh khuôn mặt, định danh của ảnh]

In [44]:
def load_train_data(train_dir):
    """
    Load the content of training dir. It extracts the faces then create the pair of (data, label)
    :param train_dir: the path to training dir
    :return: an array which contains all pairs of (face-data, label)
    """

    faces_data = []
    if train_dir:
        train_dir = train_dir.strip()
    if not train_dir or not os.path.isdir(train_dir):
        train_dir = "."
    train_dir = os.path.abspath(train_dir)
    for per in os.listdir(train_dir):
        sub_dir = os.path.join(train_dir, per)
        if os.path.isdir(sub_dir):
            for img in os.listdir(sub_dir):
                img_path = os.path.join(sub_dir, img)
                if os.path.isfile(img_path):
                    img_ext = os.path.splitext(img_path)[-1]
                    if img_ext.lower() in ALLOWED_EXTENSIONS:
                        faces = extract_face(img_path)[0]
                        for f in faces:
                            faces_data.append([f, per])
    return faces_data

## build_model
Đây là hàm sẽ xây dựng tensorflow's model từ kho hình ảnh.

- b1. gọi hàm load_train_data đẻ đọc folder để có: train_images (danh sách hình ảnh) và train_names (danh sách định danh)
- b2. Sử dụng numpy.array để chuẩn hóa (dimension) array trươc khi khởi tạo model (keras.Sequential)

In [45]:
def build_model():
    """
    Builds the tensorflow model
    :return: the tf-model
    """
    global train_names
    load_faces = load_train_data(train_data_path)
    train_images = np.array([x[0] for x in load_faces], dtype=np.float32)
    train_names = list(set([x[1] for x in load_faces]))
    train_labels = np.array([train_names.index(x[1]) for x in load_faces], dtype=np.int)

    model = keras.Sequential([
        keras.layers.Flatten(input_shape=(IMG_WIDTH, IMG_HEIGHT)),
        keras.layers.Dense(128, activation=tf.nn.relu),
        keras.layers.Dropout(0.3),
        keras.layers.Dense(len(train_names), activation=tf.nn.softmax)
    ])
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

    model.fit(train_images, train_labels, epochs=10)

    return model

- b3. Khởi tạo model
- b4. compile và fit model
- b5. return model

## hash_md5_dir and hash_md5_file
Đây là 2 hàm tính hash cho file và folder, các hàm này thường được dùng để kiểm tra sự thay đổi của 1 file hay 1 folder.

In [46]:
def hash_md5_dir(dir_path):
    """
    Calculates the mMD5 hash of a folder.
    :param dir_path: the os path to folder
    :return: MD5 string
    """
    str_md5 = ""
    if os.path.isdir(dir_path):
        h = hashlib.sha1()
        for name in sorted(os.listdir(dir_path)):
            path_name = os.path.join(dir_path, name)
            file_hash = ""
            if os.path.isdir(path_name):
                file_hash = hash_md5_dir(path_name)
            else:
                file_hash = hash_md5_file(path_name)
            h.update(file_hash.encode('utf-8'))
        str_md5 = h.hexdigest()
    return str_md5


def hash_md5_file(file_path):
    """
    Calculates the mMD5 hash of file.
    :param file_path: the os path to file
    :return: MD5 string
    """
    str_md5 = ""
    if os.path.isfile(file_path):
        str_md5 = hashlib.md5(open(file_path, 'rb').read()).hexdigest()
    return str_md5

## recognize_face
Đây là hàm dùng để định dạng khuôn măt.

- Input hàm gồm 2 thành phần: tensorflow model và ảnh cần nhận dạng
- Output: danh sách (array) các định danh tìm đươc và vị trí tương ứng (x, y, width, height)

In [47]:
def recognize_face(model, input_img):
    """
    Recognize the name from the input image
    :param model: the tf-model
    :param input_img: the path to input image
    :return: the list of names and their location
    """

    faces = extract_face(input_img)
    face_list = []
    for i, f in enumerate(faces[0]):
        predictions_single = model.predict(np.expand_dims(f, 0))
        label = np.argmax(predictions_single[0])
        face_list.append([train_names[label], faces[1][i]])

    return face_list

- Trong hàm này sử dụng model.predict để so sánh giữa 1 khuôn mặt trong ảnh input và training data trong model. Trong tất cả các đánh giá từ việc so sánh, thì lấy ra 1 kết quả có xác suất giống nhau cao nhất (sử dụng: numby.argmax)

# Main functions

## init_program
Đây là hàm sử lý tensorflow model khi chương trình bắt đầu chạy. Tensflow-model được training và lưu lại dạng file để lần chạy tiếp theo không cần re-train (nếu training-data không thay đổi) mà chỉ cần đọc từ file.
Chương trình sử dụng 1 yaml file để lưu trữ một số kêt quả của lần chạy trước: data.yaml. Nội dung của data.yaml gồm 3 thành phần chính:
- MD5 hash của training folder
- Đường dẫn đến file lưu của model trong lần chạy trước
- Danh sách định danh (tên người) trong training-data của lần chạy trước.

Kiểm tra xem cần train lại model hay không: tính hash của training-folder và so sánh với hash của folder đó trong lần training trước, nếu 2 hash khác nhau tức là training data có sự thay đổi và cần re-train.

In [48]:
def init_program(rebuild_flag=None):
    """
    Initialize program
    :param rebuild_flag: force to re-build model
    :return: the tf model
    """
    global train_names
    key1 = "data_hash"
    key2 = "model_name"
    key3 = "name_list"
    new_model = None
    data_yaml = os.path.join(data_path, "data.yaml")
    data_hash = ""
    old_model_file = ""
    

    current_database_hash = hash_md5_dir(train_data_path)
    if rebuild_flag:
        new_model = True
    else:
        if os.path.exists(data_yaml):
            data_config = yaml.load(open(data_yaml, "rt"))
            if key1 in data_config and key2 in data_config and key3 in data_config:
                data_hash = data_config[key1]
                old_model_file = data_config[key2]
                train_names = data_config[key3]
            else:
                new_model = True
        else:
            new_model = True
        if not new_model:
            if not data_hash or data_hash != current_database_hash:
                new_model = True
                

    if not new_model and os.path.isfile(old_model_file):
        # load model here
        model = keras.models.load_model(old_model_file)
    else:
        if os.path.isfile(old_model_file):
            os.remove(old_model_file)
        model = build_model()
        new_model_file = os.path.join(data_path, current_database_hash + ".model")
        data_config = {
            key1: current_database_hash,
            key2: new_model_file,
            key3: train_names
        }
        try:
            model.save(new_model_file)
        except Exception as e:
            print("Warning: error as saving tf-model. (%s)" % e)
        with open(data_yaml, 'w') as config_file:
            yaml.dump(data_config, config_file)
    return model

Nếu training data không thay đổi thì chương trình sẽ đọc model từ file lưu của lần training trước.
ngược lại sẽ gọi hàm build_model để tạo model mới từ training-data, lưu model xuống file và update data.yaml file

## display_result
Hàm này dùng để hiển thị ảnh kết quả bao gồm ảnh gốc (cần nhận dạng) và tên (định danh) của các khuôn mặt định dạng được. Input của hàm này gồm 2 giấ trị:
- đường dẫn của ảnh gốc
- danh sách định danh và tọa độ tương ứng.

In [None]:
def display_result(img_path, faces):
    """
    Draw the images and recognized faces.
    :param img_path: path of image
    :param faces: recognized faces.
    :return: nothing
    """
    pil_image = Image.open(img_path).convert("RGB")
    draw = ImageDraw.Draw(pil_image)
    txt_font = ImageFont.truetype("arial.ttf", 16)
    for name, (x, y, w, h) in faces:
        draw.rectangle(((x, y), (x+w, y+h)), outline=(0, 255, 0), width=8)
        text_w, text_h = draw.textsize(name, font=txt_font)
        draw.rectangle(((x, y + h), (x + text_w + 10, y + h + text_h + 10)), fill=(0, 255, 0), outline=(0, 255, 0))
        draw.text((x + 5, y + h + text_h - 5), name, fill=(255, 255, 255, 255), font=txt_font)
    del draw
    pil_image.show()
    return

![title](sample_results.jpg)

## main
main function của chương trình.

In [50]:
def main():
    model = init_program()
    data_test = "./data/test_img/Feb 26- 2019 at 5-08 PM.HEIC"
    faces = recognize_face(model, data_test)
    for f in enumerate(faces):
        print(f)
    display_result(data_test, faces)
    return


main()



(0, ['DUYETLV', [2574, 1076, 217, 217]])
(1, ['TANTD', [1792, 880, 211, 211]])
(2, ['DUYETLV', [1403, 1207, 288, 288]])
(3, ['QUANVM', [225, 903, 255, 255]])
(4, ['TANTD', [459, 1752, 300, 300]])
(5, ['PHUONGTD', [1628, 1469, 371, 371]])


# Tóm tắt
- Chương trình chỉ đạt mức độ demo, training do độ chính xác không cao.
- Có 2 nguyên nhân chính của kết quả chưa đạt độ chính xác cao:
-- Số lượng ảnh training quá ít cho 1 định danh (1 hoặc 2 ảnh)
-- Chưa xây dựng được hàm rút trích đặc trưng của khuôn mặt, nên vector input cho training-model chưa thực sự tốt.
