    Tiêu đề : Bài tập Project cá nhân
    Họ và tên : Nguyễn Văn Hiếu
    MSSV : 1412166
    Phiên bản : Python 2.7    

## Nhận dạng khuôn mặt
I. Phát biểu bài toán:
    - Nhận dạng định danh của khuôn mặt trên cơ sở ảnh đã học hay huấn luyện thử nghiệm trên cơ sở dữ liệu ảnh FERET 1996
    - Tập ảnh huấn luyện : gallery
    - Tập ảnh kiểm tra : FB, FC, DUP1, DUP2
    - Các phương pháp đã sử dụng : PCA để rút trích đặc trưng của ảnh và K-NN để nhận dạng ảnh
    - Các độ đo sử dụng:
        - City Block : 
$$ d(x,y) = |x - y| = \sum\limits_{i = 1}^{n}|x_i - y_i| $$
        - Euclidiean : 
$$ d(x,y) = |x - y|^2 = \sum\limits_{i = 1}^{n}(x_i - y_i)^2 $$
        - Cosine :
$$ d(x,y) = - \frac{xy}{|x||y|} = - \frac{\sum\limits_{i = 1}^{n}{x_i}{y_i}}{({\sum\limits_{i = 1}^{n}{x_i}^2}{\sum\limits_{i = 1}^{n}{y_i}^2})^{\frac{1}{2}}} $$
        - Manhalanobis : 
$$ d(x,y) = - \sum\limits_{i = 1}^{n}{x_i}{y_i}{z_i} $$ 
$$ \text{với }z_i = {\lambda_i}^{-\frac{1}{2}} \text{ và } \lambda_i \text{ là giá trị riêng thứ i} $$

II. Kết quả
- Với n_components = 50   Thời gian chạy : 80s
    
| Tập test      | City Block    | Euclidiean  |Cosine    |Manhalanobis|
|:------------- |:-------------:|:-----------:|:--------:|:----------:|
| DUP1          | 35.0416 %     |35.8726 %    | 41.6898 %|            |
| DUP2          | 13.2479  %    |13.2479 %    |24.7863 % |            |
| FB            | 74.8954 %     |75.3138 %    |75.3138 % |            |
| FC            | 23.7113 %     |27.8351 %    |46.9072 % |            |


- Với n_components = 100    Thời gian chạy 95s
    
| Tập test      | City Block    | Euclidiean  |Cosine    |Manhalanobis|
|:------------- |:-------------:|:-----------:|:--------:|:----------:|
| DUP1          | 34.7645 %     |36.0111 %    | 46.9529 %|            |
| DUP2          | 15.8120  %    |15.8120 %    |27.7778 % |            |
| FB            | 74.2259 %     |74.4770 %    |83.4310 % |            |
| FC            | 17.5258 %     |17.5258 %    |54.6392 % |            |

- Nhận xét
    - Khi số chiều tăng lên thì thời gian chạy sẽ tăng lên và độ chính xác tăng lên
    - Các độ đo City Block và Euclidian có tỉ lệ đúng gần bằng nhau.
    - Độ đo cosine cho kết quả có xác suất đúng cao nhất

III. Lưu ý khi chạy
    - Cách tổ chức chương trình
    
```
1412166
│     
│
└───code
│   │   Bai1.py
│   │   Bai1.ipynb
│   │   Bai2.py
│   │   Bai2.ipynb
│   
│───test
│   │───dup1
│   │     │ xxxxxx.jpg
│   │───dup2
│   │     │ xxxxxx.jpg
│   │───fb
│   │     │ xxxxxx.jpg
│   │───fc
│   │     │ xxxxxx.jpg
│
│───train
│   │ xxxx.jpg
```
Tập train và test phải là tập các ảnh grayscale định dạng $\color{red}{jpg}$

In [1]:
import datetime
import glob
import math
import os
import warnings

import cv2
import numpy as np
from sklearn.decomposition import PCA

warnings.filterwarnings("ignore")


class Distance:
    @staticmethod
    def city_block(example_1, example_2):
        return np.sum(np.abs(example_1 - example_2))

    @staticmethod
    def euclidean(example_1, example_2):
        return np.sum(np.abs(example_1 - example_2)**2)

    @staticmethod
    def cosine(example_1, example_2):
        sum_mul = np.sum(np.array(example_1)*np.array(example_2))
        sum_square_x = np.sum(np.array(example_1)**2)
        sum_square_y = np.sum(np.array(example_2)**2)
        return (-1.0) * sum_mul / math.sqrt(sum_square_x * sum_square_y)


    @staticmethod
    def mahalanobis(a, b):
        return 0


class Knn:
    def __init__(self, distance, datasets, names):
        self.func = distance
        self.datasets = datasets
        self.names = names

    def predict(self, example):
        weights = np.array([self.func(example, dataset) for dataset in self.datasets])
        index = np.argmin(weights)
        return self.names[index]

    def classify(self, examples):
        names_predict = np.array([self.predict(example) for example in examples])
        return names_predict


class Data:
    def __init__(self, directory):
        self.directory = directory
        self.images = []
        self.datasets = []

    def load(self):
        os.chdir(self.directory)
        for image in glob.glob("*.jpg"):
            self.images.insert(self.images.__len__(), image)
            pixel = cv2.imread(image, cv2.CV_LOAD_IMAGE_GRAYSCALE)
            self.datasets.insert(self.datasets.__len__(), pixel.flatten())
        os.chdir('../..')


class Recognition:
    def __init__(self, component):
        self.pca = PCA(n_components=component, whiten=True)
        self.training = []
        self.names = []

    def train(self, datasets, names):
        self.pca.fit(datasets)
        self.training = self.pca.transform(datasets)
        self.names = names

    def predict(self, examples, distance,names):
        results = self.pca.transform(examples)
        knn = Knn(distance, self.training, self.names)
        names_predict = knn.classify(results)
        return self.caculate_accuracy(names, names_predict)

    def compare(self, name, name_predict):
        if name[0:5] == name_predict[0:5]:
            return 1
        return 0

    def caculate_accuracy(self, names, names_predict):
        correct = np.sum(np.array([self.compare(names[i], names_predict[i]) for i in range(len(names))]))
        accuracy = float(correct) / len(names)
        return accuracy


def test(folder):
    dir = 'test/' + folder
    test_datasets = Data(dir)
    test_datasets.load()
    print("============%s=================" %(folder.upper()))
    accuracy_1 = reg.predict(test_datasets.datasets, Distance.city_block, test_datasets.images)
    print("Distance Function : %s\tAccuracy : %f\n" %("City Block", accuracy_1))

    accuracy_2 = reg.predict(test_datasets.datasets, Distance.euclidean, test_datasets.images)
    print("Distance Function : %s\tAccuracy : %f\n" % ("Euclidean", accuracy_2))

    accuracy_3 = reg.predict(test_datasets.datasets, Distance.cosine, test_datasets.images)
    print("Distance Function : %s\tAccuracy : %f\n" % ("Cosine", accuracy_3))

os.chdir('..')
train_datasets = Data('train/gallery')
train_datasets.load()
reg = Recognition(50)
reg.train(train_datasets.datasets, train_datasets.images)

In [2]:
test('dup1')

Distance Function : City Block	Accuracy : 0.350416

Distance Function : Euclidean	Accuracy : 0.358726

Distance Function : Cosine	Accuracy : 0.416898



In [3]:
test('dup2')

Distance Function : City Block	Accuracy : 0.132479

Distance Function : Euclidean	Accuracy : 0.132479

Distance Function : Cosine	Accuracy : 0.247863



In [4]:
test('fb')

Distance Function : City Block	Accuracy : 0.748954

Distance Function : Euclidean	Accuracy : 0.753138

Distance Function : Cosine	Accuracy : 0.791632



In [5]:
test('fc')

Distance Function : City Block	Accuracy : 0.237113

Distance Function : Euclidean	Accuracy : 0.278351

Distance Function : Cosine	Accuracy : 0.469072

