## 人脸识别

### 人脸问题的简介

人脸识别目前有两个比较成熟的模型分别是：
- [FaceNet](https://arxiv.org/pdf/1503.03832.pdf)
    - 这个网络模型的核心思想：通过NN对人脸图片进行编码，变成一个128个数据的向量，然后通过比较两张图片的128个数据，来判断是不是同一个人。
- [DeepFace](https://research.fb.com/wp-content/uploads/2016/11/deepface-closing-the-gap-to-human-level-performance-in-face-verification.pdf)

人脸识别问题主要可以归纳为以下两个大类：
- 人脸验证（Face Verification）: 就是验证这张人脸图片是不是某个人。每次我们通过自助通道去香港的时候，我们要通过两道闸机。
    - 第一道：就是将自己的通行证卡放在感应处，这个就是在调取你的信息库(人脸信息,指纹信息...)，获取完毕后，然后打开，
    - 第二道：就是人脸验证和指纹验证，有一个摄像头和按指纹的地方，摄像头捕捉你的人脸数据，跟刚刚拿到的人脸信息进行匹配，指纹传感器也是一样跟刚刚拿到的指纹信息进行匹配。
这样我们就应该理解所谓的人脸验证，就是1：1匹配的问题，一张待验证的图片和一张标准的图片进行匹配，看看两者匹配都能否达到某个值。
- 人脸识别（Face Recognition）: 人脸识别就是给一张人脸图片，通过与数据库中多张图片进行匹配，然后找出是最匹配的（大于某阈值）那张，来定义这个是是谁。这里的例子就是，人脸识别打卡。所以问题就回到了：1：N匹配的问题。

### 需要导入的库及注意事项

我们接下来需要完成如下任务：
- 实现三元组损失函数
- 使用一个预训好的模型对人脸实现128维的编码
- 使用这些编码来进行人脸验证和人脸识别

这里需要注意点，由于这里我们使用了别人预训练好的模型，为了匹配该模型，我们需要将卷积网络的通道前置，也就是之前我们框架中默认是通道后置：(m,nH,nW,nC)，现在我们需要变换成：(m,nC,nH,nW)，这个其实需要在导入库的时候做一个设置：`K.set_image_data_format('channels_first')`

需要导入库如下：



In [4]:
from keras.models import Sequential
from keras.layers import Conv2D, ZeroPadding2D, Activation, Input, concatenate
from keras.models import Model
from keras.layers.normalization import BatchNormalization
from keras.layers.pooling import MaxPooling2D, AveragePooling2D
from keras.layers.merge import Concatenate
from keras.layers.core import Lambda, Flatten, Dense
from keras.initializers import glorot_uniform
from keras.engine.topology import Layer
from keras import backend as K
# 通道前置设置
K.set_image_data_format('channels_first')
import cv2
import os
import numpy as np
from numpy import genfromtxt
import pandas as pd
import tensorflow as tf
# 提供的辅助库
from fr_utils import *
from inception_blocks_v2 import *

%matplotlib inline
%load_ext autoreload
%autoreload 2

np.set_printoptions(threshold=np.nan)

sess = tf.InteractiveSession()

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload




### 最原始的人脸验证方

最原始的人脸验证方法，就是对两张图片进行像素级别的一对一的验证。这个方法很像openCV中的cvMatchTemplate算法，就是利用像素级别的匹配。但是这样的方法有其弊端就是：
- 算法执行速度慢
- 容易受到光线，尺寸变形或则旋转等影响

![](imgs/1.jpg)

下面我们来看看通过CNN编码一个图片128维，然后对比这个维度得出的结果进行判断。

### 对人脸图像进行编码

#### 使用CNN来计算编码值

这里我们使用FaceNet 模型来获得该编码值。这里我们利用前人经过大量数据训练好的模型来计算。这里该网络是使用了inception框架搭建的。具体见`inception_blocks.py`。

这里我们需要知道是：
- 模型的输入： 96x96的RGB图片(m,nC,nH,nW)=(m,3,96,96)
- 输出是一个矩阵：(m,128) 



In [5]:
# 模型的创建
FRmodel = faceRecoModel(input_shape=(3, 96, 96))

In [10]:
# 模型的信息如下：
FRmodel.summary()
print("Total Params:", FRmodel.count_params())

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            (None, 3, 96, 96)    0                                            
__________________________________________________________________________________________________
zero_padding2d_1 (ZeroPadding2D (None, 3, 102, 102)  0           input_1[0][0]                    
__________________________________________________________________________________________________
conv1 (Conv2D)                  (None, 64, 48, 48)   9472        zero_padding2d_1[0][0]           
__________________________________________________________________________________________________
bn1 (BatchNormalization)        (None, 64, 48, 48)   256         conv1[0][0]                      
__________________________________________________________________________________________________
activation

通过上面的模型信息我们知道，模型最后的输出是通过全连接层输出一个128个ANN节点，这样我们就可以利用这个128个编码数据来判断两张图片是否匹配。
![](imgs/2.jpg)

下面我们需要做的事情是构建这个模型的损失函数，这里称作维Triplet loss(三元组损失函数)

我们需要对图片进行两两匹配输入：（A,P,N）
- Anchor image： 也就是录入到数据库中的标准图片
- Positive image: 也就是本人的图其他的图，
- Negativet image: 非本人图片

这样我们就可以用来来训练该模型了。

#### Triplet loss(三元组损失函数)

我们通过刚刚的模型获得一个编码，为了训练模型获得正确的编码，我需要利用triplets of images (A,P,N)来训练。这样训练是我们从训练集中挑选出来的，我们通过一个标记文件来来记录。比如我们标记维(A(i),P(i),N(i))  表示第i个训练样本。

这里我们计算公式如下：

![](imgs/3.jpg)

也就是，锚点图片与正样本本图片的编码差值要小于锚点图片与负样本图的编码差值，且两者的差值要大于一个安全边际值a=0.2

这样我就可以获得损失函数的公式如下：尽可能让其最小就是这个损失函数的目标也是我们需要训练的目标。
![](imgs/4.jpg)

下面我们就来实现这个公式：
- 计算A和P的距离差值：
![](imgs/5.jpg)
- 计算A和N的距离差值：
![](imgs/6.jpg)
- 计算以上两个差值就上a的值：
![](imgs/7.jpg)
- 计算所以的batch的值
![](imgs/4.jpg)

具体的coding 如下：
其实这里我们可以学习以下，如何在keras中构建自己的loss函数。

In [6]:
def triplet_loss(y_true, y_pred, alpha = 0.2):
    """
    输入：
    -  y_true -- 标签，这个是keras规定要写的，不一定要用到
    -  y_pred :是一个列表，计算的128维的结果
    """
    
    anchor, positive, negative = y_pred[0], y_pred[1], y_pred[2]
    
    # 计算A和P的距离差值
    pos_dist = tf.reduce_sum(tf.square(tf.subtract(anchor, positive)))
    # 计算A和N的距离差值
    neg_dist = tf.reduce_sum(tf.square(tf.subtract(anchor, negative)))
    # 计算以上两个差值就上a的值
    basic_loss = tf.add(tf.subtract(pos_dist,neg_dist), alpha)
    # 计算大于0的值的和
    loss = tf.reduce_sum(tf.maximum(basic_loss, 0.))
    
    return loss
    

In [4]:
# 测试该模型
tf.reset_default_graph()

with tf.Session() as test:
    tf.set_random_seed(1)
    y_true = (None, None, None)
    y_pred = (tf.random_normal([3, 128], mean=6, stddev=0.1, seed = 1),
              tf.random_normal([3, 128], mean=1, stddev=1, seed = 1),
              tf.random_normal([3, 128], mean=3, stddev=4, seed = 1))
    loss = triplet_loss(y_true, y_pred)

    print("loss = " + str(loss.eval()))

loss = 350.02716


### 导入预训练模型

由于需要很多数据来训练，这里我们导入预训练模型来测试：
具体过程如下：


In [7]:
    FRmodel.compile(optimizer = 'adam', loss = triplet_loss, metrics = ['accuracy'])
    load_weights_from_FaceNet(FRmodel)

### 人脸模型应用

下面我们将利用前面Happy House的案例，来进行人脸模型的应用，这里我们需要做的是，要对刷脸的朋友进行验证，判断是不是我们的朋友，而且要判判断是谁。

现在我们来实现第一步吧，人脸验证。

#### 人脸验证

这一步我们先做一个简单的人脸验证，就是朋友刷卡后，我们知道该朋友的ID号，然后从数据库中获取该ID的人脸128信息，再于现在的图片进行匹配。

**构建base数据库**

这里我们需要构建一个简单的数据库，来保存各位朋友的人脸。使用`img_to_encoding(image_path, model)`

code 如下：


In [8]:
database = {}
database["fei"] = img_to_encoding("images/fei.jpg", FRmodel)
database["jacky"] = img_to_encoding("images/jacky.jpg", FRmodel)

**人脸验证**

人脸验证需要先拿到ID,然后拿到ID获得的128维数据，具体的步骤如下：

- 计算待检测图片的128编码
- 计算数据库中图片于待检测图的distance
- 判断是否为同一人，distance<0.7

这里我使用的L2 计算距离，np.linalg.norm

In [9]:
def verify(image_path, identity, database, model):
    
    """
    输入：
        image_path -- 图片的路径
        identity --  图片ID号
        database -- 数据库
        model -- 刚刚的模型
        
    输出：
    
        dist - 两张图片的差距
        samePerson - 是同一个人
    """
    # 计算待检测图片的128编码
    encoding = img_to_encoding(image_path, model)
    
    # 计算数据库中图片于待检测图的distance
    dist = np.linalg.norm(encoding - database[identity])
    
    #判断是否为同一人，distance<0.7
    if dist < 0.7:
        print("It's " + str(identity) + ", welcome home!")
        access = True
    else:
        print("It's not " + str(identity) + ", please go away")
        access = False
    
    return dist,access

In [12]:
# 测试
verify("testImg/jacky1.jpg", "jacky", database, FRmodel)
verify("testImg/jacky2.jpg", "jacky", database, FRmodel)
verify("testImg/jacky3.jpg", "jacky", database, FRmodel)
verify("testImg/jacky4.jpg", "jacky", database, FRmodel)



It's jacky, welcome home!
It's jacky, welcome home!
It's not jacky, please go away
It's not jacky, please go away


(0.79275346, False)

#### 人脸识别

上面是我们使用人脸验证的方法，就是通过使用ID获得人脸base信息，然后将当前的待检测的图片跟该base信息进行验证。但是如果我们ID信息，只有一张待检测的人脸图片又该如何呢？

这就是人脸识别的课题了，这里我们可以将待检测的图片于数据库的图片做一次循环比对，然后挑出最像那个base,然后看看他们之间的distance是不是满足阈值的设定即可。
基本的步骤如下：

- 计算待检测人脸的编码
- 将待检测的图片于数据库的图片做一次循环比对，然后挑出最像那个base
- 

In [14]:
def who_is_it(image_path, database, model):
    
    """
    输入：
        image_path -- 图片的路径
        database -- 数据库
        model -- 刚刚的模型
        
    输出：
    
        min_dist  - 最小的差距
        identity  - 
    """
        
    # 计算待检测图片的128编码
    encoding = img_to_encoding(image_path, model)
    
    min_dist = 100
    
    for (name,db_enc) in database.items():
        
        dist = np.linalg.norm(encoding - db_enc)
        
        if dist < min_dist:
            min_dist = dist
            identity = name
            
    if min_dist > 0.7:
        print("Not in the database.")
    else:
        print ("it's " + str(identity) + ", the distance is " + str(min_dist))

    return min_dist,identity

In [15]:
who_is_it("testImg/jacky1.jpg", database, FRmodel)

it's jacky, the distance is 0.6202817


(0.6202817, 'jacky')

这里就基本上完成人脸识别的相关解释了，大家可以尝试如下方法来提高人脸识别的效率和稳定性
- 对每个人多采集几张base图片，对不同的光照，角度等
- 在做人脸编码前，可以使用border来对人脸进行框定，这样可以减少其他背景的干扰。