# 顔認識ニューラルネットワーク用データセット生成プログラム
#### (※)データセット生成には<font color="Red">labelImg</font>が必要

In [None]:
import cv2
import matplotlib.pyplot as plt
import numpy as np
import xml.etree.ElementTree as ET
import os
import os.path
import shutil

## 元画像から一人ずつ顔を切り出す

In [None]:
Face_list = open("/home/Nogizaka46/Face_list.txt")
# データリスト-----------------------------------------------------------
# (中身)
# /home/Nogizaka46/aaa
# /home/Nogizaka46/bbb
# /home/Nogizaka46/ccc
# ・・・
#
# ファイル名の拡張子手前まで記述しているリストを読み取る
# ------------------------------------------------------------------------

# ファイル分類用連想配列の初期化------------------------------------------
# key : クラス名
# value : 枚数
# ------------------------------------------------------------------------
count_dict = {
    # 'Maiyan':0, 'Naachan':0, 'Asuka':0 ,…
}

# ラベルリストを参照し繰り返す--------------------------------------------
for line in Face_list:
    # 改行文字の置換------------------------------------------------------
    line = line.replace('\n','')
    
    # ファイル指定--------------------------------------------------------
    img_file = line+".jpg"
    annotation_file = line+".xml"
    
    # 画像の読み込み------------------------------------------------------
    image = cv2.imread(img_file)
    
    # xmlファイルから座標を取得-------------------------------------------    
    xml = open(annotation_file)
    tree = ET.parse(xml)
    root = tree.getroot()
    
    xy_list = [] #　座標リスト
    
    for obj in root.iter('object') :
        # 座標リストの格納-------------------------------------------------
        # cls : クラス名
        # b : 座標のリスト
        # -----------------------------------------------------------------
        cls = obj.find('name').text
        xmlbox = obj.find('bndbox')
        b = [int(xmlbox.find('xmin').text), 
             int(xmlbox.find('ymin').text), 
             int(xmlbox.find('xmax').text), 
             int(xmlbox.find('ymax').text)]
        xy_list.append(b + [cls])
    
    # 座標リストから画像の生成---------------------------------------------
    for i in range(len(xy_list)) :
        
        # 矩形領域の座標指定-----------------------------------------------
        ymin = xy_list[i][1]
        ymax = xy_list[i][3]
        xmin = xy_list[i][0]
        xmax = xy_list[i][2]
        
        # クラス名の指定---------------------------------------------------
        name = xy_list[i][4]
        
        # 領域部分を切り取る-----------------------------------------------
        split_image = image[ymin:ymax,xmin:xmax]
        split_image = cv2.resize(split_image,(28,28))
        
        # クラスのディレクトリが無ければ生成-------------------------------
        dir_name= "/home/Nogizaka46/Face/" + name +"/"
        
        if os.path.isdir(dir_name) == False :
            os.mkdir(dir_name)
        
        # 画像の書き込み----------------------------------------------------
        file_name = dir_name + str(count_dict[name]) + ".jpg"
        cv2.imwrite(file_name,split_image)
        
        # 枚数のカウント-----------------------------------------------------
        count_dict[name] += 1

In [None]:
total = 0 # 合計枚数

# 各クラスの画像枚数の出力 --------------------------------------------------
for key, value in count_dict.items():
    print("[" + key + "]",value,"枚")
    total += value

# 全クラスの合計枚数の出力---------------------------------------------------
print("現在 "+str(total) + " 枚")

## TrainとValidationファイルに分類

In [None]:
# ディレクトリ指定-----------------------------------------------------------
# dir_name : 元画像のディレクトリ
# train_dir : 訓練用データセットのディレクトリ
# validation_dir : 検証用データセットのディレクトリ
# ----------------------------------------------------------------------------
dir_name = "/home/Nogizaka46/Face/"
train_dir = "/home/Nogizaka46/train/"
validation_dir = "/home/Nogizaka46/validation/"

# ディレクトリがなければ生成する----------------------------------------------
if os.path.isdir(train_dir) == False:
    os.mkdir(train_dir)
if os.path.isdir(validation_dir) == False:
    os.mkdir(validation_dir)

# 元画像のディレクトリを参照し繰り返す----------------------------------------
for root, dirs, files in os.walk(dir_name):
    for d in dirs :
        # 走査するディレクトリの指定------------------------------------------
        scanning_dir_name = dir_name+d+"/"
        for root,dirs,files in os.walk(scanning_dir_name) :
            i = 0 # 枚数カウント用
            
            # 画像ファイルを参照し繰り返す------------------------------------
            for f in files :
                # 全体の75%はTrain，残りの25%はValidationに分類---------------
                if i/len(files) < 0.75 :
                    mode = "train/"
                else :
                    mode = "validation/"
                
                # 訓練・検証ディレクトリにクラスディレクトリを生成------------
                make_dir_name = "/home/Nogizaka46/" + mode + d + "/" 
                if os.path.isdir(make_dir_name) == False:
                    os.mkdir(make_dir_name)
                    
                # 生成したディレクトリに元画像をコピー------------------------
                file_name = make_dir_name + f
                shutil.copyfile(scanning_dir_name + f, file_name)
                
                # 枚数カウントアップ-------------------------------------------
                i += 1 

# モデル構築