# Korean Sign Language Recognizer
##### 프로젝트 개요 작성하면 딱인 위치

## 1. 데이터셋 생성

기존에 인터넷에서 찾아볼 수 있는 자료는 영상 또는 해외 수어기 때문에 한국 수어 지문자 이미지 데이터셋을 자체 제작함

총 26종, 3,153개 이미지 데이터 생성

![ksl](https://mblogthumb-phinf.pstatic.net/20131030_109/souldeaf_1383105936536OX6gP_JPEG/%C1%F6%B9%AE%C0%DA2.JPG?type=w2)
이미지 제작에 참고한 지문자 목록 / https://mblogthumb-phinf.pstatic.net/20131030_109/souldeaf_1383105936536OX6gP_JPEG/%C1%F6%B9%AE%C0%DA2.JPG?type=w2

> captureROI.py  

cv2를 사용해 지문자 이미지 캡쳐

In [1]:
import cv2
import os
from glob import glob

cap = cv2.VideoCapture(0)

사용할 모듈을 가져오고 0번 카메라를 사용하는 VideoCapture 객체를 생성

In [2]:
count = 0

# 저장 폴더
base_dir = "./captures"
if not os.path.exists(base_dir):
    os.mkdir(base_dir)

기본적인 변수를 초기화하고, 데이터를 저장할 폴더가 없을 시 생성

In [3]:
def saveROI(base, target, frame):
    """인수로 받은 폴더에 프레임 저장

    Args:
        base (str): 루트 폴더
        target (str): 저장하고자하는 폴더
        frame (numpy.ndarray): 저장할 이미지
    """
    if not os.path.exists(os.path.join(base, target)):
        os.mkdir(os.path.join(base, target))

    # 폴더 내 png 파일의 수로 파일 이름 지정
    print(os.path.join(base, target, "*.png"))
    imglist = glob(os.path.join(base, target, "*.png"))
    count = len(imglist)

    w = cv2.imwrite(os.path.join(base, target, f"{count + 1}.png"), frame)  # 경로에 한글 포함 시 저장 x
    # status
    print(w)
    print(os.path.join(base, target, f"{count + 1}.png saved"))

루트 폴더와 해당 지문자, 이미지를 인수로 받아 루트 폴더 내 해당 지문자 폴더에 이미지를 1부터 순서대로 저장함

cv2의 경우 한글을 지원하지 않기 때문에 base, target에 한글이 포함되면 오류 발생

In [4]:
while True:
    ret, frame = cap.read()

    # 관심 영역 추출 및 표시
    roi = frame[100:300, 200:400].copy()
    frame = cv2.rectangle(frame, (200, 100), (400, 300), (255, 0, 0), 5, cv2.LINE_8)

    # 관심 영역 크기 조절
    roi = cv2.resize(roi, dsize=(100, 100), interpolation=cv2.INTER_LINEAR)

    # 25fps로 화면에 출력
    cv2.imshow("frame", frame)
    # cv2.imshow("roi", roi)
    key = cv2.waitKey(40)

    # esc 입력 시 종료
    if key == 27:
        break

    elif (key >= 97 and key <= 122) or (key >= 48 and key <= 57):
        saveROI(base_dir, chr(key), roi)
        
cap.release()
cv2.destroyAllWindows()

구역을 특정하고 a-z, 0-9 사이의 키를 입력했을 시 해당 구역의 이미지를 저장

저장할 때 경로는 "위에서 지정한 base_dir/입력한 키/숫자.png"

##### 데이터셋 만드는거 캡처해서 넣으면 딱인 위치

> renameFolders.py

cv2에서는 한글을 사용할 수 없기 때문에 폴더 이름을 한글 키보드 위치에 해당하는 영어로 저장

영어를 해당하는 지문자로 변경하기 위한 코드

In [5]:
import os

KORS = tuple("ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ")
ENGS = ("r", "R", "rt", "s", "sw", "sg", "e", "f", "fr", "fa", "fq", "ft", "fx", "fv", "fg", "a", "q", "qt", "t",
        "T", "d", "w", "c", "z", "x", "v", "g", "k", "o", "i", "O", "j", "p", "u", "P", "h", "hk", "ho", "hl", "y",
        "n", "nj", "np", "nl", "b", "m", "ml", "l",
       )


eng_kor = dict(zip(ENGS, KORS))

print(eng_kor)

{'r': 'ㄱ', 'R': 'ㄲ', 'rt': 'ㄳ', 's': 'ㄴ', 'sw': 'ㄵ', 'sg': 'ㄶ', 'e': 'ㄷ', 'f': 'ㄹ', 'fr': 'ㄺ', 'fa': 'ㄻ', 'fq': 'ㄼ', 'ft': 'ㄽ', 'fx': 'ㄾ', 'fv': 'ㄿ', 'fg': 'ㅀ', 'a': 'ㅁ', 'q': 'ㅂ', 'qt': 'ㅄ', 't': 'ㅅ', 'T': 'ㅆ', 'd': 'ㅇ', 'w': 'ㅈ', 'c': 'ㅊ', 'z': 'ㅋ', 'x': 'ㅌ', 'v': 'ㅍ', 'g': 'ㅎ', 'k': 'ㅏ', 'o': 'ㅐ', 'i': 'ㅑ', 'O': 'ㅒ', 'j': 'ㅓ', 'p': 'ㅔ', 'u': 'ㅕ', 'P': 'ㅖ', 'h': 'ㅗ', 'hk': 'ㅘ', 'ho': 'ㅙ', 'hl': 'ㅚ', 'y': 'ㅛ', 'n': 'ㅜ', 'nj': 'ㅝ', 'np': 'ㅞ', 'nl': 'ㅟ', 'b': 'ㅠ', 'm': 'ㅡ', 'ml': 'ㅢ', 'l': 'ㅣ'}


영어를 key, 해당 영어 키보드에 해당하는 한글을 value로 하는 dict

In [6]:
base_dir = "./dataset/captures"
folders = os.listdir(base_dir)
print(folders)

for folder in folders:
    try:
        src = os.path.join(base_dir, folder)
        dst = os.path.join(base_dir, eng_kor[folder])
        os.rename(src, dst)
        print(src + " to " + dst)
    except KeyError as e:
        print(e, "is KOR")

['ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅅ', 'ㅇ', 'ㅈ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ', 'ㅏ', 'ㅐ', 'ㅑ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅗ', 'ㅛ', 'ㅜ', 'ㅠ', 'ㅡ', 'ㅣ']
'ㄱ' is KOR
'ㄴ' is KOR
'ㄷ' is KOR
'ㄹ' is KOR
'ㅁ' is KOR
'ㅂ' is KOR
'ㅅ' is KOR
'ㅇ' is KOR
'ㅈ' is KOR
'ㅊ' is KOR
'ㅋ' is KOR
'ㅌ' is KOR
'ㅍ' is KOR
'ㅎ' is KOR
'ㅏ' is KOR
'ㅐ' is KOR
'ㅑ' is KOR
'ㅓ' is KOR
'ㅔ' is KOR
'ㅕ' is KOR
'ㅗ' is KOR
'ㅛ' is KOR
'ㅜ' is KOR
'ㅠ' is KOR
'ㅡ' is KOR
'ㅣ' is KOR


위에서 eng_kor를 사용해 모든 카테고리 폴더를 영어에서 한글로 변환

폴더 이름이 이미 한글일 시 해당 폴더 명과 문구 출력

> handKeypoint.py

이미지 데이터에서 아래 사진과 같이 총 21개 keypoint들의 x, y, z 좌표를 추출해 npy 파일로 저장

keypoint 추출에는 mediapipe 라이브러리 사용
![hand keypoint](https://google.github.io/mediapipe/images/mobile/hand_landmarks.png)
손 위치별 좌표 / https://google.github.io/mediapipe/images/mobile/hand_landmarks.png

In [7]:
import os
from glob import glob

import cv2
import mediapipe as mp
import numpy as np

mp_drawing = mp.solutions.drawing_utils
mp_hands = mp.solutions.hands

base_dir = "./dataset/captures"
folders = os.listdir(base_dir)
print(folders)

['ㄱ', 'ㄴ', 'ㄷ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅅ', 'ㅇ', 'ㅈ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ', 'ㅏ', 'ㅐ', 'ㅑ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅗ', 'ㅛ', 'ㅜ', 'ㅠ', 'ㅡ', 'ㅣ']


mediapipe를 사용하기 위한 모듈을 가져오고 변환할 폴더 지정

In [None]:
for folder in folders:
    IMAGE_FILES = glob(os.path.join(base_dir, folder, "*.*"))
    print(IMAGE_FILES)
    with mp_hands.Hands(
        static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5
    ) as hands:
        for idx, file in enumerate(IMAGE_FILES):
            i = idx + 1
            print(i, file)
            ff = np.fromfile(file, np.uint8)
            image = cv2.imdecode(ff, cv2.IMREAD_UNCHANGED)
            # print(image)
            # print(file)
            # Convert the BGR image to RGB before processing.
            results = hands.process(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
            xyz = []
            if results.multi_hand_landmarks:
                for landmark in results.multi_hand_landmarks[0].landmark:
                    xyz.append([landmark.x, landmark.y, landmark.z])

                # Print handedness and draw hand landmarks on the image.
                if not os.path.exists(os.path.join("./dataset/keypoints", folder)):
                    os.mkdir(os.path.join("./dataset/keypoints", folder))
                np.save(f"./dataset/keypoints/{folder}/{i}", xyz)

* 실행 결과 일부  
110 ./dataset/captures\ㅣ\83.png  
111 ./dataset/captures\ㅣ\84.png  
112 ./dataset/captures\ㅣ\85.png  
113 ./dataset/captures\ㅣ\86.png  
114 ./dataset/captures\ㅣ\87.png  
115 ./dataset/captures\ㅣ\88.png  
116 ./dataset/captures\ㅣ\89.png  
117 ./dataset/captures\ㅣ\9.png  
118 ./dataset/captures\ㅣ\90.png  
119 ./dataset/captures\ㅣ\91.png  
120 ./dataset/captures\ㅣ\92.png  
121 ./dataset/captures\ㅣ\93.png  
122 ./dataset/captures\ㅣ\94.png  
123 ./dataset/captures\ㅣ\95.png  
124 ./dataset/captures\ㅣ\96.png  
125 ./dataset/captures\ㅣ\97.png  
126 ./dataset/captures\ㅣ\98.png  
127 ./dataset/captures\ㅣ\99.png

Hands 객체를 생성하고 각 폴더 내 파일마다
```python
ff = np.fromfile(file, np.uint8)
image = cv2.imdecode(ff, cv2.IMREAD_UNCHANGED)
```
코드로 이미지를 하나씩 받아옴. 위 코드는 폴더명이 한글일 때 cv2로 이미지를 불러오기 위한 코드

```python
results = hands.process(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
```
cv2는 이미지가 BGR 순서이기 때문에 cvtColor를 사용해 RGB 순서로 변환한 뒤 Hands 객체의 process 메소드를 사용해 손의 21개 keypoint를 검출  
검출 결과 results에 저장

```python
xyz = []
if results.multi_hand_landmarks:
    for landmark in results.multi_hand_landmarks[0].landmark:
        xyz.append([landmark.x, landmark.y, landmark.z])

    # Print handedness and draw hand landmarks on the image.
    if not os.path.exists(os.path.join("./dataset/keypoints", folder)):
        os.mkdir(os.path.join("./dataset/keypoints", folder))
    np.save(f"./dataset/keypoints/{folder}/{i}", xyz)
```
results.multi_hand_landmarks가 값이 있을경우 즉, 이미지 파일에서 손이 검출되었을 경우 21개 landmark마다 x, y, z 좌표를 추출해 리스트로 저장  
해당 리스트의 shape: (21, 3)  
해당 리스트는 keypoints 안의 각 지문자 폴더에 npy 형식으로 저장

## 2. 모델링

> modeling.py

In [9]:
import glob
import os

import numpy as np
from keras.callbacks import History
from keras.layers import Activation, Conv2D, Dense, Dropout, Flatten, Input, MaxPooling2D
from keras.models import Sequential
from keras.preprocessing.image import img_to_array, load_img
from keras.utils import to_categorical
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

Using TensorFlow backend.


In [10]:
class KSLtoText:
    def __init__(self):
        self.data = []
        self.model = Sequential()
        self.history = History()
        self.dense_size = 0
        self.epochs = 0
        self.batch_size = 0
        self.npy = False

    def set_train_test(self, categories, base_dir, img_size=100, npy=False):
        self.npy = npy
        X = []
        Y = []
        self.dense_size = len(categories)
        for index, cat in enumerate(categories):
            # print(index,cat)
            files = glob.glob(os.path.join(base_dir, cat, "*.*"))
            # print(files)
            for f in files:
                if not npy:
                    img = img_to_array(
                        load_img(f, color_mode="rgb", target_size=(img_size, img_size))
                    )
                else:
                    img = np.load(f)
                X.append(img)
                Y.append(index)
        X = np.asarray(X)
        Y = np.asarray(Y)
        if not npy:
            X = X.astype("float32") / 255.0
        Y = to_categorical(Y, self.dense_size)
        self.data = train_test_split(X, Y, test_size=0.2, random_state=1)
        print(self.data[3])

    def set_model(self):
        if self.npy:
            self.model.add(Input(shape=self.data[0].shape[1:]))
        else:
            self.model.add(Conv2D(100, (3, 3), padding="same", input_shape=self.data[0].shape[1:]))
            self.model.add(Activation("relu"))
            self.model.add(Conv2D(64, (3, 3)))
            self.model.add(Activation("relu"))
            self.model.add(MaxPooling2D(pool_size=(2, 2)))
            self.model.add(Dropout(0.25))

            self.model.add(Conv2D(64, (3, 3), padding="same"))
            self.model.add(Activation("relu"))
            self.model.add(Conv2D(64, (3, 3)))
            self.model.add(Activation("relu"))
            self.model.add(MaxPooling2D(pool_size=(2, 2)))
            self.model.add(Dropout(0.25))

        self.model.add(Flatten())
        self.model.add(Dense(512))
        self.model.add(Activation("relu"))
        self.model.add(Dropout(0.5))
        self.model.add(Dense(self.dense_size))
        self.model.add(Activation("softmax"))

        self.model.summary()

    def train_model(self, epochs, batch_size):
        self.epochs = epochs
        self.batch_size = batch_size
        self.model.compile(loss="categorical_crossentropy", optimizer="Adam", metrics=["accuracy"])
        self.history = self.model.fit(
            self.data[0],
            self.data[2],
            batch_size=batch_size,
            epochs=epochs,
            validation_data=(self.data[1], self.data[3]),
        )

    def predict_save(self, filename):
        predict_classes = self.model.predict_classes(self.data[1])
        # prob = self.model.predict_proba(self.data[1])

        self.model.save(f"./models/{filename}_epochs-{self.epochs}_batch-{self.batch_size}.hdf5")
        predict_classes = self.model.predict_classes(self.data[1], batch_size=5)
        true_classes = np.argmax(self.data[3], 1)

        print(confusion_matrix(true_classes, predict_classes))

        print(self.model.evaluate(self.data[1], self.data[3]))

`__init__(self)`: 생성된 인스턴스가 기억하고 있어야 할 내용들을 초기화한다.

`set_train_test(self, categories, base_dir, img_size=100, npy=False)`: `npy`가 False일 경우 `base_dir` 내의 `category`에 해당하는 폴더별 이미지들을 ndarray로 만들어 객체 내 `data` 변수에 저장한다. `npy`가 true일 경우 `base_dir` 내의 `category`에 해당하는 폴더별 `.npy` 데이터들을 로드해 객체 내 `data` 변수에 저장한다.

`set_model(self)`: 객체의 `npy` 변수가 true일 경우 CNN 대신 일반적인 DNN을 사용하고 false일 경우 DNN 대신 CNN을 앞에 추가한다.

`train_model(self, epochs, batch_size)`: 객체에 저장된 모델을 설정한 `epochs`, `batch_size`만큼 학습

`predict_save(self, filename)`: 객체에 저장되어있는 모델을 `.hdf5` 파일로 저장

In [None]:
ktt = KSLtoText()
categories = ["ㄱ", "ㄴ", "ㄷ", "ㄹ", "ㅁ", "ㅂ", "ㅅ", "ㅇ",
              "ㅈ", "ㅊ", "ㅋ", "ㅌ", "ㅍ", "ㅎ", "ㅏ", "ㅐ",
              "ㅑ", "ㅓ", "ㅔ", "ㅕ", "ㅗ", "ㅛ", "ㅜ", "ㅠ", "ㅡ", "ㅣ",
             ]
print(len(categories))
# ktt.set_train_test(categories, "./dataset/captures")
ktt.set_train_test(categories, "./dataset/keypoints", npy=True)
print(ktt.data[0].shape[1:])
print(ktt.data[0][0])
ktt.set_model()
ktt.train_model(epochs=500, batch_size=10)
ktt.predict_save("ksl-keypoints")

* 실행 결과 일부  
Epoch 490/500
249/249 [==============================] - 0s 873us/step - loss: 0.0428 - accuracy: 0.9819 - val_loss: 0.1347 - val_accuracy: 0.9839  
Epoch 491/500
249/249 [==============================] - 0s 903us/step - loss: 0.0384 - accuracy: 0.9839 - val_loss: 0.1205 - val_accuracy: 0.9823  
Epoch 492/500
249/249 [==============================] - 0s 933us/step - loss: 0.0483 - accuracy: 0.9807 - val_loss: 0.1862 - val_accuracy: 0.9710  
Epoch 493/500
249/249 [==============================] - 0s 861us/step - loss: 0.0539 - accuracy: 0.9778 - val_loss: 0.1238 - val_accuracy: 0.9823  
Epoch 494/500
249/249 [==============================] - 0s 857us/step - loss: 0.0651 - accuracy: 0.9750 - val_loss: 0.1309 - val_accuracy: 0.9791  
Epoch 495/500
249/249 [==============================] - 0s 845us/step - loss: 0.0573 - accuracy: 0.9774 - val_loss: 0.1175 - val_accuracy: 0.9807  
Epoch 496/500
249/249 [==============================] - 0s 977us/step - loss: 0.0441 - accuracy: 0.9847 - val_loss: 0.1367 - val_accuracy: 0.9823  
Epoch 497/500
249/249 [==============================] - 0s 831us/step - loss: 0.0417 - accuracy: 0.9819 - val_loss: 0.1386 - val_accuracy: 0.9823  
Epoch 498/500
249/249 [==============================] - 0s 961us/step - loss: 0.0393 - accuracy: 0.9827 - val_loss: 0.1489 - val_accuracy: 0.9791  
Epoch 499/500
249/249 [==============================] - 0s 839us/step - loss: 0.0374 - accuracy: 0.9863 - val_loss: 0.1621 - val_accuracy: 0.9839  
Epoch 500/500
249/249 [==============================] - 0s 825us/step - loss: 0.0574 - accuracy: 0.9811 - val_loss: 0.1450 - val_accuracy: 0.9839  

KSLtoText 객체 생성 후 모델 학습  
이미지 데이터를 사용해 학습했을 경우 정확도는 높게 나왔으나 배경제거 등 별다른 전처리 없이 학습시켰기 때문에 opencv를 사용해 검증했을 때 정확도가 매우 낮았음.  
keypoint 데이터를 사용해 학습했을 땐 정확도는 물론 opencv를 사용한 검증도 높은 성능을 보임

## 3. 시각화

> KSLRecognizer.py

In [12]:
import cv2
import mediapipe as mp
import numpy as np
from keras.models import load_model
from keras.preprocessing import image
from PIL import Image, ImageDraw, ImageFont

mp_drawing = mp.solutions.drawing_utils
mp_hands = mp.solutions.hands

In [13]:
def add_text(image, string):
    temp = Image.fromarray(image)
    draw = ImageDraw.Draw(temp)
    font = ImageFont.truetype("fonts/gulim.ttc", 20)
    draw.text(
        (image.shape[0] / 7, image.shape[1] / 5),
        string,
        font=font,
        fill=(255, 0, 0),
        # stroke_width=2,
    )
    image = np.array(temp)
    return image

이미지에 문자열을 넣는 함수  
`cv2.putText`의 경우 한글을 지원하지 않기 때문에 PIL을 사용해 텍스트를 삽입한다

In [14]:
model = load_model("./models/ksl-keypoints_epochs-500_batch-10.hdf5")
categories = ["ㄱ", "ㄴ", "ㄷ", "ㄹ", "ㅁ", "ㅂ", "ㅅ", "ㅇ",
              "ㅈ", "ㅊ", "ㅋ", "ㅌ", "ㅍ", "ㅎ", "ㅏ", "ㅐ",
              "ㅑ", "ㅓ", "ㅔ", "ㅕ", "ㅗ", "ㅛ", "ㅜ", "ㅠ", "ㅡ", "ㅣ",
             ]
string = "loading"
count = 0
cap = cv2.VideoCapture(1)

모델 로드 및 기타 상수 선언

In [15]:
with mp_hands.Hands(
        min_detection_confidence=0.5, min_tracking_confidence=0.5, max_num_hands=1
    ) as hands:
    while cap.isOpened():
        success, image = cap.read()
        if not success:
            print("Ignoring empty camera frame.")
            continue

        # Flip the image horizontally for a later selfie-view display, and convert
        # the BGR image to RGB.
        image = cv2.cvtColor(cv2.flip(image, 1), cv2.COLOR_BGR2RGB)
        # To improve performance, optionally mark the image as not writeable to
        # pass by reference.
        image.flags.writeable = False
        roi = image[100:300, 200:400].copy()
        image = cv2.rectangle(image, (200, 100), (400, 300), (255, 0, 0), 5, cv2.LINE_8)
        img_for_process = roi.copy()
        img_for_process = cv2.resize(img_for_process, (100, 100))

        results = hands.process(img_for_process)

        # Draw the hand annotations on the image.
        image.flags.writeable = True
        image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
        black = np.zeros((200, 200, 3), np.uint8)

        # 검정 창에 keypoints 출력
        if results.multi_hand_landmarks:
            for hand_landmarks in results.multi_hand_landmarks:
                mp_drawing.draw_landmarks(black, hand_landmarks, mp_hands.HAND_CONNECTIONS)
        count += 1
        if count == 10:
            count = 0
            xyz = []
            if results.multi_hand_landmarks:
                for landmark in results.multi_hand_landmarks[0].landmark:
                    xyz.append([landmark.x, landmark.y, landmark.z])
                xyz = np.expand_dims(xyz, axis=0)
                xyz = np.asarray(xyz)
                xyz = xyz / 255.0
                print(xyz)
                prob = model.predict_proba(xyz)
                print("Predicted:")
                # print(prob)
                print(np.max(prob))
                classes = np.argmax(model.predict(xyz), axis=-1)
                # print(classes)
                print(categories[classes[0]])
                string = categories[classes[0]] + f"   {np.max(prob)*100:.2f}"
        image = add_text(image, string)

        cv2.imshow("Hands", image)
        cv2.imshow("keypoints", black)

        if cv2.waitKey(5) & 0xFF == 27:
            break

cap.release()
cv2.destroyAllWindows()

mediapipe를 사용해 카메라에서 손의 keypoint들을 검출하고, 모델에 적용시켜 얻은 예측 값을 이미지에 표시함

##### 실행 화면 넣으면 딱인 위치