In [2]:
from face_detector.face_detector import DnnDetector
import sys

import import_ipynb
# 원하는 모델로 바꾸어 사용하기
from vision_model_final_another import my_model

from numpy import dot
from numpy.linalg import norm
import cv2
from PIL import ImageFont, ImageDraw, Image
import numpy as np
import torch
import torchvision.transforms.transforms as transforms

importing Jupyter notebook from vision_model_final_another.ipynb


In [3]:
# (주의) OpenCV는 Colab에서 제대로 실행되지 않음.
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [4]:
# 사용할 모델 선언하기
my_model = my_model().to(device)

# train이 아닌, evaluation 과정
my_model.eval()

# 기존에 학습한 모델 불러오기. XXXXXXXXXXXX에 epoch 번호 작성.
#path = 'checkpoint/model_weights/weights_epoch_' + '33' + '.pth.tar'

path = 'epoch_67.pt'
checkpoint = torch.load(path, map_location=device)
my_model.load_state_dict(checkpoint['model_state_dict'])

# Face detection을 위한 CascadeClassifier 모델 불러오기
#path = "haarcascade_frontalface_default.xml"
#face_detector = cv2.CascadeClassifier(path)

sys.path.insert(1, 'face_detector')
face_detector = DnnDetector('face_detector')
blue = (255, 0, 0)
green = (0, 255, 0)
red = (0, 0, 255)


In [5]:
def sort_vec(vec):
    """
    7차원 감정 벡터의 순서를 일치시키기 위한 함수
        
    매개변수 (Parameters)
    ----------
    vec : numpy.ndarray, shape-(7,)
        vision 모델의 출력값인 7차원 벡터.
        fer2013 dataset의 emotion label의 순서대로 구한 감정 벡터. 
        
    반환 값 (Returns)
    -------
    numpy.ndarray, shape-(7,)
        NLP dataset의 emotion index의 순서대로 재정렬한 감정 벡터
    
    참고사항
    -------
    (fer2013 dataset)
        0: 'Angry',
        1: 'Disgust', 
        2: 'Fear', 
        3: 'Happy', 
        4: 'Sad', 
        5: 'Surprise', 
        6: 'Neutral'
        
    (NLP dataset)
        0: 'Fear',
        1: 'Surprise', 
        2: 'Angry', 
        3: 'Sad', 
        4: 'Neutral', 
        5: 'Happy', 
        6: 'Disgust'  
    """
    ## 여기에 코드 작성
    v = [vec[2], vec[5], vec[0], vec[4], vec[6], vec[3], vec[1]]
    '''
    sort = {
        0: vec[2],
        1: vec[5],
        2: vec[0],
        3: vec[4],
        4: vec[6],
        5: vec[3],
        6: vec[1]
    }
    '''
    
    return np.array(v)

In [6]:
test = np.array([0,1,2,3,4,5,6])
print(sort_vec(test))

[2 5 0 4 6 3 1]


In [7]:
def get_label_emotion(label):
    """
    label 값에 대응되는 감정의 이름 문자열을 구하기 위한 함수
        
    매개변수 (Parameters)
    ----------
    label : int
        emotion label 번호
        
    반환 값 (Returns)
    -------
    String
        label 번호에 대응되는 감정의 이름 문자열
    
    참고사항
    -------
    (NLP dataset)
        0: 'Fear',
        1: 'Surprise', 
        2: 'Angry', 
        3: 'Sad', 
        4: 'Neutral', 
        5: 'Happy', 
        6: 'Disgust'      
    """
    ## 여기에 코드 작성
    emotion_labels = { 
        0: 'Fear',
        1: 'Surprise', 
        2: 'Angry', 
        3: 'Sad', 
        4: 'Neutral', 
        5: 'Happy', 
        6: 'Disgust' }
    return emotion_labels[label]

In [8]:
x = np.int64(2)
print(get_label_emotion(x))

Angry


In [9]:

def cos_sim(A, B):
    """
    두 벡터 A, B의 코사인 유사도를 구하기 위한 함수
        
    매개변수 (Parameters)
    ----------
    A : numpy.ndarray, shape-(N,)
    B : numpy.ndarray, shape-(N,)
        
    반환 값 (Returns)
    -------
    numpy.float64
        두 벡터 A, B의 코사인 유사도 값      
    """
    ## 여기에 코드 작성
    return dot(A, B) / (norm(A) * norm(B))

In [10]:
def predict_video(nlp_vec, sentence):
    """
    웹캠을 통해 받아온 실시간 영상 속에서
    1) CascadeClassifier (혹은 다른 모델)을 통해 얼굴을 탐지하고
    2) Mini_Xception (혹은 다른 모델)을 통해 얼굴 표정으로부터 7차원 감정 벡터를 추출하여
    3) sort_vec 함수를 통해 2)에서 구한 감정 벡터의 순서를 재정렬한 후
    4) cos_sim 함수를 이용하여 입력받은 문장에서 추출한 7차원 감정 벡터와의 코사인 유사도를 계산.
    5) OpenCV 라이브러리를 사용하여, 문장과 표정에서 추출한 각 감정, 그리고 표정 연기에 대한 점수(코사인 유사도)를 window 상에 시각화.
    
    매개변수 (Parameters)
    ----------
    nlp_vec : 입력한 문장에서 추출한 7차원 감정 벡터
    sentence : 사용자가 표정 연기 연습의 목적으로 입력한 문장
    """
    font_kor = ImageFont.truetype("malgun.ttf", 30)
    # OpenCV 실시간 웹캠 영상 불러오기
    # 동영상을 저장(write)할 파일 경로
    write_path = "me_webcam.mp4"

    # VideoCapture, 기본 노트북 웹캠의 index는 0.


    cap = cv2.VideoCapture(0)

    # 프레임의 사이즈 계산 (height, width 구하기)
    ## 여기에 코드 작성
    height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
    width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
    
    size = (width, height)
    
    fourcc = cv2.VideoWriter_fourcc('M','P','4','V')
    
    while cap.isOpened():
        ret, frame = cap.read()
        
        if ret:
            # 문장의 최대 확률 감정
            ##
            #nlp_vec = sort_vec(nlp_vec)
            ##
           
            emotion_max = np.argmax(nlp_vec)
            #print(type(emotion_max))
            
            nlp_percentage = np.round(nlp_vec[emotion_max], 2)
            nlp_emotion_label = get_label_emotion(emotion_max)
            
            # 한글 문장 출력을 위한 하단 색 띠 만들기
            frame_pil = frame
            frame_pil[height-70 : height, 0 : width] = (50, 100, 50)
            
            # 한글 문장 출력을 위한 PIL 라이브러리 사용
            ## 여기에 코드 작성
            font = cv2.FONT_HERSHEY_COMPLEX
            cv2.putText(frame_pil, "emotion : " + nlp_emotion_label + "(" + str(nlp_percentage) + ")", (0, int(height-20)), font, 1, (255, 255, 255))
            
            
            # CascadeClassifier 이용한 얼굴 탐지 (faces : 얼굴 탐지 결과 얻어진, face(x,y,w,h)로 이루어진 sequential data)
            ## 여기에 코드 작성
            #print(type(cap))
            #faces = face_detector.detectMultiScale(frame)
            faces = face_detector.detect_faces(frame)
            
            for face in faces:
                
                (x,y,w,h) = face
            
                # 웹캠에서 인식한 얼굴을 모델에 넣어주기 위한 전처리
                '''
                전처리 후, input_face에 저장
                 1) face의 좌표에 따라 얼굴 부분 프레임만 잘라내기
                 2) BGR2GRAY로 흑백 변환하기
                 3) (48,48)로 resize
                 4) 히스토그램 평활화 적용
                 5) Tensor로 바꾸고 device에 저장
                 6) (1,48,48)로 차원 증가
                '''
                ## 여기에 코드 작성
                
                input_face = frame[y:y+h, x:x+w]
                #input_face = face_alignment.frontalize_face(face,frame)
                
                
                input_face = cv2.cvtColor(input_face, cv2.COLOR_BGR2GRAY)
                input_face = cv2.equalizeHist(input_face)
                input_face = cv2.resize(input_face, (48, 48))
                #cv2.imshow('input face', cv2.resize(input_face,(120,120)))
                input_face = transforms.ToTensor()(input_face).to(device)
                input_face = torch.unsqueeze(input_face, 0)
                            
                
                with torch.no_grad():
                    # 모델 출력값의 shape : [1, 7, 1, 1]
                    #emotion_vec = mini_xception(input_face).squeeze()
                    input_face = input_face.to(device)
                    emotion_vec = my_model(input_face).squeeze()
                    
                    
                    
                    
                    
                    
                    # 7차원 감정 확률 벡터
                    softmax = torch.nn.Softmax()
                    emotion_soft = softmax(emotion_vec)
                    emotion_soft = emotion_soft.reshape(-1,1).cpu().detach().numpy()
                    emotion_soft = np.round(emotion_soft,3)
                    # 코사인 유사도 점수
                    ## 여기에 코드 작성
                    emotion_vec = emotion_vec.numpy()
                    emotion_vec = sort_vec(emotion_vec)
                    
                    score = cos_sim(emotion_vec, nlp_vec)
                    
                    emotion_vec = torch.Tensor(emotion_vec)

                    # GUI 상에서 출력할 정보
                    '''
                     1) 한글 문장과 최대 확률 감정, 그 확률 (이미 PIL 라이브러리로 해결)
                     2) 코사인 유사도 점수, score
                     3) 표정의 최대 확률 감정과 그 확률
                    '''
                    ## 여기에 코드 작성
                    for i, em in enumerate(emotion_soft):
                        em = round(em.item(),3)
                    
                    emotion_most = torch.argmax(emotion_vec)
                    percentage = round(emotion_soft[emotion_most].item(), 2)
                    emotion_most = emotion_most.squeeze().cpu().detach().item()
                    emotion = get_label_emotion(emotion_most)
                    
                    
                    
                    frame[y-30:y, x:x+w] = (50,50,50)
                    cv2.putText(frame, emotion, (x,y-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0,200,200))
                    cv2.putText(frame, str(percentage), (x + w - 40,y-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5,
                            (200,200,0))
                    cv2.rectangle(frame, (x,y), (x+w, y+h), (255,0,0), 3)
                    
                    
                    #한글시작    
                    frame_pil = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
                    #cv2.putText(frame_pil, "emotion : " + get_label_emotion(nlp_emotion_label) + "(" + nlp_percentage + ")", (0, 0), font, 1, (255, 255, 255))
                    draw = ImageDraw.Draw(frame_pil)
                    #원래 오른쪽위
                    #draw.text((height,0),sentence+str(score), font=font_kor,fill=(255, 0, 0))
                    #밑으로 내리고싶어서
                    draw.text((0,int(width/2)),sentence+str(score), font=font_kor,fill=(255, 0, 0))
                    frame= np.array(frame_pil)
            
                    # 한글 문장이 출력되어 있는 프레임, frame_GUI
                    frame_GUI = cv2.cvtColor(np.array(frame_pil), cv2.COLOR_RGB2BGR)
                    cv2.putText(frame, str(60), (10,25), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,255,0))        
                    cv2.imshow("Video", frame_GUI)
                    #한글 끝
    
            
                    
                    """
                    score_box = cv2.rectangle(frame, (x,y), (x+w,y-60), (0, 0, 0), -1)
                    
                    
                    # 얼굴 표정 주변의 정보 출력을 위한 OpenCV 라이브러리 사용
                    ## 여기에 코드 작성
                    font = cv2.FONT_HERSHEY_COMPLEX
                    # 탐지한 얼굴의 표정 연기 점수
                    cv2.putText(score_box, "Score : " + "[" + str(score) + "]", (x, y-60), font, 1, (0, 255, 255), -1)
                    # 탐지한 얼굴에서 최고 확률을 나타낸 감정과 그 확률
                    cv2.putText(score_box,"_",  (x, y-30), font, 1, (0, 255, 255), -1) 
                    cv2.putText(score_box,"_",  (x+w/2, y-30), font, 1, (255, 0, 0), -1)

                    #mini_xception
            
            """

            
            
            # 탈출 조건 : esc ( OxFF==27 )
            if cv2.waitKey(1) & 0xff == 27:
                break
            
        else:
            break
    
    # 종료
    cap.release()
    cv2.destroyAllWindows()

In [11]:

while True:
    sentence = input("하고싶은 말을 입력해주세요 : ")
    if sentence == "0":
        break
    predict = predict_sentence(sentence).squeeze().cpu().detach().numpy()
    predict_video(predict, sentence)
    
   # lst = np.array([0.11119507, 0.13383299, 0.1565075,  0.22012912, 0.14622825, 0.16872445,
# 0.06338271])
   # print(lst)
   # predict_video(lst, sentence)
    print("\n")


하고싶은 말을 입력해주세요 : 행복
[0.11119507 0.13383299 0.1565075  0.22012912 0.14622825 0.16872445
 0.06338271]


하고싶은 말을 입력해주세요 : 0
