## 한국어 데이터로 챗봇 만들기

1. 한국어 전처리를 통해 학습 데이터셋을 구축하였다. 공백과 특수문자 처리, 토크나이징, 병렬데이터 구축의 과정이 적절히 진행되었다.

2. 트랜스포머 모델을 구현하여 한국어 챗봇 모델 학습을 정상적으로 진행하였다. 구현한 트랜스포머 모델이 한국어 병렬 데이터 학습 시 안정적으로 수렴하였다.

3. 한국어 입력문장에 대해 한국어로 답변하는 함수를 구현하였다. 한국어 입력문장에 맥락에 맞는 한국어로 답변을 리턴하였다.

### 목차

### 필수 라이브러리


In [1]:
import tensorflow as tf
import tensorflow_datasets as tfds
import os
import re
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd


### Step 1. 데이터 수집하기
한국어 챗봇 데이터는 송영숙님이 공개한 챗봇 데이터를 사용합니다.

In [2]:
#!wget https://github.com/songys/Chatbot_data/blob/master/ChatbotData.csv
#!pwd
#!ls

### Step 2. 데이터 전처리하기
한글 데이터와는 전혀 다른 데이터인 만큼 한글 데이터에 사용했던 전처리와 일부 동일한 전처리도 필요하겠지만 전체적으로는 다른 전처리를 수행해야 할 수도 있습니다.

 - 양쪽 끝 공백 제거
 - 구두점 거리 추가
 - 한글 + 구두점 제외 공백 치환
 - 양쪽 끝 공백 제거

### Step 3. SubwordTextEncoder 사용하기

 - 하나의 단어를 여러 서브워드로 분리해서 단어를 정수 인코딩
 - 문장의 시작과 끝을 나타내는 START_TOKEN 및 END_TOKEN을 추가
 - MAX_LENGTH 인 40을 넘는 문장들은 필터링
 - MAX_LENGTH보다 길이가 짧은 문장들은 40에 맞도록 패딩

### 교사 강요(Teacher Forcing) 사용하기


### Step 4. 모델 구성하기
위 실습 내용을 참고하여 트랜스포머 모델을 구현합니다.
- 포지셔널 인코딩 레이어
- 스케일드 닷 프로덕트
- 멀티 헤드 어텐션
- 패딩 마스크
- 룩 어헤드 마스킹
- 인코더
- 디코더
- 트랜스 포머


### 마스킹
마스킹(Masking) 이란, 특정 값들을 가려서 실제 연산에 방해가 되지 않도록 하는 기법입니다.

트랜스포머에서는 어텐션을 위해서 크게 두 가지 마스킹을 사용

## 인코더 구현
하나의 인코더 층은 크게 총 2개의 서브 층(sublayer)으로 나누어집니다.
- 셀프 어텐션
- 피드 포워드 신경망

셀프 어텐션은 멀티 헤드 어텐션으로 병렬적으로 이루어집니다.

## 디코더 구현
디코더는 세 개의 서브 층으로 구성
- 셀프 어텐션
- 인코더-디코더 어텐션
- 피드 포워드 신경망

인코더-디코더 어텐션은 셀프 어텐션과는 달리, Query가 디코더의 벡터인 반면에 Key와 Value가 인코더의 벡터라는 특징.

이 부분이 인코더가 입력 문장으로부터 정보를 디코더에 전달하는 과정

## 트랜스포머
인코더 층 함수와 디코더 층 함수를 사용하여 트랜스포머 함수를 정의

## 모델 생성

## 손실함수

## 커스텀 된 학습률
딥러닝 모델학습 시 learning rate는 매우 중요한 하이퍼파라미터입니다.

최근에는 모델학습 초기에 learning rate를 급격히 높였다가, 이후 train step이 진행됨에 따라 서서히 낮추어가면서

안정적으로 수렴하게 하는 고급 기법을 널리 사용.

이런 방법을 커스텀 학습률 스케줄링(Custom Learning rate Scheduling)이라고 합니다.

## 모델 컴파일
손실 함수와 커스텀 된 학습률(learning rate)을 사용하여 모델을 컴파일

## 훈련

### Step 5. 모델 평가하기
Step 1에서 선택한 전처리 방법을 고려하여 입력된 문장에 대해서 대답을 얻는 예측 함수를 만듭니다.