프로젝트: 더 멋진 번역기 만들기
===

트랜스포머를 이용해 번역기를 만들어 본다. 먼저 내부 모듈을 하나하나 구현한 후, 조립하여 완성한다. 완성된 번역기를 테스트해 본다.

[목차]
1. 데이터 다운로드
2. 데이터 정제 및 토큰화    
    - 중복 제거    
    - 정제 함수 정의    
    - 토큰화    
    - 데이터 선별 및 텐서 변환 
3. 모델 설계
4. 훈련하기    
    - 2 Layer를 가지는 Transformer를 선언    
    - Learning Rate Scheduler를 선언, 이를 포함하는 Adam Optimizer를 선언    
    - Loss 함수를 정의    
    - train_step 함수를 정의    
    - 학습 진행 

# 1. 데이터 다운로드 

아래 링크에서 korean-english-park.train.tar.gz 를 사용합니다. 
- korean-parallel-corpora : https://github.com/jungyeul/korean-parallel-corpora/tree/master/korean-english-news-v1


In [1]:
!ls ~/aiffel/GoingDeeper/nlp10/data

korean-english-park.train.en  korean-english-park.train.ko


In [3]:
# 라이브러리 임포트
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

import re
import os
import io
import time
import random

import seaborn # 시각화

print(tf.__version__)

2.4.1


In [5]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

%config InlineBackend.figure_format = 'retina'
 
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic') 
mpl.font_manager.findfont(font)

'/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'

# 2. 데이터 정제 및 토큰화

## 중복 제거 

 set 데이터형이 중복을 허용하지 않는다는 것을 활용해 중복된 데이터를 제거하도록 합니다. 데이터의 병렬 쌍이 흐트러지지 않게 주의합니다. 중복을 제거한 데이터를 cleaned_corpus 에 저장합니다.

In [6]:
data_dir = os.getenv('HOME')+'/aiffel/GoingDeeper/nlp10/data'
kor_path = data_dir+"/korean-english-park.train.ko"
eng_path = data_dir+"/korean-english-park.train.en"

In [11]:
# 데이터 정제 및 토큰화
def clean_corpus(kor_path, eng_path):
    with open(kor_path, "r") as f: kor = f.read().splitlines()
    with open(eng_path, "r") as f: eng = f.read().splitlines()
    assert len(kor) == len(eng)

    # [[YOUR CODE]]
    cleaned_corpus = []
    for pair in zip(kor, eng) : 
        cleaned_corpus.append(pair)

    return list(set(cleaned_corpus))

cleaned_corpus = clean_corpus(kor_path, eng_path)

In [13]:
cleaned_corpus[:5]

[('미국은 북한의 핵 무기 계획을 중지 시키기 위한 노력의 일환으로 이 규제조치를 이달안에 마무리 짓겠다고 약속했었다.',
  "The United States had promised to resolve the case this month as part of international efforts to roll back the communist regime's nuclear-weapons program."),
 ('이로써 한국은 2014년까지 10년 간 쌀시장 전면 개방을 유예받는 대신 현행 쌀 평균소비량의4%에서 2014년의 7.96%에 이르기까지 물량을 늘려 수입하게 된다.',
  'Under the bill, Seoul will raise its rice import quota to 7.96 percent from the current 4 percent by 2014 in return for a 10-year grace period for the full opening of the local rice market.'),
 ('한창 때에는, 상승 국면의 자금 시장이 혁신적인 새로운 기업들의 자금 확보를 용이하게 해준다.',
  'During the good years, a buoyant financial market makes it easy to find financing for innovative new companies.'),
 ('미 시인작가 협회의 수상자인 하스(67)는 미 샌프란시스코 출신으로 베이에서 살고 있다.',
  'Hass, 67, is a former U.S. poet laureate who grew up in San Francisco and still lives in the Bay area.'),
 ('다른 해군 마샬 매진칼다 상병(24)은 함다니야 살해사건으로 교도소에서 448일 복역을 마친 뒤 석방될 예정이다.',
  'Another Marine, 24-year-old Cpl. Marshall Magincalda, was expe

## 정제 함수 정의

정제 함수를 아래 조건을 만족하게 정의합니다.
- 모든 입력을 소문자로 변환합니다.
- 알파벳, 문장부호, 한글만 남기고 모두 제거합니다.
- 문장부호 양옆에 공백을 추가합니다.
- 문장 앞뒤의 불필요한 공백을 제거합니다.

In [14]:
def preprocess_sentence(sentence):
    
    # 모든 입력을 소문자로 변환
    sentence = sentence.lower()
    # 알파벳, 문장부호, 한글만 남기고 모두 제거
    sentence = re.sub(r"[^0-9가-힣a-zA-Z?.!,]+", " ", sentence)
    # 문장부호 양옆에 공백을 추가
    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)
    sentence = re.sub(r'[" "]+', " ", sentence)
    # 문장 앞뒤의 불필요한 공백을 제거
    sentence = sentence.strip()
    
    return sentence


# 토큰화
한글 말뭉치 kor_corpus 와 영문 말뭉치 eng_corpus 를 각각 분리한 후, 정제하여 토큰화를 진행합니다.     
토큰화에는 Sentencepiece를 활용합니다. 공식 사이트를 참고해 아래 조건을 만족하는 generate_tokenizer() 함수를 정의합니다. 
- google/sentencepiece :     
    https://github.com/google/sentencepiece    
    https://github.com/google/sentencepiece/blob/master/python/README.md
- SentencePiece Tokenizer : https://donghwa-kim.github.io/SPM.html
    
최종적으로 ko_tokenizer 과 en_tokenizer 를 얻습니다. en_tokenizer에는 set_encode_extra_options("bos:eos") 함수를 실행해 타겟 입력이 문장의 시작 토큰과 끝 토큰을 포함할 수 있게 합니다.
- 단어 사전을 매개변수로 받아 원하는 크기의 사전을 정의할 수 있게 합니다. (기본: 20,000)
- 학습 후 저장된 model 파일을 SentencePieceProcessor() 클래스에 Load()한 후 반환합니다.
- 특수 토큰의 인덱스를 아래와 동일하게 지정합니다.    
    \<PAD> : 0 / \<BOS> : 1 / \<EOS> : 2 / \<UNK> : 3

In [19]:
# Sentencepiece를 활용하여 학습한 tokenizer를 생성
import sentencepiece as spm

def generate_tokenizer(corpus,
                        vocab_size,
                        lang="ko",
                        pad_id=0,
                        bos_id=1,
                        eos_id=2,
                        unk_id=3):
    # [[YOUR CODE]]
    model_prefix = 'spm_'+lang
    spm.SentencePieceTrainer.Train( # unigram model 
        '--input={} --model_prefix={} --vocab_size={} \
        --pad_id={} --bos_id={} --eos_id={} --unk_id={}'.format(corpus, model_prefix, vocab_size, pad_id, bos_id, eos_id, unk_id)    
    ) 
    
    tokenizer = spm.SentencePieceProcessor()
    tokenizer.Load(model_prefix+'.model')
    
    return tokenizer

In [21]:
SRC_VOCAB_SIZE = TGT_VOCAB_SIZE = 20000

eng_corpus = []
kor_corpus = []

for pair in cleaned_corpus:
    k = pair[0]
    e = pair[1]

    kor_corpus.append(preprocess_sentence(k))
    eng_corpus.append(preprocess_sentence(e))

In [23]:
kor_corpus[:5]

['미국은 북한의 핵 무기 계획을 중지 시키기 위한 노력의 일환으로 이 규제조치를 이달안에 마무리 짓겠다고 약속했었다 .',
 '이로써 한국은 2014년까지 10년 간 쌀시장 전면 개방을 유예받는 대신 현행 쌀 평균소비량의4 에서 2014년의 7 . 96 에 이르기까지 물량을 늘려 수입하게 된다 .',
 '한창 때에는 , 상승 국면의 자금 시장이 혁신적인 새로운 기업들의 자금 확보를 용이하게 해준다 .',
 '미 시인작가 협회의 수상자인 하스 67 는 미 샌프란시스코 출신으로 베이에서 살고 있다 .',
 '다른 해군 마샬 매진칼다 상병 24 은 함다니야 살해사건으로 교도소에서 448일 복역을 마친 뒤 석방될 예정이다 .']

In [24]:
eng_corpus[:5]

['the united states had promised to resolve the case this month as part of international efforts to roll back the communist regime s nuclear weapons program .',
 'under the bill , seoul will raise its rice import quota to 7 . 96 percent from the current 4 percent by 2014 in return for a 10 year grace period for the full opening of the local rice market .',
 'during the good years , a buoyant financial market makes it easy to find financing for innovative new companies .',
 'hass , 67 , is a former u . s . poet laureate who grew up in san francisco and still lives in the bay area .',
 'another marine , 24 year old cpl . marshall magincalda , was expected to be freed from prison friday after having served 448 days for his conviction on a charge of conspiracy to commit murder in the hamdaniya incident .']

In [None]:
ko_tokenizer = generate_tokenizer(kor_corpus, SRC_VOCAB_SIZE, "ko")
en_tokenizer = generate_tokenizer(eng_corpus, TGT_VOCAB_SIZE, "en")
en_tokenizer.set_encode_extra_options("bos:eos")