In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:24pt;}
div.text_cell_render.rendered_html{font-size:20pt;}
div.text_cell_render ul li, div.text_cell_render ol li p, code{font-size:22pt; line-height:30px;}
div.output {font-size:24pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:24pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:24pt;padding:5px;}
table.dataframe{font-size:24px;}
</style>
"""))

# <span style="color:red">ch6_RNN기반의Seq2Seq(스마트번역기)</span>
- Google Neural Machine Translation(GNMT)
- RNN기반의 Sequence to Sequence 방식
- 인코더(입력) / 디코더(모범출력) 연결구조
- 응용분야 : 자연어

# 1. 패키지 및 하이퍼파라미터

In [2]:
import numpy as np
import pandas as pd
from time import time
from tensorflow.keras.layers import Input, LSTM, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.utils import to_categorical

# 하이퍼파라미터
MY_HIDDEN = 128
MY_EPOCH  = 500

# 2. 학습 데이터

In [10]:
raw = pd.read_csv('data/translate.csv', header=None)
eng_kor = raw.values.tolist() # 데이터프레임을 list로 변환
print(eng_kor[:3])
print('영-한 번역 데이터 갯수 :', len(eng_kor))

[['cold', '감기'], ['come', '오다'], ['cook', '요리']]
영-한 번역 데이터 갯수 : 110


# 3. 영어알파벳과 한글문자 리스트 만들기

In [19]:
e_alpha = [c for c in 'SEPabcdefghijklmnopqrstuvwxyz']
korean = ''.join([data[1] for data in eng_kor])
k_ch = set([ch for ch in korean])
k_ch

{'가',
 '각',
 '간',
 '감',
 '개',
 '거',
 '것',
 '게',
 '계',
 '고',
 '관',
 '광',
 '구',
 '굴',
 '규',
 '그',
 '금',
 '기',
 '깊',
 '나',
 '날',
 '남',
 '내',
 '넓',
 '녀',
 '노',
 '놀',
 '농',
 '높',
 '뉴',
 '늦',
 '다',
 '단',
 '도',
 '동',
 '들',
 '람',
 '랑',
 '래',
 '램',
 '류',
 '름',
 '릎',
 '리',
 '많',
 '망',
 '매',
 '머',
 '먼',
 '멍',
 '메',
 '명',
 '모',
 '목',
 '무',
 '물',
 '미',
 '바',
 '반',
 '방',
 '번',
 '복',
 '부',
 '분',
 '붕',
 '비',
 '뿌',
 '사',
 '상',
 '색',
 '생',
 '서',
 '선',
 '소',
 '손',
 '수',
 '쉽',
 '스',
 '시',
 '식',
 '실',
 '싸',
 '아',
 '약',
 '얇',
 '어',
 '언',
 '얼',
 '여',
 '연',
 '오',
 '옥',
 '왼',
 '요',
 '용',
 '우',
 '운',
 '움',
 '위',
 '유',
 '은',
 '을',
 '음',
 '의',
 '이',
 '익',
 '인',
 '읽',
 '입',
 '자',
 '작',
 '장',
 '적',
 '제',
 '좋',
 '주',
 '지',
 '짜',
 '쪽',
 '찾',
 '책',
 '출',
 '칙',
 '크',
 '키',
 '탈',
 '택',
 '통',
 '파',
 '팔',
 '편',
 '피',
 '핑',
 '한',
 '합',
 '해',
 '행',
 '험',
 '회',
 '획',
 '휴',
 '흐'}