# 1. 문자 단위 RNN 언어 모델(Char RNNLM)

## 1) 데이터에 대한 이해와 전처리

In [4]:
import numpy as np
import urllib.request
from tensorflow.keras.utils import to_categorical

# 데이터 로드
#urllib.request.urlretrieve("http://www.gutenberg.org/files/11/11-0.txt", filename="11-0.txt")

f = open('11-0.txt', 'rb')
sentences = []
for sentence in f: # 데이터로부터 한 줄씩 읽는다.
    sentence = sentence.strip() # strip()을 통해 \r, \n을 제거한다.
    sentence = sentence.lower() # 소문자화.
    sentence = sentence.decode('ascii', 'ignore') # \xe2\x80\x99 등과 같은 바이트 열 제거
    if len(sentence) > 0:
        sentences.append(sentence)
f.close()

In [5]:
sentences[:5]

['the project gutenberg ebook of alices adventures in wonderland, by lewis carroll',
 'this ebook is for the use of anyone anywhere in the united states and',
 'most other parts of the world at no cost and with almost no restrictions',
 'whatsoever. you may copy it, give it away or re-use it under the terms',
 'of the project gutenberg license included with this ebook or online at']

In [6]:
#하나의 문자열로 재생산
total_data = ' '.join(sentences)
print('문자열의 길이 또는 총 문자의 개수: %d' % len(total_data))

문자열의 길이 또는 총 문자의 개수: 159484


In [7]:
print(total_data[:200])

the project gutenberg ebook of alices adventures in wonderland, by lewis carroll this ebook is for the use of anyone anywhere in the united states and most other parts of the world at no cost and with


## 2. 문자 집합 생성
기존에는 단어집합 -> 중복제거가 필요

In [8]:
#set으로 중복 문자 제거
# set-> list로
# sorted로 사전 순서대로 재배치
char_vocab = sorted(list(set(total_data)))


In [9]:
vocab_size = len(char_vocab)
print('문자 집합의 크기 : {}'.format(vocab_size))

문자 집합의 크기 : 56


In [10]:
# 문자에 고유한 정수 부여
char_to_index = dict((char,index) for index, char in enumerate(char_vocab))

In [11]:
print('문자 집합 : ', char_to_index)

문자 집합 :  {' ': 0, '!': 1, '"': 2, '#': 3, '$': 4, '%': 5, "'": 6, '(': 7, ')': 8, '*': 9, ',': 10, '-': 11, '.': 12, '/': 13, '0': 14, '1': 15, '2': 16, '3': 17, '4': 18, '5': 19, '6': 20, '7': 21, '8': 22, '9': 23, ':': 24, ';': 25, '?': 26, '[': 27, ']': 28, '_': 29, 'a': 30, 'b': 31, 'c': 32, 'd': 33, 'e': 34, 'f': 35, 'g': 36, 'h': 37, 'i': 38, 'j': 39, 'k': 40, 'l': 41, 'm': 42, 'n': 43, 'o': 44, 'p': 45, 'q': 46, 'r': 47, 's': 48, 't': 49, 'u': 50, 'v': 51, 'w': 52, 'x': 53, 'y': 54, 'z': 55}


반대로 정수-> index 딕셔너리 생성

In [12]:
index_to_char ={}
for char, index in char_to_index.items():
    index_to_char[index] = char

## 2. 훈련 데이터를 구성

훈련 데이터 구성을 위한 간소화 된 예츨 들어봅시다.
훈련 데이터에 apple이라는 시퀀스가 있고, 입력의 길이가 4로 정했습니다.
데이터 구성은 어떻게 될까?
**입력의 길이가 4**이므로 입력 시퀀스와 예측해야 하는 **출력 시퀀스 모두 길이는 4가 됩니다.**
다시 말해 RNN은 총 **네번의 시점(timestep)** 을 가질 수 있다는 의미입니다. apple은 다섯 글자이지만 입력의 길이는 4이므로 'appl'까지만 입력으로 사용할 수 있습니다.
그리고 언어 모델은 다음 시점의 입력을 예측해야하는 모델이므로 'pple'를 예측하도록 데이터가 구성됩니다.

In [13]:
# appl (입력 시퀀스) -> pple (예측해야하는 시퀀스)
train_X = 'appl'
train_y = 'pple'

### 2-1 다수의 샘플 생성
1. 문장 샘플의 길이를 정하고, 해당 길이만큼 문자열 전체를 등분하는 것입니다.
2. 문장 길이를 60으로 정했다. 결국 15만 9천을 60으로 나눈 수가 샘플의 수가 됩니ㅏㄷ.

In [14]:
# appl (입력 시퀀스) -> pple (예측해야하는 시퀀스)
train_X = 'appl'
train_y = 'pple'

In [15]:
seq_length = 60
# 문자열 길이를 seq_length로 나누면 전처리 후 생겨날 샘풀 수

In [16]:
n_samples = len(total_data) // seq_length

In [17]:
n_samples

2658

## 3. 전처리

In [18]:
train_X = []
train_y = []

for i in range(n_samples):
    # 0:60 -> 60:120 -> 120:180로 loop를 돌면서 문장 샘플을 1개씩 pick.
    X_sample = total_data[i * seq_length: (i + 1) * seq_length]

    # 정수 인코딩
    X_encoded = [char_to_index[c] for c in X_sample]
    train_X.append(X_encoded)

    # 오른쪽으로 1칸 쉬프트
    y_sample = total_data[i * seq_length + 1: (i + 1) * seq_length + 1]
    y_encoded = [char_to_index[c] for c in y_sample]
    train_y.append(y_encoded)

In [19]:
print('X 데이터의 첫번째 샘플 :',train_X[0])
print('y 데이터의 첫번째 샘플 :',train_y[0])
print('-'*50)
print('X 데이터의 첫번째 샘플 디코딩 :',[index_to_char[i] for i in train_X[0]])
print('y 데이터의 첫번째 샘플 디코딩 :',[index_to_char[i] for i in train_y[0]])

X 데이터의 첫번째 샘플 : [49, 37, 34, 0, 45, 47, 44, 39, 34, 32, 49, 0, 36, 50, 49, 34, 43, 31, 34, 47, 36, 0, 34, 31, 44, 44, 40, 0, 44, 35, 0, 30, 41, 38, 32, 34, 48, 0, 30, 33, 51, 34, 43, 49, 50, 47, 34, 48, 0, 38, 43, 0, 52, 44, 43, 33, 34, 47, 41, 30]
y 데이터의 첫번째 샘플 : [37, 34, 0, 45, 47, 44, 39, 34, 32, 49, 0, 36, 50, 49, 34, 43, 31, 34, 47, 36, 0, 34, 31, 44, 44, 40, 0, 44, 35, 0, 30, 41, 38, 32, 34, 48, 0, 30, 33, 51, 34, 43, 49, 50, 47, 34, 48, 0, 38, 43, 0, 52, 44, 43, 33, 34, 47, 41, 30, 43]
--------------------------------------------------
X 데이터의 첫번째 샘플 디코딩 : ['t', 'h', 'e', ' ', 'p', 'r', 'o', 'j', 'e', 'c', 't', ' ', 'g', 'u', 't', 'e', 'n', 'b', 'e', 'r', 'g', ' ', 'e', 'b', 'o', 'o', 'k', ' ', 'o', 'f', ' ', 'a', 'l', 'i', 'c', 'e', 's', ' ', 'a', 'd', 'v', 'e', 'n', 't', 'u', 'r', 'e', 's', ' ', 'i', 'n', ' ', 'w', 'o', 'n', 'd', 'e', 'r', 'l', 'a']
y 데이터의 첫번째 샘플 디코딩 : ['h', 'e', ' ', 'p', 'r', 'o', 'j', 'e', 'c', 't', ' ', 'g', 'u', 't', 'e', 'n', 'b', 'e', 'r', 'g', ' ', 'e',

In [20]:
print('X 데이터의 첫번째 샘플 :',train_X[1])
print('y 데이터의 첫번째 샘플 :',train_y[1])

X 데이터의 첫번째 샘플 : [43, 33, 10, 0, 31, 54, 0, 41, 34, 52, 38, 48, 0, 32, 30, 47, 47, 44, 41, 41, 0, 49, 37, 38, 48, 0, 34, 31, 44, 44, 40, 0, 38, 48, 0, 35, 44, 47, 0, 49, 37, 34, 0, 50, 48, 34, 0, 44, 35, 0, 30, 43, 54, 44, 43, 34, 0, 30, 43, 54]
y 데이터의 첫번째 샘플 : [33, 10, 0, 31, 54, 0, 41, 34, 52, 38, 48, 0, 32, 30, 47, 47, 44, 41, 41, 0, 49, 37, 38, 48, 0, 34, 31, 44, 44, 40, 0, 38, 48, 0, 35, 44, 47, 0, 49, 37, 34, 0, 50, 48, 34, 0, 44, 35, 0, 30, 43, 54, 44, 43, 34, 0, 30, 43, 54, 52]


In [21]:
train_X = to_categorical(train_X)
train_y = to_categorical(train_y)

print('train_X의 크기(shape) : {}'.format(train_X.shape)) # 원-핫 인코딩
print('train_y의 크기(shape) : {}'.format(train_y.shape)) # 원-핫 인코딩

train_X의 크기(shape) : (2658, 60, 56)
train_y의 크기(shape) : (2658, 60, 56)


![img](https://wikidocs.net/images/page/22886/rnn_image6between7.PNG)
이는 샘플의 수(No. of samples)가 2,658개, 입력 시퀀스의 길이(input_length)가 60, 각 벡터의 차원(input_dim)이 55임을 의미합니다. 원-핫 벡터의 차원은 문자 집합의 크기인 56이어야 하므로 원-핫 인코딩이 수행되었음을 알 수 있습니다.


## 2) 모델 설계 하기

In [22]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, TimeDistributed

hidden_units = 256

model = Sequential()
model.add(LSTM(hidden_units, input_shape=(None, train_X.shape[2]), return_sequences=True))
model.add(LSTM(hidden_units, return_sequences=True))
model.add(TimeDistributed(Dense(vocab_size, activation='softmax')))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(train_X, train_y, epochs=80, verbose=2)

Epoch 1/80
84/84 - 23s - loss: 3.0637 - accuracy: 0.1833 - 23s/epoch - 271ms/step
Epoch 2/80
84/84 - 20s - loss: 2.7193 - accuracy: 0.2496 - 20s/epoch - 243ms/step
Epoch 3/80
84/84 - 21s - loss: 2.4035 - accuracy: 0.3250 - 21s/epoch - 247ms/step
Epoch 4/80
84/84 - 21s - loss: 2.2812 - accuracy: 0.3535 - 21s/epoch - 253ms/step
Epoch 5/80
84/84 - 20s - loss: 2.1935 - accuracy: 0.3760 - 20s/epoch - 242ms/step
Epoch 6/80
84/84 - 21s - loss: 2.1219 - accuracy: 0.3943 - 21s/epoch - 245ms/step
Epoch 7/80
84/84 - 20s - loss: 2.0553 - accuracy: 0.4108 - 20s/epoch - 243ms/step
Epoch 8/80
84/84 - 21s - loss: 2.0042 - accuracy: 0.4229 - 21s/epoch - 253ms/step
Epoch 9/80
84/84 - 22s - loss: 1.9586 - accuracy: 0.4350 - 22s/epoch - 267ms/step
Epoch 10/80
84/84 - 21s - loss: 1.9134 - accuracy: 0.4480 - 21s/epoch - 253ms/step
Epoch 11/80
84/84 - 20s - loss: 1.8747 - accuracy: 0.4568 - 20s/epoch - 243ms/step
Epoch 12/80
84/84 - 19s - loss: 1.8356 - accuracy: 0.4679 - 19s/epoch - 231ms/step
Epoch 13/80
8

<keras.callbacks.History at 0x218a962d370>

In [None]:
# 0부터 시작해서 각 입력의 길이는 1개씩 늘어나고 출력도 하나씩 늘어난다. -> 교사강요 훈련 방식

In [67]:
# 문장의 길이가 100일때 
def sentence_generation(model, length):
    
    # 문자에 대한 랜덤한 정수 생성
    # 특정 문자를 랜덤하게 생성
    ix = [np.random.randint(vocab_size)]
    
    #랜덤한 정수로부터 맵핑되는 문자 생성
    y_char = [index_to_char[ix[-1]]]
    print(ix[-1],'번 문자',y_char[-1],'로 예측을 시작!')
    
    # (1, length, vocab_size(56)) 크기의 x 생성. 즉, LSTM의 입력시퀀스 생성. length는 timesteps를 의미한다.
    X = np.zeros((1, length, vocab_size))
    
    for i in range(length): # 각 timesteps 마다 
        # X[0][i][예측한 문자의 인덱스] = 1, 즉, 예측 문자를 다음 입력 시퀀스에 추가
        # 각 문자의 벡터의 해당 인덱스를 1로 변환한다.
        # 첫번째 예측 문자, 원-핫 인코딩 벡터 변환
        X[0][i][ix[-1]] = 1
        print(index_to_char[ix[-1]]) # 시작문자
        # 시점 t일 때는 입력 문자 1
        # 시점 t+1 일 때는 입력 문자 2
        # 시점 t+3 일 대는 입력 문자 3
        ix = np.argmax(model.predict(X[:, :i+1, :])[0], 1)  # 첫번째 문자만 넣었을 때 예측 문자
        y_char.append(index_to_char[ix[-1]])
        
    return ('').join(y_char)


In [68]:
result = sentence_generation(model, 100)

44 번 문자 o 로 예측을 시작!
o
u
t
 
i
t
,
 
a
d
d
e
d
 
t
h
e
 
h
a
t
t
e
r
,
 
i
t
 
b
y
 
w
i
t
h
 
a
l
l
 
t
h
e
 
t
e
m
 
b
e
t
 
m
e
a
n
i
n
g
 
o
n
 
t
h
e
 
t
r
o
u
n
d
e
d
 
h
i
s
 
i
s
.
 
w
h
y
,
 
t
h
a
t
 
a
l
i
c
e


In [69]:
print(result)

out it, added the hatter, it by with all the tem bet meaning on the trounded his is. why, that alice 


In [45]:
model.predict(X[:, :3, :]).shape



(1, 3, 56)

# 2. 문자 단위 RNN(Char RNN)으로 텍스트 생성하기
## 2-1. 다대일 구조의 RNN을 문자 단위로 학습, 텍스트 생성

In [1]:
import numpy as np
from tensorflow.keras.utils import to_categorical

In [2]:
# 엉터리가사
raw_text = '''
I get on with life as a programmer,
I like to contemplate beer.
But when I start to daydream,
My mind turns straight to wine.

Do I love wine more than beer?

I like to use words about beer.
But when I stop my talking,
My mind turns straight to wine.

I hate bugs and errors.
But I just think back to wine,
And I'm happy once again.

I like to hang out with programming and deep learning.
But when left alone,
My mind turns straight to wine.
'''

In [3]:
tokens = raw_text.split()

In [4]:
raw_text = ' '.join(tokens)
print(raw_text)

I get on with life as a programmer, I like to contemplate beer. But when I start to daydream, My mind turns straight to wine. Do I love wine more than beer? I like to use words about beer. But when I stop my talking, My mind turns straight to wine. I hate bugs and errors. But I just think back to wine, And I'm happy once again. I like to hang out with programming and deep learning. But when left alone, My mind turns straight to wine.


In [5]:
char_vocab = sorted(list(set(raw_text)))
vocab_size = len(char_vocab)
print('문자 집합 :',char_vocab)
print ('문자 집합의 크기 : {}'.format(vocab_size))

문자 집합 : [' ', "'", ',', '.', '?', 'A', 'B', 'D', 'I', 'M', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'v', 'w', 'y']
문자 집합의 크기 : 33


## 2-2. 문자 집합을 정수 인코딩

In [7]:
char_to_index = dict((char, index) for index, char in enumerate(char_vocab)) # 문자에 고유한 정수 인덱스 부여
print(char_to_index)

{' ': 0, "'": 1, ',': 2, '.': 3, '?': 4, 'A': 5, 'B': 6, 'D': 7, 'I': 8, 'M': 9, 'a': 10, 'b': 11, 'c': 12, 'd': 13, 'e': 14, 'f': 15, 'g': 16, 'h': 17, 'i': 18, 'j': 19, 'k': 20, 'l': 21, 'm': 22, 'n': 23, 'o': 24, 'p': 25, 'r': 26, 's': 27, 't': 28, 'u': 29, 'v': 30, 'w': 31, 'y': 32}


## 2-3. 입력 샘플 생성
### 하나의 코퍼스를 10개씩 나눔

In [8]:
length = 11
sequences = []
for i in range(length, len(raw_text)):
    seq = raw_text[i-length:i] # 길이 11의 문자열을 지속적으로 만든다.
    sequences.append(seq)
print('총 훈련 샘플의 수: %d' % len(sequences))

총 훈련 샘플의 수: 426


In [9]:
sequences

['I get on wi',
 ' get on wit',
 'get on with',
 'et on with ',
 't on with l',
 ' on with li',
 'on with lif',
 'n with life',
 ' with life ',
 'with life a',
 'ith life as',
 'th life as ',
 'h life as a',
 ' life as a ',
 'life as a p',
 'ife as a pr',
 'fe as a pro',
 'e as a prog',
 ' as a progr',
 'as a progra',
 's a program',
 ' a programm',
 'a programme',
 ' programmer',
 'programmer,',
 'rogrammer, ',
 'ogrammer, I',
 'grammer, I ',
 'rammer, I l',
 'ammer, I li',
 'mmer, I lik',
 'mer, I like',
 'er, I like ',
 'r, I like t',
 ', I like to',
 ' I like to ',
 'I like to c',
 ' like to co',
 'like to con',
 'ike to cont',
 'ke to conte',
 'e to contem',
 ' to contemp',
 'to contempl',
 'o contempla',
 ' contemplat',
 'contemplate',
 'ontemplate ',
 'ntemplate b',
 'template be',
 'emplate bee',
 'mplate beer',
 'plate beer.',
 'late beer. ',
 'ate beer. B',
 'te beer. Bu',
 'e beer. But',
 ' beer. But ',
 'beer. But w',
 'eer. But wh',
 'er. But whe',
 'r. But when',
 '. But 

In [10]:
raw_text

"I get on with life as a programmer, I like to contemplate beer. But when I start to daydream, My mind turns straight to wine. Do I love wine more than beer? I like to use words about beer. But when I stop my talking, My mind turns straight to wine. I hate bugs and errors. But I just think back to wine, And I'm happy once again. I like to hang out with programming and deep learning. But when left alone, My mind turns straight to wine."

In [11]:
sequences[:10]

['I get on wi',
 ' get on wit',
 'get on with',
 'et on with ',
 't on with l',
 ' on with li',
 'on with lif',
 'n with life',
 ' with life ',
 'with life a']

## 2-2. 정수인코딩 진행

In [12]:
# 전체 데이터에서 문장 샘플을 1개씩 꺼낸다.
encoded_sequences = []
for sequence in sequences: # 전체 데이터에서 문장 샘플을 1개씩 꺼낸다.
    encoded_sequence = [char_to_index[char] for char in sequence] # 문장 샘플에서 각 문자에 대해서 정수 인코딩을 수행.
    encoded_sequences.append(encoded_sequence)

In [13]:
encoded_sequences

[[8, 0, 16, 14, 28, 0, 24, 23, 0, 31, 18],
 [0, 16, 14, 28, 0, 24, 23, 0, 31, 18, 28],
 [16, 14, 28, 0, 24, 23, 0, 31, 18, 28, 17],
 [14, 28, 0, 24, 23, 0, 31, 18, 28, 17, 0],
 [28, 0, 24, 23, 0, 31, 18, 28, 17, 0, 21],
 [0, 24, 23, 0, 31, 18, 28, 17, 0, 21, 18],
 [24, 23, 0, 31, 18, 28, 17, 0, 21, 18, 15],
 [23, 0, 31, 18, 28, 17, 0, 21, 18, 15, 14],
 [0, 31, 18, 28, 17, 0, 21, 18, 15, 14, 0],
 [31, 18, 28, 17, 0, 21, 18, 15, 14, 0, 10],
 [18, 28, 17, 0, 21, 18, 15, 14, 0, 10, 27],
 [28, 17, 0, 21, 18, 15, 14, 0, 10, 27, 0],
 [17, 0, 21, 18, 15, 14, 0, 10, 27, 0, 10],
 [0, 21, 18, 15, 14, 0, 10, 27, 0, 10, 0],
 [21, 18, 15, 14, 0, 10, 27, 0, 10, 0, 25],
 [18, 15, 14, 0, 10, 27, 0, 10, 0, 25, 26],
 [15, 14, 0, 10, 27, 0, 10, 0, 25, 26, 24],
 [14, 0, 10, 27, 0, 10, 0, 25, 26, 24, 16],
 [0, 10, 27, 0, 10, 0, 25, 26, 24, 16, 26],
 [10, 27, 0, 10, 0, 25, 26, 24, 16, 26, 10],
 [27, 0, 10, 0, 25, 26, 24, 16, 26, 10, 22],
 [0, 10, 0, 25, 26, 24, 16, 26, 10, 22, 22],
 [10, 0, 25, 26, 24, 16, 2

## 2-5. 예측 대상인 문자를 분리

In [16]:
encoded_sequences = np.array(encoded_sequences)

# 맨 마지막 위치의 문자를 분리
X_data = encoded_sequences[:,:-1]
# 맨 마지막 위치의 문자를 저장
y_data = encoded_sequences[:,-1]

In [17]:
print(X_data[:5])
print(y_data[:5])

[[ 8  0 16 14 28  0 24 23  0 31]
 [ 0 16 14 28  0 24 23  0 31 18]
 [16 14 28  0 24 23  0 31 18 28]
 [14 28  0 24 23  0 31 18 28 17]
 [28  0 24 23  0 31 18 28 17  0]]
[18 28 17  0 21]


## 2-6. 분리한 X, y에 대해서 원-핫 인코딩

In [23]:
X_data_one_hot = [to_categorical(encoded, num_classes=vocab_size) for encoded in X_data]
X_data_one_hot = np.array(X_data_one_hot)
y_data_one_hot = to_categorical(y_data, num_classes=vocab_size)

In [31]:
# 기존 (426, 10)
print(X_data.shape)
# 33차원으로 변경
print(X_data_one_hot.shape)

(426, 10)
(426, 10, 33)


![](https://wikidocs.net/images/page/22886/rnn_image6between7.PNG)

## 2-7. 모델 설계하기