* n-gram과 NNLM은 고정된 갯수의 단어만을 입력으로 받아야 하는 단점이 있음
* 그러나 시점(timestep)이라는 개념이 도입된 RNN으로 언어모델을 만든다면 입력의 길이를 고정 안해도 됨


### 1. RNN 언어모델
* RNNLM은 기본적으로 예측과정에서 이전 시점의 출력을 현재 시점의 입력
* 훈련과정에서는 이전 시점의 예측 결과를 다음 시점의 입력으로 넣으면서 예측하는 것이 아니라(테스트 과정에만 적용), 'what will the fact cat sit on' 이라는 학습샘플이 있다면, 'what will the fact cat sit' 시퀀스를 모델의 입력으로 넣으면, 'will the fact cat sit on'을 예측하도록 훈련함
* 이러한 방법을 **teacher forcing**이라고 하는데, 학습시 이 방법을 사용할 경우 모델이 t 시점에서 예측한 값을 t+1 시점에 입력으로 사용하지 않고, t 시점의 레이블, 즉 실제 알고 있는 정답을 t+1 시점의 입력으로 사용함
* 이렇게 하는 이유는 이전 시점의 출력 예측이 잘 못되면 뒤의 예측까지 영향을 미치기 때문임
----
* 학습 과정 동안 출력층에서 사용하는 활성화 함수는 **softmax** 함수임
* 손실함수는 'cross entropy' 함수 사용

----
#### RNNLM 구조 정리
* 총 4개의 층으로 구성
    * input layer : 현 시점의 입력 단어의 원-핫 벡터
    * Embedding layer(linear) : 단어 집합 크기가 V이고 임베딩 벡터의 크기를 M으로 설정하면 각 입력단어의 임베딩 층은 V x M 크기의 행렬 곱이 됨
    * Hidden layer(non-linear) : $h_{t} = tanh(W_{x} e_{t} + W_{h}h_{t−1} + b)$ 계산
    * Output layer : $\hat{y_{t}} = softmax(W_{y}h_{t} + b)$ 계산
    
    
* 룩업 테이블의 대상이 되는 테이블인 임베딩 행렬을 $E$라고 하였을 때, 결과적으로 RNNLM에서 학습 과정에서 학습되는 가중치 행렬은 다음의 $E$, $W_x$, $W_h$, $W_y$ 4개임

### 2. RNN을 이용한 텍스트 생성(Text Generation using RNN)

* 다대일 구조(many-to-one)의 RNN을 사용하여 텍스트 생성기 모델 만들기

#### 1) 데이터 이해 및 전처리

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

In [2]:
text = """경마장에 있는 말이 뛰고 있다\n
그의 말이 법이다\n
가는 말이 고와야 오는 말이 곱다\n"""

In [31]:
## 토큰 만들기
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
vocab_size = len(tokenizer.word_index) + 1  # 패딩을 위한 0을 고려하여 +1 추가

In [32]:
vocab_size

12

In [33]:
## 인텍스 출력
print(tokenizer.word_index)

{'말이': 1, '경마장에': 2, '있는': 3, '뛰고': 4, '있다': 5, '그의': 6, '법이다': 7, '가는': 8, '고와야': 9, '오는': 10, '곱다': 11}


In [34]:
### 훈련 데이터 만들기
sequences = list()

for line in text.split('\n'):
    encoded = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(encoded)):
        sequence = encoded[:i+1]  # 2개 단어부터...
        sequences.append(sequence)
        
print('학습에 사용할 샘플의 갯수: %d' % len(sequences))

학습에 사용할 샘플의 갯수: 11


In [35]:
print(sequences)

[[2, 3], [2, 3, 1], [2, 3, 1, 4], [2, 3, 1, 4, 5], [6, 1], [6, 1, 7], [8, 1], [8, 1, 9], [8, 1, 9, 10], [8, 1, 9, 10, 1], [8, 1, 9, 10, 1, 11]]


* 위의 데이터는 아직 레이블로 사용될 단어를 분리하지 않은 훈련 데이터임
* 예를 들어, [2, 3]은 [경마장에, 있는]에 해당되며 [2, 3, 1]은 [경마장에, 있는, 말이]에 해당됨. 
* 전체 훈련 데이터에 대해서 맨 우측에 있는 단어에 대해서만 레이블로 분리해야 함

---
* 우선 전체 샘플에 대해 길이 일치시켜야 함. 가장 긴 샘플의 길이를 기준으로 함
* 여기서 가장 긴 샘플은 [8, 1, 9, 10, 1, 11]이고 길이가 6임

In [36]:
max_len = max(len(l) for l in sequences)
print('샘플의 최대 길이 : {}'.format(max_len))

샘플의 최대 길이 : 6


In [37]:
### 6으로 전체 샘플의 길이를 패딩.. 앞 부분에 0 추가
sequences = pad_sequences(sequences, maxlen=max_len, padding='pre')

In [38]:
print(sequences)

[[ 0  0  0  0  2  3]
 [ 0  0  0  2  3  1]
 [ 0  0  2  3  1  4]
 [ 0  2  3  1  4  5]
 [ 0  0  0  0  6  1]
 [ 0  0  0  6  1  7]
 [ 0  0  0  0  8  1]
 [ 0  0  0  8  1  9]
 [ 0  0  8  1  9 10]
 [ 0  8  1  9 10  1]
 [ 8  1  9 10  1 11]]


In [44]:
### 각 샘플의 마지막 단어를 레이블로 분리
sequences = np.array(sequences)
X = sequences[:, :-1]
y = sequences[:, -1]

In [45]:
print(X)

[[ 0  0  0  0  2]
 [ 0  0  0  2  3]
 [ 0  0  2  3  1]
 [ 0  2  3  1  4]
 [ 0  0  0  0  6]
 [ 0  0  0  6  1]
 [ 0  0  0  0  8]
 [ 0  0  0  8  1]
 [ 0  0  8  1  9]
 [ 0  8  1  9 10]
 [ 8  1  9 10  1]]


In [46]:
print(y)

[ 3  1  4  5  1  7  1  9 10  1 11]


In [47]:
### one-hot encoding
y = to_categorical(y, num_classes=vocab_size)
print(y)

[[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


#### 2) 모델 설계 및 학습

In [48]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Dense, SimpleRNN

In [49]:
sequences.shape

(11, 6)

In [50]:
embedding_dim = 10  
hidden_units = 32 ## 은닉상태 크기 지정

model = Sequential()
model.add(Embedding(vocab_size+1, embedding_dim))
model.add(SimpleRNN(hidden_units))
model.add(Dense(vocab_size, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X, y, epochs=200, verbose=2)

Epoch 1/200
1/1 - 1s - loss: 2.4942 - accuracy: 0.0000e+00 - 1s/epoch - 1s/step
Epoch 2/200
1/1 - 0s - loss: 2.4825 - accuracy: 0.0909 - 5ms/epoch - 5ms/step
Epoch 3/200
1/1 - 0s - loss: 2.4707 - accuracy: 0.0909 - 6ms/epoch - 6ms/step
Epoch 4/200
1/1 - 0s - loss: 2.4589 - accuracy: 0.0909 - 4ms/epoch - 4ms/step
Epoch 5/200
1/1 - 0s - loss: 2.4468 - accuracy: 0.2727 - 4ms/epoch - 4ms/step
Epoch 6/200
1/1 - 0s - loss: 2.4344 - accuracy: 0.2727 - 5ms/epoch - 5ms/step
Epoch 7/200
1/1 - 0s - loss: 2.4216 - accuracy: 0.2727 - 5ms/epoch - 5ms/step
Epoch 8/200
1/1 - 0s - loss: 2.4083 - accuracy: 0.2727 - 4ms/epoch - 4ms/step
Epoch 9/200
1/1 - 0s - loss: 2.3944 - accuracy: 0.3636 - 5ms/epoch - 5ms/step
Epoch 10/200
1/1 - 0s - loss: 2.3799 - accuracy: 0.3636 - 5ms/epoch - 5ms/step
Epoch 11/200
1/1 - 0s - loss: 2.3647 - accuracy: 0.3636 - 4ms/epoch - 4ms/step
Epoch 12/200
1/1 - 0s - loss: 2.3487 - accuracy: 0.3636 - 3ms/epoch - 3ms/step
Epoch 13/200
1/1 - 0s - loss: 2.3317 - accuracy: 0.3636 - 5

Epoch 105/200
1/1 - 0s - loss: 0.8235 - accuracy: 0.7273 - 4ms/epoch - 4ms/step
Epoch 106/200
1/1 - 0s - loss: 0.8119 - accuracy: 0.7273 - 4ms/epoch - 4ms/step
Epoch 107/200
1/1 - 0s - loss: 0.8004 - accuracy: 0.7273 - 4ms/epoch - 4ms/step
Epoch 108/200
1/1 - 0s - loss: 0.7891 - accuracy: 0.7273 - 3ms/epoch - 3ms/step
Epoch 109/200
1/1 - 0s - loss: 0.7779 - accuracy: 0.7273 - 4ms/epoch - 4ms/step
Epoch 110/200
1/1 - 0s - loss: 0.7669 - accuracy: 0.7273 - 3ms/epoch - 3ms/step
Epoch 111/200
1/1 - 0s - loss: 0.7560 - accuracy: 0.7273 - 2ms/epoch - 2ms/step
Epoch 112/200
1/1 - 0s - loss: 0.7452 - accuracy: 0.7273 - 3ms/epoch - 3ms/step
Epoch 113/200
1/1 - 0s - loss: 0.7345 - accuracy: 0.7273 - 4ms/epoch - 4ms/step
Epoch 114/200
1/1 - 0s - loss: 0.7240 - accuracy: 0.7273 - 4ms/epoch - 4ms/step
Epoch 115/200
1/1 - 0s - loss: 0.7136 - accuracy: 0.8182 - 4ms/epoch - 4ms/step
Epoch 116/200
1/1 - 0s - loss: 0.7033 - accuracy: 0.8182 - 3ms/epoch - 3ms/step
Epoch 117/200
1/1 - 0s - loss: 0.6931 - 

<keras.callbacks.History at 0x189a1a54d00>

In [51]:
X.shape, y.shape

((11, 5), (11, 12))

In [52]:
#### 모델이 정확하게 예측하고 있는지 문장을 생성하는 함수를 만들어서 출력

def sentence_generation(model, tokenizer, current_word, n):
    init_word = current_word
    sentence = ''
    
    # n번 반복
    for _ in range(n):
        encoded = tokenizer.texts_to_sequences([current_word])[0]
        encoded = pad_sequences([encoded], maxlen=5, padding='pre')
        # 입력한 X(현재 단어)에 대해 Y를 예측하고 Y(예측단어)를 result에 저장
        
        result = model.predict(encoded, verbose=0)
        result = np.argmax(result, axis=1)
        
        for word, index in tokenizer.word_index.items():  
            if index == result:  ### 결과 값과 동일하다면 stop
                break
                
        current_word = current_word + ' ' + word # 현재 단어 + ' ' + 예측 단어를 현재 단어로 변경
        
        # 예측단어를 문장에 저장
        sentence = sentence + ' ' + word
        
    sentence = init_word + sentence
    return sentence            

* 입력된 단어로부터 다음 단어를 예측해서 문장을 생성하는 함수

In [53]:
print(sentence_generation(model, tokenizer, '경마장에', 4))

경마장에 있는 말이 뛰고 있다


In [54]:
print(sentence_generation(model, tokenizer, '그의', 2))

그의 말이 법이다


In [55]:
print(sentence_generation(model, tokenizer, '가는', 5))

가는 말이 고와야 오는 말이 곱다


### 3. LSTM을 이용하여 텍스트 생성하기

#### 1) 데이터에 대한 이해와 전처리

* 뉴욕타임즈 기사 제목 
https://www.kaggle.com/aashita/nyt-comments

In [56]:
from string import punctuation
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

In [57]:
df = pd.read_csv('ArticlesApril2018.csv')
df.head()

Unnamed: 0,articleID,articleWordCount,byline,documentType,headline,keywords,multimedia,newDesk,printPage,pubDate,sectionName,snippet,source,typeOfMaterial,webURL
0,5adf6684068401528a2aa69b,781,By JOHN BRANCH,article,Former N.F.L. Cheerleaders’ Settlement Offer: ...,"['Workplace Hazards and Violations', 'Football...",68,Sports,0,2018-04-24 17:16:49,Pro Football,"“I understand that they could meet with us, pa...",The New York Times,News,https://www.nytimes.com/2018/04/24/sports/foot...
1,5adf653f068401528a2aa697,656,By LISA FRIEDMAN,article,E.P.A. to Unveil a New Rule. Its Effect: Less ...,"['Environmental Protection Agency', 'Pruitt, S...",68,Climate,0,2018-04-24 17:11:21,Unknown,The agency plans to publish a new regulation T...,The New York Times,News,https://www.nytimes.com/2018/04/24/climate/epa...
2,5adf4626068401528a2aa628,2427,By PETE WELLS,article,"The New Noma, Explained","['Restaurants', 'Noma (Copenhagen, Restaurant)...",66,Dining,0,2018-04-24 14:58:44,Unknown,What’s it like to eat at the second incarnatio...,The New York Times,News,https://www.nytimes.com/2018/04/24/dining/noma...
3,5adf40d2068401528a2aa619,626,By JULIE HIRSCHFELD DAVIS and PETER BAKER,article,Unknown,"['Macron, Emmanuel (1977- )', 'Trump, Donald J...",68,Washington,0,2018-04-24 14:35:57,Europe,President Trump welcomed President Emmanuel Ma...,The New York Times,News,https://www.nytimes.com/2018/04/24/world/europ...
4,5adf3d64068401528a2aa60f,815,By IAN AUSTEN and DAN BILEFSKY,article,Unknown,"['Toronto, Ontario, Attack (April, 2018)', 'Mu...",68,Foreign,0,2018-04-24 14:21:21,Canada,"Alek Minassian, 25, a resident of Toronto’s Ri...",The New York Times,News,https://www.nytimes.com/2018/04/24/world/canad...


In [58]:
df.shape

(1324, 15)

In [59]:
df.columns

Index(['articleID', 'articleWordCount', 'byline', 'documentType', 'headline',
       'keywords', 'multimedia', 'newDesk', 'printPage', 'pubDate',
       'sectionName', 'snippet', 'source', 'typeOfMaterial', 'webURL'],
      dtype='object')

In [60]:
## NUll 값 확인
print(df['headline'].isnull().sum())

0


In [61]:
## headline 리스트 만들기
headlines = []
headlines.extend(list(df.headline.values))
headlines[:5]

['Former N.F.L. Cheerleaders’ Settlement Offer: $1 and a Meeting With Goodell',
 'E.P.A. to Unveil a New Rule. Its Effect: Less Science in Policymaking.',
 'The New Noma, Explained',
 'Unknown',
 'Unknown']

In [62]:
### UnKnown 값 제거
headlines = [line for line in headlines if line != 'Unknown']
print('노이즈 값 제거 후 샘플의 갯수: {}'.format(len(headlines)))

노이즈 값 제거 후 샘플의 갯수: 1214


In [63]:
headlines[:5]

['Former N.F.L. Cheerleaders’ Settlement Offer: $1 and a Meeting With Goodell',
 'E.P.A. to Unveil a New Rule. Its Effect: Less Science in Policymaking.',
 'The New Noma, Explained',
 'How a Bag of Texas Dirt  Became a Times Tradition',
 'Is School a Place for Self-Expression?']

In [64]:
### 데이터 전처리 : 마침표 제거, 소문자 변환
def repreprocessing(raw_sentence):
    preprocessed_sentence = raw_sentence.encode('utf-8').decode('ascii', 'ignore')
    return ''.join(word for word in preprocessed_sentence if word not in punctuation).lower()

preprocessed_headline = [repreprocessing(line) for line in headlines]
preprocessed_headline[:5]

['former nfl cheerleaders settlement offer 1 and a meeting with goodell',
 'epa to unveil a new rule its effect less science in policymaking',
 'the new noma explained',
 'how a bag of texas dirt  became a times tradition',
 'is school a place for selfexpression']