### RNN (Recurrent Neural Network)
- 
RNN은 시퀀스 데(텍스트, 시계열 데이터, 음성 신호 등 순서가 중요한 데이터)이터를 처리하기 위해 설계된 신경망의 한 유형입니
- . R은 는 이전 시간 단계의 정보를 현재 시간 단계의 입력과 결합하여 패턴을 인식하는 것입니
- <img src='rnn_model.png'><img src='rnn_model1.png'>다.

#### RNN의 특징:
1. **메모리**: RNN은 이전의 정보를 기억할 수 있으며, 이 정보는 현재 입력의 처리에 사용됩니다.
2. **시간 단계**: RNN은 Time Step를 통해 데이터를 처리합니다. 각 시간 단계에서 RNN은 이전 TimeStep의 상태와 현재 TimeStep의 입력을 사용하여 출력물을 생성합니다

### Keras에서 RNN -수 있게 해줍니다. RNN을 구성할 때 `SimpleRNN`, `LSTM`, `GRU`와 같은 RNN 레이어를 사용구성하는 예시입니다:

```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense

# 모델 정의
model = Sequential()
# RNN 레이어 추가
# 입력 형태는 (timesteps, features)입니다.
# 여기서는 8개의 시간 단계와 4개의 특성을 가진 데이터를 사용한다고 가정합니다.
model.add(SimpleRNN(50, input_shape=(8, 4), return_sequences=True))
model.add(SimpleRNN(50))
# 출력 레이어`timr= :loss='mse')
```

이 예시에서, 우리는 두 개의 `SimpleRN나의 `Dense` 레이어로 구성된 모델을 만들었습니다. `S음
(D_{h} × D_{h})eRNN` 레이어는 각각 50개의 유닛을 가지고 있습니다.

### 입력 형태
RNN 레이어의 `input_shape` 매개변수는 입력 데이터의 형태를 정의합니다. 이는 `(timesteps, features)` 형태의 튜플로 지정됩니다.

- `timesteps`: 시퀀스의 길이, 즉 시간 단계의 수입니다.
- `features`: 각 시간 단계에서의 특성의 수입니다.

`return_sequences` 매개변수는 RNN 레이어가 모든 시간 단계의 출력을 반환할지, 아니면 마지막 시간 단계의 출력만 반환할지를 결정합니다. 첫 번째 `SimpleRNN` 레이어에서는 `return_sequences=모델을 구축할 수 있으며, 입력 형태와 모델 구조를 쉽게 조정할 수 있습니다.

# Simple RNN을 구성함에 있어서 timestep 과 input_dim 이 중요한 이유

## SimpleRNN 모델에서 timestep과 input_dim은 모델 아키텍처와 데이터 형태를 정의하는 중요한 매개변수이다. ##

1. timestep (타임스텝):

- 1) timestep은 시퀀스 데이터를 처리하는 데 필요한 시간 단계(time step)의 수를 나타냄
- 2) 시계열 데이터나 순차적 데이터에서 각각의 타임스텝은 데이터 포인트(예를 들면, 시간 단위)를 나타냄
- 3) SimpleRNN은 이전 타임스텝에서의 출력을 현재 타임스텝의 입력으로 사용함 따라서 timestep은 이러한 반복 프로세스를 얼마나 많이 수행할지를 결정합니다.

2. input_dim (입력 차원):

- 1) input_dim은 각 타임스텝에서의 입력 데이터의 차원을 나타냅니다.
 - For example
  - 입력 시퀀스의 각 타임스텝에서 10차원의 데이터를 사용하는 경우 = input_dim은 10
- 2) SimpleRNN은 각 타임스텝에서 이러한 입력 데이터를 처리하고 출력을 생성. 입력 차원은 모델이 데이터의 복잡성을 처리하는 데 중요한 역할
 - For example 
  - 텍스트 데이터의 각 타임스텝은 단어 벡터(10차원)이고, 입력 시퀀스는 2개의 타임스텝으로 구성된다고 가정합시다. 이 경우, input_dim은 10이며, timestep은 2입니다. SimpleRNN은 각 타임스텝에서 10차원의 입력을 처리하고, 이러한 두 타임스텝에 대한 출력을 생성합니다.

 - 따라서 timestep과 input_dim은 SimpleRNN 모델을 구성하는 데 필수적인 매개변수로, 
 - 모델의 복잡성 및 입력 데이터의 형태를 결정
 - 이를 올바르게 설정하는 것은 모델의 학습 및 예측 능력에 중요한 영향을 미칩니다.

In [1]:
from keras.models import Sequential 
from keras.layers import SimpleRNN 

model = Sequential() 
model.add(SimpleRNN(3, input_shape=(2,10))) #2:timestep, 10:input_dim
# model.add(SimpleRNN(3, input_length=2, input_dim=10))와  동일함. 
model.summary()

C:\Users\isfs0\anaconda3\lib\site-packages\numpy\.libs\libopenblas.EL2C6PLE4ZYW3ECEVIV3OXXGRN2NRFM2.gfortran-win_amd64.dll
C:\Users\isfs0\anaconda3\lib\site-packages\numpy\.libs\libopenblas64__v0.3.21-gcc_10_3_0.dll


Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn (SimpleRNN)      (None, 3)                 42        
                                                                 
Total params: 42 (168.00 Byte)
Trainable params: 42 (168.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [54]:
# model.add(SimpleRNN(3, input_shape=(2,10))) #2:timestep, 10:input_dim 의 구조도

#  Input (2, 10)
#    |
#  SimpleRNN (3)
#    |
#  Output (2, 3)

In [2]:
#  return_sequences=False 인  경우 

from keras.models import Sequential 
from keras.layers import SimpleRNN 
model = Sequential() 
model.add(SimpleRNN(3, batch_input_shape=(8, 2,10))) 
model.summary()

# model.add(SimpleRNN(3, batch_input_shape=(8, 2,10)))의 해석
# 1. SimpleRNN을 사용하여 3차원의 데이터를 처리
# 2. input_shape에서 한번의 8개의 시퀀스 데이터를 처리할 수 있음
# 3. (8, 2,10) - 2개의 timestep 과 입력차원은 10차원
#  

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_1 (SimpleRNN)    (8, 3)                    42        
                                                                 
Total params: 42 (168.00 Byte)
Trainable params: 42 (168.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [3]:
from keras.models import Sequential 
from keras.layers import SimpleRNN 
model = Sequential() 
model.add(SimpleRNN(3, batch_input_shape=(8, 2,10), return_sequences=True)) #  return_sequences=False 인  경우 
model.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
simple_rnn_2 (SimpleRNN)     (8, 2, 3)                 42        
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


### RNN을  이용하여  텍스트  생성하기

### 1. 데이터에  대한  이해와  전처리

In [47]:
from tensorflow.keras.preprocessing.text import Tokenizer 
from tensorflow.keras.preprocessing.sequence import pad_sequences 
import numpy as np 
from tensorflow.keras.utils import to_categorical 

In [48]:
text="""경마장에  있는  말이  뛰고  있다\n 그의  말이  법이다\n 가는  말이  고와야  오는  말이  곱다\n"""     

In [49]:
t = Tokenizer() 

t.fit_on_texts([text]) # Mapping 진행 
vocab_size = len(t.word_index) + 1 
print('단어 집합의  크기  : %d' % vocab_size)

단어 집합의  크기  : 12


In [50]:
t

<keras.src.preprocessing.text.Tokenizer at 0x20e95430700>

In [51]:
print(t.word_index) # 각  단어와  단어에  부여된  정수  인덱스  출력- 빈도수 순으로 출력
# index를 사용하지만 0은 사용하지 않음 따라서 1~11 로 출력

{'말이': 1, '경마장에': 2, '있는': 3, '뛰고': 4, '있다': 5, '그의': 6, '법이다': 7, '가는': 8, '고와야': 9, '오는': 10, '곱다': 11}


In [9]:
sequences = list()

for line in text.split('\n'): # Wn을 기준으로 문장 토큰화
    print(t.texts_to_sequences([line]))
    encoded = t.texts_to_sequences([line])[0]  # texts_to_sequences 의 0번째 위치에 문장의 순서가 들어있음
    for i in range(1, len(encoded)):
        sequence = encoded[:i+1]
        sequences.append(sequence)
print('학습에  사용한  샘플의  개수: %d' % len(sequences))

[[2, 3, 1, 4, 5]]
[[6, 1, 7]]
[[8, 1, 9, 10, 1, 11]]
[[]]
학습에  사용한  샘플의  개수: 11


In [10]:
print(sequences) # 전체  샘플을  출력

[[2, 3], [2, 3, 1], [2, 3, 1, 4], [2, 3, 1, 4, 5], [6, 1], [6, 1, 7], [8, 1], [8, 1, 9], [8, 1, 9, 10], [8, 1, 9, 10, 1], [8, 1, 9, 10, 1, 11]]


In [11]:
max_len=max(len(l) for l in sequences) # 모든  샘플에서  길이가  가장  긴  샘플의  길이  출력 
print('샘플의  최대  길이  : {}'.format(max_len))

샘플의  최대  길이  : 6


### pad_sequences
`pad_sequences(sequences, maxlen=None, dtype='int32', padding='pre', truncating='pre', value=0.0) `   
문장의 길이를 maxlen 인자로 맞추어 준다. 120으로 지정했다면 120보다 짧은 문장은 0으로 채워서 120단어로 맞춰주고 120보다 긴 문장은 120단어까지만 잘라낸다.    
    
- (num_samples, num_timesteps)으로 2차원의 numpy 배열로 만들어준다. maxlen을 120으로 지정하였다면, num_timesteps도 120이 된다.  
- 인수
    - padding : 'pre' or 'post'
    - truncating : 'pre' or 'post'
    - value : 채워질 값. default는 0


# pre가 쓰이는 경우 vs post가 쓰이는 경우

pad_sequences 함수에서 'pre'와 'post'를 사용하는 선택은 데이터 및 작업의 특성에 따라 다를 수 있습니다. 각각의 사용 사례에 대한 고려 사항은 다음과 같습니다:

1. 'pre' 패딩:

(1) 언어 모델링: 
 - 일반적으로 자연어 처리 작업에서 'pre' 패딩이 사용됩니다. 
 - 문장의 시작 부분에 패딩을 추가하면 모델이 문장의 시작을 명확하게 구분할 수 있습니다.
(2)시계열 데이터: 
 - 시계열 데이터의 경우, 미래 값을 예측하는 모델을 만들 때 'pre' 패딩이 유용할 수 있습니다. 
 - 모델은 미래 값을 예측하는 데 필요한 과거 데이터에 쉽게 접근할 수 있습니다.

2. 'post' 패딩:

(1) 텍스트 분류: 
 - 텍스트 분류와 같은 작업에서는 'post' 패딩이 자주 사용됩니다. 
 - 모든 문장이 동일한 길이로 맞춰지면 모델을 훈련하기가 더 쉽습니다.
 (2) 컨볼루션 신경망(CNN): 
 - 'post' 패딩이 이미지 데이터를 다룰 때 일반적으로 사용됩니다. 
 - 이미지 데이터의 크기를 일정하게 맞추기 위해 'post' 패딩을 사용합니다.

3. 실생활 예시

- (1) 텍스트 분류: 
 - 영화 리뷰를 긍정 또는 부정으로 분류하는 작업에서 각 리뷰 문장의 길이를 동일하게 만들기 위해 'post' 패딩을 사용할 수 있습니다.
- (2) 언어 모델링: 
 - 문장 생성 모델에서 'pre' 패딩을 사용하여 시작 토큰(예: <start>)을 추가하여 문장의 시작을 나타냅니다.

In [12]:
# 전체체  샘플의  길이를  6으로  패딩 
sequences = pad_sequences(sequences, maxlen=max_len, padding='pre') 
print(sequences)

[[ 0  0  0  0  2  3]
 [ 0  0  0  2  3  1]
 [ 0  0  2  3  1  4]
 [ 0  2  3  1  4  5]
 [ 0  0  0  0  6  1]
 [ 0  0  0  6  1  7]
 [ 0  0  0  0  8  1]
 [ 0  0  0  8  1  9]
 [ 0  0  8  1  9 10]
 [ 0  8  1  9 10  1]
 [ 8  1  9 10  1 11]]


In [14]:
sequences = np.array(sequences) 

X = sequences[:,:-1] # 학습  데이터 
y = sequences[:,-1]  # 정답(Label) 데이터 print(X) 

print(y)

[ 3  1  4  5  1  7  1  9 10  1 11]


In [15]:
y = to_categorical(y, num_classes=vocab_size) # 원-핫  인코딩  수행 
print(y)

[[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


### 2. 모델  설계하기

In [16]:
from tensorflow.keras.models import Sequential 
from tensorflow.keras.layers import Embedding, Dense, SimpleRNN

#### Embedding
`tf.keras.layers.Embedding( input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None, **kwargs)`

- 인수
    - input_dim : 입력 크기
    - output_dim : 출력 크기
    - input_length : 입력 데이터의 길이

단어를 밀집벡터로 만드는 일을 수행한다. 정수 인코딩이 된 단어들을 입력으로 받아 수행한다.


In [17]:
model = Sequential() 
model.add(Embedding(vocab_size, 6, input_length=max_len-1)) 
model.add(SimpleRNN(32))  # SimpleRNN 오류발생하면 numpy 버전을 낮춤( pip install -U numpy==1.19.5) 
model.add(Dense(vocab_size, activation='softmax')) 
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 5, 6)              72        
                                                                 
 simple_rnn_2 (SimpleRNN)    (None, 32)                1248      
                                                                 
 dense (Dense)               (None, 12)                396       
                                                                 
Total params: 1716 (6.70 KB)
Trainable params: 1716 (6.70 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [18]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) 
model.fit(X, y, epochs=200, verbose=2)

Epoch 1/200
1/1 - 1s - loss: 2.4900 - accuracy: 0.0000e+00 - 1s/epoch - 1s/step
Epoch 2/200
1/1 - 0s - loss: 2.4812 - accuracy: 0.0000e+00 - 0s/epoch - 0s/step
Epoch 3/200
1/1 - 0s - loss: 2.4725 - accuracy: 0.0000e+00 - 17ms/epoch - 17ms/step
Epoch 4/200
1/1 - 0s - loss: 2.4637 - accuracy: 0.0909 - 5ms/epoch - 5ms/step
Epoch 5/200
1/1 - 0s - loss: 2.4549 - accuracy: 0.1818 - 0s/epoch - 0s/step
Epoch 6/200
1/1 - 0s - loss: 2.4458 - accuracy: 0.2727 - 4ms/epoch - 4ms/step
Epoch 7/200
1/1 - 0s - loss: 2.4364 - accuracy: 0.4545 - 0s/epoch - 0s/step
Epoch 8/200
1/1 - 0s - loss: 2.4266 - accuracy: 0.4545 - 5ms/epoch - 5ms/step
Epoch 9/200
1/1 - 0s - loss: 2.4165 - accuracy: 0.4545 - 0s/epoch - 0s/step
Epoch 10/200
1/1 - 0s - loss: 2.4058 - accuracy: 0.4545 - 17ms/epoch - 17ms/step
Epoch 11/200
1/1 - 0s - loss: 2.3946 - accuracy: 0.4545 - 10ms/epoch - 10ms/step
Epoch 12/200
1/1 - 0s - loss: 2.3829 - accuracy: 0.4545 - 2ms/epoch - 2ms/step
Epoch 13/200
1/1 - 0s - loss: 2.3705 - accuracy: 0.45

Epoch 103/200
1/1 - 0s - loss: 0.7508 - accuracy: 0.7273 - 14ms/epoch - 14ms/step
Epoch 104/200
1/1 - 0s - loss: 0.7393 - accuracy: 0.7273 - 20ms/epoch - 20ms/step
Epoch 105/200
1/1 - 0s - loss: 0.7280 - accuracy: 0.7273 - 14ms/epoch - 14ms/step
Epoch 106/200
1/1 - 0s - loss: 0.7169 - accuracy: 0.8182 - 4ms/epoch - 4ms/step
Epoch 107/200
1/1 - 0s - loss: 0.7060 - accuracy: 0.8182 - 14ms/epoch - 14ms/step
Epoch 108/200
1/1 - 0s - loss: 0.6953 - accuracy: 0.8182 - 15ms/epoch - 15ms/step
Epoch 109/200
1/1 - 0s - loss: 0.6847 - accuracy: 0.8182 - 16ms/epoch - 16ms/step
Epoch 110/200
1/1 - 0s - loss: 0.6744 - accuracy: 0.8182 - 18ms/epoch - 18ms/step
Epoch 111/200
1/1 - 0s - loss: 0.6641 - accuracy: 0.8182 - 16ms/epoch - 16ms/step
Epoch 112/200
1/1 - 0s - loss: 0.6541 - accuracy: 0.8182 - 15ms/epoch - 15ms/step
Epoch 113/200
1/1 - 0s - loss: 0.6441 - accuracy: 0.8182 - 14ms/epoch - 14ms/step
Epoch 114/200
1/1 - 0s - loss: 0.6344 - accuracy: 0.8182 - 16ms/epoch - 16ms/step
Epoch 115/200
1/1 

<keras.src.callbacks.History at 0x20e9303b0d0>

In [20]:
# 옛날 버전
def sentence_generation(model, t, current_word, n): # 모델, 토크나이저, 현재  단어, 반복한  횟수 
    init_word = current_word # 처음  들어온  단어도  마지막에  같이  출력하기위해  저장 
    sentence = '' 
    
    for _ in range(n): # n번  반복 
        encoded = t.texts_to_sequences([current_word])[0] # 현재  단어에  대핚  정수  인코딩 
        print("encoded => ",encoded)
        encoded = pad_sequences([encoded], maxlen=5, padding='pre') # 데이터에  대핚  패딩 
        result = model.predict_classes(encoded, verbose=0) 
        print("result => ", result)
        
        # 입력한  X(현재  단어)에  대해서  Y를  예측하고  Y(예측한  단어)를  result에  저장. 
        for word, index in t.word_index.items(): 
            if index == result: # 맊약  예측핚  단어와  인덱스와  동일핚  단어가  있다면 
                break # 해당  단어가  예측  단어이므로  break 
        current_word = current_word + ' '  + word   # 현재  단어  + ' ' + 예측  단어를  현재  단어로  변경 
        sentence = sentence + ' ' + word          # 예측  단어를  문장에  저장 

    # for문이므로  이  행동을  다시  반복 
    sentence = init_word + sentence 
    return sentence

In [25]:
import numpy as np

def sentence_generation(model, t, current_word, n): # 모델, 토크나이저, 현재 단어, 반복할 횟수
    init_word = current_word # 처음 들어온 단어도 마지막에 같이 출력하기 위해 저장
    sentence = ''
    
    for _ in range(n): # n번 반복
        encoded = t.texts_to_sequences([current_word])[0] # 현재 단어에 대한 정수 인코딩
        print("encoded => ", encoded)
        encoded = pad_sequences([encoded], maxlen=5, padding='pre') # 데이터에 대한 패딩
        result = model.predict(encoded, verbose=0) 
        result = np.argmax(result, axis=-1)
        print("result => ", result)
        
        for word, index in t.word_index.items(): 
            if index == result: # 만약 예측한 단어의 인덱스와 동일한 단어가 있다면
                break # 해당 단어가 예측 단어이므로 break
        current_word = current_word + ' '  + word # 현재 단어 + ' ' + 예측 단어를 현재 단어로 변경
        sentence = sentence + ' ' + word # 예측 단어를 문장에 저장
    
    sentence = init_word + sentence
    return sentence

print(sentence_generation(model, t, '경마장에', 4))


encoded =>  [2]
result =>  [3]
encoded =>  [2, 3]
result =>  [1]
encoded =>  [2, 3, 1]
result =>  [4]
encoded =>  [2, 3, 1, 4]
result =>  [5]
경마장에 있는 말이 뛰고 있다


In [26]:
print(sentence_generation(model, t, '경마장에', 4))  # 경마장에 다음에 나올 단어를 4개

encoded =>  [2]
result =>  [3]
encoded =>  [2, 3]
result =>  [1]
encoded =>  [2, 3, 1]
result =>  [4]
encoded =>  [2, 3, 1, 4]
result =>  [5]
경마장에 있는 말이 뛰고 있다


In [27]:
print(sentence_generation(model, t, '그의', 2)) # 2번 예측 
print(sentence_generation(model, t, '가는', 5)) # 5번 예측

encoded =>  [6]
result =>  [1]
encoded =>  [6, 1]
result =>  [7]
그의 말이 법이다
encoded =>  [8]
result =>  [1]
encoded =>  [8, 1]
result =>  [9]
encoded =>  [8, 1, 9]
result =>  [10]
encoded =>  [8, 1, 9, 10]
result =>  [1]
encoded =>  [8, 1, 9, 10, 1]
result =>  [11]
가는 말이 고와야 오는 말이 곱다


### LSTM을  이용하여  텍스트  생성하기

### 1. 데이터에  대한  이해와  전처리
•    파일  다운로드  링크  : https://www.kaggle.com/aashita/nyt-comments •    


In [28]:
import pandas as pd 
from string import punctuation 
from tensorflow.keras.preprocessing.text import Tokenizer 
from tensorflow.keras.preprocessing.sequence import pad_sequences 
import numpy as np 
from tensorflow.keras.utils import to_categorical 

In [29]:
df=pd.read_csv('ArticlesApril2018.csv') # 데이터  로드 
df.head() 

Unnamed: 0,articleID,articleWordCount,byline,documentType,headline,keywords,multimedia,newDesk,printPage,pubDate,sectionName,snippet,source,typeOfMaterial,webURL
0,5adf6684068401528a2aa69b,781,By JOHN BRANCH,article,Former N.F.L. Cheerleaders’ Settlement Offer: ...,"['Workplace Hazards and Violations', 'Football...",68,Sports,0,2018-04-24 17:16:49,Pro Football,"“I understand that they could meet with us, pa...",The New York Times,News,https://www.nytimes.com/2018/04/24/sports/foot...
1,5adf653f068401528a2aa697,656,By LISA FRIEDMAN,article,E.P.A. to Unveil a New Rule. Its Effect: Less ...,"['Environmental Protection Agency', 'Pruitt, S...",68,Climate,0,2018-04-24 17:11:21,Unknown,The agency plans to publish a new regulation T...,The New York Times,News,https://www.nytimes.com/2018/04/24/climate/epa...
2,5adf4626068401528a2aa628,2427,By PETE WELLS,article,"The New Noma, Explained","['Restaurants', 'Noma (Copenhagen, Restaurant)...",66,Dining,0,2018-04-24 14:58:44,Unknown,What’s it like to eat at the second incarnatio...,The New York Times,News,https://www.nytimes.com/2018/04/24/dining/noma...
3,5adf40d2068401528a2aa619,626,By JULIE HIRSCHFELD DAVIS and PETER BAKER,article,Unknown,"['Macron, Emmanuel (1977- )', 'Trump, Donald J...",68,Washington,0,2018-04-24 14:35:57,Europe,President Trump welcomed President Emmanuel Ma...,The New York Times,News,https://www.nytimes.com/2018/04/24/world/europ...
4,5adf3d64068401528a2aa60f,815,By IAN AUSTEN and DAN BILEFSKY,article,Unknown,"['Toronto, Ontario, Attack (April, 2018)', 'Mu...",68,Foreign,0,2018-04-24 14:21:21,Canada,"Alek Minassian, 25, a resident of Toronto’s Ri...",The New York Times,News,https://www.nytimes.com/2018/04/24/world/canad...


In [30]:
print('열의  개수: ',len(df.columns)) 
print(df.columns)

열의  개수:  15
Index(['articleID', 'articleWordCount', 'byline', 'documentType', 'headline',
       'keywords', 'multimedia', 'newDesk', 'printPage', 'pubDate',
       'sectionName', 'snippet', 'source', 'typeOfMaterial', 'webURL'],
      dtype='object')


In [31]:
df['headline'].isnull().values.any() #null이 하나도 없으면 false

False

In [32]:
headline = [] # 리스트  선언
headline.extend(list(df.headline.values)) # 헤드라인의  값들을  리스트로  저장 
headline[:5] # 상위  5개만  출력

['Former N.F.L. Cheerleaders’ Settlement Offer: $1 and a Meeting With Goodell',
 'E.P.A. to Unveil a New Rule. Its Effect: Less Science in Policymaking.',
 'The New Noma, Explained',
 'Unknown',
 'Unknown']

In [33]:
print('총  샘플의  개수  : {}'.format(len(headline))) # 현재  샘플의  개수

# {}는 왜 썼을까?
# .format의 의미는 무엇일까?

총  샘플의  개수  : 1324


In [34]:
headline = [n for n in headline if n != "Unknown"] # Unknown(잡음) 값을  가진  샘플  제거 
print('노이즈값  제거  후  샘플의  개수  : {}'.format(len(headline))) # 제거  후  샘플의  개수

노이즈값  제거  후  샘플의  개수  : 1214


In [35]:
headline[:5] # 5개의  샘플  출력  확인

['Former N.F.L. Cheerleaders’ Settlement Offer: $1 and a Meeting With Goodell',
 'E.P.A. to Unveil a New Rule. Its Effect: Less Science in Policymaking.',
 'The New Noma, Explained',
 'How a Bag of Texas Dirt  Became a Times Tradition',
 'Is School a Place for Self-Expression?']

In [36]:
def repreprocessing(s): 
    s=s.encode("utf8").decode("ascii",'ignore')  # from string import punctuation 사용
    return ''.join(c for c in s if c not in punctuation).lower() # 구두점  제거와  동시에  소문자화 

text = [repreprocessing(x) for x in headline] 
text[:5]

['former nfl cheerleaders settlement offer 1 and a meeting with goodell',
 'epa to unveil a new rule its effect less science in policymaking',
 'the new noma explained',
 'how a bag of texas dirt  became a times tradition',
 'is school a place for selfexpression']

In [37]:
t = Tokenizer() 
t.fit_on_texts(text) 
vocab_size = len(t.word_index) + 1 
print('단어  집합의  크기  : %d' % vocab_size)

단어  집합의  크기  : 3494


In [38]:
# 학습할 데이터 생성
sequences = list() 

for line in text: 
    encoded = t.texts_to_sequences([line])[0] # 각  샘플에  대한  정수  인코딩 
    for i in range(1, len(encoded)): 
        sequence = encoded[:i+1] 
        sequences.append(sequence) 

sequences[:11] # 11개의  샘플  출력

[[99, 269],
 [99, 269, 371],
 [99, 269, 371, 1115],
 [99, 269, 371, 1115, 582],
 [99, 269, 371, 1115, 582, 52],
 [99, 269, 371, 1115, 582, 52, 7],
 [99, 269, 371, 1115, 582, 52, 7, 2],
 [99, 269, 371, 1115, 582, 52, 7, 2, 372],
 [99, 269, 371, 1115, 582, 52, 7, 2, 372, 10],
 [99, 269, 371, 1115, 582, 52, 7, 2, 372, 10, 1116],
 [100, 3]]

In [39]:
len(sequences)

7803

In [40]:
index_to_word={} 
for key, value in t.word_index.items(): # 인덱스를  단어로  바꾸기  위해  index_to_word를  생성 
    index_to_word[value] = key  

print('빈도수  상위  582번  단어  : {}'.format(index_to_word[582]))

빈도수  상위  582번  단어  : offer


In [41]:
max_len=max(len(l) for l in sequences) # 가장  긴  샘플의  길이  확인 
print('샘플의  최대  길이  : {}'.format(max_len))

샘플의  최대  길이  : 24


In [42]:
# 가장  긴  샘플의  길이인  24로  모든  샘플의  길이를  패딩 
sequences = pad_sequences(sequences, maxlen=max_len, padding='pre') 
print(sequences[:3])

[[   0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0   99  269]
 [   0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0   99  269  371]
 [   0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0   99  269  371 1115]]


In [50]:
sequences = np.array(sequences) 
X = sequences[:,:-1] # 학습 데이터 
y = sequences[:,-1]  # 정답 데이터 
print(X[:3])

[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0  99]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0  99 269]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0  99 269 371]]


In [43]:
print(y[:3]) # 레이블  3개  출력

[[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]]


In [44]:
y = to_categorical(y, num_classes=vocab_size) # 레이블  데이터  y에  대해서  원-핪  인코딩  수행 
y

array([[[1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        ...,
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.]],

       [[1., 0., 0., ..., 0., 0., 0.],
        [0., 1., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        ...,
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.]],

       [[1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        ...,
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.]],

       ...,

       [[1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0., 0.],
        ...,
        [1., 0., 0., ..., 0., 0., 0.],
        [0., 1., 0., ..., 0., 0., 0.],
        [1., 0., 0., ..., 0., 0.

### 2. 모델  설계하기

In [52]:
from tensorflow.keras.models import Sequential 
from tensorflow.keras.layers import Embedding, Dense, LSTM 

In [53]:
model = Sequential() 
# y데이터를  분리하였으므로  이제  X데이터의  길이는  기존  데이터의  길이  - 1 
model.add(Embedding(vocab_size, 10, input_length=max_len-1)) # 10: 계산된 결과를 몇개까지 만들것인다
model.add(LSTM(128)) 
model.add(Dense(vocab_size, activation='softmax')) 
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) 
model.fit(X, y, epochs=100, verbose=2)

Epoch 1/100


ValueError: in user code:

    File "C:\Users\isfs0\anaconda3\lib\site-packages\keras\src\engine\training.py", line 1338, in train_function  *
        return step_function(self, iterator)
    File "C:\Users\isfs0\anaconda3\lib\site-packages\keras\src\engine\training.py", line 1322, in step_function  **
        outputs = model.distribute_strategy.run(run_step, args=(data,))
    File "C:\Users\isfs0\anaconda3\lib\site-packages\keras\src\engine\training.py", line 1303, in run_step  **
        outputs = model.train_step(data)
    File "C:\Users\isfs0\anaconda3\lib\site-packages\keras\src\engine\training.py", line 1080, in train_step
        y_pred = self(x, training=True)
    File "C:\Users\isfs0\anaconda3\lib\site-packages\keras\src\utils\traceback_utils.py", line 70, in error_handler
        raise e.with_traceback(filtered_tb) from None
    File "C:\Users\isfs0\anaconda3\lib\site-packages\keras\src\engine\input_spec.py", line 298, in assert_input_compatibility
        raise ValueError(

    ValueError: Input 0 of layer "sequential_4" is incompatible with the layer: expected shape=(None, 23), found shape=(None, 5)


In [56]:
def sentence_generation(model, t, current_word, n): # 모델, 토크나이저, 현재  단어, 반복핛  횟수 
    init_word = current_word # 처음  들어온  단어도  마지막에  같이  출력하기위해  저장 
    sentence = '' 
    for _ in range(n): # n번  반복 
        encoded = t.texts_to_sequences([current_word])[0] # 현재  단어에  대핚  정수  인코딩 
        encoded = pad_sequences([encoded], maxlen=23, padding='pre') # 데이터에  대한  패딩 
        result = model.predict_classes(encoded, verbose=0) 
        for word, index in t.word_index.items(): 
            if index == result: # 맊약  예측핚  단어와  인덱스와  동일한  단어가  있다면 
                break # 해당  단어가  예측  단어이므로  break 
        current_word = current_word + ' '  + word # 현재  단어  + ' ' + 예측  단어를  현재  단어로  변경 
        sentence = sentence + ' ' + word # 예측  단어를  문장에  저장 
        
    sentence = init_word + sentence 
    return sentence

In [58]:
# 임의의  단어  'i'에  대해서  10개의  단어를  추가  생성 
print(sentence_generation(model, t, 'i', 10))

i cant jump ship from facebook yet sex and be near


In [59]:
# 임의의  단어  'how'에  대해서  10개의  단어를  추가  생성 
print(sentence_generation(model, t, 'how', 10))

how to make an edge china sets a hard line on
