# 자연어 처리

- 단어 표현
  - 형태소 분석: 토큰화 + 품사부착 (태깅)
  - One Hot
  - CBOW
  - TF - IDF
  - Skip Gram

- 문장 표현

  - Text to Sequence
  - Padding
- 텍스트 마이닝

  - 기계 학습
  - 신경망 알고리즘 활용 기법
    - RNN, LSTM, GRU, ...
   
- 자연어 이해

# 자연어 생성

## Sequence to Sequence (Seq2Sqe)

- 자연어 처리에서 기존의 일반적인 판별모델(NLU, RNN, LSTM)은 문장 내 단어들을 각 Node들이 처리하여 하느이 결과 계산
- 입력된 Sequence를 이용해, 하나의 나열된 Sequence를 출력하는 구조를 만들어 학습을 수행
- 기계 번역, 챗봇, 문장요약, STT

![image.png](attachment:5c5dcacb-a74b-405f-b261-ac7fb011e054.png)

- Seq2Seq는 크게 3가지 파트로 구성(두개의 RNN구조)
  - Encoder
    - Input Sequence를 (입력문장) 받아 문장을 특정 Vector로 변환하는 구조
    - 입력 값의 정보를 각 Node가 가지고 처리
    - Encoder에서 처리된 정보는 Context Vector로 전달
  - Decoder
    - Output Sequence 를 학습하여, Input Sequence에 해당하는 적절한 OutPut출력
  - Context Vector
    - Encoder에 의해 하나의 문장정보가 처리된 Matrix
    - Decoder가 Context Vector에 날아온 정보와 답변을 학습하여, 새로운 Input Seqence가 들어올 때, Decoder는 그에 맞는 문장을 출력
- 작동 순서
  1. 입력 문장(Input Sequence)를 단어 토큰화를 통해, 단어 단위로 쪼갬
  2. 각 토큰을 문장 순서대로 RNN Model에 입력(Encoder)
  3. Encoder에서 마지막 Node에 계산된 값을 Context Vector로 변환한 뒤, Decoder로 전달
  4. Decoder는 앞서 받은 Context Vector를 첫번째 Node에 넣어 처리
  5. Decoder는 초기 입력문장의 시작을 의미하는 심볼인 SOS(Start of Sequence)값을 넣어 순차적으로 처리
  6. 이후 Decoder는 문장을 이어받으며, 다음에 등장할 확률이 높은 단어를 예측
  7. EOS(End of Sequence)토큰이 등장하거나, 문장이 최대 길이까지 위의 과정을 반복하여 단어를 학습, 예측
  8. 학습은 SOS에서 시작해 EOS가 나올 때 까지 학습이 수행, 예측된 값은 Output Sequence출력

In [6]:
# 텍스트 파일 호출
with open('kor.txt', encoding = 'UTF-8') as file:
    text1 = file.read().split('\n')

In [7]:
text1[-10:]

['She asked him to help her father clean the garage, but he said that he was too busy to help.\t그녀는 그녀의 아버지가 차고 청소 하는 것을 도와 주라고 그에게 얘기 했지만 그는 너무 바빠서 못 도와 준대.\tCC-BY 2.0 (France) Attribution: tatoeba.org #886975 (CK) & #3675039 (JangSungHyuk)',
 'If your father asks your mother a question in French, does she answer in French or in English?\t너의 아버지가 어머니에게 만약 프랑스어로 질문을 하면 그녀는 프랑스어로 대답하니 아니면 영어로 대답하니?\tCC-BY 2.0 (France) Attribution: tatoeba.org #4806956 (CK) & #9689557 (ST_Young)',
 'Tom always cried when his sister took away his toys, and for that very reason she loved to do so.\t톰은 누나가 자기 장난감을 빼앗아 갔을 때마다 울음을 터뜨렸고, 누나는 바로 그런 이유로 그런 짓을 곧잘 해댔다.\tCC-BY 2.0 (France) Attribution: tatoeba.org #8403991 (CK) & #8404074 (Eunhee)',
 'Science fiction has undoubtedly been the inspiration for many of the technologies that exist today.\t공상 과학은 의심의 여지 없이 오늘날 존재하는 많은 기술에 영감을 주었어.\tCC-BY 2.0 (France) Attribution: tatoeba.org #6067784 (mailohilohi) & #8363688 (Eunhee)',
 "I started a new blog. I'll do my 

In [8]:
# 입력 받을 영어 데이터와 학습시킬 한국어 데이터를 처리할 리스트를 선언
input_text = [] #영어 문장 리스트
target_text = [] # 한국어 문장 리스트

# 영어, 한국어 단어가 숫자로 변환된 정보를 처리하는 Set 구조를 선언
# Text가 Sequence로 표현되기 위해(단어 -> 숫자) 각 단어나 문자의 고유값을 중복 없이 자료구조로 정리
input_char_list = set()
target_char_list = set()

for line in text1:
    # Decoder에서 처리될 한국어 문장의 경우
    # <SOS>와 <EOS>를 부착하여 자료구조에 추가
    # 처리 단계에서 오류 방지를 위한 예외 처리
    try:
        # unpacking: 특정 tuple에 있는 값을 데이터 개수에 맞춰 선언하면 각 변수에 자료가 선언
        eng, kor, ect = line.split('\t')
        # 한국어 문장의 경우 SOS와 EOS 태그를 부착
        kor = '\t' + kor + '\n'
        input_text.append(eng)
        target_text.append(kor)
    except Exception as e:
        print(e)
        continue
    # 분할된 모든 문장에 대해 각 고유 단어를 자료구조에 선언
    for x in eng:
        input_char_list.add(x)
    for x2 in kor:
        target_char_list.add(x2)

not enough values to unpack (expected 3, got 1)


In [9]:
input_characters = sorted(input_char_list)
target_characters = sorted(target_char_list)

In [10]:
# 각 철자에 숫자를 부여 (Corpus)
input_token_index = {x: idx for idx, x in enumerate(input_characters)}
target_token_index = {x: idx for idx, x in enumerate(target_characters)}

In [11]:
# padding을 수행함과 동시에 text -> matrix로 변환
# 전체 문장 중, 가장 길이가 긴 문장의 단어 수를 먼저 확인
max_encoder_seq_length = max([len(x) for x in input_text])
max_decoder_seq_length = max([len(x) for x in target_text])

In [12]:
print(max_decoder_seq_length, max_encoder_seq_length)

298 537


In [13]:
import numpy as np

# matrix 구성
encoder_input_data = np.zeros(
    (len(input_text), max_encoder_seq_length, len(input_characters)), dtype='float32'
)
decoder_input_data = np.zeros(
    (len(input_text), max_decoder_seq_length, len(target_characters)), dtype='float32'
)

# 출력 한국어 문장이 담길 Matrix를 구성(Decoder 출력)
decoder_target_data = np.zeros(
    (len(input_text), max_decoder_seq_length, len(target_characters)), dtype='float32'
)

In [14]:
encoder_input_data.shape

(5890, 537, 74)

In [15]:
# 구성된 matrix에 각 단어에 매칭되는 숫자를 입력
# 영어 문장과 한국어 문장을 각각 가져와 동시에 숫자 matrix를 구성
for idx, (eng, kor) in enumerate(zip(input_text, target_text)):
    # 영어 문장에 대해 해당 단어를 숫자 형태로 변환
    for k, char in enumerate(eng):
        encoder_input_data[idx, k, input_token_index[char]] = 1 # idx: 문장 줄, k: 문장 내 글자 위치, char: 해당 글자
    # 한국어 문장에 대해 해당 단어를 숫자 형태로 변환
    for j, char in enumerate(kor):
        decoder_input_data[idx, j, target_token_index[char]] = 1
        # SOS 데이터에 대해 처리
        if j > 0:
            decoder_input_data[idx, j - 1, target_token_index[char]] = 1

In [16]:
encoder_input_data.sum()

161229.0

In [17]:
# encoder와 decoder구조를 구성
batch_size = 32 # 128이상 사용하면 좋음
epochs = 20 # 신경망 내 weight를 업데이터 하기 위해 반복 횟수(500회 이상 권장)
node_num = 64 # 각 layer 내 node의 수로 1024이상 권장

In [19]:
from keras.models import Model
from keras.layers import Input, LSTM, Dense

# encoder 구성
# 영어 문장이 들어가 lstm모델에 의해 학습이 수행 되도록 구성
encoder_input = Input(shape=(None, len(input_characters))) # 영어 문장이 들어오는 layer
encoder = LSTM(node_num, return_state = True)

# encoder lstm모델에 input data를 입력하여 출력 계산 -> context vector
# encoder_output: lstm모델에 의해 최종적으로 계산된 값
# state_h: 마지막 layer에서 출력된 node의 정보
# state_c: 마지막 layer에서 출력된 Cell state(RNN 모혀을 보완하기 위해 seq의 장기 정보를 저장하는 Cell)의 정보
encoder_output, state_h, state_c = encoder(encoder_input)
# 인코더가 입력 seq를 처리한 후 얻은 정보(node 정보, cell state정보)를 decoder 전달
# context vector
encoder_state = [state_h, state_c]

In [20]:
# Decoder 구성
# 앞서 encoder에서 처리된 정보를 받아, 한국어 문장이 들어가 LSTM모델에 의해 학습이 수행되도록 구성
decoder_input = Input(shape = (None, len(target_characters)))
decoder = LSTM(node_num, return_sequences=True, return_state=True)
# return_sequences = True

# 앞서 처리된 encoder state정보를 바탕으로 decoder의 초기 상태를 설정
decoder_output, deco_h, deco_c = decoder(decoder_input, initial_state = encoder_state)

# soft max 함수에 의해 출력값을 계산
decoder_dense = Dense(len(target_characters), activation='softmax')
decoder_output = decoder_dense(decoder_output)